This is default featured slide 1 title

Go to Blogger edit html and find these sentences.Now replace these sentences with your own descriptions.

This is default featured slide 2 title

Mengenmbangkan pendidikan melalui pengembangan pendidik

This is default featured slide 3 title

Go to Blogger edit html and find these sentences.Now replace these sentences with your own descriptions.

This is default featured slide 4 title

Go to Blogger edit html and find these sentences.Now replace these sentences with your own descriptions.

This is default featured slide 5 title

Go to Blogger edit html and find these sentences.Now replace these sentences with your own descriptions.

Penyusunan Instrumen

Dosen pengampuh:
1.       Prof. Dr. Badrun Kartowagiran
2.       Dr. Suranto
EVALUASI PROGRAM PENDIDIKAN


PENYUSUNAN INSTRUMEN

JANU ARLINWIBOWO
HENDRA B.




PROGRAM PASCASARJANA
PENELITIAN EVALUASI PENDIDIKAN
UNIVERSITAS NEGERI YOGYAKARTA
2018






Penyusunan Instrumen Evaluasi
A.    Definisi Istrumen
Instrumen bukanlah asing lagi bagi seorang mahasiswa tingkat akhir, peneliti dan evaluator. Instrument merupakan salah satu fkator utama dalam melakukan penelitian, baik penelitian kualitatif maupun kuantatif, begitupula dengan dosen dan guru harus ada instrument yang digunakan untuk mengukur dan menilai peserta didiknya.
Instrument dapat kita artikan bahwa alat yang digunakan untuk mengumpulan suatu informasi atau data sesuai dengan fokus penelitian kita. Seperti yang diungkapkan oleh suharsimi mendefinisikan yakni, Instrumen atau alat ukur adalah sesuatu yang dapat digunakan untuk memeprmudah seseorang dalam melaksanakan tugas atau mencapai tujuan secara lebih efektif dan efesien (Suharsimi 2016). Terdapat dua jenis Teknik yang digunakan evaluator dalam menggunakan instrument yakni teknik nontes dan teknik tes.
B.     Teknik Pengumpulan Data dan Instrumennya
1.      Teknik Nontes
a.       Skala Bertingkat
Rating scale is a generic term describing instruments that are evaluative and that make use of an item format where response choices are ordered on a continuum. Skala penilaian adalah istilah umum yang menjelaskan isntrumen yang evaluatif dan yang menggunakan item format dimana pilihan respon diperintahkan pada suatu kontinum.
Oppenheim mengatakan Rating gives a numerical value to some kind of judgement.
b.      Kuesioner
Questioner sering juga dikenal sebagai angket. Menurut suharsimi kuesioner adalah sebuah daftar pertanyaan yang harus diisi oleh orang yang akan diukur (responden). Tujuan kuesioner adalah untuk mengetahui tentang keadaan/data diri, pengalaman, pengetahuan sikap atau pendapatnya dan lain-lain. Survey, poll, scale and quesioniare are terms used interchangeably to describe isntrumen designed to obtain factual information and to assess beliefs, opinion, and attitude (David Colton 2007:21).
c.       Daftar cocok
Yang dimaksud daftar cocok (check list) adalah deretan pertanyaan , dimana responden yang dievaluasi tinggal membubuhkan tanda cocok ditempat yang sudah disediakan.(suharsimi 2016: 43)
d.      Wawancara
Wawancara atau interview adalah suatu metode atau cara yang digunakan untuk medapatkan jawaban dari responden dengan tanya jawab sepihak. Dikatakan sepihak karena responden tidak diperkenankan mengajukan pertanyaan sama sekali.
Wawancara dibedakan menjadi 2 (dua) yaitu:
1.      Wawancara bebas
2.      Wawancara terpimpin
e.       Pengamatan
Pengamatan atau observasi adalah suatu Teknik yang dilaukan dengan cara mengadakan pengamatan secara teliti serta pencacatan secara sistematis. Ada 2 (dua) jenis observasi:
1.      Observation partisipan, yaitu observasi yang dilakukan oleh pengamat, dalam hal ini pengamat memasuki dan mengikuti kegiatan kelompok yang sedang diamati.observation partisipan dilaksanakan sepenuhnya jika pengamat betul-betul mengikuti kegiatan kelompok, bukan hanya pura-pura.
2.      Observation sistematik, yaitu observasi dimana faktor-faktor yang diamati sudah didaftar secara sistematis dan sudah diatur menurut kategorinya. Pengamat berada di luar kelompok tidak berbaur dengan kelompok.
f.        Riwayat hidup
Riwayat hidup adalah gambaran tentang keadaan seseorang selama masa kehidupannya. Dengan mempelajari riwayat hidup, maka subjek evaluasi akan dapat menarik seuatu kesimpulan tentang kepribadian, kebiasaan, dan sikap dari objek yang diamati.
2.      Tes
a.       Tes diagnostic
Tes diagnostic adalah tes yang digunakan untuk mengetahui kelemahan-kelemahan siswa sehingga berdasarkan hal tersbut dapat dilakukan penenganan yang tepat. Dengan mengingat bahwa sekolah sebagai sebuah transformasi, maka letak tes diagnostic berperan sabagai Input. Input dilakukan terhadap calon siswa sebagai input, untuk mengetahui  apakah calon siswa sudah menguasai pengetahuan yang merupakan dasar untuk menerima pengetahuan di sekolah. 
b.      Tes formatif
Tes formatif dimaksudkan unutuk mengetahui sejauh mana siswa telah terbentuk setelah mengetahui program tertenu. Tes formatif diberikan pada akhir setiap program tes ini merupakan post-test atau test akhir.
c.       Tes sumatif
Tes sumatif dilaksanakan setelah berakhirnya program pemeberian kelompok atau sebuah program yang lebih besar. Dalam pengalaman di sekolah, tes formatif dapat disamakan dengan ulangan harian, sedangkan tes sumatif ini dapat disamakan dengan ulangan umum yang biasanya dilaksankan di akhir semester.
C.     Proses Penyusunan Istrumen
Menyusun sebuah instrumen penelitian bisa dilakukan oleh peneliti jika peneliti telah memahami dengan benar penelitiannya. Pemahaman terhadap variabel atau hubungan antar variabel merupakan modal penting bagi peneliti agar dapat menjabarkan menjadi sub variabel, indikator, deskriptor dan butir-butir instrumennya.
Langkah-Langkah Menyusun Instrumen
a. mengindentifikasi variabel-variabel dalam rumusan judul penelitian.
b. menjabarkan variabel tersebut menjadi sub variabel/dimensi
c. mencari indikator/aspek setiap subvariabel
d. menderetkan deskriptor dari setiap indikator
e. merumuskan setiap deskriptor menjadi butir-butir instrumen
f. melengkapi instrumen dengan petunjuk pengisian dan kata pengantar.

Selain itu, dalam menyusun butir-butir instrumen pengumpulan data perlu juga diperhatikan:
a. Pertimbangan dari peneliti: (1) mengenai variabel yang akan diungkap, (2) tersedianya tenaga, waktu, dana, dan mudahnya analisis, (3) teknik pengujian realibilitas yang akan dipilih.
b. Pertimbangan dari responden: (1) pemahaman responden tentang item-item pernyataan/pertanyaan, (2) kesibukan responden, maksudnya menyangkut pekerjaan dikantor, nelayan,petani,dokter, dll.
D.    Kualitas Instrumen
Ciri-ciri tes yang baik
a.       Validitas
Validitas adalah ketepatan. Sebuah data atau informasi dapat dikatakan valid apabila sesuai dengan kenyataannya. Jika data yang dihasilkan dari sebuah instrument valid, maka dapat dikatakan bahwa instrument tersebut valid “baik”, karena dapat memberikan gabaran tentang data secara benar sesuai dengan kenyataan atau keadaan sesungguhnya. Sebuah tes tersebut valid apabila tes itu dapat denga tepat mengukur apa yang hendak diukur.
b.      Reliabilitas
Reliabilitas adalaha ketetapan. Servia B. Anderson dan kawan-kawan1 di dalam tulisan syharsimi menyatakan bahwa persyaratan bagi tes yaitu, validitas dan reliabilitas ini penting. Dalam hal ini, validitas lebih penting, dan tes itu perlu, karena menyokong terbentuknya validitas. Sebuah tes mungkin reliabel tetapi tidak valid. Sebaliknya, tes yang valid biasanya reliabael.
c.       Objektivitas
sebuah tes dianggap memiliki objektitivtas apabila dalam melaksanakan tes itu tidak ada faktor subjektif mempengaruhi.
Ada 2 (dua) faktor yang mempengaruhi subjektiivtas dari suatu tes yaitu:
1.      Bentuk tes
Tes yang berbentuk uraian, akan memberi banyak kemungkinan kepada si penilai untuk memberikan penilaian menurut caranya sendiri. Dengan demikian maka hasil dari seorang siswa yang mengerjakan soal-soal dari sebuah tes, akan dapat berbeda apabila dinilai dua orang penilai.
2.      Penilai
Subjektivitas dari penilai akan dapat masuk secara agak leluasa terutama dalam tes bentuk uraian. Faktor-faktor yang mempengaruhi subjektivitas antara lain: kesan penilai terhadap siswa, tulisan, Bahasa, waktu mengadakan penilaian, kelelahan, dan sebagainya.
d.      Praktikabilitas
Sebuah tes dapat diakatakan memeilik praktibiltas yang tinggi apabila tes tersebut bersifat praktis.
a.       Mudah dilaksanakan
b.      Mudah pemeriksaan
c.       Delengkapi ekonomi 
e.       Ekonomis
Yang dimaksud ekonomis dalam Bahasa ini adalah bahwa pelaksanaan tes tersebut tdaik membutuhksn biaya yang banyak biaya yang mahal. Tenaga yang banyak, dan waktu yang lama.
E.     Validitas Instrumen
Dalam bahasa Indonesia "valid" disebut dengan istilah "sahih". Misalnya: Untuk mengukur panjang dipakai meteran, mengukur berat dipakai timbangan, mengukur penguasaan matematika dipakai ujian matematika untuk kelas yang setara, dan sebagainya. Secara lebih jelas, suatu ujian untuk mata kuliah tertentu dikatakan valid jika ia benar-benar cocok dengan tujuan-tujuan yang telah ditetapkan untuk dicapai dengan penyajian mata kuliah tersebut.
Sedangkan menurut Suharsimi Arikunto (1999: 65) validitas adalah suatu ukuran yang menunjukkan tingkat kesahihan suatu tes. Suatu tes dikatakan valid apabila tes tersebut mengukur apa yang hendak diukur. Tes memiliki validitas yang tinggi jika hasilnya sesuai dengan kriteria, dalam arti memiliki kesejajaran antara tes dan kriteria).
Suatu alat pengukur dikatakan valid jika ia benar-benar cocok untuk mengukur apa yang hendak diukur. Sebagaimana dikemukakan oleh Scarvia B. Anderson dalam bukunya "Encyclopedia of Educational Evaluation" disebutkan oleh Allen & Yen (1979: 95) bahwa "A test is valid it measures what it purpose to measure" (sebuah tes dikatakan valid apabila tes tersebut mengukur apa yang hendak diukur).
Validitas digolongkan menjadi tiga menurut Allen & Yen (1979), Fernandes (1984) yaitu validitas isi, konstruk, dan kriteria. Berikut adalah penjabaran dari ketiga validitas tersebut.
1.      Validitas Isi
Validitas isi artinya ketepatan daripada suatu tes dilihat dari segi isi tersebut. Suatu tes hasil belajar dikatakan valid, apabila materi tes tersebut betul-betul merupakan bahan-bahan yang representatif terhadap bahan-bahan pelajaran yang diberikan. Dengan kata lain sebuah tes dikatakan memiliki validitas isi apabila mengukur tujuan khusus tertentu yang sejajar dengan materi atau isi pelajaran yang diberikan. Validitas isi dapat diusahakan tercapainya sejak saat penyusunan dengan cara memerinci materi kurikulum atau materi buku pelajaran.
Misalnya untuk siswa kelas I SMU akan diberikan tes Matematika, maka item-itemnya harus diambil dari materi pelajaran kelas I, apabila kita sisipkan item-item yang diambil dari materi pelajaran kelas III maka tes tersebut sudah tidak valid lagi.
Upaya lain yang dapat ditempuh dalam rangka mengetahui validitas isi dari tes hasil belajar adalah dengan jalan menyelenggarakan diskusi panel. Dalam forum diskusi tersebut, para pakar yang dipandang memiliki keahlian yang ada hubungannya dengan mata pelajaran yang diujikan, diminta pendapat dan rekomendasinya terhadap isi atau materi yang terkandung dalam tes hasil belajar yang bersangkutan. Hasil-hasil diskusi itu selanjutnya dijadikan pedoman atau bahan acuan untuk memperbaiki dan menyempurnakan isi atau materi hasil belajar tersebut. Jadi kegiatan menganalisis validitas isi dapat dilakukan baik sesudah maupun sebelum tes hasil belajar dilaksanakan.
Validitas isi ditentukan dengan melibatkan penilaian ahli. Untuk menyimpulkan kesepakatan ahli maka dapat digunakan formula indeks Aiken.
V adalah indeks kesepakatan rater, s adalah skor yang ditetapkan setiap rater dikurangi skor terendah dalam kategori yang disepakati (s = r – Io, dengan r – skor kategori rater dan Io skor terendah dalam kategori penskoran), n adalah banyak rater, dan c adalah kategori yang dapat dipilih oleh rater. Menurut Retnawati (2014) jika indeks kurang dari 0,4 maka valisitasnya kurang, 0,4-0,8 validitasnya sedang, dan diatas 0,8 maka validitasnya baik.
2.      Validitas Konstruk
Sebuah tes dikatakan memiliki validitas konstruksi apabila butir-butir soal yang membangun tes tersebut mengukur setiap aspek berpikir seperti yang disebutkan dalam Tujuan pembelajaran Khusus. Dengan kata lain jika butir-butir soal mengukur aspek berpikir tersebut sudah sesuai dengan aspek berpikir yang menjadi tujuan pembelajaran.
Untuk mengetahui apakah suatu tes memenuhi syarat-syarat validitas konstruksi atau tidak maka kita harus membandingkan susunan tes tersebut dengan syarat-syarat penyusunan tes yang baik. Apabila susunan tes tersebut telah memenuhi syarat-syarat penyusunan tes maka berarti tes tersebut memenuhi syarat validitas konstruksi, apabila tidak memenuhi syarat-syarat penyusunan tes berarti tidak memenuhi validitas konstruksi.
Misalnya kalau kita akan memberikan tes mata pelajaran IPA, kita harus membuat soal yang ringkas dan jelas yang benar-benar mengukur kecakapan IPA, bukan mengukur kemampuan bahasa karena soal itu ditulis secara berkepanjangan dengan bahasa yang sukar dimengerti.
Melalui analisis faktor dapat melihat apakah spesifikasi konstruk yang dikembangkan secara teoritik telah sesuai dengan konsep konstruk yang mendasarinya setelah dilakukan ujicoba di lapangan. Jadi secara esensial, analisis faktor adalah suatu teknik analisa penyaring untuk menganalisis saling hubungan di antara butirbutir instrumen, Dalam mengembangkan suatu tes yang sifatnya psikologis, maka analisis faktor sangat relevan untuk menguji kesahihan konstruk.
Teknik ini dilakukan dengan cara menganalisis butir-butir instrumen yang terdapat dalam sejumlah faktor tertentu. Butir-butir yang memiliki unsur kebersamaan (common factor) digabung menjadi suatu faktor baru. Melalui analisis faktor diharapkan ditemukan dimensi, indikator, dan butir-butir yang kokoh membentuk konstruk dari variabel yang diuji. Di samping itu melalui analisis faktor ini diharapkan akan ditemukan himpunan variabel baru yang lebih sedikit jumlahnya dibanding variabel sebelumnya.
3.      Validitas Kriteria
Validitas kriteria merupakan cara ketiga yang dapat digunakan adalah dengan melihat kebermanfaatan dari interpretasi skor hasil pengukuran (usefulness). Pendekatan yang dipakai dapat dalam bentuk criterion-related validation (Popham, 1995). Pada validasi model ini, diperlukan skor hasil pengukuran menggunakan instrumen lain yang lebih terstandar. Terdapat dua jenis validitas kriteria sebagai berikut.
a.       Validitas Prediktif
Jenis validitas ini menunjukkan kenyataan jika ujian yang dimaksud dihubungkan dengan kriteria-kriteria tentang hasil karya atau kesuksesan di masa depan. Demikianlah jika suatu tes bakat skolastik diberikan pada siswa-siswa SMU dikorelasikan dengan prestasi mereka di perguruan tinggi, maka kenyataan yang diperoleh itu akan menunjukkan validitas ramalan.
Misalnya tes masuk Perguruan Tinggi adalah sebuah tes yang diperkirakan mampu meramalkan keberhasilan peserta tes dalam mengikuti kuliah di masa yang akan dating. Calon yang tersaring berdasarkan hasil tes diharapkan mencerminkan tinggi-rendahnya kemampuan mengetahui kuliah. Jika nilai tesnya tinggi tentu menajmin keberhasilannya kelak. Sebaliknya seorang calon dikatakan tidak lulus tes karena memiliki nilai tes yang rendah diperkirakan akan tidak mampu mengikuti perkuliahan yang akan dating.
Sebagai alat pembanding validitas prediksi adalah nilai-nilai yang diperoleh setelah peserta tes mengikuti pelajaran di Perguruan Tinggi. Jika ternyata siapa yang memiliki nilai tes lebih tinggi gagal dalam ujian semester I dibandingkan dengan yang dahulu nilai tesnya lebih rendah maka tes masuk yang dimaksud tidak memiliki validitas prediksi.
b.      Validitas Konkuren
Jenis kevalidan ini menunjukkan kenyataan yang diperoleh dengan mengkorelasikan hasil suatu ujian dengan pengukuran yang setara (mengukur fungsi yang sama). Demikianlah, mengkorelasikan hasil sebuah tes intelegensi yang baru dengan hasil tes intelegensi yang sudah ada akan memberikan kenyataan validitas jenis ini.
F.      Reliabilitas Instrumen
Mehrens & Lehmann (1973: 102) menyatakan bahwa reliabilitas merupakan derajat keajegan (consistency) di antara dua buah hasil pengukuran pada objek yang sama. Allen & Yen (1979: 62) menyatakan bahwa tes dikatakan reliabel jika skor amatan mempunyai korelasi yang tinggi dengan skor yang sebenarnya. Berdasarkan kedua definisi tersebut maka dapat disimpulkan bahwa reliabilitas merupakan suatu tingkat konsistensi dari instrumen. Suatu instrumen dikatakan memiliki tingkat reliabilitas tinggi adalah ketika mampu membuahkan hasil pengukuran yang stabil (Lawrence, 1994). Artinya suatu alat ukur dikatakan memiliki koefisien reliabilitas tinggi manakala digunakan untuk mengukur hal yang sama pada waktu berbeda hasilnya sama atau mendekati sama. Menurut Azwar (2014), angka koefisien reliabilitas diatas 0,9 dapat dikatakan memuaskan.
Untuk mengestimasi reliabiltas, seorang pengembang instrumen dapat menggunakan berbagai cara. Berikut merupakan berbagai cara yang dapat digunakan.
1.      Konsistensi Eksternal
Konsistensi eksternal merupakan teknik estimasi reliabilitas yang melibatkan dua tes yang kemudian dikorelasikan. Teknik ini terbagi menjadi dua cara yaitu:
a.       Metode Test-Retest
Estimasi ini menggunakan satu istrumen yang sama yang diujikan sebanyak dua kali Kedua pengukuran ini dapat dilakukan oleh orang yang sama atau berbeda. Dalam hal ini perlu diatur bahwa proses pengukuran kedua, keadaan yang diukur itu harus benar-benar sama. Selanjutnya hasil pengukuran yang pertama dan yang kedua dikorelasikan dan hasilnya menunjukkan reliabilitas dari tes ini. Kelemahan dari tes ini adalah pengaruh perkembangan keampuan anak dan intervensi dari ingatan.
b.      Metode Paralel
Metode paralel merupakan teknik yang menggunakan dua buah instrumen berbeda dengan kesamaan tujuan, tingkat kesukaran dan susunan. Kemudian kedua hasil tes dikorelasikan untuk mengestimasi reliabilitasnya. Kelemahannya adalah membutuhkan waktu lama dalam menyusun instrumen karena dua set dan mengujikan sebanyak dua kali. Kelemahan pertama tentunya sangat logis karena memang membuat suatu istrumen itu bukan perkara mudah. Sebagai alternatif dapat juga melibatkan tes standar namun peneliti harus jeli dan memastikan bahwa antara tes standar dan tes yang dibuat benar-benar setara.
Berikut adalah formula untuk menghitung korelasi.
2.      Konsistensi Internal
Reliabilitas internal diperoleh dengan hanya memanfaatkan satu data pengetesan. Pemilihan suatu teknik didasarkan atas bentuk instrument atau selera peneliti. Kadangkadang penggunaan teknik yang berbeda menghasilkan indeks reliabilitas yang berbeda pula. Hal ini wajar saja karena kadang-kadang dipengaruhi oleh sifat atau karakteristik datanya sehingga dalam perhitungan diperoleh angka berbeda sebagai akibat pembulatan angka. Berikut adalah beberapa metode untuk estimasi reliabilitas internal.
a.       Belah dua
Belah dua berarti suatu pembelahan item-item dalam instrumen menjadi dua bagian. Teknik pembelahannya dapat mengelompokan item ganjil-genap, membagi dua item awal dan akhir (Retnawati, 2014) , serta random (Azwar, 2014). Hal yang harus dipertimbangkan dalam proses pembelahan adalah kesetaraan antar kedua kelompok. Untuk mendapatkan koefisien reliabilitasnya maka peneliti dapat menggunakan berbagai formula berikut.
1)      Reliabilitas dengan Rumus Spearman-Brown (Azwar, 2014)

dengan
Keterangan:
= Reliabilitas instrument
= Indeks korelasi antara dua belahan instrumen
N = Banyak responden
X = belahan pertama
Y = belahan kedua
2)      Reliabilitas dengan Rumus Flanagan (Retnawati, 2016)

Keterangan:
= Reliabilitas instrument
= Varian belahan pertama
= Varian belahan kedua
= Varian semua item

3)      Reliabilitas dengan Rumus Rulon (Azwar, 2014)

Keterangan:
= Reliabilitas instrument
= Varian selisih belahan pertama dan kedua
= Varian semua item

b.      Kuder-Richardson (KR)
Teknik estimasi reliabilitas yang kedua adalah dengan formula yang dikembangkan oleh Kuder Richardson yaitu formula 20 dan 21. Retnawati (2016) menyatakan bahwa teknik estimasi ini identik dengan peskoran dikotomi. Adapun formula dalam Allen & Yen (1979) adalah sebagai berikut.
1)      KR-20

= Reliabilitas instrument
k = banyak butir soal
= varian semua item
 = proporsi siswa yang menjawab benar
= 1 -

2)      KR-21


= Reliabilitas instrument
k = banyak butir soal
= varian semua item
 = skor rata-rata

c.       Cronbanch Alpha
Rumus Alpha menurut Retnawati (2016) cocok digunakan untuk mengestimasi reliabilitas dengan data politomus, misalnya angket dengan berbagai gradasi skala atupun soal dalam bentuk uraian.


= Reliabilitas instrument
k = banyak butir soal

Menurut Azwar (2014), dalam membandingkan koefisien reliabilitas, interpretasi tidak dapat dari besarnya varians skor. Dengan demikian maka dapat dihitung pula suatu statistik yang disebt standar kesalahan dalam pengukuran dengan formula sebagai beikut.

SEM = Standar kesalahan pengukuran
SDx = Standar deviasi skor tes
= Reliabilitas instrument

Arikunto, S. 1999. Prosedur Penelitian: Suatu Pendekatan Praktek. ed. Rev. IV. Yogyakarta: Rineka Cipta.
Ebel, R.L & Frisbie, D. A. 1986. Essentials of Educational Measurement. Englewood Cliffs, NJ: Prentice-Hall., Inc
Miller, M. D., Linn, R.L., & Gronund, N. E. 2009. Measurement and Assessment in Teaching. Upper Saddle River, N.J.: Pearson
Yusrizal. 2008. Pengujian Validitas Konstruk dengan Menggunakan Analisis Faktor dalam Jurnal Tabularasa Vol. 5 no. 1 Juni 2008 PPs UNIMED
Popham, W.J. (1995). Classroom assessment: What teachers need to know. Boston, MA: Allyn and Bacon, Inc.
Azwar, S. (2014). Reliabilitas dan validitas (Edisi 4). Yogyakarta: Pustaka Pelajar.
Azwar, S. (2014). Tes Prestasi (Edisi 2). Yogyakarta: Pustaka Pelajar.
Retnawati, H. (2016). Analisis Kuantitatif Instrumen Penelitian. Yogyakarta: Parama Publishing
Allen, M. J. & Yen, W. M. (1979). Introduction to measurement theory. Monterey, CA: Brooks/Cole Publishing Company
Lawrence, M. R. (2014). Question to ask when evaluating test. Eric Diambil dari http://www. Ericfacility.net/_ericdigest/_ed.385007.html
Mehrens, W. A. & Lehmann, I. J. (1973). Measurenment and evaluation in education and psychology. NY: Hold, Rinehart, and Wiston, Inc.