Dosen
pengampuh:
1. Prof.
Dr. Badrun Kartowagiran
2. Dr. Suranto
EVALUASI PROGRAM PENDIDIKAN
PENYUSUNAN INSTRUMEN
JANU ARLINWIBOWO
HENDRA B.
PROGRAM
PASCASARJANA
PENELITIAN
EVALUASI PENDIDIKAN
UNIVERSITAS
NEGERI YOGYAKARTA
2018
Penyusunan Instrumen Evaluasi
A. Definisi
Istrumen
Instrumen bukanlah asing lagi bagi seorang mahasiswa
tingkat akhir, peneliti dan evaluator. Instrument merupakan salah satu fkator
utama dalam melakukan penelitian, baik penelitian kualitatif maupun kuantatif,
begitupula dengan dosen dan guru harus ada instrument yang digunakan untuk
mengukur dan menilai peserta didiknya.
Instrument dapat kita artikan bahwa alat yang
digunakan untuk mengumpulan suatu informasi atau data sesuai dengan fokus
penelitian kita. Seperti yang diungkapkan oleh suharsimi mendefinisikan yakni, Instrumen
atau alat ukur adalah sesuatu yang dapat digunakan untuk memeprmudah seseorang
dalam melaksanakan tugas atau mencapai tujuan secara lebih efektif dan efesien (Suharsimi 2016).
Terdapat dua jenis Teknik yang digunakan evaluator dalam menggunakan instrument
yakni teknik nontes dan teknik tes.
B. Teknik
Pengumpulan Data dan Instrumennya
1. Teknik
Nontes
a. Skala
Bertingkat
Rating
scale is a generic term describing instruments
that are evaluative and that make use of an item format where response choices
are ordered on a continuum. Skala penilaian adalah istilah umum yang
menjelaskan isntrumen yang evaluatif dan yang menggunakan item format dimana
pilihan respon diperintahkan pada suatu kontinum.
Oppenheim mengatakan Rating gives a numerical
value to some kind of judgement.
b. Kuesioner
Questioner
sering juga dikenal sebagai angket. Menurut suharsimi kuesioner adalah sebuah
daftar pertanyaan yang harus diisi oleh orang yang akan diukur (responden).
Tujuan kuesioner adalah untuk mengetahui tentang keadaan/data diri, pengalaman,
pengetahuan sikap atau pendapatnya dan lain-lain. Survey, poll, scale and quesioniare are terms used interchangeably to
describe isntrumen designed to obtain factual information and to assess
beliefs, opinion, and attitude (David Colton 2007:21).
c. Daftar
cocok
Yang dimaksud daftar
cocok (check list) adalah deretan pertanyaan , dimana responden yang dievaluasi
tinggal membubuhkan tanda cocok ditempat yang sudah disediakan.(suharsimi 2016:
43)
d. Wawancara
Wawancara atau interview
adalah suatu metode atau cara yang digunakan untuk medapatkan jawaban dari
responden dengan tanya jawab sepihak. Dikatakan sepihak karena responden tidak
diperkenankan mengajukan pertanyaan sama sekali.
Wawancara dibedakan
menjadi 2 (dua) yaitu:
1. Wawancara
bebas
2. Wawancara
terpimpin
e. Pengamatan
Pengamatan atau observasi adalah suatu
Teknik yang dilaukan dengan cara mengadakan pengamatan secara teliti serta
pencacatan secara sistematis. Ada 2 (dua) jenis observasi:
1. Observation
partisipan, yaitu observasi yang dilakukan oleh pengamat, dalam hal ini
pengamat memasuki dan mengikuti kegiatan kelompok yang sedang
diamati.observation partisipan dilaksanakan sepenuhnya jika pengamat
betul-betul mengikuti kegiatan kelompok, bukan hanya pura-pura.
2. Observation
sistematik, yaitu observasi dimana faktor-faktor yang diamati sudah didaftar
secara sistematis dan sudah diatur menurut kategorinya. Pengamat berada di luar
kelompok tidak berbaur dengan kelompok.
f.
Riwayat hidup
Riwayat
hidup adalah gambaran tentang keadaan seseorang selama masa kehidupannya.
Dengan mempelajari riwayat hidup, maka subjek evaluasi akan dapat menarik
seuatu kesimpulan tentang kepribadian, kebiasaan, dan sikap dari objek yang
diamati.
2. Tes
a. Tes
diagnostic
Tes diagnostic adalah tes
yang digunakan untuk mengetahui kelemahan-kelemahan siswa sehingga berdasarkan
hal tersbut dapat dilakukan penenganan yang tepat. Dengan mengingat bahwa
sekolah sebagai sebuah transformasi, maka letak tes diagnostic berperan sabagai
Input. Input dilakukan terhadap calon
siswa sebagai input, untuk mengetahui apakah calon siswa sudah menguasai
pengetahuan yang merupakan dasar untuk menerima pengetahuan di sekolah.
b. Tes
formatif
Tes formatif dimaksudkan
unutuk mengetahui sejauh mana siswa telah terbentuk setelah mengetahui program
tertenu. Tes formatif diberikan pada akhir setiap program tes ini merupakan
post-test atau test akhir.
c. Tes
sumatif
Tes sumatif dilaksanakan
setelah berakhirnya program pemeberian kelompok atau sebuah program yang lebih
besar. Dalam pengalaman di sekolah, tes formatif dapat disamakan dengan ulangan
harian, sedangkan tes sumatif ini dapat disamakan dengan ulangan umum yang
biasanya dilaksankan di akhir semester.
C. Proses
Penyusunan Istrumen
Menyusun sebuah
instrumen penelitian bisa dilakukan oleh peneliti jika peneliti telah memahami dengan benar penelitiannya. Pemahaman terhadap variabel atau
hubungan antar variabel merupakan modal penting bagi
peneliti agar dapat menjabarkan menjadi sub variabel,
indikator, deskriptor dan butir-butir instrumennya.
Langkah-Langkah
Menyusun Instrumen
a.
mengindentifikasi variabel-variabel dalam rumusan judul penelitian.
b.
menjabarkan variabel tersebut menjadi sub variabel/dimensi
c. mencari
indikator/aspek setiap subvariabel
d.
menderetkan deskriptor dari setiap indikator
e.
merumuskan setiap deskriptor menjadi butir-butir instrumen
f.
melengkapi instrumen dengan petunjuk pengisian dan kata pengantar.
Selain itu,
dalam menyusun butir-butir instrumen pengumpulan data perlu juga diperhatikan:
a. Pertimbangan dari peneliti: (1) mengenai variabel yang akan diungkap, (2) tersedianya tenaga, waktu, dana, dan mudahnya analisis, (3) teknik pengujian realibilitas yang akan dipilih.
b. Pertimbangan dari responden: (1) pemahaman responden tentang item-item pernyataan/pertanyaan, (2) kesibukan responden, maksudnya menyangkut pekerjaan dikantor, nelayan,petani,dokter, dll.
a. Pertimbangan dari peneliti: (1) mengenai variabel yang akan diungkap, (2) tersedianya tenaga, waktu, dana, dan mudahnya analisis, (3) teknik pengujian realibilitas yang akan dipilih.
b. Pertimbangan dari responden: (1) pemahaman responden tentang item-item pernyataan/pertanyaan, (2) kesibukan responden, maksudnya menyangkut pekerjaan dikantor, nelayan,petani,dokter, dll.
D. Kualitas
Instrumen
Ciri-ciri
tes yang baik
a. Validitas
Validitas
adalah ketepatan. Sebuah data atau informasi dapat dikatakan valid apabila
sesuai dengan kenyataannya. Jika data yang dihasilkan dari sebuah instrument
valid, maka dapat dikatakan bahwa instrument tersebut valid “baik”, karena
dapat memberikan gabaran tentang data secara benar sesuai dengan kenyataan atau
keadaan sesungguhnya. Sebuah tes tersebut valid apabila tes itu dapat denga
tepat mengukur apa yang hendak diukur.
b. Reliabilitas
Reliabilitas adalaha
ketetapan. Servia B. Anderson dan kawan-kawan1 di dalam tulisan
syharsimi menyatakan bahwa persyaratan bagi tes yaitu, validitas dan reliabilitas
ini penting. Dalam hal ini, validitas lebih penting, dan tes itu perlu, karena
menyokong terbentuknya validitas. Sebuah tes mungkin reliabel tetapi tidak
valid. Sebaliknya, tes yang valid biasanya reliabael.
c. Objektivitas
sebuah tes dianggap memiliki objektitivtas
apabila dalam melaksanakan tes itu tidak ada faktor subjektif mempengaruhi.
Ada 2 (dua) faktor yang mempengaruhi
subjektiivtas dari suatu tes yaitu:
1. Bentuk
tes
Tes yang berbentuk
uraian, akan memberi banyak kemungkinan kepada si penilai untuk memberikan
penilaian menurut caranya sendiri. Dengan demikian maka hasil dari seorang
siswa yang mengerjakan soal-soal dari sebuah tes, akan dapat berbeda apabila
dinilai dua orang penilai.
2. Penilai
Subjektivitas dari
penilai akan dapat masuk secara agak leluasa terutama dalam tes bentuk uraian.
Faktor-faktor yang mempengaruhi subjektivitas antara lain: kesan penilai
terhadap siswa, tulisan, Bahasa, waktu mengadakan penilaian, kelelahan, dan
sebagainya.
d. Praktikabilitas
Sebuah tes dapat
diakatakan memeilik praktibiltas yang tinggi apabila tes tersebut bersifat
praktis.
a. Mudah
dilaksanakan
b. Mudah
pemeriksaan
c. Delengkapi
ekonomi
e. Ekonomis
Yang dimaksud ekonomis
dalam Bahasa ini adalah bahwa pelaksanaan tes tersebut tdaik membutuhksn biaya
yang banyak biaya yang mahal. Tenaga yang banyak, dan waktu yang lama.
E. Validitas
Instrumen
Dalam bahasa Indonesia "valid"
disebut dengan istilah "sahih". Misalnya: Untuk mengukur
panjang dipakai meteran, mengukur berat dipakai timbangan, mengukur penguasaan
matematika dipakai ujian matematika untuk kelas yang setara, dan sebagainya.
Secara lebih jelas, suatu ujian untuk mata kuliah tertentu dikatakan valid jika
ia benar-benar cocok dengan tujuan-tujuan yang telah ditetapkan untuk dicapai
dengan penyajian mata kuliah tersebut.
Sedangkan menurut Suharsimi Arikunto
(1999: 65) validitas adalah suatu ukuran yang menunjukkan tingkat kesahihan
suatu tes. Suatu tes dikatakan valid apabila tes tersebut mengukur apa yang
hendak diukur. Tes memiliki validitas yang tinggi jika hasilnya sesuai dengan
kriteria, dalam arti memiliki kesejajaran antara tes dan kriteria).
Suatu alat
pengukur dikatakan valid jika ia benar-benar cocok untuk mengukur apa yang
hendak diukur. Sebagaimana dikemukakan oleh Scarvia B.
Anderson dalam bukunya "Encyclopedia of Educational Evaluation"
disebutkan oleh Allen & Yen (1979: 95) bahwa "A test is valid it
measures what it purpose to measure" (sebuah tes dikatakan valid
apabila tes tersebut mengukur apa yang hendak diukur).
Validitas digolongkan menjadi tiga menurut
Allen & Yen (1979), Fernandes (1984) yaitu validitas isi, konstruk, dan
kriteria. Berikut adalah penjabaran dari ketiga validitas tersebut.
1.
Validitas
Isi
Validitas isi artinya ketepatan daripada
suatu tes dilihat dari segi isi tersebut. Suatu tes hasil belajar dikatakan
valid, apabila materi tes tersebut betul-betul merupakan bahan-bahan yang representatif
terhadap bahan-bahan pelajaran yang diberikan. Dengan kata lain sebuah tes
dikatakan memiliki validitas isi apabila mengukur tujuan khusus tertentu
yang sejajar dengan materi atau isi pelajaran yang diberikan. Validitas isi
dapat diusahakan tercapainya sejak saat penyusunan dengan cara memerinci materi
kurikulum atau materi buku pelajaran.
Misalnya untuk siswa kelas I SMU akan
diberikan tes Matematika, maka item-itemnya harus diambil dari materi pelajaran
kelas I, apabila kita sisipkan item-item yang diambil dari materi pelajaran
kelas III maka tes tersebut sudah tidak valid lagi.
Upaya lain yang dapat ditempuh dalam
rangka mengetahui validitas isi dari tes hasil belajar adalah dengan jalan
menyelenggarakan diskusi panel. Dalam forum diskusi tersebut, para pakar yang
dipandang memiliki keahlian yang ada hubungannya dengan mata pelajaran yang
diujikan, diminta pendapat dan rekomendasinya terhadap isi atau materi yang
terkandung dalam tes hasil belajar yang bersangkutan. Hasil-hasil diskusi itu
selanjutnya dijadikan pedoman atau bahan acuan untuk memperbaiki dan
menyempurnakan isi atau materi hasil belajar tersebut. Jadi kegiatan
menganalisis validitas isi dapat dilakukan baik sesudah maupun sebelum tes
hasil belajar dilaksanakan.
Validitas isi ditentukan dengan melibatkan
penilaian ahli. Untuk menyimpulkan kesepakatan ahli maka dapat digunakan
formula indeks Aiken.
V adalah indeks kesepakatan rater, s
adalah skor yang ditetapkan setiap rater dikurangi skor terendah dalam kategori
yang disepakati (s = r – Io, dengan r – skor kategori rater dan Io skor
terendah dalam kategori penskoran), n adalah banyak rater, dan c adalah
kategori yang dapat dipilih oleh rater. Menurut Retnawati (2014) jika indeks
kurang dari 0,4 maka valisitasnya kurang, 0,4-0,8 validitasnya sedang, dan
diatas 0,8 maka validitasnya baik.
2.
Validitas
Konstruk
Sebuah
tes dikatakan memiliki validitas konstruksi apabila butir-butir soal yang
membangun tes tersebut mengukur setiap aspek berpikir seperti yang disebutkan
dalam Tujuan pembelajaran Khusus. Dengan kata lain jika butir-butir soal
mengukur aspek berpikir tersebut sudah sesuai dengan aspek berpikir yang
menjadi tujuan pembelajaran.
Untuk
mengetahui apakah suatu tes memenuhi syarat-syarat validitas konstruksi atau
tidak maka kita harus membandingkan susunan tes tersebut dengan syarat-syarat
penyusunan tes yang baik. Apabila susunan tes tersebut telah memenuhi syarat-syarat
penyusunan tes maka berarti tes tersebut memenuhi syarat validitas konstruksi,
apabila tidak memenuhi syarat-syarat penyusunan tes berarti tidak memenuhi
validitas konstruksi.
Misalnya
kalau kita akan memberikan tes mata pelajaran IPA, kita harus membuat soal yang
ringkas dan jelas yang benar-benar mengukur kecakapan IPA, bukan mengukur
kemampuan bahasa karena soal itu ditulis secara berkepanjangan dengan bahasa
yang sukar dimengerti.
Melalui
analisis faktor dapat melihat apakah spesifikasi konstruk yang dikembangkan
secara teoritik telah sesuai dengan konsep konstruk yang mendasarinya setelah
dilakukan ujicoba di lapangan. Jadi secara esensial, analisis faktor adalah
suatu teknik analisa penyaring untuk menganalisis saling hubungan di antara
butirbutir instrumen, Dalam mengembangkan suatu tes yang sifatnya psikologis,
maka analisis faktor sangat relevan untuk menguji kesahihan konstruk.
Teknik
ini dilakukan dengan cara menganalisis butir-butir instrumen yang terdapat
dalam sejumlah faktor tertentu. Butir-butir yang memiliki unsur kebersamaan (common
factor) digabung menjadi suatu faktor baru. Melalui analisis faktor
diharapkan ditemukan dimensi, indikator, dan butir-butir yang kokoh membentuk
konstruk dari variabel yang diuji. Di samping itu melalui analisis faktor ini
diharapkan akan ditemukan himpunan variabel baru yang lebih sedikit jumlahnya
dibanding variabel sebelumnya.
3. Validitas Kriteria
Validitas kriteria merupakan cara ketiga yang dapat digunakan
adalah dengan melihat kebermanfaatan dari interpretasi skor hasil pengukuran (usefulness).
Pendekatan yang dipakai dapat dalam bentuk criterion-related validation
(Popham, 1995). Pada validasi model ini, diperlukan skor hasil pengukuran
menggunakan instrumen lain yang lebih terstandar. Terdapat dua jenis validitas
kriteria sebagai berikut.
a.
Validitas
Prediktif
Jenis
validitas ini menunjukkan kenyataan jika ujian yang dimaksud dihubungkan dengan
kriteria-kriteria tentang hasil karya atau kesuksesan di masa depan.
Demikianlah jika suatu tes bakat skolastik diberikan pada siswa-siswa SMU
dikorelasikan dengan prestasi mereka di perguruan tinggi, maka kenyataan yang
diperoleh itu akan menunjukkan validitas ramalan.
Misalnya
tes masuk Perguruan Tinggi adalah sebuah tes yang diperkirakan mampu meramalkan
keberhasilan peserta tes dalam mengikuti kuliah di masa yang akan dating. Calon
yang tersaring berdasarkan hasil tes diharapkan mencerminkan tinggi-rendahnya
kemampuan mengetahui kuliah. Jika nilai tesnya tinggi tentu menajmin
keberhasilannya kelak. Sebaliknya seorang calon dikatakan tidak lulus tes
karena memiliki nilai tes yang rendah diperkirakan akan tidak mampu mengikuti
perkuliahan yang akan dating.
Sebagai alat pembanding
validitas prediksi adalah nilai-nilai yang diperoleh setelah peserta tes
mengikuti pelajaran di Perguruan Tinggi. Jika ternyata siapa yang memiliki
nilai tes lebih tinggi gagal dalam ujian semester I dibandingkan dengan yang
dahulu nilai tesnya lebih rendah maka tes masuk yang dimaksud tidak memiliki
validitas prediksi.
b. Validitas Konkuren
Jenis kevalidan ini menunjukkan kenyataan
yang diperoleh dengan mengkorelasikan hasil suatu ujian dengan pengukuran yang
setara (mengukur fungsi yang sama). Demikianlah, mengkorelasikan hasil sebuah
tes intelegensi yang baru dengan hasil tes intelegensi yang sudah ada akan
memberikan kenyataan validitas jenis ini.
F. Reliabilitas
Instrumen
Mehrens & Lehmann (1973: 102) menyatakan bahwa reliabilitas
merupakan derajat keajegan (consistency) di antara dua buah hasil
pengukuran pada objek yang sama. Allen & Yen (1979: 62) menyatakan bahwa
tes dikatakan reliabel jika skor amatan mempunyai korelasi yang tinggi dengan
skor yang sebenarnya. Berdasarkan kedua definisi tersebut maka dapat
disimpulkan bahwa reliabilitas merupakan suatu tingkat konsistensi dari
instrumen. Suatu instrumen dikatakan memiliki tingkat reliabilitas tinggi
adalah ketika mampu membuahkan hasil pengukuran yang stabil (Lawrence, 1994).
Artinya suatu alat ukur dikatakan memiliki koefisien reliabilitas tinggi
manakala digunakan untuk mengukur hal yang sama pada waktu berbeda hasilnya
sama atau mendekati sama. Menurut Azwar (2014),
angka koefisien reliabilitas diatas 0,9 dapat dikatakan memuaskan.
Untuk mengestimasi reliabiltas, seorang pengembang instrumen dapat
menggunakan berbagai cara. Berikut merupakan berbagai cara yang dapat
digunakan.
1.
Konsistensi
Eksternal
Konsistensi eksternal merupakan teknik estimasi reliabilitas yang
melibatkan dua tes yang kemudian dikorelasikan. Teknik ini terbagi menjadi dua
cara yaitu:
a.
Metode
Test-Retest
Estimasi ini
menggunakan satu istrumen yang sama yang diujikan sebanyak dua kali Kedua
pengukuran ini dapat dilakukan oleh orang yang sama atau berbeda. Dalam hal ini
perlu diatur bahwa proses pengukuran kedua, keadaan yang diukur itu harus benar-benar
sama. Selanjutnya hasil pengukuran yang pertama dan yang kedua dikorelasikan
dan hasilnya menunjukkan reliabilitas dari tes ini. Kelemahan dari tes ini
adalah pengaruh perkembangan keampuan anak dan intervensi dari ingatan.
b.
Metode
Paralel
Metode
paralel merupakan teknik yang menggunakan dua buah instrumen berbeda dengan
kesamaan tujuan, tingkat kesukaran dan susunan. Kemudian kedua hasil tes
dikorelasikan untuk mengestimasi reliabilitasnya. Kelemahannya adalah
membutuhkan waktu lama dalam menyusun instrumen karena dua set dan mengujikan
sebanyak dua kali. Kelemahan pertama tentunya sangat logis karena memang
membuat suatu istrumen itu bukan perkara mudah. Sebagai alternatif dapat juga
melibatkan tes standar namun peneliti harus jeli dan memastikan bahwa antara
tes standar dan tes yang dibuat benar-benar setara.
Berikut adalah formula untuk menghitung korelasi.
2. Konsistensi Internal
Reliabilitas internal diperoleh dengan hanya memanfaatkan satu
data pengetesan. Pemilihan suatu teknik didasarkan atas bentuk instrument atau
selera peneliti. Kadangkadang penggunaan teknik yang berbeda menghasilkan indeks
reliabilitas yang berbeda pula. Hal ini wajar saja karena kadang-kadang
dipengaruhi oleh sifat atau karakteristik datanya sehingga dalam perhitungan
diperoleh angka berbeda sebagai akibat pembulatan angka. Berikut adalah
beberapa metode untuk estimasi reliabilitas internal.
a.
Belah dua
Belah dua berarti suatu pembelahan item-item dalam instrumen
menjadi dua bagian. Teknik pembelahannya dapat mengelompokan item ganjil-genap,
membagi dua item awal dan akhir (Retnawati, 2014) , serta random (Azwar, 2014).
Hal yang harus dipertimbangkan dalam proses pembelahan adalah kesetaraan antar
kedua kelompok. Untuk mendapatkan koefisien reliabilitasnya maka peneliti dapat
menggunakan berbagai formula berikut.
1)
Reliabilitas
dengan Rumus Spearman-Brown (Azwar, 2014)
dengan
Keterangan:
= Reliabilitas instrument
= Indeks korelasi antara dua
belahan instrumen
N = Banyak
responden
X = belahan
pertama
Y = belahan
kedua
2)
Reliabilitas
dengan Rumus Flanagan (Retnawati, 2016)
Keterangan:
= Reliabilitas instrument
= Varian belahan pertama
= Varian belahan kedua
= Varian semua item
3)
Reliabilitas dengan Rumus Rulon (Azwar, 2014)
Keterangan:
= Reliabilitas instrument
= Varian selisih belahan pertama
dan kedua
= Varian semua item
b. Kuder-Richardson
(KR)
Teknik
estimasi reliabilitas yang kedua adalah dengan formula yang dikembangkan oleh
Kuder Richardson yaitu formula 20 dan 21. Retnawati (2016) menyatakan bahwa
teknik estimasi ini identik dengan peskoran dikotomi. Adapun formula dalam
Allen & Yen (1979) adalah sebagai berikut.
1) KR-20
= Reliabilitas instrument
k = banyak butir soal
= varian semua item
= proporsi siswa yang
menjawab benar
= 1 -
2) KR-21
= Reliabilitas instrument
k = banyak butir soal
= varian semua item
= skor rata-rata
c. Cronbanch Alpha
Rumus Alpha menurut Retnawati (2016) cocok
digunakan untuk mengestimasi reliabilitas dengan data politomus, misalnya
angket dengan berbagai gradasi skala atupun soal dalam bentuk uraian.
= Reliabilitas instrument
k = banyak butir soal
Menurut
Azwar (2014), dalam membandingkan koefisien reliabilitas, interpretasi tidak
dapat dari besarnya varians skor. Dengan demikian maka dapat dihitung pula
suatu statistik yang disebt standar kesalahan dalam pengukuran dengan formula
sebagai beikut.
SEM = Standar kesalahan pengukuran
SDx = Standar deviasi skor tes
= Reliabilitas instrument
Arikunto, S. 1999. Prosedur Penelitian: Suatu Pendekatan
Praktek. ed. Rev. IV. Yogyakarta: Rineka Cipta.
Ebel, R.L & Frisbie, D. A. 1986. Essentials of Educational Measurement. Englewood Cliffs, NJ:
Prentice-Hall., Inc
Miller, M. D., Linn, R.L., & Gronund, N. E. 2009. Measurement and Assessment in Teaching.
Upper Saddle River, N.J.: Pearson
Yusrizal.
2008. Pengujian Validitas Konstruk dengan Menggunakan Analisis Faktor dalam Jurnal Tabularasa Vol. 5 no. 1 Juni 2008
PPs UNIMED
Popham, W.J. (1995). Classroom assessment: What teachers need
to know. Boston, MA: Allyn and Bacon, Inc.
Azwar, S. (2014). Reliabilitas dan validitas (Edisi 4).
Yogyakarta: Pustaka Pelajar.
Azwar, S. (2014). Tes Prestasi (Edisi 2). Yogyakarta:
Pustaka Pelajar.
Retnawati, H. (2016). Analisis Kuantitatif Instrumen Penelitian.
Yogyakarta: Parama Publishing
Allen, M. J. & Yen, W. M. (1979). Introduction to measurement
theory. Monterey, CA: Brooks/Cole Publishing Company
Lawrence, M. R. (2014). Question to ask when evaluating test. Eric
Diambil dari http://www. Ericfacility.net/_ericdigest/_ed.385007.html
Mehrens, W. A. & Lehmann, I. J. (1973). Measurenment and
evaluation in education and psychology. NY: Hold, Rinehart, and Wiston, Inc.