Monday, May 20, 2013

Reliabilitas dan Karakteristik Lain yang Diperlukan Dalam Penilaian dan Pengukuran


Setelah validitas, reliabilitas adalah karakteristik terpenting dalam hasil penilaian. Reliabilitas (1) memberikan konsistensi yang memungkinkan adanya validitas, dan (2) mengindikasikan derajat/tingkat untuk menjustifikasi berbagai jenis generalisasi. Kegunaan prosedur evaluasi, tentu saja, juga memberikan perhatian pada guru kelas yang sibuk.
Pada pertemuan lalu kita telah membicarakan bahwa validitas merupakan pertimbangan terpenting dalam seleksi dan konstruksi prosedur penilaian. Pertama dan utama, kita menginginkan agar hasil penilaian dapat melayani penggunaan hasil tes tertentu yang diinginkan. Hal penting selanjutnya adalah reliabilitas, dan setelah itu adalah bsekumpulan ciri praktis yang dapat digolongkan di bawah kategori “daya guna”.

Hakikat Reliabilitas
Reliabilitas mengacu pada konsistensi pengukuran; yakni, seberapa konsistenkah skor tes atau hasil penilaian lainnya dari pengukuran yang satu menuju pengukuran selanjutnya. Misalnya, anggaplah bahwa Miss Jones baru saja memberikan sebuah penilaian prestasi/pencapaian kepada murid-muridnya. Seberapa miripkah skor siswa setelah ia menilai mereka kemarin, atau besok, atau minggu depan? Bagaimana perbedaan skor yang terjadi jika guru berbeda yang melakukan penilaian? Hal ini merupakan tipe-tipe pertanyaan yang berkaitan dengan reliabilitas. Hasil penilaian hanya menyediakan suatu ukuran terbatas mengenai kinerja yang diperoleh pada suatu waktu tertentu. Kecuali jika pengukuran tersebut dapat ditunjukkan sebagai suatu hal yang konsisten secara nalar (yakni, dapat digeneralisasikan) dalam berbagai kesempatan berbeda, penilai yang berbeda, sampel berbeda dari domain kinerja yang sama, kita dapat mempunyai sedikit kepercayaan diri dalam hasil penilaian yang dilakukan.
Kita tidak dapat mengharapkan hasil penilaian agar konsisten secara sempurna. Banyak faktor, selain kualitas yang diukur, yang dapat mempengaruhi hasil penilaian. Jika sebuah penilaian diberikan kepada kelompok yang sama sebanyak dua kali dalam waktu dekat, beberapa variasi skor dapat diharapkan karena fluktuasi sementara dalam memori, perhatian, upaya, keletihan, ketegangan emosi, penebakan, dan sebagainya. Dengan suatu jeda antartes yang lebih panjang, variasi tambahan dalam skor dapat disebabkan oleh intervensi pengalaman pembelajaran, perubahan kondisi kesehatan, lupa, dan sedikitnya kondisi penilaian yang dapat dibandingkan. Jika esai atau tipe lain kinerja siswa dievaluasi oleh penilai yang berbeda, beberapa variasi dalam skor dapat diharapkan karena kurang sempurnanya kesepakatan di antara para penilai. Jika kita menggunakan sampel tugas yang lain dalam penilaian kedua, masih saja akan terdapat faktor-faktor yang cenderung mempengaruhi hasilnya. Individu-individu mungkin menjumpai bahwa satu penilaian lebih mudah dibandingkan penilaian lainnya karena kebetulan mengandung lebih banyak tugas dalam topik yang telah mereka kenal. Faktor-faktor yang tidak relevan tersebut memperkenalkan sejumlah kesalahan pengukuran ke dalam semua hasil penilaian. Metode untuk menentukan reliabilitas merupakan sarana esensial untuk menentukan banyaknya kesalahan pengukuran yang hadir dalam kondisi yang berbeda. secara umum, semakin konsisten hasil penilaian kita dari satu pengkuran ke pengukuran lainnya, maka semakin sedikit kesalahan yang akan muncul,sehingga semakin besar reliabilitasnya.
Makna reliabilitas , sebagaimana yang diterapkan dalam pengujian dan penilaian, dapat dijelaskan lebih lanjut dengan memperhatikan poin-poin umum berikut ini:
1.    Reliabilitas mengacu pada hasil yang diperoleh dengan sebuah instrumen penilaian dan bukan mengacu pada instrumen itu sendiri. Instrumen tertentu dapat memiliki jumlah reliabilitas yang berbeda, tergantung pada kelompok yang terlibat dan situasi dimana instrumen tersebut digunakan. Maka, akan lebih tepat untuk mengatakan reliabilitas skor tes atau hasil penilaian daripada mengatakan reliabilitas tes atau penilaian.
2.    Suatu perkiraan reliabilitas selalu mengacu pada sebuah tipe konsistensi tertentu. Hasil penilaian tidak dapat diandalkan/dipercaya secara umum. Hasil tersebut dapat diandalkan (atau dapat digeneralisasikan) dalam kurun waktu yang berbeda, dalam sampel tugas yang berbeda, dalam penilai berbeda, dan sebagainya. Dimungkinkan pula bagi hasil penilaian untuk konsisten dalam salah satu hal ini dan tidak konsisten dalam hal lainnya. Tipe konsistensi yang tepat dalam suatu kasus tertentu ditentukan oleh tujuan penggunaan hasil penilaian. Sebagai contoh, jika kita berharap untuk mengetahui gambaran individu di masa yang akan datang, sifat konstan skor dalam kurun waktu yang panjang akan sangat penting. Di sisi lain, jika kita ingin mengukur suatu pemahaman individu saat ini tentang prinsip spesifik tertentu mungkin kita akan tertarik dengan konsistensi kinerja dalam berbagai tugas berbeda yang dirancang untuk memungkinkan siswa guna mengaplikasikan prinsip-prinsip tersebut. Maka, untuk interpretasi yang lain kita memerlukan analisis konsistensi yang berbeda. Tindakan untuk memperlakukan reliabilitas sebagai sebuah karakteristik umum dapat membawa pada interpretasi yang keliru.
3.    Reliabilitas merupakan hal pokok tetapi tidak mencukupi bagi suatu validitas. Sebuah penilaian yang menghasilkan hasil yang tidak konsisten secara keseluruhan mungkin tidak dapat memberikan informasi yang valid tentang kinerja yang diukur. Di sisi lain, hasil penilaian yang sangat konsisten mungkin mengukur hal yang salah atau mungkin digunakan dengan cara yang tidak tepat. Maka, reliabilitas rendah akan muncul, tetapi reliabilitas tinggi tidak menjamin tingginya derajat validitas. Pendek kata, reliabilitas hanya menyediakan konsistensi yang memungkinkan adanya validitas.
4.    Reliabilitas pada prinsipnya bersifat statistik. Analisis logis tentang penilaian akan memberikan sedikit bukti yang berkaitan dengan reliabilitas skor. Untuk mengevaluasi konsistensi skor yang diberikan oleh penilai yang berbeda, dua atau lebih penilai harus menilai perangkat kinerja siswa yang sama. Demikian pula dengan sebuah evaluasi konsistensi skor yang diperoleh dalam kaitannya dengan bentuk-bentuk berbeda dalam sebuah tes atau koleksi berbeda dalam tugas penilaian berbasis kinerja memerlukan administrasi/pemberian bentuk-bentuk tes dan koleksi tugas kepada kelompok siswa yang tepat. Apakah fokusnya pada konsistensi penilai sendiri ataukah konsistensi bentuk-bentuk atau koleksi tugas, konsistensi dapat diekspresikan dalam hal perubahan orang yang relatif tetap di dalam kelompok atau dalam istilah jumlah variasi yang diharapkan dalam skor yang diperoleh secara individu. Konsistensi pada kasus pertama dilaporkan dengan sarana sebuah efisien korelasi yang disebut dengan koefisien reliabilitas (lihat kotak “Terminologi”) dan pada kasus kedua dilaporkan dengan sarana standar kesalahan pengukuran. Kedua metode yang mengekspresikan reliabilitas ini dipergunakan secara luas dan harus dipahami oleh orang yang bertanggung jawab untuk menginterpretasikan hasil penilaian.
Menentukan Reliabilitas dengan Metode Korelasi
Dalam menentukan reliabilitas, sangat diperlukan sekali untuk memperoleh dua perangkat ukuran di bawah kondisi yang identik dan kemudian membandingkan hasilnya. Prosedur ini mustahil diterapkan karena kondisi dimana data pengukuran diperoleh tidak akan pernah identik. Sebagai pengganti untuk prosedur ideal ini, beberapa metode untuk mengestimasi reliabilitas telah diperkenalkan (Asosiasi Psikologi Amerika, 1985). Metode-metode tersebut sifatnya mirip karena semuanya melibatkan pengkorelasian dua perangkat skor, diperoleh dari prosedur penilaian yang sama atau dari bentuk ekuivalen prosedur yang sama. Koefisien korelasi yang dipergunakan untuk menentukan reliabilitas diperhitungkan dan diinterpretasikan dengan cara yang sama seperti yang digunakan dalam menentukan estimasi statistik validitas. Satu-satunya perbedaan antara sebuah koefisien validitas dan sebuah koefisien reliabilitas yakni koefisien validitas didasarkan pada kesepakatan dengan kriteria luar/ekstern dan koefisien reliabilitas didasarkan antara dua perangkat hasil dari prosedur yang sama.
Metode utama dalam mengestimasi reliabilitas ditunjukkan pada Tabel 4.1. ingatlah bahwa tipe konsistensi yang berbeda ditentukan oleh metode yang berbeda pula: konsistensi selama kurun waktu tertentu, dalam bentuk-bentuk penilaian yang berbeda, dalam penilaian itu sendiri, dan pada penilai yang berbeda-beda.

Terminologi
Koefisien Korelasi: Suatu statistik yang mengindikasikan derajat hubungan antara dua perangkat skor yang diperoleh dari kelompok individu yang sama (misalnya, korelasi antara tinggi dan berat)
Koefisien validitas: Sebuah koefisien korelasi yang mengindikasikan derajat dimana sebuah ukuran memprediksi atau mengestimasi kinerja dalam beberapa kriteria ukuran (misalnya, korelasi antara skor scholastic aptitude dan peringkat dalam kelas)
Koefisien reliabilitas: sebuah koefisien korelasi yang mengindikasikan derajat hubungan antara dua perangkat skor yang dimaksudkan untuk mengukur karakteristik yang sama (misalnya, korelasi antara skor yang diberikan oleh dua penilai berbeda atau skor yang diperoleh dari pemberian dua bentuk tes)

Koefisien reliabilitas yang dihasilkan dari masing-masing metode harus diinterpretasikan berdasarkan pada tipe konsistensi yang diteliti. Tiap-tiap metode untuk mengestimasi reliabilitas ini akan dipertimbangkan dalam rincian lebih lanjut pada bab ini.
Tabel 4.1. Metode untuk Mengestimasi Validitas

Tipe Ukuran Reliabilitas
Prosedur
Metode tes—retes
Ukuran stabilitas
Berikan tes yang sama sebanyak dua kali kepada kelompok yang sama dengan interval waktu berapapun antartes, dari beberapa menit hingga beberapa tahun
Metode Bentuk Ekuivalen
Ukuran ekuivalensi
Berikan dua bentuk tes kepada kelompok yang sama dalam jarak waktu yang dekat
(Tes—retes dengan bentuk ekuivalen)
Ukuran stabilitas dan ekuivalnesi
Berikan dua bentuk tes kepada kelompok yang sama dengan peningkatan interval waktu antarbentuk tes
Metode belah dua
Ukuran konsistensi internal
Berikan tes sekali saja. Berikar skor dua belahan tes yang ekuivalen (misalnya, soal bernomor ganjil dan genap); betulkan hubungan antarbelahan untuk mencocokkan keseluruhan tes dengan rumus Spearman—Brown
Metode Kuder—Richardson dan Koefisien Alfa
Ukuran konsistensi internal
Berikan tes ekali saja. Beri skor tes total dan terapkan rumus Kuder—Richardson
Metode Inter—rater
Ukuran konsistensi penilaian
Berikan seprangkat tanggapan siswa yang memerlukan pemberian skor berdasar pertimbangan dua penilai atau lebih dan biarkan mereka secara independen memberi skor terhadap tanggapan tersebut

Metode Tes—Retes
Untuk mengestimasi reliabilitas dengan sarana metode tes—retes, penilaian yang sama diberikan sebanyak dua kali terhadap kelompok siswa yang sama dan juga dengan memberikan interval waktu antara tes pertama dan tes kedua (lihat bagan 4.1.). Skor penilaian yang dihasilkan kemudian dikorelasikan, dan koefisien korelasi ini memberikan sebuah ukuran stabilitas; yakni, koefisien ini mengindikasikan seberapa stabilnya hasil penilaian selama kurun waktu tertentu. Jika hasilnya sangat stabil, siswa-siwa yang memperoleh skor tinggi dalam satu penilaian cenderung akan memperoleh skor tinggi pula dalam penilaian yang lain, dan siswa-siwa lainnya cenderung tetap berada pada posisinya dalam kedua penilaian tersebut. Stabilitas tersebut diindikasikan oleh sebuah koefisien korelasi yang besar. Dalam pembahasan sebelumnya tentang koefisien korelasi telah disebutkan bahwa hubungan positif sempurna ditandai dengan 1.00 dan jika tidak terdapat hubungan dengan 0.00. Ukuran stabilitas dalam kisaran .80 pada umumnya dilaporkan untuk menstandarisasikan tes kecerdasan dan prestasi dalam kesempatan dalam tahun yang sama.
Satu faktor penting yang harus diingat dalam benak ketika menginterpretasikan ukuran stabilitas adalah interval waktu antarpenilaian. Jika interval waktunya pendek, katakanlah satu atau dua hari, stabilitas hasil akan membubung tinggi karena para siswa masih ingat akan tugas dan tanggapan terhadap tugas tersebut dari penilaian pertama. Jika interval waktunya panjang, katakanlah setahun, hasilnya tidak hanya akan dipengaruhi oleh ketidakstabilan prosedur penilaian tetapi juga oleh perubahan yang sedang terjadi pada para siswa selama kurun waktu tersebut. Secara umum, semakin lama interval waktu antara penilaian pertama dan kedua, maka hasil penilaian akan semakin dipengaruhi oleh perubahan dalam hal karakteristik siswa yang diukur, dan semakin kecil pula koefisien korelasinya.
Interval waktu terbaik pemberian tes akan sangat tergantung pada penggunaan hasilnya. Oleh karena skor tes oleh universitas mungkin dikumpulkan sebagai bagian dari sebuah aplikasi ke kampus beberapa tahun setelah tes diambil, Stabilitas selama beberapa tahun tersebut sangat penting. Akan tetapi stabilitas dalam kurun waktu yang panjang tidak penting atau tidak diinginkan bagi sebuah penilaian kinerja dalam sebuah unit pelajaran yang difokuskan pada pemahaman siswa terhadap konsep-konsep tertentu dan kesiapan untuk berpindah ke materi baru. Maka, untuk beberapa keputusan kita tertarik dengan koefisien reliabilitas yang didasarkan pada interval yang panjang antara tes dan retes; untuk beberapa keputusan lainnnya, koefisien reliabilitas yang didasarkan pada interval pendek akan mencukupi. Hal yang penting adalah untuk mencari bukti/fakta stabilitas yang cocok dengan interpretasi tertentu yang hendak dibuat.
Metode tes—retes tidak akan relevan bagi tes kelas yang disusun oleh guru, karena jarang sekali dimungkinkan atau diinginkan untuk memberikan kembali penilaian yang sama. Akan tetapi dalam memilih tes yang telah distandarkan, stabilitas merupakan kriteria penting. Petunjuk tes harus menyediakan bukti stabilitas, mengindikasikan interval antara tes dan pengalaman yang tak lazim yang mungkin akan didapatkan anggota kelompok di antara tes tersebut. Hal-hal lain (seperti validitas) sifatnya sama, sebuah tes yang memiliki tipe stabilitas yang dibutuhkan untuk membuat keputusan yang tepat merupakan tes terbaik.
Metode Bentuk Ekuivalen
Metode bentuk ekuivalen untuk mengestimasi reliabilitas menggunakan dua bentuk penilaian yang berbeda tetapi ekuivalen (juga disebut dengan bentuk parallel atau pengganti). Bentuk ekuivalen dibangun untuk perangkat spesifikasi yang sama (misalnya tes isi dan kesulitan) tetapi dikonstruksi secara independen. Kedua bentuk penilaian ini diberikan kepada kelompok siswa yang sama dalam interval yang dekat, dan skor penilaian yang dihasilkan kemudian dikorelasikan. Koefisien korelasi ini memberikan sebuah ukuran tingkat untuk membatasi generalisasi mengenai kinerja siswa dari satu penilaian ke penilaian lainnya. Maka, korelasi tersebut mengindikasikan derajat diaman kedua penilaian tersebut mengukur aspek perilaku yang sama.
Metode bentuk-bentuk ekuivalen tidak memberi tahu kepada kita tentang stabilitas jangka panjang tentang karakteristik siswa yang diukur. Metode tersebut lebih merefleksikan keadaan konstan jangka pendek tentang kinerja siswa dan tingkat dimana penilaian tersebut merepresentasikan sebuah sampel yang mencukupi mengenai karakteristik yang diukur. Sebagai contoh, dalam menilai pencapaian, beribu tugas mungkin disajikan dalam sebuah penilaian khusus, tetapi karena keterbatasan waktu dan faktor-faktor lain yang membatasi, hanya beberapa tugas yang dimungkinkan untuk digunakan. Tugas yang tercakup dalam penilaian tersebut harus memberikan sampel yang memadai mengenai tugas yang mungkin dalam area tersebut. Cara termudah untuk mengestimasi apakah sebuah penilaian  mengukur sampel isi yang memadai adalah untuk mengkonstruksi versi-versi penilaian yang dimaksudkan untuk mencakup domain isi yang sama dan kecakapan siswa dan mengkorelasikan hasilnya. Korelasi tinggi mengindikasikan bahwa kedua penilaian tersebut menyediakan hasil yang mirip, sehingga, mungkin merupakan sampel reliabel tentang area umum mengenai isi yang diukur.
Metode ini secara luas digunakan dalam tes yang distandarkan karena sebagian besar tes yang distandarkan memiliki dua atau lebih bentuk yang tersedia. Faktanya, seorang guru harus menaruh kewaspadaan terhadap tes standar apapun yang memiliki dua bentuk yang tersedia dan tidak menyediakan informasi tentang ekuivalensi. Keterbandingan hasil dari dua bentuk tersebut tidak dapat diasumsikan kecuali jika bukti keterbandingannya disajikan. Metode bentuk ekuivalen terkadang digunakan dengan sebuah interval antarpemberian kedua bentuk tes tersebut (lihat Bagan. 4.2.) Di bawah kondisi tes—retes ini, koefisian reliabilitas yang dihasilkan menyediakan sebuah ukuran stabilitas atau ekuivalensi. Hal ini merupakan tes reliabilitas yang lebih teliti dibandingkan dangan metode tes—retes atau metode bentuk ekuivalen dengan sebuah interval pendek antarbentuknya, karena stabilitas prosedur pengujian, keadaan konstan karakteristik siswa yang diukur, dan keterwakilan sampel tugas yang dicakup dalam tes kesemuanya dimasukkan ke dalam perhitungan. Sebagai konsekuensinya, hal ini secara umum direkomendasikan sebagai prosedur terkuat untuk mengestimasi reliabilitas skor tes. Jika menggunakan metode tes—retes, koefisien reliabilitas harus diinterpretasikan dari kacamata interval antara kedua bentuk tes tersebut. Bagi periode waktu yang lebih lama/panjang, diharapkan koefisien reliabilitasnyalebih kecil.
Metode Split-Half (Belah Dua)
Reliabilitas juga dapat diestimasi dari sebuah pemberian bentuk penilaian tunggal sebanyak satu kali. Penilaian tersebut diberikan kepada sekelompok siswa dengan cara yang biasa dan kemudian dibagi dua untuk tujuan pemberian skor. Metode split-half mudah untuk diimplementasikan dengan sebuah tes tradisional atau kuis yang terdiri dari sepuluh item atau lebih misalnya. Untuk membelah tes tersebut ke dalam paruh yang ekuivalen, prosedur yang biasanya diterapkan adalah dengan memberi skor tugas bernomor ganjil dan genap secara terpisah (lihat Bagan 4.3.). Prosedur ini menghasilkan dua skor bagi tiap-tiap siswa, yang jika dikorelasikan akan memberikan sebuah ukuran konsistensi internal. Koefisien ini mengindikasikan derajat tempat diperolehnya hasil yang konsisten dari kedua paruh tes, dan mungkin dianggap sebagai “estimasi reliabilitas tes setengah panjang”.
Meskipun metode ini seringkali diterapkan dengan tes-tes tradisional yang mengandung jumlah item yang dapat diukur, metode split-half ini juga dapat diterapkan untuk penilaian yang terdiri dari angka masing-masing tugas yang lebih kecil, atau yang membutuhkan periode waktu yang lebih diperpanjang untuk menyelesaikannya. Beberapa informasi terbatas dapat diperoleh dengan sedikitnya dua tugas dengan mengkorelasikan skor yang diperoleh dalam satu tugas dengan skor yang diperoleh dalam tugas lainnya. Informasi yang lebih baik dapat diperoleh saat jumlah tugas juga meningkat. Dengan jumlah tugas yang lebih sedikit, katakanlah empat hingga delapan, akan lebih baik untuk membagi tugas tersebut ke dalam dua perangkat yang dinilai merupakan perangkat yang paling dapat dibandingkan satu-sama lain dibandingkan hanya bersandar pada metode ganjil-genap yang lebih mekanis yang hanya tepat digunakan saat terdapat jumlah tugas atau item yang besar.
Seperti telah dijelaskan sebelumnya, koefisien reliabilitas ditentukan dengan mengkorelasikan skor dua paruh penilaian. Untuk mengestimasi skor reliabilitas berdasarkan pada penilaian penuh, biasanya diterapkan rumus Sperman—Brown:
Reliabilitas penilaian penuh= 2 X korelasi penilaian paruh
                                                 1 + korelasi penilaian paruh
Kesederhanaan rumus tersebut dapat dilihat dalam contoh-contoh berikut, dimana koefisien korelasi antar skor dalam dua paruh penilaian adalah .60:
Reliabilitas dalam penilaian penuh = 2 X .60 = 1.20 = 75
                                                              1 + .60   1.60
Koefisien korelasi .7.5 ini kemudian mengestimasi reliabilitas sebuah penilaian penuh ketika penilaian paruh dikorelasikan .60.
Metode split-half mirip dengan metode bentuk ekuivalen karena metode ini mengindikasikan tingkat dimana sampel tugas adalah sebuah sampel yang dapat diandalkan dalam isi yang diukur. Sebuah korelasi tinggi antara skor pada kedua paruh penilaian tersebut menunjukkan ekuivalensi kedua paruh tersebut dan memadainya proses pengambilan sampel. Reliabilitas metode split-half didasarkan pada pemberian penilaian tunggal. Ketika dua bentuk dari sebuah penilaian diberikan, meskipun dalam jarak yang dekat, lebih banyak kesempatan munculnya keadaan tidak konsisten (misalnya, perbedaan perhatian antara bentuk satu dan lainnya, kecepatan bekerja, upaya, keletihan, dan isi penilaian). Oleh karena metode bentuk ekuivalen dimasukkan dalam perhitungan sumber ketidakkonsistenan, metode ini memberikan sebuah evaluasi reliabilitas yang lebih keras.


Metode Kuder—Richardson dan Koefisien Alfa
Metode lainnya untuk mengestimasi reliabilitas skor penilaian dari sebuah pemberian tunggal (satu kali) adalah dengan sarana rumus seperti yang dikembangkan oleh Kuder dan Richardson. Seperti dengan metode split-half, formula ini memberikan sebuah indeks konsistensi internal tetapi tidak memerlukan pembelahan penilaian menjadi setengah untuk tujuan pemberian skor. Salah satu rumus, disebut Formula 20 Kuder—Richardson, hanya dapat diterapkan dalam situasi dimana tanggpan siswa diberi skor secara dikotomis (nol atau satu), sehingga sangat berguna dengan item tes tradisional  yang diberi skor benar atau salah. KR-20 didasarkan pada proporsi person-person yang mengerjakan tiap-tiap item dan standar deviasi total skor. (sebuah standar deviasi adalah sebuah ukuran persebaran skor—lihat Apendix A). Generalisasi KR-20 bagi penilaian yang mempunyai lebih dari dikotomi, skor benar—salah (misalnya, tiap-tiap tugas diberi skor dalam skala 5), disebut dengan Koefisien Alfa. Perhitungan KR-20 atau Koefisien Alfa agak sulit dipakai kecuali jika informasinya telah tersedia yang berkaitan dengan proporsi passing atau standar deviasi skor untuk tugas individual. Namun, dengan meningkatnya ketersediaan mikrokomputer dan software untuk memberi skor dan menganalisis tes, sekarang lebih mudah untuk memperoleh estimasi reliabilitas KR-20 dan Koefisien Alfa.
Akan tetapi di sini, perhatian kita lebih kepada interpretasi koefisien tersebut daripada terhadap kalkulasinya. Estimasi reliabilitas KR-20 dan Koefisien Alfa menyediakan informasi mengenai derajat dimana item-item atau tugas dalam penilaian mengukur karakteristik yang mirip. Untuk sebuah tes dengan isi yang relatif homogen (misalnya sebuah tes perhitungan aritmatika), estimasi reliabilitas secara umum akan mirip dengan estimasi yang diberikan oleh metode split-half. Memang, estimasi KR-20 dan Koefisien Alfa dapat dianggap sebagai rata-rata semua koefisien untuk kelompok yang diuji. Hal ini merupakan suatu manfaat ketika mempertimbangkan sebuah penilaian dengan isi yang relatif homogen karena estimasi tersebut tidak tergantung pada cara dimana item diberikan kepada dua paruh tes seperti dalam metode split-half. Namun, Bagi penilaian yang dirancang untuk mengukur hasil pembelajaran yang lebih homogen (misalnya, sebuah penilaian yang mencakup sejarah masa lampau, Abad Pertengahan, dan sejarah modern) estimasi KR-20 atau Koefisien Alfa akan lebih kecil dibandingkan dengan koefisien yang diberikan oleh metode split-half dan metode ini pun akhirnya lebih dipilih.
Kesederhanaan dalam menerapkan metode split-half, KR-20, atau Koefisien Alfa telah menjadikan penggunaan metode-metode ini tersebar luas untuk menentukan reliabilitas. Namun, ada batasan dalam membatasi nilai metode-metode ini. Pertama, metode tersebut tidak sesuai untuk penilaian yang dipercepat—untuk penilaian dengan keterbatasan waktu yang menghalangi siswa untuk mencoba setiap soal. Jika kecepatan merupakan faktor yang signifikan dalam penilaian, estimasi reliabilitas akan tercebur ke dalam derajat yang tidak diketahui. Hal ini memberikan permasalahn yang tidak terlalu serius dalam mengestimasi reliabilitas hasil penilaian yang dibuat oleh guru, karena penilaian ini biasanya dirancang untuk memberikan waktu yang cukup kepada siswa untuk melengkapi seluruh tugas/soal. Namun, dalam kasus tersebut keterbatasan waktu jarang sekali liberal sehingga semua siswa melengkapi tes. Maka, ukuran konsistensi internal yang dilaporkan dalam petunjuk tes harus diinterpretasikan dengan perhatian/kewaspadaan kecuali jika bukti/fakta juga disajikan bahwa kecepatan kerja adalah faktor yang dapat diabaikan. Untuk tes yang dipercepat, reliabilitas diperoleh dengan metode tes—retes atau bentuk-bentuk ekuivalen harus dicari.
Pembatasan kedua dalam prosedur konsistensi internal ialah prosedur tersebut tidak mengindikasikan keadaan konstan tanggapan siswa dari hari ke hari. Dalam hal ini, prosedur-prosedur tersebut mirip dengan metode bentuk ekuivalen tanpa suatu interval waktu. Hanya saja prosedur tes—retes mengindikasikan tingkat dimana hasil penilaian dapat digeneralisasikan dalam periode waktu yang berbeda.

Konsistensi Antarpenilai
Pertimbangan diperlukan dalam memberi skor/nilai tanggapan siswa terhadap banyak tipe penilaian. Hal ini jelas dalam kasus ujian esai, tetapi pertimbangan juga diperlukan dalam memberi skor tanggapan terhadap permasalahan matematika atau praktek laboratorium dalam ilmu alam. Ketika kerja siswa dinilai berdasarkan pertimbangan, akan masuk akal untuk menanyakan apakah skor yang sama akan diberikan oleh pertimbangan yang berkualifikasi sama lainnya. Individu guru kelas jarang menyuruh guru lain secara independen memberi skor contoh-contoh kerja siswa dari kelas mereka. Akan tetapi terdapat pertumbuhan kebutuhan untuk mengevaluasi konsistensi antar penilai sebagai sebuah hasil dari peningkatan jumlah tes yang diselenggarakan negara bagian dan distrik yang harus diberi skor berdasarkan pertimbangan.
Estimasi konsistensi antarpenilai relatif transparan. Dua penilai atau lebih harus secara independen menilai kinerja yang diperoleh untuk sebuah sampel siswa yang dipilih secara tepat. Konsistensi dapat diperoleh dengan mengkorelasikan skor yang diberikan oleh satu hakim/penilai dengan nilai-nilai lain yang diberikan oleh penilai lain. Konsistensi juga dapat dievaluasi dengan menghitung proporsi waktu dimana kinerja siswa menerima skor yang sama persis dari dua orang penilai dan proporsi yang ada di dalam poin tunggal satu sama lain.
Sebagai contoh, anggaplah bahwa dua penilai secara independen memberi skor esai lima puluh siswa dalam skala enam. Hasil penilaian disimpulkan pada Tabel 4.2. Penilai 1 memberikan skor 6 untuk lima esai. Dari kelima esai tersebut, Penilai 2 memberikan skor 6 untuk tiga esai dan 4 dan 5 untuk dua esai lainnya. maka tiap entri dalam sel Tabel 4.2. menunjukkan jumlah esai yang diberikan skor oleh Penilai 1 berasosiasi dengan baris, sedangkan Penilai 2 memberikan skor berkaitan dengan kolom tabel. Persentase kesepakatan yang tepat diperoleh dengan menjumlahkan perhitungan dimana kedua penilai memberikan skor yang sama (tampak dalam cetak tebal), membagi hasil penjumlahan tersebut dengan jumlah keseluruhan esai, dan mengalikan hasilnya dengan 100.
Persen kesepakatan tepat = 100 x (13 + 7 + 5 + 4 + 2 + 3 + 31/50) = 48%
Presentase waktu yang disetujui penilai dalam satu poin (pada perhitungan antara dua garis diagonal) akan dihitung dalam cara yang mirip. Untuk contoh ini, persentase kesepakatan antara satu poin skor adalah 88 persen (100 kali 44/50). Satu indikator lainnya adalah korelasi antara dua perangkat skor tersebut, dimana untuk data pada Tabel 4.2. adalah 88. Tingkat konsistensi antarpenilai yang tampak dalam Tabel 4.2. dikatakan tinggi jika dibandingkan dengan tingkat konsistensi yang secara umum dicapai oleh penilai independen. Meski demikian, enam dari lima puluh siswa tersebut akan mengalami fluktuasi 2 poin pada skor mereka, tergantung pada orang yang melakukan penilaian. Satu cara untuk mengurangi pengaruh penilai adalah untuk menjadikan masing-masing kinerja dinilai secara independen oleh dua penilai atau lebih dan menggunakan rata-rata penilaian. Skor ganda merupakan prkatek yang umum diterapkan dalam situasi dimana kinerja yang dinilai dengan pertimbangan memiliki konsekuensi yang penting bagi individu.
Persentase persetujuan dan nilai korelasi mengindikasikan derajat dimana urutan tanggapan bersifat konsisten dari satu penilai ke penilai lainnya. Namun, dimungkinkan untuk memiliki sebuah korelasi yang tinggi, dan bahkan sebuah persentase kesepakatan, di saat masih mempunyai perbedaan-perbedaan penting dalam keseluruhan kemurahan hati kedua penilai. Ketika terdapat ketidaksepakatan, ada kecenderungan yang kuat bagi satu penilai untuk secara konsisten memberikan sebuah skor yang lebih tinggi daripada penilai lainnya. perbandingan rata-rata skor yang diberikan oleh tiap-tiap penilai memberikan sebuah pemeriksaan/cek pada perbedaan dalam kemurahan hati/kelonggaran. Sebagai contoh, pada Tabel 4.2. rata-rata penilaian yang diberikan pada esai memiliki kemiripan (3.52 untuk Penilai 1 dan 3.60 untuk Penilai 2). Maka, tidak ada penyebab untuk mempermasalahkan dalam hal ini. Hasil yang ditunjukkan pada tabel 4.3. (yang mungkin telah diperoleh jika Penilai 1 telah dipasangkan dengan Penilai 3 ketimbang Penilai 2), di sisi lain, dengan jelas mengindikasikan bahwa Penilai 3 jauh lebih toleran dibandingkan Penilai1, diasamping fakta bahwa persentase kesepakatan tetap dan persentase kesepakatan dalam satu poin memiliki kesamaan (48% dan 88%) untuk data pada Tabel 4.3. seperti untuk data pada Tabel 4.2.
Evaluasi konsistensi antarpenilai merupakan hal yang penting untuk memastikan bahwa beberapa siswa tidak menerima skor yang tinggi sebagai hasil dari kemurahan hati penilai sedangkan murid-murid yang lain menerima skor rendah karena pekerjaan mereka dinilai oleh penilai yang keras. Skor rata-rata yang diberikan pada seperangkat tanggapan umum persentase kesepakatan, dan korelasi antara skor yang diberikan oleh pasangan penilai kesemuanya berkontribusi terhadap keseluruhan evaluasi tingkat konsistensi di antara penilai yang berbeda.
Untuk mencapai derajat yang tinggi dalam konsistensi antarpenilai diperlukan pengembangan konsensus di antara para penilai dengan memperhatikan tipe kinerja yang dinilai. Kesepakatan dalam rubrik penilaian dan pelatihan penilai untuk menggunakan rubrik-rubrik tersebut dengan konsistensi antarpenilai dan memastikan bahwa perbedaan dalam kekerasan penilaian dari satu penilai ke penilai lainnya tidak menempatkan beberapa siswa dalam kerugian.
Pencapaian konsistensi antarpenilai merupakan hal yang penting untuk tugas yang dinilai dengan pertimbangan, tetapi hal tersebut tidak menjelaskan apapun tentang tipe konsistensi yang lain. Sebagai contoh, sebuah konsistensi tingkat tinggi tidak menjamin konsistensi penilaian dalam berbagai tugas. Ada metode lainnya dalam mengevaluasi berbagai tipe konsistensi atau generalisasi (dalam berbagai tugas, penilai dan waktu) secara simultan. Teori generalisasi memberikan fondasi bagi metode-metode tersebut. Teori tersebut berada di luar ruang lingkup buku ini, tetapi pengantar yang bagus diberikan oleh Shavelson & Webb (1991).

Membandingkan Metode
Seperti telah dinyatakan sebelumnya, masing-masing metode dalam mengestimasi reliabilitas memberikan informasi yang berbeda berkaitan dengan konsistensi hasil tes. Sebuah ringkasan informasi ini disajikan pada Tabel 4.4., yang menunjukkan bahwa sebagian besar metode berkaitan dengan hanya satu atau dua tipe konsistensi. Seperti tergambar dari namanya, metode antar-penilai hanya mengevaluasi derajat konsistensi skor yang diberikan kepada kinerja yang sama oleh penilai yang berbeda. metode tes—retes, tanpa interval waktu, hanya memperhitungkan konsistensi prosedur penilaian dan kekonstananan jangka pendek dalam hal respon/tanggapan. Jika suatu interval waktu diberikan di antara penilaian, kekonstanan karakteristik siswa dari hari ke hari juga akan dicakup. Namun, prosedur tes—retes tidak memberikan informasi berkaitan dengan  konsistensi hasil pada berbagai sampel yang berbeda, karena kedua perangkat skor didasarkan pada penilaian yang sama.
    
Standar Kesalahan dalam Pengukuran
Jika saja dimungkinkan untuk menilai berulang-ulang dalam prosedur penilaian yang sama, kita akan menjumpai bahwa skor akan bervariasi. Jumlah variasi dalam skor akan langsung dikaitkan dengan reliabilitas prosedur penilaian.  Reliabilitas rendah akan diindikasikan oleh variasi yang sedikit dari satu penilaian ke penilaian selanjutnya. Meskipun tidak praktis untuk memberikan perangkat tugas penilaian yang sama berkali-kali kepada siswa, dimungkinkan untuk mengestimasi jumlah variasi yang diharapkan dalam skor tersebut. Estimasi ini disebut sandar kesalahan dalam pengukuran.
Petunjuk tes untuk tes yang diterbitkan biasanya mencakup standar kesalahan dalam pengukuran. Maka, hal yang perlu kita lakukan adalah memasukkan kesalahan standar ke dalam perhitungan ketika menginterpretasikan skor tes individu. Sebagai contoh, mari kita asumsikan bahwa kita baru saja memberikan sebuah tes pencapaian standar kepada sebuah kelas tingkat empat dan hasilnya mengindikasikan bahwa Mary Smith mempunyai sebuah skor ekuivalensi tingkat (GE) 5.2 dalam tes matematika. Sebuah skor ekuivalensi tingkat mengindikasikan level peringkat yang dipunyai rata-rata siswa yang memiliki jumlah jawaban benar yang sama seperti Mary. (Lihat Bab 14 untuk pembahasan skor ekuivalen peringkat). Kita menjumpai bahwa dalam petunjuk tes kesalahan standar dalam pengukuran dalam tes matematika adalah 4. Apa yang ditunjukkan oleh angka 4 tentang prestasi matematika Mary? Secara umum, angka tersebut mengindikasikan jumlah kesalahan yang harus dipertimbangkan dalam menginterpretasikan skor Mary. Lebih spesifiknya, angka tersebut memberikan batasan dimana kita dapat secara rasional berharap untuk menemukan skor prestasi matematika Mary yang sesungguhnya. Skor yang sesungguhnya adalah skor yang akan diperoleh jika tes dapat diandalkan dengan sempurna. Jika Mary Smith diuji berulang-ulang di bawah kondisi yang identik dan tidak terdapat ingatan, pembelajaran, latihan, atau pengaruh keletihan, 68 persen dari skor yang diperolehnya akan jatuh pada standar kesalahan (.4) dari skor sesungguhnya, 95 persen akan berada pada dua standar kesalahan (.8), dan 99.7 persen akan berada pada tiga kesalahan standar 91.2) (Lihat “Distribusi Hipotesis yang Mengilustrasikan Standar Kesalahan dalam Pengukuran). Untuk tujuan praktis, batasan ini dapat diterapkan kepada skor yang diperoleh Mary 5.2 untuk memberi kita range yang ditunjukkan pada Tabel 4.5. dimana kita dapat menemukan skor Mary yang sebenarnya.
Meskipun skor Mary yang besarnya 5.2 mengindikasikan bahwa ia berhasil lebih baik dalam tes khusus ini dibandingkan dengan siswa yang berada pada peringkat empat, rentangan skor menunjukkan bahwa kita tidak bisa memastikan bahwa skor Mary yang sebenarnya berada di atas rata-rata siswa yang berada pada peringkat empat tadi. Seseorang bisa sangat percaya diri bahwa skornya yang sebenarnya adalah suatu angka di antara 4.4 dan 6.0 karena 95 persen skor yang diamati jatuh pada dua standar kesalahan skor yang sesungguhnya. Namun, dalam menginterpretasikan skor tes individu, penggunaan satu standar kesalahan pengukuran lebih umum dilakukan. Maka, rentangan 4.8 sampai 5.6 biasanya akan digunakan untuk mendeskripsikan kinerja tes Mary.
Standar kesalahan pengukuran menunjukkan mengapa sebuah skor tes harus diinterpretasikan pita skor (disebut pita kepercayaan diri) dibandingkan sebagai sebuah skor spesifik. Dengan sebuah standar kesalahan yang besar, pita skor dikatakan luas, dan kita mempunyai sedikit kepercayaan diri dalam skor yang kita peroleh. Jika standar kesalahannya kecil, pita skor akan sempit dan kita akan mempunyai kepercayaan diri yang lebih besar bahwa/karena skor yang kita peroleh ukuran karakteristik yang dapat dipercaya. Dengan memandang skor penilaian sebagai pita skor akan memungkinkan untuk menginterpretasikan dan menggunakan hasil penilaian secara lebih cerdas. Perbedaan yang nyata dalam skor, antarindividu dan bagi individu yang sama dalam periode waktu tertentu, sering tidak muncul ketika standar kesalahan pengukuran dipertimbangkan. Seorang guru atau pembimbing yang sadar akan standar kesalahan pengukuran menyadari bahwa sangatlah mustahil untuk dogmatis dalam menginterpretasikan perbedaan minor dalam skor penilaian.
Hubungan antara koefisien reliabilitas dan standar kesalahan pengukuran dapat dilihat pada Tabel 4.6. yang menyajikan standar kesalahan pengukuran untuk berbagai koefisien reliabilitas dan standar deviasi. Ingatlah bahwa saat koefisien reliabilitas meningkat bagi standar deviasi yang ada, standar kesalahan pengukuran akan menurun. Maka, koefisien reliabilitas besar berkaitan dengan kecilnya kesalahan pengukuran dalam skor tes spisifik, dan koefisien reliabilitas yang kecil berasosiasi dengan kesalahan pengukuran yang besar.
Penjelasan teoretis tentang Standar Kesalahan Pengukuran
  1. Diasumsikan bahwa tiap-tiap person mempunyai sebuah skor sebenarnya dalam sebuah tes tertentu, nilai hipotesis yang merepresentasikan sebuah skor terbebas dari kesalahan
  2. Jika seseorang dapat diuji secara berulang kali (tanpa hafalan, pengaruh latihan, atau perubahan lainnya), rata-rata skor yang diperoleh akan memperkirakan skor yang sesungguhnya, dan dapat skor yang diperoleh akan terdistribusi secara biasa di sekitar skor sesungguhnya (lihat diagram)
  3. Dari apa yang dikenal tentang kurva distribusi normal, kira-kira 68 persen dari skor yang diperoleh akan jatuh dalam satu standar kesalahan pengukuran dari skor person yang sesungguhnya; kira-kira 95% dari skor tersebut akan jatuh dalam dua standar kesalahan; dan kira-kira 99.7 persen akan jatuh pada tiga standar kesalahan (lihat “Kurva Normal dan Unit Standar Deviasi” pada bab 17. Standar kesalahan pengukuran merupakan standar deviasi kesalahan pengukuran).
  4. Meskipun skor yang sesungguhnya bisa saja tidak akan pernah diketahui, standar kesalahan pengukuran dapat diterapkan terhadap skor yang diperoleh seseorang untuk menata “batasan yang rasional” untuk menempatkan skor yang sesungguhnya (misalnya, skor yang diperoleh 97±5 = 92 hingga 102).
  5. “Batasan Rasional” ini memberikan confidence bands untuk menginterpretasikan suatu skor yang diperoleh. Ketika standar kesalahan pengukurannya kecil, confidence band juga sempit (mengindikasikan reliabilitas tinggi), sehingga kita mempunyai kepercayaan diri yang lebih besar bahwa skor yang diperoleh mendekati skor yang sesungguhnya.  

Tabel 4.6. Standar Kesalahan pengukuran untuk nilai koefisien reliabilitas dan standar deviasi
Jika reliabilitas sebuah penilaian dan standar deviasi skor penilaian telah diketahui, maka Tabel 4.6 dapat digunakan untuk mengestimasi standar kesalahan. Dalam kenyataannya, hal ini merupakan tujuan dikembangkannya tabel tersebut. Hal yang perlu dilakukan seseorang untuk memperoleh sebiah estimasi standar kesalahan dari suatu penilaian adalah dengan memasuki kolum yang terdekat dengan koefisien reliabilitas dan baris yang terdekat dengan standar deviasi dan membaca standar kesalahan pengukuran dari sel kolom dan baris tersebut. sebagai contoh, sebuah koefisien reliabilitas .90 dan sebuah standar deviasi 16 akan menghasilkan standar kesalahan 5.1, yang diperoleh dengan mengurutkan ke bawah kolom .90 menuju baris dimana standar deviasinya adalah 16. (Lihat kotak pedoman)
Ada beberapa hal yang harus diperhatikan saat menggunakan Tabel. 4.6. untuk mengestimasi standar kesalahan pengukuran. Pertama, koefisien reliabilitas dan standar deviasi harus didasarkan pada kelompok atau individu yang sama. Kedua, memasuki tabel dengan koefisien reliabilitas dan standar deviasi yang terdekat dengan petunuuk tersebut hanya akan memberikan sebuah perkiraan tentang standar kesalahan pengukuran.
Faktor-Faktor yang Mempengaruhi Ukuran Raliabilitas
Sejumlah faktor telah terbukti mempengaruhi ukuran reliabilitas konvensional. Jika kesimpulan yang tepat hendak ditarik, faktor-faktor ini harus dipertimbangkan ketika menginterpretasikan koefisien reliabilitas. Sebagai contoh, kita telah melihat bahwa tes yang dipercepat akan menghasilkan koefisien reliabilitas yang besar dengan konsistensi internal metode dalam mengestimasi reliabilitas. Kita juga harus memperhatikan bahwa koefisien reliabilitas tes—retes dipengaruhi oleh interval antarpenilaian, dengan interval yang lebih pendek yang menghasilkan koefisien reliabilitas yang lebih besar. Meskipun kita mungkin ingin memberi prosedur penilaian dengan koefisien reliabilitas terbesar, kita tidak akan melakukannya jika kita mengetahui bahwa koefisien yang dilaporkan dicemari oleh faktor-faktor yang tidak relevan dengan konsistensi prosedur pengukuran. Demikian pula, kita mungkin mengurangi perbedaan antara koefisien reliabilitas yang dilaporkan bagi dua penilaian yang berbeda jika kondisi dimana koefisien tersebut diperoleh memberikan tes dengan koefisien reliabilitas terbesar.
Pertimbangan tentang faktor yang mempengaruhi reliabilitas tidak hanya akan membantu kita dalam menginterpretasikan secara lebih bijak koefisien reliabilitas tes terstandar tetapi juga dapat membantu kita dalam mengkonstruksi penilaian kelas yang reliabel/terpercaya. Meskipun para guru jarang menemukan bahwa pertimbangan tersebut menguntungkan untuk mengkalkulasikan koefisien reliabilitas bagi penilaian yang mereka bangun, mereka harus menyadari mengenai faktor-faktor yang mempengaruhi reliabilitas untuk memaksimalkan reliabilitas penilaian kelas mereka sendiri.
Jumlah Tugas Penilaian
Secara umum, semakin besar jumlah tugas dalam penilaian, akan semakin tinggi pula reliabilitasnya. Hal ini dikarenakan sebuah penilaian yang lebih panjang akan memberikan suatu sampel yang lebih memadai dalam hal perilaku yang diukur, dan skor yang diperoleh mungkin hanya sedikit terdistorsi oleh faktor peluang seperti keakraban khusus dengan tugas yang diberikan atau kurangnya pemahaman tentang apa yang diharapkan dari tugas yang diberikan tersebut. Anggaplah bahwa untuk mengukur keterampilan mengeja, kita meminta siswa untuk mengeja satu kata. Hasilnya tidak reliabel selamanya. Siswa yang mampu mengeja kata tersebut akan menjadi seorang pengeja yang sempurna, dan siswa yang tidak mampu mengeja akan mengalami kegagalan total. Jika kita kebetulan memilih kata yang sulit, sebagian besar siswa akan gagal; jika kata yang dipilih adalah adalah kata yang mudah, sebagian besar siswa akan menjadi pengeja yang sempurna. Fakta bahwa satu kata memberikan estimasi yang tidak reliabel tentang kemampuan ejaan siswa akan tampak sangat jelas. Hal ini harus sama jelasnya bahwa saat kita menambahkan kata-kata ejaan lebih banyak lagi ke dalam daftar, kita semakin dekat dengan sebuah perkiraan yang baik tentang kemampuan ejaan tiap-tiap siswa. Skor yang didasarkan pada sejumlah besar kata-kata ejaan lebih memungkinkan untuk merefleksikan perbedaan sesungguhnya dalam kemampuan mengeja sehingga akan lebih stabil. Dengan meningkatkan ukuran sampel perilaku mengeja, sehingga, kita meingkatkan konsistensi pengukuran kita. Sebuah tes yang lebih panjang juga cenderung mengurangi pengaruh faktor-faktor peluang seperti penebakan. Sebagai contoh, dalam tes benar-salah sejumlah sepuluh item, seorang siswa mungkin mengetahui tujuh item dan menebak tiga item lainnya. Suatu tebakan yang benar tentang ketiga kata tersebut akan menghasilkan sebuah skor yang sempurna, dan tebakan yang salah akan menghasilkan tujuh item saja yang benar. Hal ini merepresentasikan sebuah variasi yang dapat dipertimbangkan dalam skor tes yang dihasilkan dari penebakan itu sendiri. Namun, jika siswa yang sama ini mengerjakan tes dengan 100 item soal benar-salah, tebakan yang benar cenderung dibatalkan oleh tebakan yang salah, dan skornya akan lebih dapat dipercaya indikasi tentang pengetahuan yang sesungguhnya.
Fakta bahwa sebuah penilaian yang lebih panjang cenderung memberikan hasil yang lebih reliabel telah diimplikasikan lebih awal, dalam pembahasan kita tentang motode belah dua. Anda akan mengetahui bahwa ketika skor dari dua belahan tes dikorelasikan dengan .60, rumus Spearman-Brown mengestimasi reliabilitas skor untuk penialian lengkap sebesar 7.5. hal ini ekuivalen dengan estimasi peningkatan dalam reliabilitas yang diharapkan saat jumlah tugas penilaian digandakan/dobel/digabung.
Hubungan antara panjang soal dengan reliabilitas memberikan/memunculkan sebuah permasalahan bagi penilaian yang memerlukan periode waktu yang diperluas/diperpanjang dalam melengkapinya, karena ciri penting dalam hubungan panjang—reliabilitas adalah jumlah tugas, bukan jumlah waktu penilaian. Jika masing-masing tugas memerlukan sebuah periode waktu yang penuh atau bahkan lebih lama untuk diberikan, maka jelaslah bahwa peningkatan dalam jumlah tugas mempunyai sebuah pengorbanan yang mahal dalam hal waktu yang harus ditempuh siswa. Namun demikian, jika konsistensi kinerja dalam tugas berbeda yang dimaksudkan untuk mengakses suatu domain umum dalam pencapaian ternyata rendah, kemudian tugas ganda akan diperlukan untuk mencapai tingkat reliabilitas yang memadai.
Setidaknya ada dua cara dimana periode waktu yang diperpanjang diperlukan agar hasil penilaian dapat mencapai reliabilitas yang memadai dapat ditentukan. Pertama, waktu dan pengeluaran yang lebih besar dapat dibatasi ketika penilaian memiliki konsekuansi utama bagi individu yang dinilai atau bagi masyarakat (misalnya, lisencing of physician –pemberian izin pada ahli jiwa). Kedua, kesetiaan periode waktu yang diperluas terhadap penilaian dibatasi ketika penilaian tersebut sendiri mempertimbangkan aktivitas instruksional yang baik yang berkontribusi tidak hanya pada pengukuran penilaian, tetapi secara langsung terhadap pembelajaran siswa. Pembatasan yang lebih akhir cenderung lebih relevan bagi penilaian dalam sekolah dasar dan sekolah menengah pertama daripada pembatasan yang pertama.
Terdapat hal yang penting dalam mengevaluasi pengaruh jumlah tugas dalam reliabilitas skor: pernyataan yang telah kita buat mengasumsikan bahwa penilaian tadi akan diperpanjang dengan menambahkan tugas dari kualitas yang sama seperti tugas-tugas yang akan mampu dikerjakan dengan baik atau menambahkan sepuluh kata ejaan yang sangat sulit yang tak akan mampu dikerjakan dengan benar oleh satupun dari mereka tidak akan meningkatkan reliabilitas skor dalam sebuah tes mengeja. Pada kenyataannya, tak aka nada pengaruh dalam koefisien reliabilitas, oleh karena panambahan tersebut tidak akan mempengaruhi keadaan relatif siswa pada siswa lainnya dan kelompok tersebut.
Dalam mengkonstruksi tes kelas atau memberikan tugas penilaian, perlu diingat dalam benak tentang pengaruh jumlah pertanyaan atau tugas pada reliabilitas. Jika hanya sejumlah kecil pertanyaan/tugas dapat digunakan (karena keterbatsan waktu, usia siswa, atau perluasan waktu yang diperlukan untuk melengkapi tiap-tiap tugas), maka penilaian yang lebih sering mungkin dipergunakan untuk memperoleh sebuah ukuran pencapaian yang lebih dapat diandalkan.
Dalam menggunakan tes standar, kita harus waspada terhadap skor bagian berdasar pada item yang relatif sedikit, skor tersebut biasanya memiliki reliabilitas yang rendah dan hanya sedikit nilai praktisnya. Sebelum menggunakan skor tersebut, petunjuk tes harus diperiksa reliabilitasnya. Jika reliabilitas tersebut tidak terdapat dalam petunjuk atau sangat rendah, skor bagian harus diabaikan, dan hanya skor tes total yang harus digunakan.   
Persebaran Skor
Seperti telah dijelaskan sebelumnya, koefisien reliabilitas dipengaruhi secara langsung oleh persebaran skor dalam kelompok yang dinilai. Hal-hal lainnya bersifat sama, semakin besar persebaran skor, semakin tinggi pula estimasi reliabilitasnya. Oleh karena koefisien reliabilitas yang lebih besar dihasilkan ketika individu-individu berada pada posisi yang relatif sama dalam sebuah kelompok dari satu penilaian ke penilaian lainnya, koefisien tersebut secara alami mengikuti bahwa apapun yang mengurangi kemungkinan perubahan posisi dalam kelompok juga berkontribusi pada koefisien reliabilitas yang lebih besar. Dalam hal ini, perbedaan yang lebih besar di antara skor individual mengurangi kemungkinan perubahan posisi. Dengan kata lain, kesalahan pengukuran kurang berpengaruh terhadap posisi relatif individual ketika perbedaan di antara anggota kelompok juga besar; yakni ketika terdapat persebaran skor yang luas.
Hal ini dapat dengan mudah diilustrasikan tanpa mengacu pada statistic. Bandingkan kedua perangkat skor yang ditunjukkan pada Tabel 4.8[1]. dalam hal kemungkinan bahwa individu-individu akan berada pada posisi yang relatif sama dalam pemberian penilaian yang kedua. Meskipun/bahkan inspeksi sepintas skor-skor ini akan menunjukkan bahwa person dalam kelompok B lebih cenderung mengalami perubahan posisi dalam pemberian penilaian yang kedua. Dengan sebuah persebaran hanya 10 poin dari skor puncak menuju skor dasar/terbawah, perubahan radikal dalam hal posisi dapat dihasilkan dari adanya perubahan dalam skor, meskipun hanya sedikit saja.
Namun, dalam Kelompok A, skor individual dapat berbeda-berbeda/beragam beberapa poin pada pemberian tes yang kedua, dengan sangat sedikit perubahan dalam posisi relatif anggota kelompok. Persebaran skor tes yang besarpada Grup A membuat perubahan dalam posisi relatif dan itu semua memberi kita kepercayaan diri yang lebi besar bahwa perbedaan di antara anggota kelompok ini memang nyata.

Objektivitas
Objektivitas sebuah penilaian mengacu pada derajat dimana skor yang sama-sama kompeten memperoleh hasil yang sama. Sebagian besar tes standar kecerdasan dan pencapaian/prestasi sangat tinggi sifat objektifnya. Item-item tes merupakan tipe objektif (misalnya, pilihan ganda), dan skor yang dihasilkan tidak dipengaruhi oleh pertimbangan atau opini. Pada kenyataannya, tes tersebut biasanya dikonstruksi sehingga tes tersebut dapat secara akurat diberi skor oleh juru tulis yang terlatih dan mesin penilai. Saat prosedur yang sangat objektif tersebut digunakan, reliabilitas hasil tes tidak dipengaruhi oleh prosedur pemberian skor.
Akan tetapi, untuk penilaian kelas yang dikonstruksi oleh guru atau penilaian berbasis kinerja yang diatur oleh negara bagian dan distrik, objektivitas dapat memainkan peran penting dalam memperoleh ukuran prestasi yang reliabel. Dalam ujian esai dan penilaian yang memerlukan pemberian skor berdasarkan pertimbangan, hasilnya tergantung pada person yang memberi skor (untuk tingkat-tingkat tertentu). Orang yang berbeda pun memperoleh hasil yang berbeda, dan bahkan orang yang sama pun memperoleh hasil yang berbeda dalam waktu yang berbeda. Inkonsistensi dalam pemberian skor tersebut mempunyai suatu pengaruh yang berlawanan dalam reliabilitas ukuran yang diperoleh. Tes tersebut sekarang merefleksikan opini dan bias dan juga perbedaan di antara siswa dalam karekateristik yang diukur.
Solusinya adalah tidak hanya dengan menggunakan tes objektif, atau dengan meninggalkan sebuah pengaruh yang berlawanan dalam validitas, dan seperti telah dibahas sebelumnya, validitas merupakan kualitas yang terpenting dalam hasil penilaian. Solusi yang lebih baik adalah dengan memilih prosedur penilaian yang paling tepat bagi tujuan pembelajaran yang dinilai dan kemudian membuat prosedur penilaian seobjektif mungkin. Sebagai contoh, dalam menggunakan tes esai, objektivitas dapat ditingkatkan dengan penataan kalimat pertanyaan secara hati-hati dengan sebuah standar perangkat aturan untuk memberi skor. Demikian pula objektivitas dalam pemberian skor kecakapan dalam ilmu alam dapat ditingkatkan dengan membuat kriteria pemberian skor yang jelas dan penilai yang telah terlatih secara cermat. Peningkatan objektivitas tersebut akan berkontribusi pada reliabilitas yang lebih besar tanpa mengorbankan validitas.  

Metode untuk Mengestimasi Reliabilitas
Ketika menguji koefisien reliabilitas tes standar, hal yang penting untuk dipertimbangkan adalah metode yang digunakan untuk memperoleh estimasi reliabilitas. Secara umum, ukuran koefisien reliabilitas terkait dengan metode untuk mengestimasi reliabilitas.
                 
1.    Metode Tes—Retes        
Mungkin lebih besar daripada metode belah dua jika interval waktunya pendek. Koefisien akan menjadi lebih kecil saat interval waktu antartes ditingkatkan.
2.    Metode Bentuk Ekuivalen          
(tanpa interval waktu)

Koefisien cenderung lebih rendah daripada dengan metode belah dua atau metode tes—retes yang menggunakan interval waktu pendek.
3.    Metode Bentuk Ekuivalen
(dengan interval waktu)
Koefisien menjadi lebih kecil saat interval waktu anta rtes ditingkatkan.
4.    Metode Belah-Dua
(misalnya, ganjil-genap)
Memberikan suatu indikasi konsistensi internal sebuah tes. Estimasi yang tinggi dihasilkan untuk tes yang dipercepat.
5.    Metode Kuder—Richardson
(Koefisien Alfa)
Biasanya memberikan estimasi reliabilitas yang lebih kecil daripada estimasi yang diperoleh dari metode split half. Estimasi ini juga dipengaruhi oleh kecepatan.
6.    Metode Antarpenilai
Memberikan sebuah indikasi derajat dimana skor yang mirip diperoleh dengan tanpa mengacu pada siapa yang melakukan penilaian. Konsistensi antarpenilai dapat ditingkatkan dengan menggunakan aturan pemberikan skor yang terperinci dengan jelas dengan pelatihan penilai secara cermat.
Variasi ukuran koefisien reliabilitas yang dihasilkan dari metode dalam mengestimasi reliabilitas secara langsung dapat dilekatkan terhadap tipe konsistensi yang tercakup dalam tiap-tiap metode. Penggunaan kembali metode yang ekuivalen tersebut dengan sebuah interval waktu yang dimasukkan ke dalam perhitungan  sebagian besar sumber variasi dalam skor tes dan merupakan metode yang cermat untuk mengestimasi reliabilitas daripada dengan tes—retes, penggunaan bentuk ekuivalen tanpa suatu interval waktu yang menghalanginya, atau metode konsistensi internal. Maka, koefisien reliabilitas yang elbih kecil dapat dapat diharapkan dengan metode ini, dan tidaklah adil untuk membandingkan koefisien reliabilitas tersebut dengan koefisien yang diperoleh dengan metode yang kurang keras.
Pada sisi lain, koefisien reliabilitas yang lebih besar yang biasanya dilaporkan untuk metode belah-dua harus diterima dengan kewaspadaan. Jika kecepatan merupakan faktor penting dalam pengujian, koefisien reliabilitas belah-dua harus disingkirkan seluruhnya, dan bukti lain tentang reliabilitas harus dicari.

Reliabilitas Penilaian yang Dievaluasi Dalam Hal Sebuah Standar Kinerja Tetap
Terdapat suatu variasi situasi dimana tujuan utama sebuah penilaian hendak menentukan apakah kinerja telah memenuhi standar yang telah ditetapkan. Tes penguasaan yang mengacu pada kriteria adalah contohnya. Biasanya, tes tersebut dirancang untuk memberikan dasar bagi sebuah keputusan mengacu pada penguasaan seperangkat kecakapan inti dan seringkali menekankan pada kinerja yang relatif rendah. Dengan membandingkan kinerja dengan sebuah standar tetap dibandingkan dengan kinerja siswa yang lain, namun, tidak perlu membatasi penilaian terhadap pengujian kecakapan tingkat rendah dan tingkat minimum kinerja. Memang, pada saat ini penekanannya ada pada pembentukan standar tinggi dalam kinerja bagi seluruh siswa.
Dengan mengabaikan tingkat standar, ketika kita menggunakan penilaian untuk tujuan menentukan apakah kinerja telah memenuhi standar yang telah ditetapkan, keinginan kita untuk konsistensi pengukuran mirip dengan tes yang mengacu pada norma. Maka, kita menginginkan agar sebuah kinerja individu harus konsisten dari (1) satu penilai ke penilai lainnya; (2) satu tugas ke tugas lainnya, ketika semua tugas mengukur hasil pembelajaran yang sama (konsistensi internal); (3) satu waktu ke waktu lainnya, ketika hasil pembelajaran diharapkan memiliki sebuah tingkat stabilitas yang masuk akal; dan (4) satu bentuk penilaian menuju penilaian lainnya, ketika bentuk-bentuk dimaksudkan untuk mengukur sampel tugas belajar yang sama (ekuivalen). Namun, fokusnya lebih sering pada apakah kinerja tersebut telah memenuhi standar daripada pada skor sesungguhnya.
Selain itu juga dikarenakan kekhususan penilaian penguasaan dan pertaliannya yang erat dengan instruksi, penilaian tersebut mungkin memiliki area skor yang lebih sempit dibandingkan dengan area skor yang dihasilkan ukuran yang mengacu pada norma. Fokus pada keputusan penguasaan dan variabilitas yang lebih kecil telah membawa pada pendekatan yang berbeda dalam mengevaluasi reliabilitas penilaian penguasaan.
Pemberian tekanan pada sebuah kinerja memenuhi atau gagal memenuhi sebuah standar, pendekatan yang paling alami terhadap reliabilitas adalah dengan mengevaluasi konsistensi yang digunakan untuk mengklasifikasikan apakah siswa berada di atas atau di bawah standar. Tipe reliabilitas ini dapat ditentukan dengan menghitung persentase keputusan konsisten sebagai hasil dari dimilikinya kinerja yang dievaluasi oleh penilai yang berbeda atau dalam suatu bentuk penilaian yang ekuivalen. Meskipun sejumlah pendekatan yang lebih rumit telah diajukan, perhitungan sederhana tentang persentase orang-orang yang secara konsisten diklasifikasikan adalah pendekatan yang didukung oleh Standar (Asosiasi Psikologi Amerika, 1985) untuk tes-tes yang digunakan untuk membuat keputusan dikotomis dengan mengacu pada sebuah standar. Namun, dengan hanya dua kategori maka hal yang lebih penting dilakukan adalah untuk memperhitungkan pula tingkat kesepakatan yang akan diharapkan oleh perubahan.
Mari kita asumsikan bahwa kita telah diberi dua penilaian pengganti, masing-masing terdiri dari 10 tugas matematika open-ended, terhadap sekelompok siswa yang terdiri dari 30 siswa. Masing-masing tugas diberi skor dalam skala empat poin (mulai dari 0 untuk tidak adanya tanggapan atau untuk tanggapan yang melenceng dari pertanyaan hingga 3 untuk solusi yang kuat terhadap permasalahan dengan pertimbangan yang memadai). Maka, area skor yang mungkin dalam masing-masing penilaian yakni dimulai dari 0 hingga 30 untuk tiap-tiap penilaian pengganti. Untuk memenuhi standar, seorang siswa harus memperoleh sebuah skor setidaknya 20. Semua siswa yang memperoleh skor 20 atau lebih tinggi dalam kedua penilaian tersebut secara konsisten diklasifikasikan telah memenuhi standar. Semua siswa yang memperoleh skor 19 atau di bawahnya dalam kedua penilaian tersebut secara konsisten diklasifikasikan mengalami kegagalan untuk memenuhi standar. Siswa-siswa yang ada pada intinya diklasifikasikan telah memenuhi standar dalam satu penilaian dan gagal memenuhi standar penilaian lainnya. jika kelompok terakhir ini sebaliknya relatif besar jumlahnya, penilaian kita jelas tidak konsisten dalam mengklasifikasikan siswa. Data untuk analisis tersebut dapat diringkas dalam sebuah tabel 2—2 seperti bagan 4.4.
Dengan menggunakan informasi pada bagan 4.4. kita dapat menghitung sebuah persentase konsistensi, dengan menggunakan rumus berikut:


Memenuhi standar (kedua bentuk) +
Gagal untuk memenuhi standar (kedua bentuk)
% Konsistensi X 100 =                   
Total jumlah dalam Kelompok
% Konsistensi         =                      20 + 7 X 100 = 90%
30  
Bagan 4.4. Klasifikasi tiga puluh siswa dalam kaitannya dengan standar kinerja tetap (dapat dilihat dalam buku hal. 104)


90 persen kesepakatan harus dibandingkan dengan kesepakatan yang yang diharapkan dari peluang. Bagan terakhir diperhitungkan dengan mengikuti langkah-langkah berikut. (1) Mengalikan proporsi siswa yang memenuhi standar dalam Penilaian A ( 22 dari 30 = .733) dengan proporsi siswa yang memenuhi Penilaian B ( 21 dari 30= .700). Perhitungan ini menghasilkan (.733 X .700 = 513). (2) Mangalikan proporsi siswa yang gagal memenuhi standar pada Penilaian A (8 dari 30 = .267) dikalikan figur yang berkorespondensi dengan Penilaian B (9 dari 30 = .300). Perhitungan ini menghasilkan (.267 X .300 = .080). (3) Jumlahkan hasil Langkah 1 dan 2, (.513 + .080 = .593). (4) Mengubah hasil langkah 3 menjadi persentase dengan mengalikannya dengan 100. Perhitungan ini menghasilkan angka 59.3 persen, level kesepakatan yang diharapkan olehdari peluang yang diberikan oleh nilai batas bawah dalam dua penilaian tersebut. Persen kesepakatan 90 persen dibandingkan persen yang diharapkan dari peluang.
Meskipun persentase kesepakatan secara konseptual sederhana dan mudah untuk dihitung, persentase tersebut memerlukan dua versi penilaian. Hal ini bukanlah kelemahan yang serius, namun, karena penilaian dirancang untuk menentukan apakah para siswa yang memenuhi standar harus mengizinkan siswa yang gagal untuk memenuhi standar dengan berkesempatan mencoba kembali dalam pengganti tugas penilaian. Kiranya kurang bijak untuk mengizinkan siswa yang tidak memenuhi standar performansi pada percobaan pertama untuk dinilai kembali dengan perangkat tugas yang identik. Prosedur-prosedur telah dikembangkan untuk mengestimasi keputusan konsistensi berdasarkan pada pemberian sebuah bentuk tes tunggal atau seperangkat tugas penilaian; namun, prosedur-prosedur tersebut relatif kompleks dan melebihi ruang lingkup buku ini (Subkoviak, 1984). Maka cukuplah kiranya dengan mengatakan bahwa prosedur-prosedur tersebut bermaksud untuk memberikan perkiraan terhadap persentase kesepakatan berdasarkan pada bentuk-bentuk ekuivalen dari data yang tersedia dari pemberian seperangkat tunggal tugas penilaian.

Berapakah seharusnya tingginya suatu reliabilitas?
Derajat reliabilitas yang kita butuhkan dalam penilaian pendidikan sangat tergantung pada keputusan yang hendak dibuat. Jika kita hendak menggunakan hasil penilaian untuk menentukan apakah akan memeriksa area-area pelajaran tertentu, kita dapat menggunakan penilaian yang dibuat guru yang relatif memiliki reliabilitas rendah. Keputusan akan didasarkan skor total kelompok, dan variasi dalam skor individu tidak akan terlalu banyak mendistorsi keputusan kita. Meskipun kita melakukannya pada keputusan kita, tidak ada catsthrope yang akan dihasilkan. Hal terburuk yang dapat terjadi adalah para siswa akan memperoleh kajian materi yang tidak diperlukan atau mereka akan dihilangkan sebuah review yang mungkin bermanfaat bagi mereka. Di sisi lain, jika kita hendak menggunakan sebuah penilaian untuk menentukan apakah akan menganugerahkan beasiswa diploma atau perguruan tinggi, kita membutuhkan pengukuran yang reliabel yang tersedia. Keputusan tersebut mempunyai konsekuensi yang penting bagi kehidupan individu-individu yang terlibat.
Tidak hanya pentingnya keputusan yang menjadi masalah tetapi juga mengenai kemungkinan untuk memperkuat atau membalik penilaian pada waktu selanjutnya. Pembuatan keputusan dalam pendidikan jarang sekali bersifat tunggal, tindakan akhir. Pembuatan keputusan tersebut cenderung berangkai, dimulai dengan penilaian yang agak kasar dan melangkah menuju serangkaian penilaian yang lebih diperhalus. Pada tahap awal pembuatan keputusan, reliabilitas rendah mungkin dapat ditolelir karena hasil penilaian utamanya digunakan sebagai panduan untuk pengumpulan informasi lebih lanjut. Sebagai contoh, pada basis penilaian kelas tentang reliabilitas yang masih dipertanyakan, kita mungkin memutuskan bahwa beberapa siswa kita mempunyai kesulitan belajar yang serius sehingga mereka memerlukan bantuan khusus. Keputusan ini dapat dikonfirmasi atau ditolak dengan penilaian lebih lanjut dengan ukuran yang lebih dapat dipercaya. Kesempatan untuk konfirmasi dan pembalikan penilaian tanpa kosekuensi yang serius hampir selalu hadir dalam tahap-tahap awal pembuatan keputusan pendidikan. Maka, hal yang penting diperhatikan ketika reliabilitasnya rendah atau tidak diketahui adalah dengan tidak memperlakukan skor seolah-olah skor tersebut sangat akurat. Buatlah penilaian yang tentative, cari data yang memperkuat, dan bersedia membalik keputusan ketika terjadi kesalahan.
Maka, saat kita bertanya tentang berapakah tingginya reliabilitas ini, beberapa pertimbangan harus dimasukkan ke dalam perhitungan. Seberapa pentingkah keputusan tersebut? Apakahkeputusan yang dapat dikonfirmasi atau dapat diubah kemudian? Seberapa jauhkah jangkauan konsekuensi tindakan yang diambil? Untuk keputusan yang tidak dapat dibalik/irreversible yang mungkin memiliki memiliki pengaruh besar terhadap hidup individu siswa, kita harus membuat permintaan yang kuat dalam reliabilitas penilaian yang kita gunakan. Untuk keputusan yang kurang, khususnya bagi keputusan yang nantinya dikonfirmasi atau diubah tanpa konsekuensi yang serius, kita bersedia untuk  menempatkan ukuran yang kurang reliabel. Tes yang dibuat oleh guru umumnya mempunyai reliabilitas antara .60 dan 85, tetapi tes tersebut berguna bagi tipe keputusan instruksional yang biasanya dibuat oleh guru. Maka, derajat reliabilitas yang diperlukan sangat tergantung kepercayaan diri kita mengenai keputusan yang hendak dibuat. Kepercayaan diri yang lebih besar memerlukan reliabilitas yang lebih tinggi (lihat “Kebutuhan Reliabilitas dan hakikat Keputusan).

Daya Guna
Dalam menyeleksi prosedur penilaian, pertimbangan parsial tidak dapat diabaikan. Penilaian biasanya diberikan dan diinterpretasikan oleh para guru hanya dengan sebuah pelatihan minimum dalam pengukuran. Waktu yang tersedia untuk penilaian hampir selalu terbatas, oleh karena penilaian berada dalam persaingan waktu yang konstan dengan aktivitas penting lainnya dalam jadwal sekolah. Demikian pula, biaya penilaian, meskipun hanya sebuah pertimbangan minor, marupakan pemberian dana yang harus diteliti dengan cermat. Hal ini dan faktor lain yang yang berhubungan dengan daya guna prosedur penilaian harus dipertimbangkan saat mengevaluasi prosedur penilaian. Pertimbangan praktis tersebut khususnya penting ketika memilih terbitan tes.

Ease of Administration (Meringankan Administrasi)
Jika penilaian tersebut hendak diberikan oleh guru atau pihak lain dengan pelatihan yang terbatas, ease of administration merupakan kualitas yang penting untuk dicari. Untuk tujuan ini, arah/tujuan harus sederhana dan jelas, subtes harus relatif sedikit, dan waktu yang diperlukan untuk pemberian tes penilaian harus tidak terlalu besar. Pemberian sebuah tes dengan arah yang rumit dan sejumlah subtes yang berlangsung hanya beberapa menit adalah sebuah tugas yang berat bagi pemeriksa/penguji yang berpengalaman sekalipun. Bagi seseorang dengan pengalaman dan pelatihan yang sedikit, situasi tersebut penuh dengan kemungkinan kesalahan dalam memberikan arah, waktu, dan aspek-aspek lain dalam pemberian tes yang cenderung mempengaruhi hasil. Kesalahan pemberian tes tersebut tentu saja dapat memberikan pengaruh kebalikan dalam validitas dan reliabilitas hasil.

Waktu yang Diperlukan untuk Pemberian Tes
Dengan waktu penilaian yang berharga, kita selalu menghargai penilaian, hal-hal lainnya tetap sama. Akan tetapi dalam hal ini, hal-hal lainnya jarang sekali sama, oleh karena reliabilitas secara langsung terkait dengan panjangnya sebuah penilaian. Jika kita berupaya untuk memotong banyak waktu yang dialokasikan untuk penilaian, kita dapat mengurangi secara drastis reliabilitas skor kita. Sebagai contoh, tes-tes yang dirancang untuk menyesuaikan sebuah periode waktu normal biasanya menghasilkan skor tes total yang sangat reliabel, tetapi skor bagian-bagiannya, yang diperoleh dari subtes, cenderung tidak akan reliabel. Jika kita menginginkan ukuran yang reliabel dalam area yang dicakup oleh subtes, kita perlu meningkatkan waktu tes kita pada tiap-tiap area. Di sisi lain, jika kita menginginkan sebuah ukuran umum dalam beberapa area, seperti kecakapan verbal, dalam waktu tes yang diperluas. Prosedur yang aman adalah dengan mengalokasikan sebanyak mungkin waktu sesuai dengan yang dibutuhkan untuk memperoleh hasil yang valid dan reliabel dan tidak ada yang lain. Antara 20 dan 60 menit waktu tes bagi tiap-tiap skor individu yang diberikan oleh sebuah tes yang diterbitkan mungkin panduan yang cukup baik.
                                                        Pedoman
                          Permintaan Reliabilitas dan hakikat Keputusan
Reliabilitas dibutuhkan ketika
  • Keputusan dianggap penting
  • Keputusan merupakan langkah akhir
  • Keputusan tidak dapat diubah
  • Keputusan tidak dapat dikonfirmasi
  • Keputusan berkaitan dengan individu
  • Keputusan mempunyai konsekuensi selamnya
Contoh: Pilih atau tolak pelamar kuliah
Reliabilitas dapat ditolelir saat:
  • Keputusan merupakan hal yang tidak begitu penting
  • Pembuatan keputusan berada pada tahap awal
  • Keputusan dapat diubah
  • Keputusan dapat dikonfirmasi dengan data
  • Keputusan berkaitan dengan kelompok
  • Keputusan mempunyai pengaruh sementara
Contoh: Rencana untuk mengkaji pelajaran di kelas



Meringankan Interpretasi dan Aplikasi
Dalam analisis akhir, keberhasilan atau kegagalan suatu program penilaian ditentukan oleh penggunaan yang dibuat dari hasil penilaian. Jika hasil penilaian diinterpretasikan dengan benar dan diterapkan secara efektif, hasil tersebut akan berkontribusi bagi keputusan pendidikan yang lebih cerdas. Di sisi lain, jika hasil penilaian diinterpretasikan, diaplikasikan dengan keliru atau tidak diterapkan sama sekali, maka hasil tersebut akan memiliki nilai yang kecil dan dapat membahayakan terhadap beberapa individu atau kelompok.
Informasi yang berkaitan dengan interpretasi dan penggunaan hasil dari tes yang dikeluarkan biasanya diperoleh secara langsung dari petunjuk tes atau pedoman terkait. Perhatian harus diarahkan pada kejelasan skor yang dilaporkan, kualitas dan relevansi norma-norma, dan pemahaman saran untuk menerapkan hasil terhadap permasalahan pendidikan. Ketika hasil tes akan disajikan kepada siswa atau orang tua, ease of interpretasi dan aplikasi khususnya dangat penting.

Ketersediaan Bentuk-Bentuk Ekuivalen atau Dapat Dibandingkan
Untuk tujuan-tujuan pendidikan, bentuk-bentuk ekuivalen dari tes yang sama seringkali diperlukan. Bentuk-bentuk ekuivalen dari sebuah tes mengukur aspek perilaku yang sama dengan menggunakan item tes yang serupa dalam hal ini, tingkat kesulitan, dan karakteristik lainnya. Maka, satu bentuk tes dapat menggantikan bentuk lainnya, sehingga memungkinkan untuk menguji siswa sebanyak dua kali dalam jarak waktu agak dekat tanpa adanya pengaruh jawaban tes pertama terhadap kinerja mereka dalam tes penguasaan, ketika kita ingin mengeliminir faktor ingatan/memori sambil menguji siswa dalam domain prestasi yang sama. bentuk-bentuk ekuivalen sebuah tes mungkin juga digunakan untuk memverifikasi skor tes yang dapat dipertanyakan. Misalnya, seorang guru mungkin merasa bahwa tes kecerdasan atau pencapaian sangat rendah bagi siswa dan dapat dengan mudah dicek dengan memberikan bentuk tes yang ekuivalen.
Banyak tes yang juga memberikan bentuk-bentuk yang dapat dibandingkan. Tes pencapaian yang dikeluarkan, misalnya, umumnya disusun dalam seri yang mencakup level peringkat yang berbeda. Meskipun isi dan level kesulitan berbeda-beda, tes dalam level yang berbeda dibuat agar dapat dibandingkan dengan sarana skala skor yang umum. Maka, sangatlah dimungkinkan untuk membandingkan pengukuran pada Tingkat 4 dengan pengukuran pada Tingkat 6 dalam sebuah bentuk tes yang lebih lanjut. Bentuk-bentuk yang dapat dibandingkan khususnya berguna dalam mengukur perkembangan dalam kecakapan dasar.   

Biaya Pengujian
Faktor biaya diletakkan pada bagian akhir karena faktor ini relatif tidak penting dalam memilih terbitan tes. Alasan untuk membahasnya ialah dikarenakan faktor ini terkadang memberikan bobot yang jauh lebih berat dari selayaknya. Pengujian relatif tidak mahal, dan biaya bukanlah merupakan pertimbangan utama. Dalam program pengujian skala besar dimana tabungan per siswa bertambah, dengan menggunakan lembar jawab terpisah, meskin penilai, dan booklet yang dapat digunakan kembali akan mengurangi biaya. Akan tetapi untuk memilih satu tes ketimbang tes lainnya oleh karena booklet tes lebih murah beberapa rupiah merupakan pemikiran yang salah. Bagaimanapun, validitas dan reliabilitas merupakan karakteristik penting yang harus dicara, dan sebuah tes yang kekurangan kualitas ini dipandang sebagai sesuatu yang terlalu mahal dalam tingkatan harga berapapun. Kontribusi skor tes yang valid dan reliabel tersebut dapat menjadikan keputusan pendidikan berarti bahwa tes tersebut selalu ekonomis dalam jangka panjang.

Rangkuman
Reliabilitas merupakan kualitas terpenting untuk mencari hasil penilaian. Reliabilitas mengacu pada konsistensi skor dan hasil penilaian lainnya dari satu penilaian menuju penilaian yang lain. Dalam menginterpretasikan dan menggunakan informasi reliabilitas, penting untuk diingat bahwa estimasi reliabilitas mengacu pada hasil pengukuran, bahwa cara yang berbeda dalam mengestimasi reliabilitas mengindikasikan tipe konsistensi yang berbeda, bahwa ukuran yang reliabel tidak selalu valid, dan bahwa reliabilitas merupakan konsep statistik yang ketat. Estimasi reliabilitas biasanya dilaporkan dalam istilah koefisien reliabilitas atau standar kesalahan pengukuran.
Koefisien reliabilitas ditentukan oleh beberapa metode yang berbeda, dan tiap-tiap metode menyediakan ukuran konsistensi yang berbeda. Metode inter-rater mensyaratkan bahwa perangkat kinerja siswa yang sama diberi skor oleh dua penilai atau lebih, dan metode ini menyediakan sebuah indikasi konsistensi pemberian skor oleh para penilai. Metode tes—retes melibatkan pemberian penilaian yang sama sebanyak dua kali terhadap kelompok yang sama dengan sebuah interval, dan koefisien yang dihasilkan memberikan sebuah ukuran stabilitas. Panjang interval antarpenilaian sangat ditentukan oleh penggunaan hasil penilaian tersebut. Kita terutama tertarik dengan koefisien reliabilitas yang berdasarkan pada interval yang dapat dibandingkan dengan periode waktu antara kapan penilaian diberikan dan kapan skor akan digunakan atau diinterpretasikan. Metode bentuk-bentuk ekuivalen melibatkan pemberian dua bentuk penilaian terhadap kelompok yang sama dalam jarak waktu yang dekat atau dengan sebuah interval waktu yang menghalanginya. Penilaian pertama memberikan sebuah ukuran ekuivalensi dan penilaian kedua memberikan sebuah ukuran stabilitas dan ekuivalensi. Metode bentuk-bentuk ekuivalen menyedikan evaluasi reliabilitas yang cermat karena metode ini mencakup sumber ganda tentang variasi dalam hasil penilaian. Reliabilitas juga dapat diperkirakan/diestimasi dari sebuah pemberian penilaian tunggal, dengan mengkorelasikan skor dalam dua belahan penilaian atau dengan menerapkan rumus Kuder—Richardson atau Koefisien Alfa. Kedua metode tersebut menyediakan ukuran konsistensi internal dan mudah untuk diterapkan. Namun, metode-metode tersebut tidak dapat diterapkan untuk tes yang dipercepat dan tidak menyediakan informasi yang berkaitan dengan stabilitas skor penilaian dari hari ke hari.
Standar kesalahan pengukuran mengindikasikan reliabilitas dalam hal jumlah variasi yang diaharapkan dalam skor individual. Hal ini dapat diperhitungkan dari koefisien reliabilitas dan standar deviasi, tetapi seringkali dilaporkan secara langsung dalam petunjuk tes. Standar kesalahan khususnya berguna dalam menginterpretasikan skor tes, oleh karena standar tersebut mengindikasikan pita kesalahan (disebut dengan confidence band) yang mengelilingi tiap-tiap skor. Metode tersebut juga memiliki manfaat yang cukup konstan dari satu kelompok ke kelompok lainnya.    
Estimasi reliabilitas dapat beragam dalam tergantung pada panjangnya penilaian, persebaran skor dalam kelompok yang dinilai, kesulitan tugas penilaian, objektivitas pemberian skor, dan metode untuk mengestimasi reliabilitas. Faktor-faktor ini harus diperhitungkan ketika menilai informasi reliabilitas. Derajat dan tipe reliabilitas yang hendak dicari dalam sebuah hal khusus terutama tergantung pada keputusan yang hendak dibuat. Untuk keputusan yang dapat dibuah secara tentative, reliabilitas rendah dapat ditolelir. Akan tetapi untuk keputusan akhir yang tidak dapat diubah, kita harus membuat persyaratan yang keras dalam reliabilitas pengukuran kita.
Pengukuran konvensional terhadap reliabilitas tergantung pada skor dalam area dan dipengaruhi oleh variabilitas di antara skor. Dalam penilaian yang dirancang untuk menilai/menaksir kinerja dalam hal standar yang tetap, klasifikasi siswa dikatakan memenuhi atau gagal memenuhi standar merupakan perhatian utama. Maka, konsistensi klasifikasi untuk penilaian yang ekuivalen adalah hal yang paling relevan, dan persentase sederhana tentang waktu bahwa keputusan yang konsisten dibuat menyediakan informasi yang diperlukan untuk mengevaluasi reliabilitas keputusan.
Sebagai tambahan untuk validitas dan reliabilitas, daya guna tes dan prosedur penilaian lainnya juga penting untuk dipertimbangkan, termasuk ciri-ciri praktis seperti ease of administration, waktu yang diperlukan, ease of interpretation dan application, ketersediaan bentuk-bentuk yang ekuivalen atau dapat dibandingkan, dan biaya pengujian.


[1] Tampak dalam buku halaman 101

No comments :

Post a Comment