Setelah validitas, reliabilitas adalah
karakteristik terpenting dalam hasil penilaian. Reliabilitas (1) memberikan konsistensi yang memungkinkan adanya
validitas, dan (2) mengindikasikan derajat/tingkat untuk menjustifikasi
berbagai jenis generalisasi. Kegunaan prosedur evaluasi, tentu saja,
juga memberikan perhatian pada guru kelas yang sibuk.
Pada
pertemuan lalu kita telah membicarakan bahwa validitas merupakan pertimbangan
terpenting dalam seleksi dan konstruksi prosedur penilaian. Pertama dan utama,
kita menginginkan agar hasil penilaian dapat melayani penggunaan hasil tes tertentu
yang diinginkan. Hal penting selanjutnya adalah reliabilitas, dan setelah itu
adalah bsekumpulan ciri praktis yang dapat digolongkan di bawah kategori
“daya guna”.
Hakikat
Reliabilitas
Reliabilitas
mengacu pada konsistensi pengukuran; yakni, seberapa konsistenkah skor tes atau
hasil penilaian lainnya dari pengukuran yang satu menuju pengukuran
selanjutnya. Misalnya, anggaplah bahwa Miss Jones baru saja memberikan sebuah
penilaian prestasi/pencapaian kepada murid-muridnya. Seberapa miripkah skor
siswa setelah ia menilai mereka kemarin, atau besok, atau minggu depan?
Bagaimana perbedaan skor yang terjadi jika guru berbeda yang melakukan
penilaian? Hal ini merupakan tipe-tipe pertanyaan yang berkaitan dengan
reliabilitas. Hasil penilaian hanya menyediakan suatu ukuran terbatas mengenai
kinerja yang diperoleh pada suatu waktu tertentu. Kecuali jika pengukuran
tersebut dapat ditunjukkan sebagai suatu hal yang konsisten secara nalar
(yakni, dapat digeneralisasikan) dalam berbagai kesempatan berbeda, penilai
yang berbeda, sampel berbeda dari domain kinerja yang sama, kita dapat
mempunyai sedikit kepercayaan diri dalam hasil penilaian yang dilakukan.
Kita
tidak dapat mengharapkan hasil penilaian agar konsisten secara sempurna. Banyak
faktor, selain kualitas yang diukur, yang dapat mempengaruhi hasil penilaian. Jika
sebuah penilaian diberikan kepada kelompok yang sama sebanyak dua kali dalam
waktu dekat, beberapa variasi skor dapat diharapkan karena fluktuasi sementara
dalam memori, perhatian, upaya, keletihan, ketegangan emosi, penebakan,
dan sebagainya. Dengan suatu jeda antartes yang lebih panjang, variasi tambahan
dalam skor dapat disebabkan oleh intervensi pengalaman pembelajaran, perubahan
kondisi kesehatan, lupa, dan sedikitnya kondisi penilaian yang dapat
dibandingkan. Jika esai atau tipe lain kinerja siswa dievaluasi oleh penilai
yang berbeda, beberapa variasi dalam skor dapat diharapkan karena kurang
sempurnanya kesepakatan di antara para penilai. Jika kita menggunakan
sampel tugas yang lain dalam penilaian kedua, masih saja akan terdapat faktor-faktor
yang cenderung mempengaruhi hasilnya. Individu-individu mungkin menjumpai bahwa
satu penilaian lebih mudah dibandingkan penilaian lainnya karena kebetulan
mengandung lebih banyak tugas dalam topik yang telah mereka kenal. Faktor-faktor
yang tidak relevan tersebut memperkenalkan sejumlah kesalahan pengukuran
ke dalam semua hasil penilaian. Metode untuk menentukan reliabilitas merupakan
sarana esensial untuk menentukan banyaknya kesalahan pengukuran yang hadir
dalam kondisi yang berbeda. secara umum, semakin konsisten hasil penilaian kita
dari satu pengkuran ke pengukuran lainnya, maka semakin sedikit kesalahan yang
akan muncul,sehingga semakin besar reliabilitasnya.
Makna
reliabilitas , sebagaimana yang diterapkan dalam pengujian dan penilaian, dapat
dijelaskan lebih lanjut dengan memperhatikan poin-poin umum berikut ini:
1. Reliabilitas
mengacu pada hasil yang diperoleh dengan sebuah instrumen penilaian dan bukan
mengacu pada instrumen itu sendiri. Instrumen tertentu dapat
memiliki jumlah reliabilitas yang berbeda, tergantung pada kelompok yang
terlibat dan situasi dimana instrumen tersebut digunakan. Maka, akan lebih
tepat untuk mengatakan reliabilitas skor tes atau hasil penilaian daripada
mengatakan reliabilitas tes atau penilaian.
2. Suatu
perkiraan reliabilitas selalu mengacu pada sebuah tipe konsistensi tertentu. Hasil
penilaian tidak dapat diandalkan/dipercaya secara umum. Hasil tersebut
dapat diandalkan (atau dapat digeneralisasikan) dalam kurun waktu yang berbeda,
dalam sampel tugas yang berbeda, dalam penilai berbeda, dan sebagainya. Dimungkinkan
pula bagi hasil penilaian untuk konsisten dalam salah satu hal ini dan
tidak konsisten dalam hal lainnya. Tipe konsistensi yang tepat dalam
suatu kasus tertentu ditentukan oleh tujuan penggunaan hasil penilaian.
Sebagai contoh, jika kita berharap untuk mengetahui gambaran individu di masa
yang akan datang, sifat konstan skor dalam kurun waktu yang panjang akan sangat
penting. Di sisi lain, jika kita ingin mengukur suatu pemahaman individu saat
ini tentang prinsip spesifik tertentu mungkin kita akan tertarik dengan
konsistensi kinerja dalam berbagai tugas berbeda yang dirancang untuk memungkinkan
siswa guna mengaplikasikan prinsip-prinsip tersebut. Maka, untuk interpretasi
yang lain kita memerlukan analisis konsistensi yang berbeda. Tindakan untuk
memperlakukan reliabilitas sebagai sebuah karakteristik umum dapat membawa pada
interpretasi yang keliru.
3. Reliabilitas
merupakan hal pokok tetapi tidak mencukupi bagi suatu validitas. Sebuah
penilaian yang menghasilkan hasil yang tidak konsisten secara keseluruhan mungkin
tidak dapat memberikan informasi yang valid tentang kinerja yang diukur. Di
sisi lain, hasil penilaian yang sangat konsisten mungkin mengukur hal yang
salah atau mungkin digunakan dengan cara yang tidak tepat. Maka, reliabilitas
rendah akan muncul, tetapi reliabilitas tinggi tidak menjamin tingginya derajat
validitas. Pendek kata, reliabilitas hanya menyediakan konsistensi yang
memungkinkan adanya validitas.
4. Reliabilitas
pada prinsipnya bersifat statistik. Analisis logis tentang
penilaian akan memberikan sedikit bukti yang berkaitan dengan reliabilitas
skor. Untuk mengevaluasi konsistensi skor yang diberikan oleh penilai yang
berbeda, dua atau lebih penilai harus menilai perangkat kinerja siswa yang
sama. Demikian pula dengan sebuah evaluasi konsistensi skor yang diperoleh
dalam kaitannya dengan bentuk-bentuk berbeda dalam sebuah tes atau koleksi
berbeda dalam tugas penilaian berbasis kinerja memerlukan administrasi/pemberian
bentuk-bentuk tes dan koleksi tugas kepada kelompok siswa yang tepat. Apakah
fokusnya pada konsistensi penilai sendiri ataukah konsistensi bentuk-bentuk
atau koleksi tugas, konsistensi dapat diekspresikan dalam hal perubahan orang
yang relatif tetap di dalam kelompok atau dalam istilah jumlah variasi
yang diharapkan dalam skor yang diperoleh secara individu. Konsistensi pada
kasus pertama dilaporkan dengan sarana sebuah efisien korelasi yang disebut
dengan koefisien reliabilitas (lihat kotak “Terminologi”) dan pada kasus kedua dilaporkan
dengan sarana standar kesalahan pengukuran. Kedua metode yang mengekspresikan
reliabilitas ini dipergunakan secara luas dan harus dipahami oleh orang yang
bertanggung jawab untuk menginterpretasikan hasil penilaian.
Menentukan
Reliabilitas dengan Metode Korelasi
Dalam
menentukan reliabilitas, sangat diperlukan sekali untuk memperoleh dua
perangkat ukuran di bawah kondisi yang identik dan kemudian membandingkan
hasilnya. Prosedur ini mustahil diterapkan karena kondisi dimana data
pengukuran diperoleh tidak akan pernah identik. Sebagai pengganti untuk prosedur
ideal ini, beberapa metode untuk mengestimasi reliabilitas telah diperkenalkan
(Asosiasi Psikologi Amerika, 1985). Metode-metode tersebut sifatnya mirip
karena semuanya melibatkan pengkorelasian dua perangkat skor, diperoleh dari
prosedur penilaian yang sama atau dari bentuk ekuivalen prosedur yang sama. Koefisien
korelasi yang dipergunakan untuk menentukan reliabilitas diperhitungkan dan
diinterpretasikan dengan cara yang sama seperti yang digunakan dalam menentukan
estimasi statistik validitas. Satu-satunya perbedaan antara sebuah koefisien
validitas dan sebuah koefisien reliabilitas yakni koefisien validitas
didasarkan pada kesepakatan dengan kriteria luar/ekstern dan koefisien reliabilitas
didasarkan antara dua perangkat hasil dari prosedur yang sama.
Metode
utama dalam mengestimasi reliabilitas ditunjukkan pada Tabel 4.1. ingatlah
bahwa tipe konsistensi yang berbeda ditentukan oleh metode yang berbeda pula:
konsistensi selama kurun waktu tertentu, dalam bentuk-bentuk penilaian yang
berbeda, dalam penilaian itu sendiri, dan pada penilai yang berbeda-beda.
Terminologi
Koefisien
Korelasi: Suatu statistik yang mengindikasikan derajat hubungan
antara dua perangkat skor yang diperoleh dari kelompok individu yang sama
(misalnya, korelasi antara tinggi dan berat)
Koefisien
validitas: Sebuah koefisien korelasi yang mengindikasikan derajat
dimana sebuah ukuran memprediksi atau mengestimasi kinerja dalam beberapa
kriteria ukuran (misalnya, korelasi antara skor scholastic aptitude dan
peringkat dalam kelas)
Koefisien
reliabilitas: sebuah koefisien korelasi yang
mengindikasikan derajat hubungan antara dua perangkat skor yang dimaksudkan
untuk mengukur karakteristik yang sama (misalnya, korelasi antara skor yang
diberikan oleh dua penilai berbeda atau skor yang diperoleh dari pemberian dua
bentuk tes)
Koefisien
reliabilitas yang dihasilkan dari masing-masing metode harus diinterpretasikan berdasarkan
pada tipe konsistensi yang diteliti. Tiap-tiap metode untuk mengestimasi
reliabilitas ini akan dipertimbangkan dalam rincian lebih lanjut pada bab ini.
Tabel
4.1. Metode untuk Mengestimasi Validitas
|
Tipe
Ukuran Reliabilitas
|
Prosedur
|
Metode
tes—retes
|
Ukuran
stabilitas
|
Berikan
tes yang sama sebanyak dua kali kepada kelompok yang sama dengan interval
waktu berapapun antartes, dari beberapa menit hingga beberapa tahun
|
Metode
Bentuk Ekuivalen
|
Ukuran
ekuivalensi
|
Berikan
dua bentuk tes kepada kelompok yang sama dalam jarak waktu yang dekat
|
(Tes—retes
dengan bentuk ekuivalen)
|
Ukuran
stabilitas dan ekuivalnesi
|
Berikan
dua bentuk tes kepada kelompok yang sama dengan peningkatan interval waktu
antarbentuk tes
|
Metode
belah dua
|
Ukuran
konsistensi internal
|
Berikan
tes sekali saja. Berikar skor dua belahan tes yang ekuivalen (misalnya, soal
bernomor ganjil dan genap); betulkan hubungan antarbelahan untuk mencocokkan
keseluruhan tes dengan rumus Spearman—Brown
|
Metode
Kuder—
|
Ukuran
konsistensi internal
|
Berikan
tes ekali saja. Beri skor tes total dan terapkan rumus Kuder—
|
Metode
Inter—rater
|
Ukuran
konsistensi penilaian
|
Berikan
seprangkat tanggapan siswa yang memerlukan pemberian skor berdasar
pertimbangan dua penilai atau lebih dan biarkan mereka secara independen
memberi skor terhadap tanggapan tersebut
|
Metode
Tes—Retes
Untuk
mengestimasi reliabilitas dengan sarana metode tes—retes, penilaian yang sama
diberikan sebanyak dua kali terhadap kelompok siswa yang sama dan juga dengan memberikan
interval waktu antara tes pertama dan tes kedua (lihat bagan 4.1.). Skor
penilaian yang dihasilkan kemudian dikorelasikan, dan koefisien korelasi ini
memberikan sebuah ukuran stabilitas; yakni, koefisien ini mengindikasikan
seberapa stabilnya hasil penilaian selama kurun waktu tertentu. Jika hasilnya
sangat stabil, siswa-siwa yang memperoleh skor tinggi dalam satu penilaian
cenderung akan memperoleh skor tinggi pula dalam penilaian yang lain, dan
siswa-siwa lainnya cenderung tetap berada pada posisinya dalam kedua penilaian
tersebut. Stabilitas tersebut diindikasikan oleh sebuah koefisien korelasi yang
besar. Dalam pembahasan sebelumnya tentang koefisien korelasi telah disebutkan
bahwa hubungan positif sempurna ditandai dengan 1.00 dan jika tidak terdapat
hubungan dengan 0.00. Ukuran stabilitas dalam kisaran .80 pada umumnya
dilaporkan untuk menstandarisasikan tes kecerdasan dan prestasi dalam kesempatan
dalam tahun yang sama.
Satu
faktor penting yang harus diingat dalam benak ketika menginterpretasikan ukuran
stabilitas adalah interval waktu antarpenilaian. Jika interval waktunya pendek,
katakanlah satu atau dua hari, stabilitas hasil akan membubung tinggi karena para
siswa masih ingat akan tugas dan tanggapan terhadap tugas tersebut dari
penilaian pertama. Jika interval waktunya panjang, katakanlah setahun, hasilnya
tidak hanya akan dipengaruhi oleh ketidakstabilan prosedur penilaian tetapi
juga oleh perubahan yang sedang terjadi pada para siswa selama kurun waktu
tersebut. Secara umum, semakin lama interval waktu antara penilaian pertama dan
kedua, maka hasil penilaian akan semakin dipengaruhi oleh perubahan dalam hal
karakteristik siswa yang diukur, dan semakin kecil pula koefisien korelasinya.
Interval
waktu terbaik pemberian tes akan sangat tergantung pada penggunaan hasilnya.
Oleh karena skor tes oleh universitas mungkin dikumpulkan sebagai bagian
dari sebuah aplikasi ke kampus beberapa tahun setelah tes diambil, Stabilitas
selama beberapa tahun tersebut sangat penting. Akan tetapi stabilitas dalam
kurun waktu yang panjang tidak penting atau tidak diinginkan bagi sebuah
penilaian kinerja dalam sebuah unit pelajaran yang difokuskan pada pemahaman
siswa terhadap konsep-konsep tertentu dan kesiapan untuk berpindah ke materi
baru. Maka, untuk beberapa keputusan kita tertarik dengan koefisien
reliabilitas yang didasarkan pada interval yang panjang antara tes dan retes;
untuk beberapa keputusan lainnnya, koefisien reliabilitas yang didasarkan pada
interval pendek akan mencukupi. Hal yang penting adalah untuk mencari
bukti/fakta stabilitas yang cocok dengan interpretasi tertentu yang hendak
dibuat.
Metode
tes—retes tidak akan relevan bagi tes kelas yang disusun oleh guru, karena
jarang sekali dimungkinkan atau diinginkan untuk memberikan kembali penilaian
yang sama. Akan tetapi dalam memilih tes yang telah distandarkan,
stabilitas merupakan kriteria penting. Petunjuk tes harus menyediakan bukti
stabilitas, mengindikasikan interval antara tes dan pengalaman yang tak lazim
yang mungkin akan didapatkan anggota kelompok di antara tes tersebut. Hal-hal
lain (seperti validitas) sifatnya sama, sebuah tes yang memiliki tipe
stabilitas yang dibutuhkan untuk membuat keputusan yang tepat merupakan tes
terbaik.
Metode
Bentuk Ekuivalen
Metode
bentuk ekuivalen untuk mengestimasi reliabilitas menggunakan dua bentuk
penilaian yang berbeda tetapi ekuivalen (juga disebut dengan bentuk parallel
atau pengganti). Bentuk ekuivalen dibangun untuk perangkat spesifikasi yang
sama (misalnya tes isi dan kesulitan) tetapi dikonstruksi secara independen. Kedua
bentuk penilaian ini diberikan kepada kelompok siswa yang sama dalam interval
yang dekat, dan skor penilaian yang dihasilkan kemudian dikorelasikan. Koefisien
korelasi ini memberikan sebuah ukuran tingkat untuk membatasi generalisasi
mengenai kinerja siswa dari satu penilaian ke penilaian lainnya. Maka, korelasi
tersebut mengindikasikan derajat diaman kedua penilaian tersebut mengukur aspek
perilaku yang sama.
Metode
bentuk-bentuk ekuivalen tidak memberi tahu kepada kita tentang stabilitas
jangka panjang tentang karakteristik siswa yang diukur. Metode tersebut lebih
merefleksikan keadaan konstan jangka pendek tentang kinerja siswa dan tingkat
dimana penilaian tersebut merepresentasikan sebuah sampel yang mencukupi mengenai
karakteristik yang diukur. Sebagai contoh, dalam menilai pencapaian, beribu
tugas mungkin disajikan dalam sebuah penilaian khusus, tetapi karena keterbatasan
waktu dan faktor-faktor lain yang membatasi, hanya beberapa tugas yang
dimungkinkan untuk digunakan. Tugas yang tercakup dalam penilaian tersebut harus
memberikan sampel yang memadai mengenai tugas yang mungkin dalam area tersebut.
Cara termudah untuk mengestimasi apakah sebuah penilaian mengukur sampel isi yang memadai adalah untuk
mengkonstruksi versi-versi penilaian yang dimaksudkan untuk mencakup domain isi
yang sama dan kecakapan siswa dan mengkorelasikan hasilnya. Korelasi tinggi
mengindikasikan bahwa kedua penilaian tersebut menyediakan hasil yang mirip,
sehingga, mungkin merupakan sampel reliabel tentang area umum mengenai isi yang
diukur.
Metode
ini secara luas digunakan dalam tes yang distandarkan karena sebagian besar tes
yang distandarkan memiliki dua atau lebih bentuk yang tersedia. Faktanya, seorang
guru harus menaruh kewaspadaan terhadap tes standar apapun yang memiliki dua
bentuk yang tersedia dan tidak menyediakan informasi tentang ekuivalensi.
Keterbandingan hasil dari dua bentuk tersebut tidak dapat diasumsikan kecuali
jika bukti keterbandingannya disajikan. Metode bentuk ekuivalen terkadang
digunakan dengan sebuah interval antarpemberian kedua bentuk tes tersebut (lihat
Bagan. 4.2.) Di bawah kondisi tes—retes ini, koefisian reliabilitas yang
dihasilkan menyediakan sebuah ukuran stabilitas atau ekuivalensi. Hal ini
merupakan tes reliabilitas yang lebih teliti dibandingkan dangan metode tes—retes
atau metode bentuk ekuivalen dengan sebuah interval pendek antarbentuknya,
karena stabilitas prosedur pengujian, keadaan konstan karakteristik siswa yang
diukur, dan keterwakilan sampel tugas yang dicakup dalam tes kesemuanya
dimasukkan ke dalam perhitungan. Sebagai konsekuensinya, hal ini secara umum
direkomendasikan sebagai prosedur terkuat untuk mengestimasi reliabilitas skor
tes. Jika menggunakan metode tes—retes, koefisien reliabilitas harus
diinterpretasikan dari kacamata interval antara kedua bentuk tes tersebut. Bagi
periode waktu yang lebih lama/panjang, diharapkan koefisien reliabilitasnyalebih
kecil.
Metode
Split-Half (Belah Dua)
Reliabilitas
juga dapat diestimasi dari sebuah pemberian bentuk penilaian tunggal sebanyak
satu kali. Penilaian tersebut diberikan kepada sekelompok siswa dengan cara
yang biasa dan kemudian dibagi dua untuk tujuan pemberian skor. Metode split-half
mudah untuk diimplementasikan dengan sebuah tes tradisional atau kuis yang
terdiri dari sepuluh item atau lebih misalnya. Untuk membelah tes
tersebut ke dalam paruh yang ekuivalen, prosedur yang biasanya
diterapkan adalah dengan memberi skor tugas bernomor ganjil dan genap secara
terpisah (lihat Bagan 4.3.). Prosedur ini menghasilkan dua skor bagi tiap-tiap
siswa, yang jika dikorelasikan akan memberikan sebuah ukuran konsistensi
internal. Koefisien ini mengindikasikan derajat tempat diperolehnya hasil yang
konsisten dari kedua paruh tes, dan mungkin dianggap sebagai “estimasi
reliabilitas tes setengah panjang”.
Meskipun
metode ini seringkali diterapkan dengan tes-tes tradisional yang mengandung jumlah
item yang dapat diukur, metode split-half ini juga dapat
diterapkan untuk penilaian yang terdiri dari angka masing-masing tugas yang
lebih kecil, atau yang membutuhkan periode waktu yang lebih diperpanjang untuk
menyelesaikannya. Beberapa informasi terbatas dapat diperoleh dengan sedikitnya
dua tugas dengan mengkorelasikan skor yang diperoleh dalam satu tugas dengan
skor yang diperoleh dalam tugas lainnya. Informasi yang lebih baik dapat
diperoleh saat jumlah tugas juga meningkat. Dengan jumlah tugas yang lebih
sedikit, katakanlah empat hingga delapan, akan lebih baik untuk membagi tugas
tersebut ke dalam dua perangkat yang dinilai merupakan perangkat yang paling
dapat dibandingkan satu-sama lain dibandingkan hanya bersandar pada metode
ganjil-genap yang lebih mekanis yang hanya tepat digunakan saat terdapat jumlah
tugas atau item yang besar.
Seperti
telah dijelaskan sebelumnya, koefisien reliabilitas ditentukan dengan
mengkorelasikan skor dua paruh penilaian. Untuk mengestimasi skor reliabilitas
berdasarkan pada penilaian penuh, biasanya diterapkan rumus Sperman—Brown:
Reliabilitas penilaian
penuh= 2 X korelasi penilaian paruh
1 + korelasi
penilaian paruh
Kesederhanaan
rumus tersebut dapat dilihat dalam contoh-contoh berikut, dimana koefisien
korelasi antar skor dalam dua paruh penilaian adalah .60:
Reliabilitas dalam penilaian
penuh = 2 X .60 = 1.20 = 75
1 + .60 1.60
Koefisien
korelasi .7.5 ini kemudian mengestimasi reliabilitas sebuah penilaian penuh
ketika penilaian paruh dikorelasikan .60.
Metode
split-half mirip dengan metode bentuk ekuivalen karena metode ini
mengindikasikan tingkat dimana sampel tugas adalah sebuah sampel yang dapat
diandalkan dalam isi yang diukur. Sebuah korelasi tinggi antara skor pada kedua
paruh penilaian tersebut menunjukkan ekuivalensi kedua paruh tersebut dan
memadainya proses pengambilan sampel. Reliabilitas metode split-half didasarkan
pada pemberian penilaian tunggal. Ketika dua bentuk dari sebuah penilaian
diberikan, meskipun dalam jarak yang dekat, lebih banyak kesempatan munculnya
keadaan tidak konsisten (misalnya, perbedaan perhatian antara bentuk satu dan
lainnya, kecepatan bekerja, upaya, keletihan, dan isi penilaian). Oleh karena
metode bentuk ekuivalen dimasukkan dalam perhitungan sumber ketidakkonsistenan,
metode ini memberikan sebuah evaluasi reliabilitas yang lebih keras.
Metode
Kuder—Richardson
dan Koefisien Alfa
Metode
lainnya untuk mengestimasi reliabilitas skor penilaian dari sebuah pemberian
tunggal (satu kali) adalah dengan sarana rumus seperti yang dikembangkan oleh
Kuder dan Richardson .
Seperti dengan metode split-half, formula ini memberikan sebuah indeks
konsistensi internal tetapi tidak memerlukan pembelahan penilaian
menjadi setengah untuk tujuan pemberian skor. Salah satu rumus, disebut Formula
20 Kuder—Richardson ,
hanya dapat diterapkan dalam situasi dimana tanggpan siswa diberi skor secara
dikotomis (nol atau satu), sehingga sangat berguna dengan item tes
tradisional yang diberi skor benar atau
salah. KR-20 didasarkan pada proporsi person-person yang mengerjakan tiap-tiap
item dan standar deviasi total skor. (sebuah standar deviasi adalah sebuah
ukuran persebaran skor—lihat Apendix A). Generalisasi KR-20 bagi penilaian yang
mempunyai lebih dari dikotomi, skor benar—salah (misalnya, tiap-tiap tugas
diberi skor dalam skala 5), disebut dengan Koefisien Alfa. Perhitungan KR-20
atau Koefisien Alfa agak sulit dipakai kecuali jika informasinya telah
tersedia yang berkaitan dengan proporsi passing atau standar deviasi
skor untuk tugas individual. Namun, dengan meningkatnya ketersediaan
mikrokomputer dan software untuk memberi skor dan menganalisis tes, sekarang
lebih mudah untuk memperoleh estimasi reliabilitas KR-20 dan Koefisien
Alfa.
Akan
tetapi di sini, perhatian kita lebih kepada interpretasi koefisien tersebut daripada
terhadap kalkulasinya. Estimasi reliabilitas KR-20 dan Koefisien Alfa
menyediakan informasi mengenai derajat dimana item-item atau tugas dalam
penilaian mengukur karakteristik yang mirip. Untuk sebuah tes dengan isi yang
relatif homogen (misalnya sebuah tes perhitungan aritmatika), estimasi
reliabilitas secara umum akan mirip dengan estimasi yang diberikan oleh metode split-half.
Memang, estimasi KR-20 dan Koefisien Alfa dapat dianggap sebagai rata-rata
semua koefisien untuk kelompok yang diuji. Hal ini merupakan suatu
manfaat ketika mempertimbangkan sebuah penilaian dengan isi yang relatif
homogen karena estimasi tersebut tidak tergantung pada cara dimana item diberikan
kepada dua paruh tes seperti dalam metode split-half. Namun, Bagi
penilaian yang dirancang untuk mengukur hasil pembelajaran yang lebih homogen
(misalnya, sebuah penilaian yang mencakup sejarah masa lampau, Abad
Pertengahan, dan sejarah modern) estimasi KR-20 atau Koefisien Alfa akan lebih
kecil dibandingkan dengan koefisien yang diberikan oleh metode split-half
dan metode ini pun akhirnya lebih dipilih.
Kesederhanaan
dalam menerapkan metode split-half, KR-20, atau Koefisien Alfa telah
menjadikan penggunaan metode-metode ini tersebar luas untuk menentukan
reliabilitas. Namun, ada batasan dalam membatasi nilai metode-metode ini. Pertama,
metode tersebut tidak sesuai untuk penilaian yang dipercepat—untuk penilaian
dengan keterbatasan waktu yang menghalangi siswa untuk mencoba setiap soal. Jika
kecepatan merupakan faktor yang signifikan dalam penilaian, estimasi
reliabilitas akan tercebur ke dalam derajat yang tidak diketahui. Hal
ini memberikan permasalahn yang tidak terlalu serius dalam mengestimasi
reliabilitas hasil penilaian yang dibuat oleh guru, karena penilaian ini
biasanya dirancang untuk memberikan waktu yang cukup kepada siswa untuk
melengkapi seluruh tugas/soal. Namun, dalam kasus tersebut keterbatasan waktu
jarang sekali liberal sehingga semua siswa melengkapi tes. Maka, ukuran
konsistensi internal yang dilaporkan dalam petunjuk tes harus diinterpretasikan
dengan perhatian/kewaspadaan kecuali jika bukti/fakta juga disajikan bahwa
kecepatan kerja adalah faktor yang dapat diabaikan. Untuk tes yang dipercepat,
reliabilitas diperoleh dengan metode tes—retes atau bentuk-bentuk ekuivalen harus
dicari.
Pembatasan
kedua dalam prosedur konsistensi internal ialah prosedur tersebut tidak mengindikasikan
keadaan konstan tanggapan siswa dari hari ke hari. Dalam hal ini,
prosedur-prosedur tersebut mirip dengan metode bentuk ekuivalen tanpa suatu
interval waktu. Hanya saja prosedur tes—retes mengindikasikan tingkat dimana
hasil penilaian dapat digeneralisasikan dalam periode waktu yang berbeda.
Konsistensi
Antarpenilai
Pertimbangan
diperlukan dalam memberi skor/nilai tanggapan siswa terhadap banyak tipe
penilaian. Hal ini jelas dalam kasus ujian esai, tetapi pertimbangan juga
diperlukan dalam memberi skor tanggapan terhadap permasalahan matematika atau
praktek laboratorium dalam ilmu alam. Ketika kerja siswa dinilai berdasarkan
pertimbangan, akan masuk akal untuk menanyakan apakah skor yang sama akan
diberikan oleh pertimbangan yang berkualifikasi sama lainnya. Individu
guru kelas jarang menyuruh guru lain secara independen memberi skor
contoh-contoh kerja siswa dari kelas mereka. Akan tetapi terdapat pertumbuhan
kebutuhan untuk mengevaluasi konsistensi antar penilai sebagai sebuah hasil
dari peningkatan jumlah tes yang diselenggarakan negara bagian dan distrik yang
harus diberi skor berdasarkan pertimbangan.
Estimasi
konsistensi antarpenilai relatif transparan. Dua penilai atau lebih harus
secara independen menilai kinerja yang diperoleh untuk sebuah sampel siswa yang
dipilih secara tepat. Konsistensi dapat diperoleh dengan mengkorelasikan skor
yang diberikan oleh satu hakim/penilai dengan nilai-nilai lain yang diberikan
oleh penilai lain. Konsistensi juga dapat dievaluasi dengan menghitung proporsi
waktu dimana kinerja siswa menerima skor yang sama persis dari dua orang
penilai dan proporsi yang ada di dalam poin tunggal satu sama lain.
Sebagai
contoh, anggaplah bahwa dua penilai secara independen memberi skor esai lima puluh siswa dalam
skala enam. Hasil penilaian disimpulkan pada Tabel 4.2. Penilai 1 memberikan
skor 6 untuk lima
esai. Dari kelima esai tersebut, Penilai 2 memberikan skor 6 untuk tiga esai
dan 4 dan 5 untuk dua esai lainnya. maka tiap entri dalam sel Tabel 4.2.
menunjukkan jumlah esai yang diberikan skor oleh Penilai 1 berasosiasi dengan
baris, sedangkan Penilai 2 memberikan skor berkaitan dengan kolom tabel.
Persentase kesepakatan yang tepat diperoleh dengan menjumlahkan perhitungan
dimana kedua penilai memberikan skor yang sama (tampak dalam cetak tebal), membagi
hasil penjumlahan tersebut dengan jumlah keseluruhan esai, dan mengalikan
hasilnya dengan 100.
Persen
kesepakatan tepat = 100 x (13 + 7 + 5 + 4 + 2 + 3 + 31/50) = 48%
Presentase
waktu yang disetujui penilai dalam satu poin (pada perhitungan antara dua garis
diagonal) akan dihitung dalam cara yang mirip. Untuk contoh ini, persentase kesepakatan
antara satu poin skor adalah 88 persen (100 kali 44/50). Satu indikator lainnya
adalah korelasi antara dua perangkat skor tersebut, dimana untuk data pada
Tabel 4.2. adalah 88. Tingkat konsistensi antarpenilai yang tampak dalam Tabel
4.2. dikatakan tinggi jika dibandingkan dengan tingkat konsistensi yang secara
umum dicapai oleh penilai independen. Meski demikian, enam dari lima puluh siswa tersebut
akan mengalami fluktuasi 2 poin pada skor mereka, tergantung pada orang yang
melakukan penilaian. Satu cara untuk mengurangi pengaruh penilai adalah untuk
menjadikan masing-masing kinerja dinilai secara independen oleh dua penilai
atau lebih dan menggunakan rata-rata penilaian. Skor ganda merupakan prkatek
yang umum diterapkan dalam situasi dimana kinerja yang dinilai dengan
pertimbangan memiliki konsekuensi yang penting bagi individu.
Persentase
persetujuan dan nilai korelasi mengindikasikan derajat dimana urutan tanggapan
bersifat konsisten dari satu penilai ke penilai lainnya. Namun, dimungkinkan
untuk memiliki sebuah korelasi yang tinggi, dan bahkan sebuah persentase kesepakatan,
di saat masih mempunyai perbedaan-perbedaan penting dalam keseluruhan kemurahan
hati kedua penilai. Ketika terdapat ketidaksepakatan, ada kecenderungan
yang kuat bagi satu penilai untuk secara konsisten memberikan sebuah skor yang
lebih tinggi daripada penilai lainnya. perbandingan rata-rata skor yang
diberikan oleh tiap-tiap penilai memberikan sebuah pemeriksaan/cek pada
perbedaan dalam kemurahan hati/kelonggaran. Sebagai contoh, pada Tabel
4.2. rata-rata penilaian yang diberikan pada esai memiliki kemiripan (3.52
untuk Penilai 1 dan 3.60 untuk Penilai 2). Maka, tidak ada penyebab untuk mempermasalahkan
dalam hal ini. Hasil yang ditunjukkan pada tabel 4.3. (yang mungkin telah
diperoleh jika Penilai 1 telah dipasangkan dengan Penilai 3 ketimbang Penilai
2), di sisi lain, dengan jelas mengindikasikan bahwa Penilai 3 jauh lebih toleran
dibandingkan Penilai1, diasamping fakta bahwa persentase kesepakatan
tetap dan persentase kesepakatan dalam satu poin memiliki kesamaan (48% dan
88%) untuk data pada Tabel 4.3. seperti untuk data pada Tabel 4.2.
Evaluasi
konsistensi antarpenilai merupakan hal yang penting untuk memastikan bahwa
beberapa siswa tidak menerima skor yang tinggi sebagai hasil dari kemurahan
hati penilai sedangkan murid-murid yang lain menerima skor rendah karena
pekerjaan mereka dinilai oleh penilai yang keras. Skor rata-rata yang
diberikan pada seperangkat tanggapan umum persentase kesepakatan, dan korelasi
antara skor yang diberikan oleh pasangan penilai kesemuanya berkontribusi
terhadap keseluruhan evaluasi tingkat konsistensi di antara penilai yang
berbeda.
Untuk
mencapai derajat yang tinggi dalam konsistensi antarpenilai diperlukan pengembangan
konsensus di antara para penilai dengan memperhatikan tipe kinerja yang
dinilai. Kesepakatan dalam rubrik penilaian dan pelatihan penilai untuk
menggunakan rubrik-rubrik tersebut dengan konsistensi antarpenilai dan
memastikan bahwa perbedaan dalam kekerasan penilaian dari satu penilai
ke penilai lainnya tidak menempatkan beberapa siswa dalam kerugian.
Pencapaian
konsistensi antarpenilai merupakan hal yang penting untuk tugas yang dinilai
dengan pertimbangan, tetapi hal tersebut tidak menjelaskan apapun tentang tipe
konsistensi yang lain. Sebagai contoh, sebuah konsistensi tingkat tinggi tidak
menjamin konsistensi penilaian dalam berbagai tugas. Ada metode lainnya dalam mengevaluasi
berbagai tipe konsistensi atau generalisasi (dalam berbagai tugas, penilai dan
waktu) secara simultan. Teori generalisasi memberikan fondasi bagi
metode-metode tersebut. Teori tersebut berada di luar ruang lingkup buku ini,
tetapi pengantar yang bagus diberikan oleh Shavelson & Webb (1991).
Membandingkan
Metode
Seperti
telah dinyatakan sebelumnya, masing-masing metode dalam mengestimasi reliabilitas
memberikan informasi yang berbeda berkaitan dengan konsistensi hasil tes. Sebuah
ringkasan informasi ini disajikan pada Tabel 4.4., yang menunjukkan bahwa
sebagian besar metode berkaitan dengan hanya satu atau dua tipe konsistensi. Seperti
tergambar dari namanya, metode antar-penilai hanya mengevaluasi derajat
konsistensi skor yang diberikan kepada kinerja yang sama oleh penilai yang
berbeda. metode tes—retes, tanpa interval waktu, hanya memperhitungkan konsistensi
prosedur penilaian dan kekonstananan jangka pendek dalam hal respon/tanggapan.
Jika suatu interval waktu diberikan di antara penilaian, kekonstanan karakteristik
siswa dari hari ke hari juga akan dicakup. Namun, prosedur tes—retes tidak
memberikan informasi berkaitan dengan
konsistensi hasil pada berbagai sampel yang berbeda, karena kedua
perangkat skor didasarkan pada penilaian yang sama.
Standar
Kesalahan dalam Pengukuran
Jika
saja dimungkinkan untuk menilai berulang-ulang dalam prosedur penilaian yang
sama, kita akan menjumpai bahwa skor akan bervariasi. Jumlah variasi dalam skor
akan langsung dikaitkan dengan reliabilitas prosedur penilaian. Reliabilitas rendah akan diindikasikan oleh
variasi yang sedikit dari satu penilaian ke penilaian selanjutnya. Meskipun
tidak praktis untuk memberikan perangkat tugas penilaian yang sama berkali-kali
kepada siswa, dimungkinkan untuk mengestimasi jumlah variasi yang diharapkan
dalam skor tersebut. Estimasi ini disebut sandar kesalahan dalam pengukuran.
Petunjuk
tes untuk tes yang diterbitkan biasanya mencakup standar kesalahan dalam pengukuran.
Maka, hal yang perlu kita lakukan adalah memasukkan kesalahan standar ke dalam
perhitungan ketika menginterpretasikan skor tes individu. Sebagai contoh, mari
kita asumsikan bahwa kita baru saja memberikan sebuah tes pencapaian standar
kepada sebuah kelas tingkat empat dan hasilnya mengindikasikan bahwa Mary Smith
mempunyai sebuah skor ekuivalensi tingkat (GE) 5.2 dalam tes matematika. Sebuah
skor ekuivalensi tingkat mengindikasikan level peringkat yang dipunyai
rata-rata siswa yang memiliki jumlah jawaban benar yang sama seperti Mary.
(Lihat Bab 14 untuk pembahasan skor ekuivalen peringkat). Kita menjumpai bahwa
dalam petunjuk tes kesalahan standar dalam pengukuran dalam tes matematika
adalah 4. Apa yang ditunjukkan oleh angka 4 tentang prestasi matematika Mary?
Secara umum, angka tersebut mengindikasikan jumlah kesalahan yang harus
dipertimbangkan dalam menginterpretasikan skor Mary. Lebih spesifiknya, angka
tersebut memberikan batasan dimana kita dapat secara rasional berharap untuk
menemukan skor prestasi matematika Mary yang sesungguhnya. Skor yang
sesungguhnya adalah skor yang akan diperoleh jika tes dapat diandalkan dengan
sempurna. Jika Mary Smith diuji berulang-ulang di bawah kondisi yang identik
dan tidak terdapat ingatan, pembelajaran, latihan, atau pengaruh keletihan, 68
persen dari skor yang diperolehnya akan jatuh pada standar kesalahan (.4) dari
skor sesungguhnya, 95 persen akan berada pada dua standar kesalahan (.8), dan
99.7 persen akan berada pada tiga kesalahan standar 91.2) (Lihat “Distribusi
Hipotesis yang Mengilustrasikan Standar Kesalahan dalam Pengukuran). Untuk
tujuan praktis, batasan ini dapat diterapkan kepada skor yang diperoleh Mary
5.2 untuk memberi kita range yang ditunjukkan pada Tabel 4.5. dimana
kita dapat menemukan skor Mary yang sebenarnya.
Meskipun
skor Mary yang besarnya 5.2 mengindikasikan bahwa ia berhasil lebih baik dalam
tes khusus ini dibandingkan dengan siswa yang berada pada peringkat empat,
rentangan skor menunjukkan bahwa kita tidak bisa memastikan bahwa skor Mary
yang sebenarnya berada di atas rata-rata siswa yang berada pada peringkat empat
tadi. Seseorang bisa sangat percaya diri bahwa skornya yang sebenarnya adalah
suatu angka di antara 4.4 dan 6.0 karena 95 persen skor yang diamati jatuh pada
dua standar kesalahan skor yang sesungguhnya. Namun, dalam menginterpretasikan skor
tes individu, penggunaan satu standar kesalahan pengukuran lebih umum
dilakukan. Maka, rentangan 4.8 sampai 5.6 biasanya akan digunakan untuk mendeskripsikan
kinerja tes Mary.
Standar
kesalahan pengukuran menunjukkan mengapa sebuah skor tes harus diinterpretasikan
pita skor (disebut pita kepercayaan diri) dibandingkan sebagai
sebuah skor spesifik. Dengan sebuah standar kesalahan yang besar, pita skor
dikatakan luas, dan kita mempunyai sedikit kepercayaan diri dalam skor yang
kita peroleh. Jika standar kesalahannya kecil, pita skor akan sempit dan kita
akan mempunyai kepercayaan diri yang lebih besar bahwa/karena skor yang kita
peroleh ukuran karakteristik yang dapat dipercaya. Dengan memandang skor
penilaian sebagai pita skor akan memungkinkan untuk menginterpretasikan dan
menggunakan hasil penilaian secara lebih cerdas. Perbedaan yang nyata dalam
skor, antarindividu dan bagi individu yang sama dalam periode waktu tertentu,
sering tidak muncul ketika standar kesalahan pengukuran dipertimbangkan. Seorang
guru atau pembimbing yang sadar akan standar kesalahan pengukuran menyadari
bahwa sangatlah mustahil untuk dogmatis dalam menginterpretasikan perbedaan
minor dalam skor penilaian.
Hubungan
antara koefisien reliabilitas dan standar kesalahan pengukuran dapat dilihat
pada Tabel 4.6. yang menyajikan standar kesalahan pengukuran untuk berbagai koefisien
reliabilitas dan standar deviasi. Ingatlah bahwa saat koefisien reliabilitas
meningkat bagi standar deviasi yang ada, standar kesalahan pengukuran akan
menurun. Maka, koefisien reliabilitas besar berkaitan dengan kecilnya kesalahan
pengukuran dalam skor tes spisifik, dan koefisien reliabilitas yang kecil berasosiasi
dengan kesalahan pengukuran yang besar.
Penjelasan
teoretis tentang Standar Kesalahan Pengukuran
- Diasumsikan
bahwa tiap-tiap person mempunyai sebuah skor sebenarnya dalam
sebuah tes tertentu, nilai hipotesis yang merepresentasikan sebuah skor
terbebas dari kesalahan
- Jika
seseorang dapat diuji secara berulang kali (tanpa hafalan, pengaruh
latihan, atau perubahan lainnya), rata-rata skor yang diperoleh akan
memperkirakan skor yang sesungguhnya, dan dapat skor yang diperoleh
akan terdistribusi secara biasa di sekitar skor sesungguhnya (lihat
diagram)
- Dari
apa yang dikenal tentang kurva distribusi normal, kira-kira 68 persen dari
skor yang diperoleh akan jatuh dalam satu standar kesalahan pengukuran dari
skor person yang sesungguhnya; kira-kira 95% dari skor tersebut akan jatuh
dalam dua standar kesalahan; dan kira-kira 99.7 persen akan jatuh pada
tiga standar kesalahan (lihat “Kurva Normal dan Unit Standar Deviasi” pada
bab 17. Standar kesalahan pengukuran merupakan standar deviasi kesalahan
pengukuran).
- Meskipun
skor yang sesungguhnya bisa saja tidak akan pernah diketahui, standar
kesalahan pengukuran dapat diterapkan terhadap skor yang diperoleh
seseorang untuk menata “batasan yang rasional” untuk menempatkan skor yang
sesungguhnya (misalnya, skor yang diperoleh 97±5 = 92 hingga 102).
- “Batasan
Rasional” ini memberikan confidence bands untuk menginterpretasikan
suatu skor yang diperoleh. Ketika standar kesalahan pengukurannya kecil, confidence
band juga sempit (mengindikasikan reliabilitas tinggi), sehingga kita
mempunyai kepercayaan diri yang lebih besar bahwa skor yang diperoleh
mendekati skor yang sesungguhnya.
Tabel
4.6. Standar Kesalahan pengukuran untuk nilai koefisien reliabilitas dan standar
deviasi
Jika
reliabilitas sebuah penilaian dan standar deviasi skor penilaian telah
diketahui, maka Tabel 4.6 dapat digunakan untuk mengestimasi standar kesalahan.
Dalam kenyataannya, hal ini merupakan tujuan dikembangkannya tabel tersebut. Hal
yang perlu dilakukan seseorang untuk memperoleh sebiah estimasi standar
kesalahan dari suatu penilaian adalah dengan memasuki kolum yang terdekat
dengan koefisien reliabilitas dan baris yang terdekat dengan standar deviasi
dan membaca standar kesalahan pengukuran dari sel kolom dan baris tersebut. sebagai
contoh, sebuah koefisien reliabilitas .90 dan sebuah standar deviasi 16 akan
menghasilkan standar kesalahan 5.1, yang diperoleh dengan mengurutkan ke bawah
kolom .90 menuju baris dimana standar deviasinya adalah 16. (Lihat kotak
pedoman)
Faktor-Faktor
yang Mempengaruhi Ukuran Raliabilitas
Sejumlah
faktor telah terbukti mempengaruhi ukuran reliabilitas konvensional. Jika
kesimpulan yang tepat hendak ditarik, faktor-faktor ini harus dipertimbangkan ketika
menginterpretasikan koefisien reliabilitas. Sebagai contoh, kita telah melihat
bahwa tes yang dipercepat akan menghasilkan koefisien reliabilitas yang besar dengan
konsistensi internal metode dalam mengestimasi reliabilitas. Kita juga harus
memperhatikan bahwa koefisien reliabilitas tes—retes dipengaruhi oleh interval
antarpenilaian, dengan interval yang lebih pendek yang menghasilkan koefisien
reliabilitas yang lebih besar. Meskipun kita mungkin ingin memberi prosedur
penilaian dengan koefisien reliabilitas terbesar, kita tidak akan melakukannya
jika kita mengetahui bahwa koefisien yang dilaporkan dicemari oleh
faktor-faktor yang tidak relevan dengan konsistensi prosedur pengukuran. Demikian
pula, kita mungkin mengurangi perbedaan antara koefisien reliabilitas
yang dilaporkan bagi dua penilaian yang berbeda jika kondisi dimana koefisien
tersebut diperoleh memberikan tes dengan koefisien reliabilitas terbesar.
Pertimbangan
tentang faktor yang mempengaruhi reliabilitas tidak hanya akan membantu kita
dalam menginterpretasikan secara lebih bijak koefisien reliabilitas tes
terstandar tetapi juga dapat membantu kita dalam mengkonstruksi penilaian kelas
yang reliabel/terpercaya. Meskipun para guru jarang menemukan bahwa pertimbangan
tersebut menguntungkan untuk mengkalkulasikan koefisien reliabilitas bagi
penilaian yang mereka bangun, mereka harus menyadari mengenai
faktor-faktor yang mempengaruhi reliabilitas untuk memaksimalkan reliabilitas
penilaian kelas mereka sendiri.
Jumlah
Tugas Penilaian
Secara
umum, semakin besar jumlah tugas dalam penilaian, akan semakin tinggi pula reliabilitasnya.
Hal ini dikarenakan sebuah penilaian yang lebih panjang akan memberikan suatu
sampel yang lebih memadai dalam hal perilaku yang diukur, dan skor yang
diperoleh mungkin hanya sedikit terdistorsi oleh faktor peluang seperti keakraban
khusus dengan tugas yang diberikan atau kurangnya pemahaman tentang apa yang
diharapkan dari tugas yang diberikan tersebut. Anggaplah bahwa untuk mengukur
keterampilan mengeja, kita meminta siswa untuk mengeja satu kata. Hasilnya
tidak reliabel selamanya. Siswa yang mampu mengeja kata tersebut akan menjadi
seorang pengeja yang sempurna, dan siswa yang tidak mampu mengeja akan
mengalami kegagalan total. Jika kita kebetulan memilih kata yang sulit, sebagian
besar siswa akan gagal; jika kata yang dipilih adalah adalah kata yang mudah,
sebagian besar siswa akan menjadi pengeja yang sempurna. Fakta bahwa satu kata
memberikan estimasi yang tidak reliabel tentang kemampuan ejaan siswa akan
tampak sangat jelas. Hal ini harus sama jelasnya bahwa saat kita menambahkan
kata-kata ejaan lebih banyak lagi ke dalam daftar, kita semakin dekat dengan
sebuah perkiraan yang baik tentang kemampuan ejaan tiap-tiap siswa. Skor yang
didasarkan pada sejumlah besar kata-kata ejaan lebih memungkinkan untuk
merefleksikan perbedaan sesungguhnya dalam kemampuan mengeja sehingga akan
lebih stabil. Dengan meningkatkan ukuran sampel perilaku mengeja, sehingga, kita
meingkatkan konsistensi pengukuran kita. Sebuah tes yang lebih panjang juga
cenderung mengurangi pengaruh faktor-faktor peluang seperti penebakan. Sebagai
contoh, dalam tes benar-salah sejumlah sepuluh item, seorang siswa mungkin
mengetahui tujuh item dan menebak tiga item lainnya. Suatu tebakan yang benar
tentang ketiga kata tersebut akan menghasilkan sebuah skor yang sempurna, dan
tebakan yang salah akan menghasilkan tujuh item saja yang benar. Hal ini
merepresentasikan sebuah variasi yang dapat dipertimbangkan dalam skor tes yang
dihasilkan dari penebakan itu sendiri. Namun, jika siswa yang sama ini
mengerjakan tes dengan 100 item soal benar-salah, tebakan yang benar cenderung
dibatalkan oleh tebakan yang salah, dan skornya akan lebih dapat dipercaya indikasi
tentang pengetahuan yang sesungguhnya.
Fakta
bahwa sebuah penilaian yang lebih panjang cenderung memberikan hasil yang lebih
reliabel telah diimplikasikan lebih awal, dalam pembahasan kita tentang motode
belah dua. Anda akan mengetahui bahwa ketika skor dari dua belahan tes
dikorelasikan dengan .60, rumus Spearman-Brown mengestimasi reliabilitas skor
untuk penialian lengkap sebesar 7.5. hal ini ekuivalen dengan estimasi
peningkatan dalam reliabilitas yang diharapkan saat jumlah tugas penilaian
digandakan/dobel/digabung.
Hubungan
antara panjang soal dengan reliabilitas memberikan/memunculkan sebuah
permasalahan bagi penilaian yang memerlukan periode waktu yang diperluas/diperpanjang
dalam melengkapinya, karena ciri penting dalam hubungan panjang—reliabilitas
adalah jumlah tugas, bukan jumlah waktu penilaian. Jika masing-masing tugas
memerlukan sebuah periode waktu yang penuh atau bahkan lebih lama untuk
diberikan, maka jelaslah bahwa peningkatan dalam jumlah tugas mempunyai sebuah
pengorbanan yang mahal dalam hal waktu yang harus ditempuh siswa. Namun
demikian, jika konsistensi kinerja dalam tugas berbeda yang dimaksudkan untuk
mengakses suatu domain umum dalam pencapaian ternyata rendah, kemudian tugas
ganda akan diperlukan untuk mencapai tingkat reliabilitas yang memadai.
Setidaknya
ada dua cara dimana periode waktu yang diperpanjang diperlukan agar hasil
penilaian dapat mencapai reliabilitas yang memadai dapat ditentukan. Pertama,
waktu dan pengeluaran yang lebih besar dapat dibatasi ketika penilaian memiliki
konsekuansi utama bagi individu yang dinilai atau bagi masyarakat (misalnya, lisencing
of physician –pemberian izin pada ahli jiwa). Kedua, kesetiaan periode waktu
yang diperluas terhadap penilaian dibatasi ketika penilaian tersebut
sendiri mempertimbangkan aktivitas instruksional yang baik yang berkontribusi
tidak hanya pada pengukuran penilaian, tetapi secara langsung terhadap pembelajaran
siswa. Pembatasan yang lebih akhir cenderung lebih relevan bagi
penilaian dalam sekolah dasar dan sekolah menengah pertama daripada pembatasan
yang pertama.
Terdapat
hal yang penting dalam mengevaluasi pengaruh jumlah tugas dalam reliabilitas
skor: pernyataan yang telah kita buat mengasumsikan bahwa penilaian tadi akan
diperpanjang dengan menambahkan tugas dari kualitas yang sama seperti tugas-tugas
yang akan mampu dikerjakan dengan baik atau menambahkan sepuluh kata ejaan yang
sangat sulit yang tak akan mampu dikerjakan dengan benar oleh satupun dari
mereka tidak akan meningkatkan reliabilitas skor dalam sebuah tes mengeja. Pada
kenyataannya, tak aka nada pengaruh dalam koefisien reliabilitas, oleh karena panambahan
tersebut tidak akan mempengaruhi keadaan relatif siswa pada siswa
lainnya dan kelompok tersebut.
Dalam
mengkonstruksi tes kelas atau memberikan tugas penilaian, perlu diingat dalam
benak tentang pengaruh jumlah pertanyaan atau tugas pada reliabilitas. Jika
hanya sejumlah kecil pertanyaan/tugas dapat digunakan (karena keterbatsan
waktu, usia siswa, atau perluasan waktu yang diperlukan untuk melengkapi
tiap-tiap tugas), maka penilaian yang lebih sering mungkin dipergunakan untuk
memperoleh sebuah ukuran pencapaian yang lebih dapat diandalkan.
Dalam
menggunakan tes standar, kita harus waspada terhadap skor bagian berdasar
pada item yang relatif sedikit, skor tersebut biasanya memiliki reliabilitas
yang rendah dan hanya sedikit nilai praktisnya. Sebelum menggunakan skor tersebut,
petunjuk tes harus diperiksa reliabilitasnya. Jika reliabilitas tersebut tidak
terdapat dalam petunjuk atau sangat rendah, skor bagian harus diabaikan,
dan hanya skor tes total yang harus digunakan.
Persebaran
Skor
Seperti
telah dijelaskan sebelumnya, koefisien reliabilitas dipengaruhi secara langsung
oleh persebaran skor dalam kelompok yang dinilai. Hal-hal lainnya bersifat
sama, semakin besar persebaran skor, semakin tinggi pula estimasi
reliabilitasnya. Oleh karena koefisien reliabilitas yang lebih besar dihasilkan
ketika individu-individu berada pada posisi yang relatif sama dalam sebuah
kelompok dari satu penilaian ke penilaian lainnya, koefisien tersebut secara
alami mengikuti bahwa apapun yang mengurangi kemungkinan perubahan posisi dalam
kelompok juga berkontribusi pada koefisien reliabilitas yang lebih besar. Dalam
hal ini, perbedaan yang lebih besar di antara skor individual mengurangi kemungkinan
perubahan posisi. Dengan kata lain, kesalahan pengukuran kurang
berpengaruh terhadap posisi relatif individual ketika perbedaan di antara
anggota kelompok juga besar; yakni ketika terdapat persebaran skor yang luas.
Hal
ini dapat dengan mudah diilustrasikan tanpa mengacu pada statistic. Bandingkan
kedua perangkat skor yang ditunjukkan pada Tabel 4.8[1].
dalam hal kemungkinan bahwa individu-individu akan berada pada posisi yang
relatif sama dalam pemberian penilaian yang kedua. Meskipun/bahkan inspeksi
sepintas skor-skor ini akan menunjukkan bahwa person dalam kelompok B lebih
cenderung mengalami perubahan posisi dalam pemberian penilaian yang kedua. Dengan
sebuah persebaran hanya 10 poin dari skor puncak menuju skor dasar/terbawah,
perubahan radikal dalam hal posisi dapat dihasilkan dari adanya perubahan dalam
skor, meskipun hanya sedikit saja.
Namun,
dalam Kelompok A, skor individual dapat berbeda-berbeda/beragam beberapa poin
pada pemberian tes yang kedua, dengan sangat sedikit perubahan dalam posisi
relatif anggota kelompok. Persebaran skor tes yang besarpada Grup A membuat
perubahan dalam posisi relatif dan itu semua memberi kita kepercayaan
diri yang lebi besar bahwa perbedaan di antara anggota kelompok ini memang
nyata.
Objektivitas
Objektivitas
sebuah penilaian mengacu pada derajat dimana skor yang sama-sama kompeten
memperoleh hasil yang sama. Sebagian besar tes standar kecerdasan dan
pencapaian/prestasi sangat tinggi sifat objektifnya. Item-item tes merupakan
tipe objektif (misalnya, pilihan ganda), dan skor yang dihasilkan tidak dipengaruhi
oleh pertimbangan atau opini. Pada kenyataannya, tes tersebut biasanya dikonstruksi
sehingga tes tersebut dapat secara akurat diberi skor oleh juru tulis yang
terlatih dan mesin penilai. Saat prosedur yang sangat objektif tersebut
digunakan, reliabilitas hasil tes tidak dipengaruhi oleh prosedur pemberian skor.
Akan
tetapi, untuk penilaian kelas yang dikonstruksi oleh guru atau penilaian
berbasis kinerja yang diatur oleh negara bagian dan distrik, objektivitas dapat
memainkan peran penting dalam memperoleh ukuran prestasi yang reliabel. Dalam
ujian esai dan penilaian yang memerlukan pemberian skor berdasarkan
pertimbangan, hasilnya tergantung pada person yang memberi skor (untuk
tingkat-tingkat tertentu). Orang yang berbeda pun memperoleh hasil yang
berbeda, dan bahkan orang yang sama pun memperoleh hasil yang berbeda dalam
waktu yang berbeda. Inkonsistensi dalam pemberian skor tersebut mempunyai suatu
pengaruh yang berlawanan dalam reliabilitas ukuran yang diperoleh. Tes
tersebut sekarang merefleksikan opini dan bias dan juga perbedaan di
antara siswa dalam karekateristik yang diukur.
Solusinya
adalah tidak hanya dengan menggunakan tes objektif, atau dengan meninggalkan sebuah
pengaruh yang berlawanan dalam validitas, dan seperti telah dibahas sebelumnya,
validitas merupakan kualitas yang terpenting dalam hasil penilaian. Solusi yang
lebih baik adalah dengan memilih prosedur penilaian yang paling tepat bagi
tujuan pembelajaran yang dinilai dan kemudian membuat prosedur penilaian
seobjektif mungkin. Sebagai contoh, dalam menggunakan tes esai, objektivitas
dapat ditingkatkan dengan penataan kalimat pertanyaan secara hati-hati dengan
sebuah standar perangkat aturan untuk memberi skor. Demikian pula objektivitas
dalam pemberian skor kecakapan dalam ilmu alam dapat ditingkatkan dengan
membuat kriteria pemberian skor yang jelas dan penilai yang telah terlatih
secara cermat. Peningkatan objektivitas tersebut akan berkontribusi pada
reliabilitas yang lebih besar tanpa mengorbankan validitas.
Metode
untuk Mengestimasi Reliabilitas
Ketika
menguji koefisien reliabilitas tes standar, hal yang penting untuk
dipertimbangkan adalah metode yang digunakan untuk memperoleh estimasi
reliabilitas. Secara umum, ukuran koefisien reliabilitas terkait dengan metode
untuk mengestimasi reliabilitas.
1. Metode Tes—Retes
|
Mungkin lebih besar daripada metode belah dua jika interval
waktunya pendek. Koefisien akan menjadi lebih kecil saat interval waktu
antartes ditingkatkan.
|
2. Metode Bentuk Ekuivalen
(tanpa interval waktu)
|
Koefisien cenderung lebih rendah daripada dengan metode belah
dua atau metode tes—retes yang menggunakan interval waktu pendek.
|
3. Metode Bentuk Ekuivalen
(dengan interval waktu)
|
Koefisien menjadi lebih kecil saat interval waktu anta rtes
ditingkatkan.
|
4. Metode Belah-Dua
(misalnya, ganjil-genap)
|
Memberikan suatu indikasi konsistensi internal sebuah tes. Estimasi
yang tinggi dihasilkan untuk tes yang dipercepat.
|
5. Metode Kuder—
(Koefisien Alfa)
|
Biasanya memberikan estimasi reliabilitas yang lebih kecil
daripada estimasi yang diperoleh dari metode split half. Estimasi ini juga dipengaruhi
oleh kecepatan.
|
6. Metode Antarpenilai
|
Memberikan sebuah indikasi derajat dimana skor yang mirip
diperoleh dengan tanpa mengacu pada siapa yang melakukan penilaian.
Konsistensi antarpenilai dapat ditingkatkan dengan menggunakan aturan
pemberikan skor yang terperinci dengan jelas dengan pelatihan penilai secara
cermat.
|
Variasi
ukuran koefisien reliabilitas yang dihasilkan dari metode dalam mengestimasi
reliabilitas secara langsung dapat dilekatkan terhadap tipe konsistensi
yang tercakup dalam tiap-tiap metode. Penggunaan kembali metode yang
ekuivalen tersebut dengan sebuah interval waktu yang dimasukkan ke dalam
perhitungan sebagian besar sumber
variasi dalam skor tes dan merupakan metode yang cermat untuk
mengestimasi reliabilitas daripada dengan tes—retes, penggunaan bentuk
ekuivalen tanpa suatu interval waktu yang menghalanginya, atau metode
konsistensi internal. Maka, koefisien reliabilitas yang elbih kecil dapat dapat
diharapkan dengan metode ini, dan tidaklah adil untuk membandingkan koefisien
reliabilitas tersebut dengan koefisien yang diperoleh dengan metode yang kurang
keras.
Pada
sisi lain, koefisien reliabilitas yang lebih besar yang biasanya dilaporkan
untuk metode belah-dua harus diterima dengan kewaspadaan. Jika kecepatan
merupakan faktor penting dalam pengujian, koefisien reliabilitas belah-dua
harus disingkirkan seluruhnya, dan bukti lain tentang reliabilitas harus dicari.
Reliabilitas
Penilaian yang Dievaluasi Dalam Hal Sebuah Standar Kinerja Tetap
Terdapat
suatu variasi situasi dimana tujuan utama sebuah penilaian hendak menentukan
apakah kinerja telah memenuhi standar yang telah ditetapkan. Tes penguasaan
yang mengacu pada kriteria adalah contohnya. Biasanya, tes tersebut dirancang
untuk memberikan dasar bagi sebuah keputusan mengacu pada penguasaan seperangkat
kecakapan inti dan seringkali menekankan pada kinerja yang relatif rendah. Dengan
membandingkan kinerja dengan sebuah standar tetap dibandingkan dengan kinerja
siswa yang lain, namun, tidak perlu membatasi penilaian terhadap pengujian
kecakapan tingkat rendah dan tingkat minimum kinerja. Memang, pada saat ini
penekanannya ada pada pembentukan standar tinggi dalam kinerja bagi seluruh
siswa.
Dengan
mengabaikan tingkat standar, ketika kita menggunakan penilaian untuk tujuan
menentukan apakah kinerja telah memenuhi standar yang telah ditetapkan, keinginan
kita untuk konsistensi pengukuran mirip dengan tes yang mengacu pada
norma. Maka, kita menginginkan agar sebuah kinerja individu harus konsisten
dari (1) satu penilai ke penilai lainnya; (2) satu tugas ke tugas lainnya,
ketika semua tugas mengukur hasil pembelajaran yang sama (konsistensi
internal); (3) satu waktu ke waktu lainnya, ketika hasil pembelajaran
diharapkan memiliki sebuah tingkat stabilitas yang masuk akal; dan (4) satu
bentuk penilaian menuju penilaian lainnya, ketika bentuk-bentuk dimaksudkan untuk
mengukur sampel tugas belajar yang sama (ekuivalen). Namun, fokusnya lebih
sering pada apakah kinerja tersebut telah memenuhi standar daripada pada skor
sesungguhnya.
Selain
itu juga dikarenakan kekhususan penilaian penguasaan dan pertaliannya yang erat
dengan instruksi, penilaian tersebut mungkin memiliki area skor yang lebih
sempit dibandingkan dengan area skor yang dihasilkan ukuran yang mengacu pada
norma. Fokus pada keputusan penguasaan dan variabilitas yang lebih kecil telah
membawa pada pendekatan yang berbeda dalam mengevaluasi reliabilitas penilaian
penguasaan.
Pemberian
tekanan pada sebuah kinerja memenuhi atau gagal memenuhi sebuah standar,
pendekatan yang paling alami terhadap reliabilitas adalah dengan mengevaluasi konsistensi
yang digunakan untuk mengklasifikasikan apakah siswa berada di atas atau di
bawah standar. Tipe reliabilitas ini dapat ditentukan dengan menghitung
persentase keputusan konsisten sebagai hasil dari dimilikinya kinerja yang
dievaluasi oleh penilai yang berbeda atau dalam suatu bentuk penilaian yang
ekuivalen. Meskipun sejumlah pendekatan yang lebih rumit telah diajukan,
perhitungan sederhana tentang persentase orang-orang yang secara konsisten
diklasifikasikan adalah pendekatan yang didukung oleh Standar (Asosiasi
Psikologi Amerika, 1985) untuk tes-tes yang digunakan untuk membuat keputusan
dikotomis dengan mengacu pada sebuah standar. Namun, dengan hanya dua
kategori maka hal yang lebih penting dilakukan adalah untuk memperhitungkan
pula tingkat kesepakatan yang akan diharapkan oleh perubahan.
Mari
kita asumsikan bahwa kita telah diberi dua penilaian pengganti, masing-masing
terdiri dari 10 tugas matematika open-ended, terhadap sekelompok siswa yang
terdiri dari 30 siswa. Masing-masing tugas diberi skor dalam skala empat poin
(mulai dari 0 untuk tidak adanya tanggapan atau untuk tanggapan yang melenceng
dari pertanyaan hingga 3 untuk solusi yang kuat terhadap permasalahan dengan
pertimbangan yang memadai). Maka, area skor yang mungkin dalam masing-masing
penilaian yakni dimulai dari 0 hingga 30 untuk tiap-tiap penilaian pengganti. Untuk
memenuhi standar, seorang siswa harus memperoleh sebuah skor setidaknya 20.
Semua siswa yang memperoleh skor 20 atau lebih tinggi dalam kedua penilaian
tersebut secara konsisten diklasifikasikan telah memenuhi standar. Semua siswa
yang memperoleh skor 19 atau di bawahnya dalam kedua penilaian tersebut secara
konsisten diklasifikasikan mengalami kegagalan untuk memenuhi standar. Siswa-siswa
yang ada pada intinya diklasifikasikan telah memenuhi standar dalam satu
penilaian dan gagal memenuhi standar penilaian lainnya. jika kelompok terakhir
ini sebaliknya relatif besar jumlahnya, penilaian kita jelas tidak
konsisten dalam mengklasifikasikan siswa. Data untuk analisis tersebut dapat
diringkas dalam sebuah tabel 2—2 seperti bagan 4.4.
Dengan
menggunakan informasi pada bagan 4.4. kita dapat menghitung sebuah persentase
konsistensi, dengan menggunakan rumus berikut:
Memenuhi standar
(kedua bentuk) +
Gagal untuk memenuhi
standar (kedua bentuk)
% Konsistensi X 100 =
Total jumlah dalam
Kelompok
% Konsistensi = 20
+ 7 X 100 = 90%
30
Bagan
4.4. Klasifikasi tiga puluh siswa dalam kaitannya dengan standar kinerja tetap
(dapat dilihat dalam buku hal. 104)
90
persen kesepakatan harus dibandingkan dengan kesepakatan yang yang diharapkan
dari peluang. Bagan terakhir diperhitungkan dengan mengikuti langkah-langkah
berikut. (1) Mengalikan proporsi siswa yang memenuhi standar dalam Penilaian A
( 22 dari 30 = .733) dengan proporsi siswa yang memenuhi Penilaian B ( 21 dari
30= .700). Perhitungan ini menghasilkan (.733 X .700 = 513). (2) Mangalikan
proporsi siswa yang gagal memenuhi standar pada Penilaian A (8 dari 30 = .267)
dikalikan figur yang berkorespondensi dengan Penilaian B (9 dari 30 = .300).
Perhitungan ini menghasilkan (.267 X .300 = .080). (3) Jumlahkan hasil Langkah
1 dan 2, (.513 + .080 = .593). (4) Mengubah hasil langkah 3 menjadi
persentase dengan mengalikannya dengan 100. Perhitungan ini menghasilkan angka
59.3 persen, level kesepakatan yang diharapkan olehdari peluang yang
diberikan oleh nilai batas bawah dalam dua penilaian tersebut. Persen
kesepakatan 90 persen dibandingkan persen yang diharapkan dari peluang.
Meskipun
persentase kesepakatan secara konseptual sederhana dan mudah untuk dihitung,
persentase tersebut memerlukan dua versi penilaian. Hal ini bukanlah kelemahan
yang serius, namun, karena penilaian dirancang untuk menentukan apakah para
siswa yang memenuhi standar harus mengizinkan siswa yang gagal untuk memenuhi
standar dengan berkesempatan mencoba kembali dalam pengganti tugas
penilaian. Kiranya kurang bijak untuk mengizinkan siswa yang tidak
memenuhi standar performansi pada percobaan pertama untuk dinilai kembali
dengan perangkat tugas yang identik. Prosedur-prosedur telah dikembangkan untuk
mengestimasi keputusan konsistensi berdasarkan pada pemberian sebuah bentuk tes
tunggal atau seperangkat tugas penilaian; namun, prosedur-prosedur tersebut relatif
kompleks dan melebihi ruang lingkup buku ini (Subkoviak, 1984). Maka cukuplah
kiranya dengan mengatakan bahwa prosedur-prosedur tersebut bermaksud untuk
memberikan perkiraan terhadap persentase kesepakatan berdasarkan pada bentuk-bentuk
ekuivalen dari data yang tersedia dari pemberian seperangkat tunggal tugas
penilaian.
Berapakah
seharusnya tingginya suatu reliabilitas?
Derajat
reliabilitas yang kita butuhkan dalam penilaian pendidikan sangat tergantung
pada keputusan yang hendak dibuat. Jika kita hendak menggunakan hasil penilaian
untuk menentukan apakah akan memeriksa area-area pelajaran tertentu, kita dapat
menggunakan penilaian yang dibuat guru yang relatif memiliki reliabilitas
rendah. Keputusan akan didasarkan skor total kelompok, dan variasi dalam skor
individu tidak akan terlalu banyak mendistorsi keputusan kita. Meskipun kita
melakukannya pada keputusan kita, tidak ada catsthrope yang akan
dihasilkan. Hal terburuk yang dapat terjadi adalah para siswa akan memperoleh kajian
materi yang tidak diperlukan atau mereka akan dihilangkan sebuah review
yang mungkin bermanfaat bagi mereka. Di sisi lain, jika kita hendak menggunakan
sebuah penilaian untuk menentukan apakah akan menganugerahkan beasiswa diploma
atau perguruan tinggi, kita membutuhkan pengukuran yang reliabel yang tersedia.
Keputusan tersebut mempunyai konsekuensi yang penting bagi kehidupan
individu-individu yang terlibat.
Tidak
hanya pentingnya keputusan yang menjadi masalah tetapi juga mengenai
kemungkinan untuk memperkuat atau membalik penilaian pada waktu
selanjutnya. Pembuatan keputusan dalam pendidikan jarang sekali bersifat
tunggal, tindakan akhir. Pembuatan keputusan tersebut cenderung berangkai,
dimulai dengan penilaian yang agak kasar dan melangkah menuju serangkaian
penilaian yang lebih diperhalus. Pada tahap awal pembuatan keputusan,
reliabilitas rendah mungkin dapat ditolelir karena hasil penilaian utamanya
digunakan sebagai panduan untuk pengumpulan informasi lebih lanjut. Sebagai
contoh, pada basis penilaian kelas tentang reliabilitas yang masih
dipertanyakan, kita mungkin memutuskan bahwa beberapa siswa kita mempunyai
kesulitan belajar yang serius sehingga mereka memerlukan bantuan khusus. Keputusan
ini dapat dikonfirmasi atau ditolak dengan penilaian lebih lanjut dengan
ukuran yang lebih dapat dipercaya. Kesempatan untuk konfirmasi dan pembalikan
penilaian tanpa kosekuensi yang serius hampir selalu hadir dalam
tahap-tahap awal pembuatan keputusan pendidikan. Maka, hal yang penting
diperhatikan ketika reliabilitasnya rendah atau tidak diketahui adalah dengan tidak
memperlakukan skor seolah-olah skor tersebut sangat akurat. Buatlah penilaian
yang tentative, cari data yang memperkuat, dan bersedia membalik keputusan
ketika terjadi kesalahan.
Maka,
saat kita bertanya tentang berapakah tingginya reliabilitas ini, beberapa
pertimbangan harus dimasukkan ke dalam perhitungan. Seberapa pentingkah
keputusan tersebut? Apakahkeputusan yang dapat dikonfirmasi atau dapat
diubah kemudian? Seberapa jauhkah jangkauan konsekuensi tindakan yang
diambil? Untuk keputusan yang tidak dapat dibalik/irreversible yang
mungkin memiliki memiliki pengaruh besar terhadap hidup individu siswa, kita
harus membuat permintaan yang kuat dalam reliabilitas penilaian yang
kita gunakan. Untuk keputusan yang kurang, khususnya bagi keputusan yang
nantinya dikonfirmasi atau diubah tanpa konsekuensi yang serius,
kita bersedia untuk menempatkan ukuran
yang kurang reliabel. Tes yang dibuat oleh guru umumnya mempunyai reliabilitas
antara .60 dan 85, tetapi tes tersebut berguna bagi tipe keputusan
instruksional yang biasanya dibuat oleh guru. Maka, derajat reliabilitas yang
diperlukan sangat tergantung kepercayaan diri kita mengenai keputusan
yang hendak dibuat. Kepercayaan diri yang lebih besar memerlukan reliabilitas
yang lebih tinggi (lihat “Kebutuhan Reliabilitas dan hakikat Keputusan).
Daya
Guna
Dalam
menyeleksi prosedur penilaian, pertimbangan parsial tidak dapat diabaikan. Penilaian
biasanya diberikan dan diinterpretasikan oleh para guru hanya dengan sebuah
pelatihan minimum dalam pengukuran. Waktu yang tersedia untuk penilaian hampir
selalu terbatas, oleh karena penilaian berada dalam persaingan waktu yang
konstan dengan aktivitas penting lainnya dalam jadwal sekolah. Demikian pula, biaya
penilaian, meskipun hanya sebuah pertimbangan minor, marupakan pemberian dana
yang harus diteliti dengan cermat. Hal ini dan faktor lain yang yang
berhubungan dengan daya guna prosedur penilaian harus dipertimbangkan
saat mengevaluasi prosedur penilaian. Pertimbangan praktis tersebut khususnya
penting ketika memilih terbitan tes.
Ease
of Administration (Meringankan Administrasi)
Jika
penilaian tersebut hendak diberikan oleh guru atau pihak lain dengan pelatihan
yang terbatas, ease of administration merupakan kualitas yang
penting untuk dicari. Untuk tujuan ini, arah/tujuan harus sederhana dan jelas, subtes
harus relatif sedikit, dan waktu yang diperlukan untuk pemberian tes
penilaian harus tidak terlalu besar. Pemberian sebuah tes dengan arah yang
rumit dan sejumlah subtes yang berlangsung hanya beberapa menit adalah
sebuah tugas yang berat bagi pemeriksa/penguji yang berpengalaman
sekalipun. Bagi seseorang dengan pengalaman dan pelatihan yang sedikit, situasi
tersebut penuh dengan kemungkinan kesalahan dalam memberikan arah, waktu, dan
aspek-aspek lain dalam pemberian tes yang cenderung mempengaruhi hasil.
Kesalahan pemberian tes tersebut tentu saja dapat memberikan pengaruh kebalikan
dalam validitas dan reliabilitas hasil.
Waktu
yang Diperlukan untuk Pemberian Tes
Dengan
waktu penilaian yang berharga, kita selalu menghargai penilaian,
hal-hal lainnya tetap sama. Akan tetapi dalam hal ini, hal-hal lainnya jarang
sekali sama, oleh karena reliabilitas secara langsung terkait dengan panjangnya
sebuah penilaian. Jika kita berupaya untuk memotong banyak waktu yang
dialokasikan untuk penilaian, kita dapat mengurangi secara drastis
reliabilitas skor kita. Sebagai contoh, tes-tes yang dirancang untuk menyesuaikan
sebuah periode waktu normal biasanya menghasilkan skor tes total yang
sangat reliabel, tetapi skor bagian-bagiannya, yang diperoleh dari subtes,
cenderung tidak akan reliabel. Jika kita menginginkan ukuran yang reliabel
dalam area yang dicakup oleh subtes, kita perlu meningkatkan waktu tes kita
pada tiap-tiap area. Di sisi lain, jika kita menginginkan sebuah ukuran umum
dalam beberapa area, seperti kecakapan verbal, dalam waktu tes yang diperluas.
Prosedur yang aman adalah dengan mengalokasikan sebanyak mungkin waktu
sesuai dengan yang dibutuhkan untuk memperoleh hasil yang valid dan reliabel
dan tidak ada yang lain. Antara 20 dan 60 menit waktu tes bagi tiap-tiap skor
individu yang diberikan oleh sebuah tes yang diterbitkan mungkin panduan yang
cukup baik.
Pedoman
Permintaan
Reliabilitas dan hakikat Keputusan
Reliabilitas dibutuhkan
ketika
- Keputusan dianggap penting
- Keputusan merupakan langkah akhir
- Keputusan tidak dapat diubah
- Keputusan tidak dapat dikonfirmasi
- Keputusan berkaitan dengan individu
- Keputusan mempunyai konsekuensi selamnya
Contoh: Pilih atau
tolak pelamar kuliah
Reliabilitas dapat ditolelir
saat:
- Keputusan merupakan hal yang tidak
begitu penting
- Pembuatan keputusan berada pada tahap
awal
- Keputusan dapat diubah
- Keputusan dapat dikonfirmasi dengan data
- Keputusan berkaitan dengan kelompok
- Keputusan mempunyai pengaruh sementara
Contoh: Rencana untuk
mengkaji pelajaran di kelas
Meringankan
Interpretasi dan Aplikasi
Dalam
analisis akhir, keberhasilan atau kegagalan suatu program penilaian ditentukan
oleh penggunaan yang dibuat dari hasil penilaian. Jika hasil penilaian diinterpretasikan
dengan benar dan diterapkan secara efektif, hasil tersebut akan berkontribusi
bagi keputusan pendidikan yang lebih cerdas. Di sisi lain, jika hasil penilaian
diinterpretasikan, diaplikasikan dengan keliru atau tidak diterapkan sama sekali,
maka hasil tersebut akan memiliki nilai yang kecil dan dapat membahayakan
terhadap beberapa individu atau kelompok.
Informasi
yang berkaitan dengan interpretasi dan penggunaan hasil dari tes yang
dikeluarkan biasanya diperoleh secara langsung dari petunjuk tes atau pedoman
terkait. Perhatian harus diarahkan pada kejelasan skor yang dilaporkan,
kualitas dan relevansi norma-norma, dan pemahaman saran untuk menerapkan hasil
terhadap permasalahan pendidikan. Ketika hasil tes akan disajikan kepada siswa
atau orang tua, ease of interpretasi dan aplikasi khususnya
dangat penting.
Ketersediaan
Bentuk-Bentuk Ekuivalen atau Dapat Dibandingkan
Untuk
tujuan-tujuan pendidikan, bentuk-bentuk ekuivalen dari tes yang sama seringkali
diperlukan. Bentuk-bentuk ekuivalen dari sebuah tes mengukur aspek perilaku
yang sama dengan menggunakan item tes yang serupa dalam hal ini, tingkat
kesulitan, dan karakteristik lainnya. Maka, satu bentuk tes dapat menggantikan
bentuk lainnya, sehingga memungkinkan untuk menguji siswa sebanyak dua kali
dalam jarak waktu agak dekat tanpa adanya pengaruh jawaban tes pertama terhadap
kinerja mereka dalam tes penguasaan, ketika kita ingin mengeliminir faktor
ingatan/memori sambil menguji siswa dalam domain prestasi yang sama.
bentuk-bentuk ekuivalen sebuah tes mungkin juga digunakan untuk memverifikasi
skor tes yang dapat dipertanyakan. Misalnya, seorang guru mungkin
merasa bahwa tes kecerdasan atau pencapaian sangat rendah bagi
siswa dan dapat dengan mudah dicek dengan memberikan bentuk tes yang ekuivalen.
Banyak
tes yang juga memberikan bentuk-bentuk yang dapat dibandingkan. Tes pencapaian
yang dikeluarkan, misalnya, umumnya disusun dalam seri yang mencakup level
peringkat yang berbeda. Meskipun isi dan level kesulitan berbeda-beda, tes
dalam level yang berbeda dibuat agar dapat dibandingkan dengan sarana skala
skor yang umum. Maka, sangatlah dimungkinkan untuk membandingkan pengukuran
pada Tingkat 4 dengan pengukuran pada Tingkat 6 dalam sebuah bentuk tes yang
lebih lanjut. Bentuk-bentuk yang dapat dibandingkan khususnya berguna dalam
mengukur perkembangan dalam kecakapan dasar.
Biaya
Pengujian
Faktor
biaya diletakkan pada bagian akhir karena faktor ini relatif tidak penting
dalam memilih terbitan tes. Alasan untuk membahasnya ialah dikarenakan faktor
ini terkadang memberikan bobot yang jauh lebih berat dari selayaknya. Pengujian
relatif tidak mahal, dan biaya bukanlah merupakan pertimbangan utama. Dalam
program pengujian skala besar dimana tabungan per siswa bertambah, dengan
menggunakan lembar jawab terpisah, meskin penilai, dan booklet yang dapat
digunakan kembali akan mengurangi biaya. Akan tetapi untuk memilih satu
tes ketimbang tes lainnya oleh karena booklet tes lebih murah beberapa rupiah
merupakan pemikiran yang salah. Bagaimanapun, validitas dan reliabilitas
merupakan karakteristik penting yang harus dicara, dan sebuah tes yang
kekurangan kualitas ini dipandang sebagai sesuatu yang terlalu mahal dalam
tingkatan harga berapapun. Kontribusi skor tes yang valid dan reliabel tersebut
dapat menjadikan keputusan pendidikan berarti bahwa tes tersebut selalu
ekonomis dalam jangka panjang.
Rangkuman
Reliabilitas
merupakan kualitas terpenting untuk mencari hasil penilaian. Reliabilitas
mengacu pada konsistensi skor dan hasil penilaian lainnya dari satu penilaian
menuju penilaian yang lain. Dalam menginterpretasikan dan menggunakan informasi
reliabilitas, penting untuk diingat bahwa estimasi reliabilitas mengacu pada
hasil pengukuran, bahwa cara yang berbeda dalam mengestimasi reliabilitas
mengindikasikan tipe konsistensi yang berbeda, bahwa ukuran yang reliabel tidak
selalu valid, dan bahwa reliabilitas merupakan konsep statistik yang ketat. Estimasi
reliabilitas biasanya dilaporkan dalam istilah koefisien reliabilitas atau
standar kesalahan pengukuran.
Koefisien
reliabilitas ditentukan oleh beberapa metode yang berbeda, dan tiap-tiap metode
menyediakan ukuran konsistensi yang berbeda. Metode inter-rater mensyaratkan
bahwa perangkat kinerja siswa yang sama diberi skor oleh dua penilai atau
lebih, dan metode ini menyediakan sebuah indikasi konsistensi pemberian skor
oleh para penilai. Metode tes—retes melibatkan pemberian penilaian yang sama
sebanyak dua kali terhadap kelompok yang sama dengan sebuah interval, dan
koefisien yang dihasilkan memberikan sebuah ukuran stabilitas. Panjang interval
antarpenilaian sangat ditentukan oleh penggunaan hasil penilaian tersebut. Kita
terutama tertarik dengan koefisien reliabilitas yang berdasarkan pada interval
yang dapat dibandingkan dengan periode waktu antara kapan penilaian diberikan
dan kapan skor akan digunakan atau diinterpretasikan. Metode bentuk-bentuk
ekuivalen melibatkan pemberian dua bentuk penilaian terhadap kelompok yang sama
dalam jarak waktu yang dekat atau dengan sebuah interval waktu yang menghalanginya.
Penilaian pertama memberikan sebuah ukuran ekuivalensi dan penilaian kedua
memberikan sebuah ukuran stabilitas dan ekuivalensi. Metode bentuk-bentuk ekuivalen
menyedikan evaluasi reliabilitas yang cermat karena metode ini mencakup sumber
ganda tentang variasi dalam hasil penilaian. Reliabilitas juga dapat
diperkirakan/diestimasi dari sebuah pemberian penilaian tunggal, dengan
mengkorelasikan skor dalam dua belahan penilaian atau dengan menerapkan rumus
Kuder—Richardson
atau Koefisien Alfa. Kedua metode tersebut menyediakan ukuran konsistensi
internal dan mudah untuk diterapkan. Namun, metode-metode tersebut tidak dapat
diterapkan untuk tes yang dipercepat dan tidak menyediakan informasi yang
berkaitan dengan stabilitas skor penilaian dari hari ke hari.
Standar
kesalahan pengukuran mengindikasikan reliabilitas dalam hal jumlah variasi yang
diaharapkan dalam skor individual. Hal ini dapat diperhitungkan dari koefisien
reliabilitas dan standar deviasi, tetapi seringkali dilaporkan secara langsung
dalam petunjuk tes. Standar kesalahan khususnya berguna dalam
menginterpretasikan skor tes, oleh karena standar tersebut mengindikasikan pita
kesalahan (disebut dengan confidence band) yang mengelilingi
tiap-tiap skor. Metode tersebut juga memiliki manfaat yang cukup konstan dari
satu kelompok ke kelompok lainnya.
Estimasi
reliabilitas dapat beragam dalam tergantung pada panjangnya penilaian,
persebaran skor dalam kelompok yang dinilai, kesulitan tugas penilaian,
objektivitas pemberian skor, dan metode untuk mengestimasi reliabilitas.
Faktor-faktor ini harus diperhitungkan ketika menilai informasi
reliabilitas. Derajat dan tipe reliabilitas yang hendak dicari dalam
sebuah hal khusus terutama tergantung pada keputusan yang hendak dibuat. Untuk
keputusan yang dapat dibuah secara tentative, reliabilitas rendah dapat
ditolelir. Akan tetapi untuk keputusan akhir yang tidak dapat diubah, kita
harus membuat persyaratan yang keras dalam reliabilitas pengukuran kita.
Pengukuran
konvensional terhadap reliabilitas tergantung pada skor dalam area dan
dipengaruhi oleh variabilitas di antara skor. Dalam penilaian yang dirancang
untuk menilai/menaksir kinerja dalam hal standar yang tetap, klasifikasi siswa
dikatakan memenuhi atau gagal memenuhi standar merupakan perhatian utama. Maka,
konsistensi klasifikasi untuk penilaian yang ekuivalen adalah hal yang paling
relevan, dan persentase sederhana tentang waktu bahwa keputusan yang konsisten
dibuat menyediakan informasi yang diperlukan untuk mengevaluasi reliabilitas
keputusan.
Sebagai
tambahan untuk validitas dan reliabilitas, daya guna tes dan prosedur penilaian
lainnya juga penting untuk dipertimbangkan, termasuk ciri-ciri praktis seperti
ease of administration, waktu yang diperlukan, ease of
interpretation dan application, ketersediaan
bentuk-bentuk yang ekuivalen atau dapat dibandingkan, dan biaya pengujian.
No comments :
Post a Comment