B. Konsep dan Teknik Pengujian Reliabilitas dalam Instrumen Evaluasi PAI
B.1 Konsep Dasar Reliabilitas
Reliabilitas merupakan konsep yang mengacu pada konsistensi dan keandalan
hasil pengukuran instrumen evaluasi. Reliabilitas diterjemahkan dari kata reliability
yang berarti hal yang dapat dipercaya (tahan uji) (Mutakin, 2023; . Suatu
instrumen disebut reliabel jika instrumen tersebut mampu mengungkap data dan
bisa dipercaya sebagai alat pengumpul data Muslim et al., 2017; . Dalam konteks
evaluasi PAI, reliabilitas instrumen sangat penting karena hasil penilaian yang
tidak konsisten dapat mengakibatkan kesalahan dalam pengambilan keputusan tentang
pencapaian kompetensi peserta didik.
Reliabilitas dikatakan reliabel jika jawaban seseorang terhadap
pertanyaan konsisten atau stabil dari waktu ke waktu (fi'ah & Perwitasari,
2017). Rentang nilai reliabilitas berkisar antara 0-1; semakin tinggi
(mendekati 1) nilai reliabilitasnya maka instrumen dikatakan reliabel/konsisten
(Septianing & Farida, 2021). Dalam konteks evaluasi PAI, instrumen yang
reliabel akan menghasilkan hasil penilaian yang konsisten apabila digunakan
pada kondisi yang berbeda, sehingga dapat memberikan gambaran yang akurat tentang
pencapaian kompetensi peserta didik.
Pengujian reliabilitas dilakukan untuk membuktikan akurasi, konsistensi,
dan ketepatan instrumen dalam mengukur konstruk (Gani & Budiman, 2023).
Tujuan dari pengujian reliabilitas yakni untuk memberikan penilaian apakah
instrumen secara umum konsisten terhadap seluruh indikator yang ada pada
kuesioner (Septianing & Farida, 2021). Dalam konteks evaluasi PAI,
pengujian reliabilitas harus dilakukan secara sistematis dan komprehensif untuk
memastikan bahwa instrumen yang digunakan dapat menghasilkan data yang akurat
dan dapat diandalkan.
Uji reliabilitas berguna untuk menetapkan apakah instrumen yang dapat
dipakai lebih dari satu kali paling tidak oleh responden yang sama akan
menghasilkan data yang konsisten, di mana nilai reliabilitas dinyatakan dengan
koefisien alpha Cronbach sesuai kriteria batas terendah reliabilitas
yaitu 0,6 (Nugroho, 2020). Hal ini menunjukkan bahwa reliabilitas instrumen
evaluasi PAI harus diuji secara empiris menggunakan teknik statistik yang
tepat, dengan mempertimbangkan kriteria reliabilitas yang telah ditetapkan.
B.2 Jenis-Jenis Reliabilitas
Dalam konteks pengembangan instrumen evaluasi PAI, terdapat beberapa
jenis reliabilitas yang dapat diuji sesuai dengan karakteristik instrumen dan
tujuan pengujian. Beberapa uji reliabilitas yang dapat digunakan yaitu test-retest,
ekuivalen, dan internal consistency Amalia et al., 2022; . Teknik uji
reliabilitas ada beberapa, yaitu test-retest reliability, equivalent-form
reliability, split-half reliability, Kuder-Richardson formulas
(K20 & K21), dan Alpha Cronbach Amalia et al., 2022) .
Pertama, reliabilitas test-retest mengacu pada konsistensi hasil
pengukuran instrumen apabila digunakan pada waktu yang berbeda kepada kelompok
responden yang sama. Uji reliabilitas dilakukan untuk mengetahui sejauh mana
hasil suatu pengukuran dapat dipercaya jika diujikan beberapa kali pelaksanaan
pengukuran terhadap kelompok subjek yang sama Harahap, 2023; . Reliabilitas test-retest
sangat relevan untuk instrumen evaluasi PAI yang digunakan untuk mengukur
perkembangan sikap religius peserta didik dari waktu ke waktu.
Kedua, reliabilitas internal consistency mengacu pada konsistensi
antar item dalam instrumen evaluasi. Reliabilitas internal consistency
dapat diuji menggunakan berbagai teknik statistik, termasuk Alpha Cronbach,
Kuder-Richardson (KR-20 dan KR-21), dan split-half reliability
Amalia et al., 2022; . Dalam konteks evaluasi PAI, reliabilitas internal
consistency sangat penting untuk memastikan bahwa semua item dalam
instrumen mengukur konstruk yang sama secara konsisten.
Ketiga, reliabilitas inter-rater (inter-rater reliability)
mengacu pada konsistensi penilaian antara dua atau lebih penilai yang
menggunakan instrumen yang sama. Uji reliabilitas panduan observasi dilakukan
menggunakan teknik inter-rater reliability, dengan hasil analisis yang
menunjukkan bahwa koefisien inter-rater reliability untuk masing-masing
observer adalah 0,937, yang tergolong dalam kategori sangat baik Harahap, 2023;
. Reliabilitas inter-rater sangat relevan untuk instrumen evaluasi PAI
yang menggunakan penilaian kinerja atau observasi, di mana penilaian dilakukan
oleh lebih dari satu penilai.
B.3 Teknik Pengujian Reliabilitas: Alpha Cronbach
Alpha Cronbach merupakan teknik pengujian reliabilitas yang paling banyak
digunakan dalam pengembangan instrumen evaluasi PAI. Uji reliabilitas dengan
kriteria pengambilan keputusan: jika Cronbach's Alpha hitung ≥ Cronbach's
Alpha acuan maka instrumen "reliabel" dan jika Cronbach's
Alpha hitung ≤ Cronbach's Alpha acuan maka instrumen "tidak
reliabel", dengan nilai Cronbach's Alpha acuan yang dipakai sebesar
> 0,80 dengan tingkat keandalan "sangat andal" (Mutakin, 2023; .
Keandalan instrumen dapat dilihat dari nilai Cronbach's alpha:
untuk nilai < 0,5 memiliki keandalan rendah, 0,5-0,7 memiliki keandalan
sedang, 0,7-0,9 keandalan tinggi, dan > 0,9 memiliki keandalan sangat baik
Amalia et al., 2022; . Dalam konteks evaluasi PAI, instrumen yang memiliki
nilai Cronbach's alpha di atas 0,7 dapat dianggap memiliki reliabilitas
yang memadai untuk digunakan dalam penilaian yang sesungguhnya.
Dalam berbagai penelitian pengembangan instrumen evaluasi, nilai Cronbach's
alpha yang diperoleh bervariasi tergantung pada karakteristik instrumen dan
sampel yang digunakan. Dalam validasi instrumen pengukuran fundamentalisme
agama bagi responden Muslim, hasil analisis menunjukkan indeks reliabilitas
instrumen (α = 0,85), reliabilitas responden (α = 0,82), dan reliabilitas item
(α = 0,97) Wibisono, 2018). Dalam pengembangan instrumen penilaian karakter
spiritual di taman kanak-kanak, reliabilitas instrumen penilaian karakter yang
dikembangkan cukup baik, dilihat dari nilai Cronbach Alpha sebesar 0,914
(Faizah & Purwanto, 2021). Dalam pengembangan instrumen Islamic
Personality Scale (IPS), hasil uji reliabilitas dengan Alpha Cronbach
menghasilkan koefisien reliabilitas sebesar 0,876, yang menunjukkan bahwa IPS
memiliki homogenitas yang baik Farmawati & Hidayati, 2019).
Dalam pengembangan instrumen penilaian kinerja berbasis pendekatan
saintifik, hasil uji reliabilitas menggunakan Alpha Cronbach menunjukkan
r hitung 0,864 di mana r tabel 0,334, yang menunjukkan bahwa instrumen
penilaian kinerja berbasis saintifik dapat mengukur kinerja pada kegiatan
pembelajaran fisika materi pengukuran (Serevina et al., 2018). Dalam validasi
kuesioner EQ-5D versi Indonesia pada pasien hipertensi, hasil Cronbach's α
adalah 0,718, sehingga dapat disimpulkan instrumen kuesioner EQ-5D versi Indonesia
tersebut reliabel (Sari et al., 2015).
Alpha Cronbach pada kisaran 0,70 adalah dapat diterima, di atas 0,80 baik Farmawati
& Hidayati, 2019). Selain itu, tingkat reliabilitas didasarkan pada nilai cronbach's
alpha di mana jika nilai alpha > 0,7 artinya reliabilitas
mencukupi (sufficient reliability), sementara jika alpha >
0,80 ini mensugestikan seluruh item reliabel dan seluruh tes secara konsisten
secara internal karena memiliki reliabilitas yang kuat; jika alpha >
0,90 maka reliabilitas sempurna, jika alpha antara 0,70-0,90 maka
reliabilitas tinggi Bahri & Darmawan, 2018; .
B.4 Teknik Pengujian Reliabilitas: Kuder-Richardson (KR-20)
Selain Alpha Cronbach, formula Kuder-Richardson (KR-20)
merupakan teknik pengujian reliabilitas yang sering digunakan untuk instrumen
evaluasi dengan item dikotomis (benar/salah). Pengujian reliabilitas
menggunakan uji Cronbach Alpha dilakukan untuk instrumen yang memiliki
jawaban benar lebih dari 1, seperti instrumen berbentuk esai, angket, atau
kuesioner Amalia et al., 2022; . Sementara itu, formula KR-20 lebih tepat
digunakan untuk instrumen dengan item dikotomis, seperti soal pilihan ganda
atau soal benar-salah.
Dalam pengembangan kuesioner pengetahuan, sikap, dan praktik (KAP) untuk
peserta didik Tahfiz, reliabilitas kuesioner dinilai menggunakan dua metode
analisis, yaitu analisis Formula Kuder-Richardson 20 (KR-20) dan
analisis Cronbach Alpha (Rozali et al., 2024; . Penggunaan dua metode
analisis reliabilitas secara bersamaan ini memungkinkan peneliti untuk
mendapatkan gambaran yang lebih komprehensif tentang reliabilitas instrumen
yang dikembangkan.
B.5 Teknik Pengujian Reliabilitas: Inter-Rater Reliability
Inter-rater reliability merupakan teknik pengujian reliabilitas yang sangat relevan untuk
instrumen evaluasi PAI yang menggunakan penilaian kinerja atau observasi.
Prosedur yang dilakukan dalam uji inter-rater reliability yakni: 1)
meminta observer untuk melakukan rating terhadap video aktivitas; 2)
melakukan analisis terhadap penilaian yang dilakukan oleh observer menggunakan inter-class
correlation Harahap, 2023; . Dalam pengembangan panduan observasi
keterampilan stimulasi literasi, hasil analisis menunjukkan bahwa koefisien inter-rater
reliability untuk masing-masing observer adalah 0,937, yang tergolong dalam
kategori baik Harahap, 2023; .
Dalam konteks evaluasi PAI, inter-rater reliability sangat penting
untuk memastikan konsistensi penilaian antara guru PAI yang berbeda dalam
menggunakan instrumen penilaian kinerja atau observasi sikap religius.
Reliabilitas instrumen kelayakan media pembelajaran video tutorial menggunakan kappa
statistik atau interater reliability, yaitu ukuran yang digunakan
untuk menguji kesepakatan antara dua orang (penilai/pengamat) pada variabel
kategoris (Purnawirawan et al., 2022). Teknik Cohen's Kappa ini
merupakan salah satu teknik yang dapat digunakan untuk menguji inter-rater
reliability instrumen evaluasi PAI yang menggunakan penilaian kinerja atau
observasi.
B.6 Teknik Pengujian Reliabilitas: Model Rasch
Model Rasch merupakan teknik pengujian reliabilitas yang semakin banyak
digunakan dalam pengembangan instrumen evaluasi pendidikan, termasuk instrumen
evaluasi PAI. Dalam penelitian aplikasi model Rasch pada instrumen tes
kemampuan pemecahan masalah, nilai person reliability sebesar 0,78
(cukup) dan nilai item reliability sebesar 0,85 (bagus), sementara nilai
Cronbach's alpha sebesar 0,82 (bagus sekali) (Aprilia et al., 2021).
Model Rasch memberikan informasi yang lebih rinci tentang reliabilitas
instrumen dibandingkan dengan pendekatan Classical Test Theory (CTT),
karena model Rasch mempertimbangkan kemampuan masing-masing responden dan
kesulitan setiap butir item secara bersamaan.
Dalam validasi instrumen pengukuran fundamentalisme agama bagi responden
Muslim menggunakan model Rasch, Religious Fundamentalism Scale (RFS)
versi 28 item dalam berbagai uji cobanya memiliki rerata korelasi antar item
yang bergerak antara 0,41-0,48 dan nilai alpha Cronbach antara 0,93-0,95
Wibisono, 2018). Temuan ini menunjukkan bahwa model Rasch dapat menghasilkan
instrumen evaluasi PAI yang memiliki tingkat reliabilitas yang sangat tinggi
apabila dikembangkan dengan prosedur yang tepat.
B.7 Pengaruh Jumlah Responden terhadap Hasil Uji Reliabilitas
Jumlah responden yang digunakan dalam uji reliabilitas dapat mempengaruhi
hasil pengujian secara signifikan. Hasil dari uji validitas dan reliabilitas
menunjukkan bahwa kuesioner pengetahuan dinyatakan valid dan reliabel dengan
pengujian 39 sampel, sedangkan kuesioner perilaku swamedikasi terdapat 1
pertanyaan yang tidak valid namun reliabel dengan pengujian 30 sampel; dengan
jumlah 15 responden menunjukkan hasil beberapa pertanyaan tidak valid baik di
kuesioner pengetahuan maupun perilaku Amalia et al., 2022; . Dari penelitian
ini dapat disimpulkan bahwa jumlah responden yang digunakan untuk uji validitas
dan reliabilitas kuesioner akan mempengaruhi hasil Amalia et al., 2022; .
Hal ini menunjukkan bahwa dalam pengembangan instrumen evaluasi PAI, guru
PAI harus mempertimbangkan jumlah responden yang memadai dalam proses uji coba
instrumen untuk memastikan bahwa hasil pengujian validitas dan reliabilitas
yang diperoleh benar-benar akurat dan dapat diandalkan. Penggunaan sampel yang
terlalu kecil dapat mengakibatkan hasil pengujian yang tidak stabil dan tidak
dapat digeneralisasikan.

Tidak ada komentar:
Posting Komentar