Jumat, 01 Mei 2026

Konsep dan Teknik Pengujian Reliabilitas dalam Instrumen Evaluasi PAI

 



B.         Konsep dan Teknik Pengujian Reliabilitas dalam Instrumen Evaluasi PAI

B.1 Konsep Dasar Reliabilitas

Reliabilitas merupakan konsep yang mengacu pada konsistensi dan keandalan hasil pengukuran instrumen evaluasi. Reliabilitas diterjemahkan dari kata reliability yang berarti hal yang dapat dipercaya (tahan uji) (Mutakin, 2023; . Suatu instrumen disebut reliabel jika instrumen tersebut mampu mengungkap data dan bisa dipercaya sebagai alat pengumpul data Muslim et al., 2017; . Dalam konteks evaluasi PAI, reliabilitas instrumen sangat penting karena hasil penilaian yang tidak konsisten dapat mengakibatkan kesalahan dalam pengambilan keputusan tentang pencapaian kompetensi peserta didik.

Reliabilitas dikatakan reliabel jika jawaban seseorang terhadap pertanyaan konsisten atau stabil dari waktu ke waktu (fi'ah & Perwitasari, 2017). Rentang nilai reliabilitas berkisar antara 0-1; semakin tinggi (mendekati 1) nilai reliabilitasnya maka instrumen dikatakan reliabel/konsisten (Septianing & Farida, 2021). Dalam konteks evaluasi PAI, instrumen yang reliabel akan menghasilkan hasil penilaian yang konsisten apabila digunakan pada kondisi yang berbeda, sehingga dapat memberikan gambaran yang akurat tentang pencapaian kompetensi peserta didik.

Pengujian reliabilitas dilakukan untuk membuktikan akurasi, konsistensi, dan ketepatan instrumen dalam mengukur konstruk (Gani & Budiman, 2023). Tujuan dari pengujian reliabilitas yakni untuk memberikan penilaian apakah instrumen secara umum konsisten terhadap seluruh indikator yang ada pada kuesioner (Septianing & Farida, 2021). Dalam konteks evaluasi PAI, pengujian reliabilitas harus dilakukan secara sistematis dan komprehensif untuk memastikan bahwa instrumen yang digunakan dapat menghasilkan data yang akurat dan dapat diandalkan.

Uji reliabilitas berguna untuk menetapkan apakah instrumen yang dapat dipakai lebih dari satu kali paling tidak oleh responden yang sama akan menghasilkan data yang konsisten, di mana nilai reliabilitas dinyatakan dengan koefisien alpha Cronbach sesuai kriteria batas terendah reliabilitas yaitu 0,6 (Nugroho, 2020). Hal ini menunjukkan bahwa reliabilitas instrumen evaluasi PAI harus diuji secara empiris menggunakan teknik statistik yang tepat, dengan mempertimbangkan kriteria reliabilitas yang telah ditetapkan.

 

B.2 Jenis-Jenis Reliabilitas

Dalam konteks pengembangan instrumen evaluasi PAI, terdapat beberapa jenis reliabilitas yang dapat diuji sesuai dengan karakteristik instrumen dan tujuan pengujian. Beberapa uji reliabilitas yang dapat digunakan yaitu test-retest, ekuivalen, dan internal consistency Amalia et al., 2022; . Teknik uji reliabilitas ada beberapa, yaitu test-retest reliability, equivalent-form reliability, split-half reliability, Kuder-Richardson formulas (K20 & K21), dan Alpha Cronbach Amalia et al., 2022) .

Pertama, reliabilitas test-retest mengacu pada konsistensi hasil pengukuran instrumen apabila digunakan pada waktu yang berbeda kepada kelompok responden yang sama. Uji reliabilitas dilakukan untuk mengetahui sejauh mana hasil suatu pengukuran dapat dipercaya jika diujikan beberapa kali pelaksanaan pengukuran terhadap kelompok subjek yang sama Harahap, 2023; . Reliabilitas test-retest sangat relevan untuk instrumen evaluasi PAI yang digunakan untuk mengukur perkembangan sikap religius peserta didik dari waktu ke waktu.

Kedua, reliabilitas internal consistency mengacu pada konsistensi antar item dalam instrumen evaluasi. Reliabilitas internal consistency dapat diuji menggunakan berbagai teknik statistik, termasuk Alpha Cronbach, Kuder-Richardson (KR-20 dan KR-21), dan split-half reliability Amalia et al., 2022; . Dalam konteks evaluasi PAI, reliabilitas internal consistency sangat penting untuk memastikan bahwa semua item dalam instrumen mengukur konstruk yang sama secara konsisten.

Ketiga, reliabilitas inter-rater (inter-rater reliability) mengacu pada konsistensi penilaian antara dua atau lebih penilai yang menggunakan instrumen yang sama. Uji reliabilitas panduan observasi dilakukan menggunakan teknik inter-rater reliability, dengan hasil analisis yang menunjukkan bahwa koefisien inter-rater reliability untuk masing-masing observer adalah 0,937, yang tergolong dalam kategori sangat baik Harahap, 2023; . Reliabilitas inter-rater sangat relevan untuk instrumen evaluasi PAI yang menggunakan penilaian kinerja atau observasi, di mana penilaian dilakukan oleh lebih dari satu penilai.

 

B.3 Teknik Pengujian Reliabilitas: Alpha Cronbach

Alpha Cronbach merupakan teknik pengujian reliabilitas yang paling banyak digunakan dalam pengembangan instrumen evaluasi PAI. Uji reliabilitas dengan kriteria pengambilan keputusan: jika Cronbach's Alpha hitung ≥ Cronbach's Alpha acuan maka instrumen "reliabel" dan jika Cronbach's Alpha hitung ≤ Cronbach's Alpha acuan maka instrumen "tidak reliabel", dengan nilai Cronbach's Alpha acuan yang dipakai sebesar > 0,80 dengan tingkat keandalan "sangat andal" (Mutakin, 2023; .

Keandalan instrumen dapat dilihat dari nilai Cronbach's alpha: untuk nilai < 0,5 memiliki keandalan rendah, 0,5-0,7 memiliki keandalan sedang, 0,7-0,9 keandalan tinggi, dan > 0,9 memiliki keandalan sangat baik Amalia et al., 2022; . Dalam konteks evaluasi PAI, instrumen yang memiliki nilai Cronbach's alpha di atas 0,7 dapat dianggap memiliki reliabilitas yang memadai untuk digunakan dalam penilaian yang sesungguhnya.

Dalam berbagai penelitian pengembangan instrumen evaluasi, nilai Cronbach's alpha yang diperoleh bervariasi tergantung pada karakteristik instrumen dan sampel yang digunakan. Dalam validasi instrumen pengukuran fundamentalisme agama bagi responden Muslim, hasil analisis menunjukkan indeks reliabilitas instrumen (α = 0,85), reliabilitas responden (α = 0,82), dan reliabilitas item (α = 0,97) Wibisono, 2018). Dalam pengembangan instrumen penilaian karakter spiritual di taman kanak-kanak, reliabilitas instrumen penilaian karakter yang dikembangkan cukup baik, dilihat dari nilai Cronbach Alpha sebesar 0,914 (Faizah & Purwanto, 2021). Dalam pengembangan instrumen Islamic Personality Scale (IPS), hasil uji reliabilitas dengan Alpha Cronbach menghasilkan koefisien reliabilitas sebesar 0,876, yang menunjukkan bahwa IPS memiliki homogenitas yang baik Farmawati & Hidayati, 2019).

Dalam pengembangan instrumen penilaian kinerja berbasis pendekatan saintifik, hasil uji reliabilitas menggunakan Alpha Cronbach menunjukkan r hitung 0,864 di mana r tabel 0,334, yang menunjukkan bahwa instrumen penilaian kinerja berbasis saintifik dapat mengukur kinerja pada kegiatan pembelajaran fisika materi pengukuran (Serevina et al., 2018). Dalam validasi kuesioner EQ-5D versi Indonesia pada pasien hipertensi, hasil Cronbach's α adalah 0,718, sehingga dapat disimpulkan instrumen kuesioner EQ-5D versi Indonesia tersebut reliabel (Sari et al., 2015).

Alpha Cronbach pada kisaran 0,70 adalah dapat diterima, di atas 0,80 baik Farmawati & Hidayati, 2019). Selain itu, tingkat reliabilitas didasarkan pada nilai cronbach's alpha di mana jika nilai alpha > 0,7 artinya reliabilitas mencukupi (sufficient reliability), sementara jika alpha > 0,80 ini mensugestikan seluruh item reliabel dan seluruh tes secara konsisten secara internal karena memiliki reliabilitas yang kuat; jika alpha > 0,90 maka reliabilitas sempurna, jika alpha antara 0,70-0,90 maka reliabilitas tinggi Bahri & Darmawan, 2018; .

 

B.4 Teknik Pengujian Reliabilitas: Kuder-Richardson (KR-20)

Selain Alpha Cronbach, formula Kuder-Richardson (KR-20) merupakan teknik pengujian reliabilitas yang sering digunakan untuk instrumen evaluasi dengan item dikotomis (benar/salah). Pengujian reliabilitas menggunakan uji Cronbach Alpha dilakukan untuk instrumen yang memiliki jawaban benar lebih dari 1, seperti instrumen berbentuk esai, angket, atau kuesioner Amalia et al., 2022; . Sementara itu, formula KR-20 lebih tepat digunakan untuk instrumen dengan item dikotomis, seperti soal pilihan ganda atau soal benar-salah.

Dalam pengembangan kuesioner pengetahuan, sikap, dan praktik (KAP) untuk peserta didik Tahfiz, reliabilitas kuesioner dinilai menggunakan dua metode analisis, yaitu analisis Formula Kuder-Richardson 20 (KR-20) dan analisis Cronbach Alpha (Rozali et al., 2024; . Penggunaan dua metode analisis reliabilitas secara bersamaan ini memungkinkan peneliti untuk mendapatkan gambaran yang lebih komprehensif tentang reliabilitas instrumen yang dikembangkan.

 

B.5 Teknik Pengujian Reliabilitas: Inter-Rater Reliability

Inter-rater reliability merupakan teknik pengujian reliabilitas yang sangat relevan untuk instrumen evaluasi PAI yang menggunakan penilaian kinerja atau observasi. Prosedur yang dilakukan dalam uji inter-rater reliability yakni: 1) meminta observer untuk melakukan rating terhadap video aktivitas; 2) melakukan analisis terhadap penilaian yang dilakukan oleh observer menggunakan inter-class correlation Harahap, 2023; . Dalam pengembangan panduan observasi keterampilan stimulasi literasi, hasil analisis menunjukkan bahwa koefisien inter-rater reliability untuk masing-masing observer adalah 0,937, yang tergolong dalam kategori baik Harahap, 2023; .

Dalam konteks evaluasi PAI, inter-rater reliability sangat penting untuk memastikan konsistensi penilaian antara guru PAI yang berbeda dalam menggunakan instrumen penilaian kinerja atau observasi sikap religius. Reliabilitas instrumen kelayakan media pembelajaran video tutorial menggunakan kappa statistik atau interater reliability, yaitu ukuran yang digunakan untuk menguji kesepakatan antara dua orang (penilai/pengamat) pada variabel kategoris (Purnawirawan et al., 2022). Teknik Cohen's Kappa ini merupakan salah satu teknik yang dapat digunakan untuk menguji inter-rater reliability instrumen evaluasi PAI yang menggunakan penilaian kinerja atau observasi.

 

B.6 Teknik Pengujian Reliabilitas: Model Rasch

Model Rasch merupakan teknik pengujian reliabilitas yang semakin banyak digunakan dalam pengembangan instrumen evaluasi pendidikan, termasuk instrumen evaluasi PAI. Dalam penelitian aplikasi model Rasch pada instrumen tes kemampuan pemecahan masalah, nilai person reliability sebesar 0,78 (cukup) dan nilai item reliability sebesar 0,85 (bagus), sementara nilai Cronbach's alpha sebesar 0,82 (bagus sekali) (Aprilia et al., 2021). Model Rasch memberikan informasi yang lebih rinci tentang reliabilitas instrumen dibandingkan dengan pendekatan Classical Test Theory (CTT), karena model Rasch mempertimbangkan kemampuan masing-masing responden dan kesulitan setiap butir item secara bersamaan.

Dalam validasi instrumen pengukuran fundamentalisme agama bagi responden Muslim menggunakan model Rasch, Religious Fundamentalism Scale (RFS) versi 28 item dalam berbagai uji cobanya memiliki rerata korelasi antar item yang bergerak antara 0,41-0,48 dan nilai alpha Cronbach antara 0,93-0,95 Wibisono, 2018). Temuan ini menunjukkan bahwa model Rasch dapat menghasilkan instrumen evaluasi PAI yang memiliki tingkat reliabilitas yang sangat tinggi apabila dikembangkan dengan prosedur yang tepat.

 

B.7 Pengaruh Jumlah Responden terhadap Hasil Uji Reliabilitas

Jumlah responden yang digunakan dalam uji reliabilitas dapat mempengaruhi hasil pengujian secara signifikan. Hasil dari uji validitas dan reliabilitas menunjukkan bahwa kuesioner pengetahuan dinyatakan valid dan reliabel dengan pengujian 39 sampel, sedangkan kuesioner perilaku swamedikasi terdapat 1 pertanyaan yang tidak valid namun reliabel dengan pengujian 30 sampel; dengan jumlah 15 responden menunjukkan hasil beberapa pertanyaan tidak valid baik di kuesioner pengetahuan maupun perilaku Amalia et al., 2022; . Dari penelitian ini dapat disimpulkan bahwa jumlah responden yang digunakan untuk uji validitas dan reliabilitas kuesioner akan mempengaruhi hasil Amalia et al., 2022; .

Hal ini menunjukkan bahwa dalam pengembangan instrumen evaluasi PAI, guru PAI harus mempertimbangkan jumlah responden yang memadai dalam proses uji coba instrumen untuk memastikan bahwa hasil pengujian validitas dan reliabilitas yang diperoleh benar-benar akurat dan dapat diandalkan. Penggunaan sampel yang terlalu kecil dapat mengakibatkan hasil pengujian yang tidak stabil dan tidak dapat digeneralisasikan.

Tidak ada komentar:

Posting Komentar

Faktor-Faktor yang Mempengaruhi Kualitas Instrumen Evaluasi PAI

C .   Faktor-Faktor yang Mempengaruhi Kualitas Instrumen Evaluasi PAI C.1 Faktor Desain dan Konstruksi Instrumen Desain dan konstruksi i...