Jumat, 01 Mei 2026

Faktor-Faktor yang Mempengaruhi Kualitas Instrumen Evaluasi PAI



C.  Faktor-Faktor yang Mempengaruhi Kualitas Instrumen Evaluasi PAI

C.1 Faktor Desain dan Konstruksi Instrumen

Desain dan konstruksi instrumen merupakan faktor pertama yang paling mendasar dalam menentukan kualitas instrumen evaluasi PAI. Untuk melaksanakan karakteristik instrumen tes ada beberapa syarat yang harus dipenuhi, di antaranya adalah validitas, indeks kesukaran, daya pembeda, keberfungsian pengecoh (digunakan untuk soal pilihan ganda), dan reliabilitas Dewi & Prabowo, 2022; . Kualitas desain dan konstruksi instrumen secara langsung mempengaruhi validitas dan reliabilitas instrumen yang dikembangkan.

Prosedur pengembangan instrumen yang sistematis mencakup: 1) menentukan spesifikasi instrumen; 2) menulis instrumen; 3) menentukan skala instrumen; 4) menentukan sistem penskoran; 5) menelaah instrumen; 6) melakukan uji coba; 7) menganalisis instrumen; 8) merakit instrumen; 9) melaksanakan pengukuran; 10) menafsirkan hasil pengukuran Subagis & Setiawan, 2022; . Prosedur pengembangan yang sistematis ini merupakan faktor penting dalam memastikan kualitas instrumen evaluasi PAI yang dikembangkan.

Dalam konteks pengembangan instrumen Islamic Personality Scale (IPS), prosedur pengembangan instrumen mencakup: (a) pengembangan spesifikasi alat ukur; (b) penulisan pertanyaan atau pernyataan; (c) penelaahan pertanyaan atau pernyataan; (d) perakitan instrumen/alat ukur untuk keperluan uji coba; (e) melakukan uji coba; (f) analisis hasil uji coba; (g) perakitan dan seleksi butir pernyataan; (h) bentuk akhir adalah membuat administrasi alat ukur (instrumen); dan (i) penyusunan norma dan skala Farmawati & Hidayati, 2019). Prosedur pengembangan yang komprehensif ini merupakan faktor kunci dalam memastikan kualitas instrumen evaluasi PAI yang dikembangkan.

 

D.2 Faktor Kualitas Item Instrumen

Kualitas item instrumen merupakan faktor kedua yang sangat penting dalam menentukan kualitas instrumen evaluasi PAI secara keseluruhan. Soal yang dijadikan alat evaluasi harus memiliki ciri-ciri soal yang baik, salah satunya yaitu terkait kevalidan soal (Mutakin, 2023; . Kualitas item instrumen mencakup berbagai aspek, termasuk kejelasan rumusan item, kesesuaian dengan tujuan pembelajaran, tingkat kesukaran, daya pembeda, dan efektivitas pengecoh (untuk soal pilihan ganda).

Dalam analisis butir soal Penilaian Tengah Semester (PTS) mata pelajaran matematika, hasil analisis dari 40 butir soal PTS menunjukkan bahwa: (1) 40 butir soal termasuk dalam kategori valid dari segi isi; (2) ditinjau dari segi indeks kesukaran terdapat 11 atau 27,5% butir soal dalam kategori sukar, 17 atau 42,5% dalam kategori sedang, 11 atau 27,5% dalam kategori mudah; (3) ditinjau dari segi daya pembeda terdapat 2 atau 5,1% butir soal dalam kategori baik, 8 atau 20,5% dalam kategori cukup, 24 atau 61,5% dalam kategori jelek; (5) reliabilitas soal PTS adalah sebesar 0,3076 di mana 0,3076 < 0,70 sehingga reliabilitasnya rendah Dewi & Prabowo, 2022; . Temuan ini menunjukkan bahwa kualitas item instrumen secara langsung mempengaruhi reliabilitas instrumen secara keseluruhan.

Mengapa skor Cronbach alpha rendah namun penelitian masih dilanjutkan? Hal ini mungkin terjadi karena pertanyaan yang terlalu sedikit atau korelasi yang rendah antar butir pernyataan Subagis & Setiawan, 2022; . Hal ini menunjukkan bahwa jumlah item dan korelasi antar item merupakan faktor penting yang mempengaruhi reliabilitas instrumen evaluasi PAI. Instrumen dengan jumlah item yang terlalu sedikit atau dengan korelasi antar item yang rendah cenderung memiliki reliabilitas yang rendah.

 

D.3 Faktor Skala Pengukuran

Skala pengukuran yang digunakan dalam instrumen evaluasi PAI merupakan faktor ketiga yang mempengaruhi kualitas instrumen. Dalam pengembangan instrumen evaluasi PAI, berbagai jenis skala pengukuran dapat digunakan, termasuk skala Likert, skala penilaian berjenjang, dan skala dikotomis. Pemilihan skala pengukuran yang tepat sangat penting untuk memastikan bahwa instrumen dapat mengukur konstruk yang ingin diukur secara akurat dan komprehensif.

Dalam validasi instrumen pengukuran fundamentalisme agama bagi responden Muslim, validitas skala peringkat adalah pengujian yang dilakukan untuk memverifikasi apakah rating pilihan yang digunakan membingungkan bagi responden atau tidak; pada tabel terlihat bahwa rata-rata observasi dimulai dari logit -0,58 untuk pilihan 1 (STS) dan meningkat ke logit 1,32 untuk pilihan 5 (SS) Wibisono, 2018). Hal ini menunjukkan bahwa skala pengukuran yang digunakan dalam instrumen evaluasi PAI harus divalidasi untuk memastikan bahwa pilihan jawaban yang disediakan tidak membingungkan responden dan dapat membedakan antara berbagai tingkat kemampuan atau sikap peserta didik.

Dalam pengembangan instrumen penilaian karakter spiritual di taman kanak-kanak, penskoran pada setiap item instrumen bergerak dari skor 1 hingga 4 (Faizah & Purwanto, 2021). Penggunaan skala penilaian berjenjang ini memungkinkan guru untuk membedakan berbagai tingkat perkembangan karakter spiritual peserta didik secara lebih akurat dibandingkan dengan skala dikotomis (ya/tidak atau benar/salah).

 

D.4 Faktor Sampel dan Prosedur Pengujian

Sampel dan prosedur pengujian merupakan faktor keempat yang mempengaruhi kualitas instrumen evaluasi PAI. Pemilihan kelas dilakukan secara acak dengan kriteria semua peserta didik dalam kelas tersebut telah mempelajari materi atau topik yang akan diujikan menggunakan instrumen penilaian kinerja ini; uji coba lapangan ini dilakukan untuk memastikan bahwa instrumen yang digunakan sudah layak dan baik serta memiliki tingkat validitas dan reliabilitas yang baik (Serevina et al., 2018). Hal ini menunjukkan bahwa pemilihan sampel yang representatif dan prosedur pengujian yang sistematis merupakan faktor penting dalam memastikan kualitas instrumen evaluasi PAI.

Jumlah responden yang digunakan untuk uji validitas dan reliabilitas kuesioner akan mempengaruhi hasil Amalia et al., 2022; . Dalam konteks pengembangan instrumen evaluasi PAI, guru PAI harus mempertimbangkan jumlah responden yang memadai dalam proses uji coba instrumen. Penggunaan sampel yang terlalu kecil dapat mengakibatkan hasil pengujian yang tidak stabil dan tidak dapat digeneralisasikan, sementara penggunaan sampel yang terlalu besar dapat mengakibatkan pemborosan sumber daya.

 

D.5 Faktor Kompetensi Pengembang Instrumen

Kompetensi pengembang instrumen merupakan faktor kelima yang sangat penting dalam menentukan kualitas instrumen evaluasi PAI. Masih banyak guru yang masih kesulitan dalam menyusun soal berbasis HOTS, terutama pada bagaimana mendesain penilaian pengetahuan berbasis HOTS, menentukan soal yang HOTS level 1 (pemahaman), level 2 (penerapan), dan level 3 (penalaran), serta penyusunan pedoman penskoran Suhardiyanto & Tijan, 2019; . Keterbatasan kompetensi guru PAI dalam mengembangkan instrumen evaluasi yang berkualitas merupakan salah satu faktor utama yang mempengaruhi kualitas instrumen evaluasi PAI di Indonesia.

Dalam konteks pelatihan penyusunan soal HOTS bagi guru SD, hasil pretes dan postes mengindikasikan bahwa terdapat peningkatan yang signifikan skor peserta sebelum dan setelah pelatihan sebesar 24,8 atau 47,55% (Andrijati et al., 2022). Hal ini menunjukkan bahwa pelatihan yang tepat dapat meningkatkan kompetensi guru PAI dalam mengembangkan instrumen evaluasi yang berkualitas secara signifikan. Peningkatan kompetensi guru PAI dalam mengembangkan instrumen evaluasi yang berkualitas merupakan investasi penting dalam meningkatkan kualitas evaluasi pembelajaran PAI secara keseluruhan.

Dalam konteks pengembangan modul pelatihan untuk pengembangan profesional guru di madrasah, hasil penelitian menunjukkan bahwa pelatihan menggunakan modul dapat secara efektif meningkatkan profesionalisme guru SKI di lingkungan Kementerian Agama di Provinsi Maluku (Latuapo, 2023). Temuan ini menunjukkan bahwa pengembangan modul pelatihan yang komprehensif merupakan salah satu strategi yang efektif untuk meningkatkan kompetensi guru PAI dalam mengembangkan instrumen evaluasi yang berkualitas.

 

D.6 Faktor Konteks dan Karakteristik Peserta Didik

Konteks dan karakteristik peserta didik merupakan faktor keenam yang mempengaruhi kualitas instrumen evaluasi PAI. Instrumen evaluasi PAI yang berkualitas harus mempertimbangkan karakteristik peserta didik, termasuk tingkat perkembangan kognitif, latar belakang budaya dan agama, serta pengalaman belajar sebelumnya. Dalam konteks implementasi pendidikan karakter religius di SMP Hikmah Teladan Bandung, faktor penghambat implementasi adalah perbedaan lingkungan pergaulan dan lingkungan masyarakat Abdillah & Syafei, 2020), yang menunjukkan bahwa konteks dan karakteristik peserta didik dapat mempengaruhi hasil penilaian PAI secara signifikan.

Dalam konteks pengembangan kuesioner KAP untuk peserta didik Tahfiz, kuesioner dikembangkan secara khusus untuk peserta didik Tahfiz yang memiliki karakteristik dan kebutuhan yang berbeda dari peserta didik pada umumnya (Rozali et al., 2024; . Hal ini menunjukkan bahwa instrumen evaluasi PAI harus dikembangkan dengan mempertimbangkan karakteristik spesifik peserta didik yang akan dinilai, sehingga instrumen yang dikembangkan benar-benar relevan dan sesuai dengan konteks pembelajaran PAI yang sesungguhnya.

D.7 Faktor Teknologi dan Metode Analisis

Teknologi dan metode analisis yang digunakan dalam pengembangan dan pengujian instrumen evaluasi PAI merupakan faktor ketujuh yang mempengaruhi kualitas instrumen. Penggunaan software analisis yang tepat, seperti SPSS, ANATES, atau software analisis model Rasch, dapat meningkatkan akurasi dan efisiensi proses pengujian validitas dan reliabilitas instrumen evaluasi PAI (Mutakin, 2023; , Muslim et al., 2017; , Wibisono, 2018).

Manfaat setelah dilakukan analisis instrumen soal menggunakan SPSS adalah dapat membantu dalam evaluasi atas tes yang digunakan, mendukung penulisan butir soal yang efektif, menentukan apakah suatu fungsi butir soal sesuai dengan yang diharapkan, dan merevisi materi yang dinilai atau diukur (Mutakin, 2023; . Penggunaan software analisis yang tepat memungkinkan guru PAI untuk melakukan analisis butir soal secara lebih cepat, akurat, dan komprehensif, sehingga dapat meningkatkan kualitas instrumen evaluasi PAI yang dikembangkan.

Dalam konteks pengembangan instrumen evaluasi berbasis teknologi, pengembangan asesmen berbasis komputer (Computer Based Test/CBT) memungkinkan penggunaan instrumen evaluasi yang lebih canggih dan efisien, termasuk penskoran otomatis untuk soal-soal pilihan ganda dan penskoran semi-otomatis untuk soal-soal uraian (Pranata et al., 2020). Penggunaan teknologi dalam pengembangan dan pengujian instrumen evaluasi PAI dapat meningkatkan kualitas dan efisiensi proses evaluasi secara signifikan.


Implikasi Validitas dan Reliabilitas bagi Pengembangan Instrumen Evaluasi PAI

Implikasi bagi Pengembangan Instrumen Tes PAI

Pemahaman tentang validitas dan reliabilitas memiliki implikasi yang sangat penting bagi pengembangan instrumen tes PAI yang berkualitas. Dalam pengembangan instrumen tes PAI, guru PAI harus memastikan bahwa setiap item soal memiliki validitas isi yang baik, yaitu sesuai dengan KD dan indikator pembelajaran yang telah ditetapkan dalam kurikulum (Hidayati, 2017; , Rofik, 2020). Selain itu, guru PAI juga harus memastikan bahwa instrumen tes PAI yang dikembangkan memiliki reliabilitas yang memadai, yaitu menghasilkan hasil penilaian yang konsisten apabila digunakan pada kondisi yang berbeda.

Dalam konteks pengembangan instrumen tes PAI berbasis HOTS, instrumen HOTS perlu melalui proses uji dan analisis kelayakan, di antaranya yaitu uji kevalidan dari validator, uji validitas, uji reliabilitas, uji tingkat kesukaran, uji daya beda, analisis model Rasch, analisis dengan formula Alpha Cronbach, dan uji pengecoh soal (Desiriah & Setyarsih, 2021). Proses analisis yang komprehensif ini memastikan bahwa instrumen tes PAI yang digunakan dalam penilaian benar-benar berkualitas tinggi dan mampu mengukur kemampuan berpikir tingkat tinggi peserta didik secara akurat.

 

Implikasi bagi Pengembangan Instrumen Non-Tes PAI

Pemahaman tentang validitas dan reliabilitas juga memiliki implikasi yang penting bagi pengembangan instrumen non-tes PAI, termasuk instrumen observasi, angket, skala sikap, dan rubrik penilaian kinerja. Dalam pengembangan instrumen penilaian karakter spiritual di taman kanak-kanak, validasi instrumen dilakukan oleh 7 orang ahli menggunakan formula Aiken, dengan hasil bahwa semua indikator memiliki indeks Aiken antara 0,714 hingga 1,000, dengan rata-rata 0,901, dan reliabilitas instrumen penilaian karakter yang dikembangkan cukup baik, dilihat dari nilai Cronbach Alpha sebesar 0,914 (Faizah & Purwanto, 2021). Proses validasi dan uji reliabilitas yang sistematis ini merupakan langkah penting dalam memastikan kualitas instrumen non-tes PAI yang dikembangkan.

Dalam konteks pengembangan instrumen Islamic Personality Scale (IPS), hasil uji reliabilitas dengan Alpha Cronbach menghasilkan koefisien reliabilitas sebesar 0,876, yang menunjukkan bahwa IPS memiliki homogenitas yang baik Farmawati & Hidayati, 2019). Temuan ini menunjukkan bahwa instrumen non-tes PAI yang dikembangkan dengan prosedur yang tepat dapat memiliki tingkat validitas dan reliabilitas yang tinggi, yang merupakan prasyarat bagi pengembangan instrumen evaluasi PAI yang berkualitas.

Konsep dan Teknik Pengujian Reliabilitas dalam Instrumen Evaluasi PAI

 



B.         Konsep dan Teknik Pengujian Reliabilitas dalam Instrumen Evaluasi PAI

B.1 Konsep Dasar Reliabilitas

Reliabilitas merupakan konsep yang mengacu pada konsistensi dan keandalan hasil pengukuran instrumen evaluasi. Reliabilitas diterjemahkan dari kata reliability yang berarti hal yang dapat dipercaya (tahan uji) (Mutakin, 2023; . Suatu instrumen disebut reliabel jika instrumen tersebut mampu mengungkap data dan bisa dipercaya sebagai alat pengumpul data Muslim et al., 2017; . Dalam konteks evaluasi PAI, reliabilitas instrumen sangat penting karena hasil penilaian yang tidak konsisten dapat mengakibatkan kesalahan dalam pengambilan keputusan tentang pencapaian kompetensi peserta didik.

Reliabilitas dikatakan reliabel jika jawaban seseorang terhadap pertanyaan konsisten atau stabil dari waktu ke waktu (fi'ah & Perwitasari, 2017). Rentang nilai reliabilitas berkisar antara 0-1; semakin tinggi (mendekati 1) nilai reliabilitasnya maka instrumen dikatakan reliabel/konsisten (Septianing & Farida, 2021). Dalam konteks evaluasi PAI, instrumen yang reliabel akan menghasilkan hasil penilaian yang konsisten apabila digunakan pada kondisi yang berbeda, sehingga dapat memberikan gambaran yang akurat tentang pencapaian kompetensi peserta didik.

Pengujian reliabilitas dilakukan untuk membuktikan akurasi, konsistensi, dan ketepatan instrumen dalam mengukur konstruk (Gani & Budiman, 2023). Tujuan dari pengujian reliabilitas yakni untuk memberikan penilaian apakah instrumen secara umum konsisten terhadap seluruh indikator yang ada pada kuesioner (Septianing & Farida, 2021). Dalam konteks evaluasi PAI, pengujian reliabilitas harus dilakukan secara sistematis dan komprehensif untuk memastikan bahwa instrumen yang digunakan dapat menghasilkan data yang akurat dan dapat diandalkan.

Uji reliabilitas berguna untuk menetapkan apakah instrumen yang dapat dipakai lebih dari satu kali paling tidak oleh responden yang sama akan menghasilkan data yang konsisten, di mana nilai reliabilitas dinyatakan dengan koefisien alpha Cronbach sesuai kriteria batas terendah reliabilitas yaitu 0,6 (Nugroho, 2020). Hal ini menunjukkan bahwa reliabilitas instrumen evaluasi PAI harus diuji secara empiris menggunakan teknik statistik yang tepat, dengan mempertimbangkan kriteria reliabilitas yang telah ditetapkan.

 

B.2 Jenis-Jenis Reliabilitas

Dalam konteks pengembangan instrumen evaluasi PAI, terdapat beberapa jenis reliabilitas yang dapat diuji sesuai dengan karakteristik instrumen dan tujuan pengujian. Beberapa uji reliabilitas yang dapat digunakan yaitu test-retest, ekuivalen, dan internal consistency Amalia et al., 2022; . Teknik uji reliabilitas ada beberapa, yaitu test-retest reliability, equivalent-form reliability, split-half reliability, Kuder-Richardson formulas (K20 & K21), dan Alpha Cronbach Amalia et al., 2022) .

Pertama, reliabilitas test-retest mengacu pada konsistensi hasil pengukuran instrumen apabila digunakan pada waktu yang berbeda kepada kelompok responden yang sama. Uji reliabilitas dilakukan untuk mengetahui sejauh mana hasil suatu pengukuran dapat dipercaya jika diujikan beberapa kali pelaksanaan pengukuran terhadap kelompok subjek yang sama Harahap, 2023; . Reliabilitas test-retest sangat relevan untuk instrumen evaluasi PAI yang digunakan untuk mengukur perkembangan sikap religius peserta didik dari waktu ke waktu.

Kedua, reliabilitas internal consistency mengacu pada konsistensi antar item dalam instrumen evaluasi. Reliabilitas internal consistency dapat diuji menggunakan berbagai teknik statistik, termasuk Alpha Cronbach, Kuder-Richardson (KR-20 dan KR-21), dan split-half reliability Amalia et al., 2022; . Dalam konteks evaluasi PAI, reliabilitas internal consistency sangat penting untuk memastikan bahwa semua item dalam instrumen mengukur konstruk yang sama secara konsisten.

Ketiga, reliabilitas inter-rater (inter-rater reliability) mengacu pada konsistensi penilaian antara dua atau lebih penilai yang menggunakan instrumen yang sama. Uji reliabilitas panduan observasi dilakukan menggunakan teknik inter-rater reliability, dengan hasil analisis yang menunjukkan bahwa koefisien inter-rater reliability untuk masing-masing observer adalah 0,937, yang tergolong dalam kategori sangat baik Harahap, 2023; . Reliabilitas inter-rater sangat relevan untuk instrumen evaluasi PAI yang menggunakan penilaian kinerja atau observasi, di mana penilaian dilakukan oleh lebih dari satu penilai.

 

B.3 Teknik Pengujian Reliabilitas: Alpha Cronbach

Alpha Cronbach merupakan teknik pengujian reliabilitas yang paling banyak digunakan dalam pengembangan instrumen evaluasi PAI. Uji reliabilitas dengan kriteria pengambilan keputusan: jika Cronbach's Alpha hitung ≥ Cronbach's Alpha acuan maka instrumen "reliabel" dan jika Cronbach's Alpha hitung ≤ Cronbach's Alpha acuan maka instrumen "tidak reliabel", dengan nilai Cronbach's Alpha acuan yang dipakai sebesar > 0,80 dengan tingkat keandalan "sangat andal" (Mutakin, 2023; .

Keandalan instrumen dapat dilihat dari nilai Cronbach's alpha: untuk nilai < 0,5 memiliki keandalan rendah, 0,5-0,7 memiliki keandalan sedang, 0,7-0,9 keandalan tinggi, dan > 0,9 memiliki keandalan sangat baik Amalia et al., 2022; . Dalam konteks evaluasi PAI, instrumen yang memiliki nilai Cronbach's alpha di atas 0,7 dapat dianggap memiliki reliabilitas yang memadai untuk digunakan dalam penilaian yang sesungguhnya.

Dalam berbagai penelitian pengembangan instrumen evaluasi, nilai Cronbach's alpha yang diperoleh bervariasi tergantung pada karakteristik instrumen dan sampel yang digunakan. Dalam validasi instrumen pengukuran fundamentalisme agama bagi responden Muslim, hasil analisis menunjukkan indeks reliabilitas instrumen (α = 0,85), reliabilitas responden (α = 0,82), dan reliabilitas item (α = 0,97) Wibisono, 2018). Dalam pengembangan instrumen penilaian karakter spiritual di taman kanak-kanak, reliabilitas instrumen penilaian karakter yang dikembangkan cukup baik, dilihat dari nilai Cronbach Alpha sebesar 0,914 (Faizah & Purwanto, 2021). Dalam pengembangan instrumen Islamic Personality Scale (IPS), hasil uji reliabilitas dengan Alpha Cronbach menghasilkan koefisien reliabilitas sebesar 0,876, yang menunjukkan bahwa IPS memiliki homogenitas yang baik Farmawati & Hidayati, 2019).

Dalam pengembangan instrumen penilaian kinerja berbasis pendekatan saintifik, hasil uji reliabilitas menggunakan Alpha Cronbach menunjukkan r hitung 0,864 di mana r tabel 0,334, yang menunjukkan bahwa instrumen penilaian kinerja berbasis saintifik dapat mengukur kinerja pada kegiatan pembelajaran fisika materi pengukuran (Serevina et al., 2018). Dalam validasi kuesioner EQ-5D versi Indonesia pada pasien hipertensi, hasil Cronbach's α adalah 0,718, sehingga dapat disimpulkan instrumen kuesioner EQ-5D versi Indonesia tersebut reliabel (Sari et al., 2015).

Alpha Cronbach pada kisaran 0,70 adalah dapat diterima, di atas 0,80 baik Farmawati & Hidayati, 2019). Selain itu, tingkat reliabilitas didasarkan pada nilai cronbach's alpha di mana jika nilai alpha > 0,7 artinya reliabilitas mencukupi (sufficient reliability), sementara jika alpha > 0,80 ini mensugestikan seluruh item reliabel dan seluruh tes secara konsisten secara internal karena memiliki reliabilitas yang kuat; jika alpha > 0,90 maka reliabilitas sempurna, jika alpha antara 0,70-0,90 maka reliabilitas tinggi Bahri & Darmawan, 2018; .

 

B.4 Teknik Pengujian Reliabilitas: Kuder-Richardson (KR-20)

Selain Alpha Cronbach, formula Kuder-Richardson (KR-20) merupakan teknik pengujian reliabilitas yang sering digunakan untuk instrumen evaluasi dengan item dikotomis (benar/salah). Pengujian reliabilitas menggunakan uji Cronbach Alpha dilakukan untuk instrumen yang memiliki jawaban benar lebih dari 1, seperti instrumen berbentuk esai, angket, atau kuesioner Amalia et al., 2022; . Sementara itu, formula KR-20 lebih tepat digunakan untuk instrumen dengan item dikotomis, seperti soal pilihan ganda atau soal benar-salah.

Dalam pengembangan kuesioner pengetahuan, sikap, dan praktik (KAP) untuk peserta didik Tahfiz, reliabilitas kuesioner dinilai menggunakan dua metode analisis, yaitu analisis Formula Kuder-Richardson 20 (KR-20) dan analisis Cronbach Alpha (Rozali et al., 2024; . Penggunaan dua metode analisis reliabilitas secara bersamaan ini memungkinkan peneliti untuk mendapatkan gambaran yang lebih komprehensif tentang reliabilitas instrumen yang dikembangkan.

 

B.5 Teknik Pengujian Reliabilitas: Inter-Rater Reliability

Inter-rater reliability merupakan teknik pengujian reliabilitas yang sangat relevan untuk instrumen evaluasi PAI yang menggunakan penilaian kinerja atau observasi. Prosedur yang dilakukan dalam uji inter-rater reliability yakni: 1) meminta observer untuk melakukan rating terhadap video aktivitas; 2) melakukan analisis terhadap penilaian yang dilakukan oleh observer menggunakan inter-class correlation Harahap, 2023; . Dalam pengembangan panduan observasi keterampilan stimulasi literasi, hasil analisis menunjukkan bahwa koefisien inter-rater reliability untuk masing-masing observer adalah 0,937, yang tergolong dalam kategori baik Harahap, 2023; .

Dalam konteks evaluasi PAI, inter-rater reliability sangat penting untuk memastikan konsistensi penilaian antara guru PAI yang berbeda dalam menggunakan instrumen penilaian kinerja atau observasi sikap religius. Reliabilitas instrumen kelayakan media pembelajaran video tutorial menggunakan kappa statistik atau interater reliability, yaitu ukuran yang digunakan untuk menguji kesepakatan antara dua orang (penilai/pengamat) pada variabel kategoris (Purnawirawan et al., 2022). Teknik Cohen's Kappa ini merupakan salah satu teknik yang dapat digunakan untuk menguji inter-rater reliability instrumen evaluasi PAI yang menggunakan penilaian kinerja atau observasi.

 

B.6 Teknik Pengujian Reliabilitas: Model Rasch

Model Rasch merupakan teknik pengujian reliabilitas yang semakin banyak digunakan dalam pengembangan instrumen evaluasi pendidikan, termasuk instrumen evaluasi PAI. Dalam penelitian aplikasi model Rasch pada instrumen tes kemampuan pemecahan masalah, nilai person reliability sebesar 0,78 (cukup) dan nilai item reliability sebesar 0,85 (bagus), sementara nilai Cronbach's alpha sebesar 0,82 (bagus sekali) (Aprilia et al., 2021). Model Rasch memberikan informasi yang lebih rinci tentang reliabilitas instrumen dibandingkan dengan pendekatan Classical Test Theory (CTT), karena model Rasch mempertimbangkan kemampuan masing-masing responden dan kesulitan setiap butir item secara bersamaan.

Dalam validasi instrumen pengukuran fundamentalisme agama bagi responden Muslim menggunakan model Rasch, Religious Fundamentalism Scale (RFS) versi 28 item dalam berbagai uji cobanya memiliki rerata korelasi antar item yang bergerak antara 0,41-0,48 dan nilai alpha Cronbach antara 0,93-0,95 Wibisono, 2018). Temuan ini menunjukkan bahwa model Rasch dapat menghasilkan instrumen evaluasi PAI yang memiliki tingkat reliabilitas yang sangat tinggi apabila dikembangkan dengan prosedur yang tepat.

 

B.7 Pengaruh Jumlah Responden terhadap Hasil Uji Reliabilitas

Jumlah responden yang digunakan dalam uji reliabilitas dapat mempengaruhi hasil pengujian secara signifikan. Hasil dari uji validitas dan reliabilitas menunjukkan bahwa kuesioner pengetahuan dinyatakan valid dan reliabel dengan pengujian 39 sampel, sedangkan kuesioner perilaku swamedikasi terdapat 1 pertanyaan yang tidak valid namun reliabel dengan pengujian 30 sampel; dengan jumlah 15 responden menunjukkan hasil beberapa pertanyaan tidak valid baik di kuesioner pengetahuan maupun perilaku Amalia et al., 2022; . Dari penelitian ini dapat disimpulkan bahwa jumlah responden yang digunakan untuk uji validitas dan reliabilitas kuesioner akan mempengaruhi hasil Amalia et al., 2022; .

Hal ini menunjukkan bahwa dalam pengembangan instrumen evaluasi PAI, guru PAI harus mempertimbangkan jumlah responden yang memadai dalam proses uji coba instrumen untuk memastikan bahwa hasil pengujian validitas dan reliabilitas yang diperoleh benar-benar akurat dan dapat diandalkan. Penggunaan sampel yang terlalu kecil dapat mengakibatkan hasil pengujian yang tidak stabil dan tidak dapat digeneralisasikan.

Konsep & Jenis Validitas

 


1.  Pendahuluan

Validitas dan reliabilitas merupakan dua pilar utama yang menentukan kualitas instrumen evaluasi dalam Pendidikan Agama Islam (PAI). Tanpa kedua properti psikometrik ini, instrumen evaluasi tidak dapat diandalkan untuk menghasilkan data yang akurat tentang pencapaian kompetensi peserta didik. Baik tidaknya suatu instrumen penelitian ditentukan oleh validitas dan reliabilitasnya; validitas instrumen mempermasalahkan sejauh mana pengukuran tepat dalam mengukur apa yang akan diukur, sedangkan reliabilitas mempermasalahkan sejauh mana suatu pengukuran dapat dipercaya karena keajegannya (Saputro & Raharjo, 2023; . Instrumen dikatakan valid saat dapat mengungkap data dari variabel secara tepat tidak menyimpang dari keadaan yang sebenarnya, dan instrumen dikatakan reliabel saat mengungkap data yang dapat dipercaya (Saputro & Raharjo, 2023; .

Dalam konteks evaluasi PAI, pentingnya validitas dan reliabilitas instrumen semakin menonjol mengingat kompleksitas dan multidimensionalitas kompetensi yang harus diukur. PAI tidak hanya mencakup dimensi kognitif, tetapi juga dimensi afektif dan psikomotorik yang memerlukan instrumen evaluasi yang dirancang secara cermat dan tervalidasi secara komprehensif (Prihatin & Hamami, 2022; , (Faizah & Purwanto, 2021). Dalam kegiatan Penelitian Tindakan Kelas (PTK), instrumen tes (soal) yang digunakan sebagai alat ukur untuk mengukur keberhasilan suatu metode atau tindakan perlu diuji kualitasnya berdasarkan unsur validitas, reliabilitas, indeks kesukaran, dan daya pembeda soal (Mutakin, 2023; . Hal ini menunjukkan bahwa pengujian validitas dan reliabilitas bukan hanya merupakan prosedur teknis semata, tetapi merupakan bagian integral dari proses pengembangan instrumen evaluasi PAI yang berkualitas.

Dalam konteks yang lebih luas, validitas suatu instrumen adalah seberapa jauh instrumen tersebut mengukur apa yang hendak diukur; jika validitas suatu instrumen semakin tinggi, maka akan semakin baik instrumen itu untuk digunakan Sovia, 2023). Sementara itu, reliabilitas adalah indikator tingkat kehandalan atau kepercayaan terhadap suatu hasil pengukuran, di mana suatu pengukuran dikatakan handal (reliable) jika konsisten memberikan jawaban yang sama Sovia, 2023). Kedua konsep ini menjadi landasan fundamental dalam pengembangan instrumen evaluasi PAI yang mampu menghasilkan data yang akurat, konsisten, dan dapat dipertanggungjawabkan secara ilmiah.

 

2. Konsep dan Jenis-Jenis Validitas dalam Instrumen Evaluasi PAI

2.1 Konsep Dasar Validitas

Validitas merupakan konsep yang paling fundamental dalam pengembangan instrumen evaluasi. Validity basically means "measure what is intended to be measured" Dewi & Prabowo, 2022; , yang berarti validitas pada dasarnya mengacu pada kemampuan instrumen untuk mengukur apa yang seharusnya diukur. Dalam konteks evaluasi PAI, validitas instrumen sangat penting karena PAI mencakup berbagai dimensi kompetensi yang kompleks, mulai dari pengetahuan keagamaan, sikap religius, hingga keterampilan praktik ibadah (Prihatin & Hamami, 2022; , (Faizah & Purwanto, 2021).

Validitas dapat dilakukan dengan beberapa tipe, yaitu validitas konstruk (construct validity), validitas isi (content validity), dan validitas berdasarkan kriteria (criterion-related validity) Amalia et al., 2022; . Menurut Djali dan Pudji sebagaimana dikutip dalam literatur, validasi penelitian dilakukan dengan teknik uji content validity (validitas isi), uji construct validity (validitas konstruk), serta uji criterion-related validity (validitas berdasarkan kriteria) Farmawati & Hidayati, 2019). Ketiga jenis validitas ini memiliki karakteristik dan teknik pengujian yang berbeda-beda, yang harus dipilih sesuai dengan tujuan dan konteks pengembangan instrumen evaluasi PAI.

Dalam konteks pengembangan instrumen penilaian kinerja berbasis pendekatan saintifik, prinsip umum dan penting dalam proses penilaian atau evaluasi adalah adanya hubungan komponen pembelajaran antara lain tujuan pembelajaran, kegiatan pembelajaran, dan evaluasi, di mana kegiatan evaluasi sangat tergantung pada instrumen yang digunakan dalam proses evaluasi (Serevina et al., 2018). Hal ini menunjukkan bahwa validitas instrumen evaluasi PAI harus dipertimbangkan dalam konteks keselarasan antara tujuan pembelajaran, proses pembelajaran, dan instrumen evaluasi yang digunakan.

Dalam melakukan analisis validitas terdapat dua cara yang digunakan, yaitu menggunakan validitas logis dan empiris. Validitas logis digunakan untuk mengukur hasil penalaran yang sudah ada, sedangkan validitas empiris digunakan untuk menentukan valid atau tidaknya suatu instrumen yang telah dianalisis Dewi & Prabowo, 2022; . Alat ukur yang digunakan untuk mengukur kesesuaian antara butir soal dengan kisi-kisi dan kunci jawaban adalah validitas isi, yang termasuk dalam validitas logis Dewi & Prabowo, 2022; . Pemahaman tentang perbedaan antara validitas logis dan empiris ini sangat penting bagi guru PAI dalam mengembangkan instrumen evaluasi yang berkualitas.

 

2.2 Validitas Isi (Content Validity)

Validitas isi merupakan jenis validitas yang paling fundamental dalam pengembangan instrumen evaluasi PAI. Suatu instrumen disebut valid atau tidak menurut validitas isi jika isi instrumen tersebut telah merupakan sampel yang representatif dari keseluruhan yang akan diukur (Sari et al., 2015). Dalam konteks evaluasi PAI, validitas isi berarti bahwa instrumen yang dikembangkan harus mencakup semua aspek kompetensi PAI yang ingin diukur secara representatif dan proporsional.

Validitas isi terpenuhi jika koefisien pearson korelasi di atas 0,30 (Sari et al., 2015), yang menunjukkan bahwa setiap item instrumen memiliki korelasi yang signifikan dengan skor total instrumen. Dalam pengembangan instrumen penilaian psikomotor pada penggunaan lego dalam mata pelajaran matematika, uji validitas isi menggunakan indeks Aiken Subagis & Setiawan, 2022; , yang merupakan salah satu metode yang paling banyak digunakan dalam pengujian validitas isi instrumen evaluasi. Dalam pengembangan panduan observasi keterampilan stimulasi literasi, uji validitas isi dilakukan dengan menyebarkan panduan kepada 20 expert judgment untuk memberikan penilaian, dengan hasil analisis menggunakan metode Aiken's yang menunjukkan bahwa koefisien Aiken's V pada indikator keperilakuan bergerak dari angka 0,812 sampai dengan 0,962 yang dapat dikatakan valid Harahap, 2023; .

Dalam konteks pengembangan instrumen evaluasi PAI, validitas isi dapat diuji melalui proses telaah oleh para ahli (expert judgment) yang memiliki kompetensi dalam bidang PAI dan pengukuran pendidikan. Dalam pengembangan instrumen penilaian karakter spiritual di taman kanak-kanak, validasi instrumen dilakukan oleh 7 orang ahli menggunakan formula Aiken, dengan hasil bahwa semua indikator memiliki indeks Aiken antara 0,714 hingga 1,000, dengan rata-rata 0,901 (Faizah & Purwanto, 2021). Proses validasi yang sistematis ini merupakan langkah penting dalam memastikan validitas isi instrumen evaluasi PAI yang dikembangkan.

Dalam konteks pengembangan soal HOTS pada materi asam-basa, hasil validasi menunjukkan bahwa soal yang dikembangkan sangat valid (90,7%) berdasarkan aspek materi, konstruksi, HOTS, dan bahasa (Risdiana et al., 2022). Hal ini menunjukkan bahwa validitas isi instrumen evaluasi PAI harus mencakup penilaian terhadap berbagai aspek kualitas instrumen, tidak hanya kesesuaian dengan materi pembelajaran.

 

2.3 Validitas Konstruk (Construct Validity)

Validitas konstruk adalah penilaian tentang seberapa baik seorang peneliti menerjemahkan teori yang digunakan ke dalam alat ukur Amalia et al., 2022; . Dalam konteks evaluasi PAI, validitas konstruk berarti bahwa instrumen yang dikembangkan harus mampu mengukur konstruk-konstruk psikologis dan pedagogis yang relevan dengan tujuan pembelajaran PAI, seperti pemahaman keagamaan, sikap religius, dan keterampilan praktik ibadah.

Validitas konstruk dapat diuji menggunakan berbagai metode statistik, termasuk analisis faktor (factor analysis), korelasi antar item, dan model persamaan struktural (Structural Equation Modeling/SEM). Dalam pengembangan instrumen penilaian psikomotor, uji validitas konstruk menggunakan analisis faktor dengan nilai KMO 0,616 > 0,5, sig 0,000 < 0,05 dengan Initial Eigenvalues Commulative 61% > 62,508% dan terbentuk 4 faktor Subagis & Setiawan, 2022; . Dalam pengembangan instrumen sikap mahasiswa terhadap mata kuliah Fisika Matematika, hasil kuesioner yang telah disebarkan kepada 46 mahasiswa dianalisis menggunakan teknik Partial Least Square (PLS), dengan hasil bahwa instrumen memiliki validitas yang baik untuk setiap item pertanyaan (Astalini et al., 2018).

Dalam konteks validasi instrumen pengukuran fundamentalisme agama bagi responden Muslim menggunakan model Rasch, hasil uji unidimensionalitas instrumen menunjukkan bahwa pengukuran yang dilakukan mampu menjelaskan sebesar 41,8% varians responden, yang dapat menjadi jaminan bahwa validitas konstruk instrumen telah sesuai harapan Wibisono, 2018). Temuan ini menunjukkan bahwa model Rasch merupakan salah satu metode yang efektif dalam pengujian validitas konstruk instrumen evaluasi PAI, terutama untuk instrumen yang mengukur konstruk-konstruk yang kompleks dan multidimensional.

Selain itu, validitas internal dan eksternal juga merupakan aspek penting dari validitas konstruk. Pada tahap validasi oleh dosen ahli, validasi bertujuan untuk mengetahui kelayakan setiap butir dari pernyataan serta untuk memenuhi validitas isi dan validitas tampang (Astalini et al., 2018). Validasi dengan validator ini dilakukan beberapa kali sehingga diperoleh instrumen angket yang valid menurut validator (Astalini et al., 2018), yang menunjukkan bahwa proses validasi konstruk harus dilakukan secara iteratif dan berkelanjutan hingga instrumen mencapai tingkat validitas yang memadai.

 

2.4 Validitas Berdasarkan Kriteria (Criterion-Related Validity)

Validitas berdasarkan kriteria mengacu pada kemampuan instrumen untuk memprediksi atau berkorelasi dengan kriteria eksternal yang relevan. Dalam konteks evaluasi PAI, validitas berdasarkan kriteria dapat diuji dengan membandingkan hasil pengukuran instrumen yang dikembangkan dengan hasil pengukuran instrumen lain yang telah terbukti valid dan reliabel, atau dengan membandingkan hasil pengukuran dengan kriteria kinerja nyata peserta didik dalam konteks kehidupan keagamaan.

Validitas berdasarkan kriteria dapat dibedakan menjadi dua jenis, yaitu validitas konkuren (concurrent validity) dan validitas prediktif (predictive validity). Validitas konkuren mengacu pada kemampuan instrumen untuk berkorelasi dengan kriteria yang diukur pada waktu yang sama, sementara validitas prediktif mengacu pada kemampuan instrumen untuk memprediksi kinerja peserta didik di masa depan Amalia et al., 2022; , Farmawati & Hidayati, 2019). Dalam konteks evaluasi PAI, validitas prediktif sangat relevan karena tujuan utama PAI adalah membentuk peserta didik yang beriman, bertakwa, dan berakhlak mulia dalam kehidupan nyata (Supaat, 1970; , Suharjo et al., 2020).

Dalam konteks pengukuran toleransi beragama, pengukuran toleransi beragama menggunakan skala yang mencakup tiga aspek atau dimensi, yaitu keadilan (fairness), empati (empathy), dan kewajaran (reasonableness), dengan menggunakan metode Confirmatory Factor Analysis (CFA) untuk menguji validitas konstruk skala (Fariz & Saloom, 2021). Pendekatan pengujian validitas yang komprehensif ini dapat diadaptasi untuk digunakan dalam pengujian validitas instrumen evaluasi PAI yang mengukur aspek-aspek sikap religius peserta didik.

 

2.5 Validitas Konvergen dan Diskriminan

Dalam konteks pengembangan instrumen evaluasi PAI menggunakan pendekatan Partial Least Square (PLS), validitas konvergen (convergent validity) dan validitas diskriminan (discriminant validity) merupakan dua jenis validitas yang penting untuk diuji. Validitas konvergen adalah bentuk pengujian hubungan setiap indikator reflektif pada variabel latennya, dengan syarat skor loading yaitu > 0,7 Supriyanto & Fitria, 2022). Sementara itu, validitas diskriminan mengacu pada kemampuan instrumen untuk membedakan antara konstruk-konstruk yang berbeda secara konseptual.

Dalam penelitian tentang pengaruh fasilitas wisata dan kualitas pelayanan terhadap niat berkunjung kembali, pengujian outer model terbagi menjadi 3 parameter yaitu convergent validity, composite reliability, dan cronbach alpha (Septianing & Farida, 2021). Pendekatan pengujian validitas yang komprehensif ini dapat diadaptasi untuk digunakan dalam pengujian validitas instrumen evaluasi PAI yang dikembangkan menggunakan pendekatan PLS-SEM.

Dalam konteks pengembangan instrumen evaluasi PAI berbasis model Rasch, validitas skala peringkat (rating scale validity) juga merupakan aspek penting yang harus diuji. Validitas skala peringkat adalah pengujian yang dilakukan untuk memverifikasi apakah rating pilihan yang digunakan membingungkan bagi responden atau tidak Wibisono, 2018). Pengujian validitas skala peringkat ini sangat relevan untuk instrumen evaluasi PAI yang menggunakan skala Likert atau skala penilaian berjenjang lainnya.

 

2.6 Teknik Pengujian Validitas

Berbagai teknik statistik dapat digunakan untuk menguji validitas instrumen evaluasi PAI. Pertama, korelasi Pearson (Pearson Product Moment) merupakan teknik yang paling umum digunakan untuk menguji validitas item instrumen. Uji validitas menggunakan pearson product moment dan reliabilitas diuji dengan cronbach's alpha Amalia et al., 2022; . Instrumen dikatakan valid jika r hitung > dari r tabel (Saputro & Raharjo, 2023; , yang menunjukkan bahwa setiap item instrumen memiliki korelasi yang signifikan dengan skor total instrumen.

Kedua, analisis faktor (factor analysis) merupakan teknik yang digunakan untuk menguji validitas konstruk instrumen evaluasi. Dalam pengembangan instrumen penilaian psikomotor, teknik analisis data untuk menguji validitas menggunakan korelasi Exploratory Factor Analysis (EFA) dan data dianalisis menggunakan SPSS 26.0 Subagis & Setiawan, 2022; . Ketiga, formula Aiken merupakan teknik yang digunakan untuk menguji validitas isi instrumen evaluasi berdasarkan penilaian para ahli. Dalam pengembangan panduan observasi keterampilan stimulasi literasi, hasil uji validitas isi dianalisis dengan metode Aiken's Harahap, 2023; .

Keempat, Confirmatory Factor Analysis (CFA) merupakan teknik yang digunakan untuk menguji validitas konstruk instrumen evaluasi secara lebih ketat. Dalam pengukuran toleransi beragama, penelitian menggunakan metode CFA dan dianalisis oleh software Lisrel 8.7 (Fariz & Saloom, 2021). Kelima, model Rasch merupakan teknik yang digunakan untuk menguji validitas instrumen evaluasi berdasarkan teori respons butir (Item Response Theory/IRT). Dalam validasi instrumen pengukuran fundamentalisme agama bagi responden Muslim, analisis model Rasch memberikan proses verifikasi bagi asumsi peringkat yang diberikan dalam instrumen Wibisono, 2018).

Portofolio dan Penilaian Kinerja dalam Pembelajaran PAI

 


C.1 Konsep Dasar Portofolio dalam PAI

Portofolio merupakan salah satu bentuk penilaian autentik yang paling komprehensif dalam konteks PAI. Penilaian portofolio adalah evaluasi berkelanjutan berdasarkan pengumpulan tugas dan informasi dari peserta didik untuk menunjukkan kemajuan pengembangan kompetensi dalam periode tertentu (Umam et al., 2023; . Dalam konteks PAI, portofolio dapat mencakup berbagai jenis karya dan tugas peserta didik yang mencerminkan perkembangan kompetensi keagamaan mereka, mulai dari catatan refleksi keagamaan, laporan kegiatan ibadah, karya tulis tentang nilai-nilai Islam, hingga dokumentasi kegiatan keagamaan yang diikuti peserta didik.

Pelaksanaan penilaian ranah psikomotorik dilakukan dalam bentuk portofolio atau kumpulan-kumpulan tugas Rizqiani & Wijayanti, 2022; , yang menunjukkan bahwa portofolio merupakan instrumen penilaian yang sangat relevan untuk mengukur aspek psikomotorik dalam PAI, seperti kemampuan peserta didik dalam mempraktikkan ibadah dan mengaplikasikan nilai-nilai Islam dalam kehidupan sehari-hari. Penilaian portofolio merupakan jenis penilaian autentik yang paling komprehensif karena melibatkan jenis penilaian lainnya seperti penilaian kinerja, penilaian diri, proyek, esai, dan tes objektif (Umam et al., 2023; , yang menunjukkan bahwa portofolio dalam PAI dapat mengintegrasikan berbagai bentuk penilaian secara holistik.

 

C.2 Jenis-Jenis Portofolio dalam PAI

Dalam konteks PAI, terdapat beberapa jenis portofolio yang dapat digunakan sesuai dengan tujuan penilaian yang ingin dicapai. Pertama, portofolio perkembangan (developmental portfolio) yang mendokumentasikan perkembangan kompetensi keagamaan peserta didik dari waktu ke waktu. Kedua, portofolio pameran (showcase portfolio) yang menampilkan karya-karya terbaik peserta didik yang mencerminkan pencapaian kompetensi keagamaan tertinggi mereka. Ketiga, portofolio evaluasi (evaluation portfolio) yang digunakan untuk menilai pencapaian kompetensi keagamaan peserta didik pada akhir periode pembelajaran tertentu (Umam et al., 2023; .

Dalam konteks implementasi pendidikan karakter religius di SMP Hikmah Teladan Bandung, hasil dari penilaian kartu monitoring akan masuk ke dalam penilaian psikomotor pelajaran PAI dan sangat berpengaruh pada nilai akhir peserta didik di rapor setiap semester (Abdillah & Syafei, 2020; . Kartu monitoring ini merupakan salah satu bentuk portofolio yang dapat digunakan dalam penilaian PAI, yang mendokumentasikan perkembangan perilaku keagamaan peserta didik secara berkelanjutan. Dalam konteks implementasi pendidikan karakter melalui pembiasaan membaca Al-Qur'an, guru serta kepala sekolah melakukan pengamatan nilai-nilai karakter terhadap peserta didik dengan cara penilaian sikap peserta didik menggunakan huruf A (sangat baik), B (baik), C (perlu bimbingan), dan D (perlu dampingan dan bimbingan) (Solekha & Suyatno, 2022), yang menunjukkan bahwa portofolio penilaian sikap dalam PAI dapat menggunakan sistem penilaian deskriptif yang lebih informatif dibandingkan dengan sistem penilaian angka.

 

C.3 Pengembangan Portofolio PAI yang Berkualitas

Pengembangan portofolio PAI yang berkualitas harus mempertimbangkan beberapa aspek penting. Pertama, jenis tugas atau karya yang akan dikumpulkan dalam portofolio harus relevan dengan tujuan pembelajaran PAI dan mencerminkan berbagai aspek kompetensi keagamaan yang ingin diukur (Umam et al., 2023; , Prihatin & Hamami, 2022). Kedua, kriteria penilaian yang akan digunakan untuk menilai setiap tugas atau karya dalam portofolio harus jelas, spesifik, dan terukur (Firoozi et al., 2019; .

Ketiga, cara mengintegrasikan skor dari berbagai tugas atau karya menjadi skor portofolio keseluruhan harus ditetapkan secara jelas dan transparan (Umam et al., 2023; . Keempat, peserta didik harus dilibatkan dalam proses pengembangan portofolio, termasuk dalam pemilihan karya yang akan dimasukkan ke dalam portofolio dan dalam proses refleksi tentang perkembangan kompetensi keagamaan mereka Prihatin & Hamami, 2022). Dalam konteks penilaian sebagai pembelajaran (assessment as learning), peserta didik juga dapat dilibatkan dalam merumuskan prosedur penilaian, kriteria, dan rubrik/pedoman penilaian sehingga mereka mengetahui dengan tepat apa yang harus dilakukan untuk memperoleh capaian tertentu Prihatin & Hamami, 2022).

Dalam konteks inovasi penilaian portofolio non-tes untuk meningkatkan keterampilan menulis bahasa Arab (maharah al-kitabah), hasil penelitian menunjukkan bahwa inovasi penilaian portofolio dapat meningkatkan keterampilan menulis mahasiswa (Umam et al., 2023; . Temuan ini menunjukkan bahwa portofolio yang dikembangkan dengan baik dapat menjadi instrumen penilaian yang efektif sekaligus alat pembelajaran yang bermakna bagi peserta didik dalam konteks PAI.

 

C.4 Penilaian Kinerja dalam PAI

Penilaian kinerja (performance assessment) merupakan salah satu bentuk penilaian autentik yang sangat relevan untuk digunakan dalam evaluasi PAI, terutama untuk mengukur kemampuan peserta didik dalam mempraktikkan ajaran Islam secara langsung. Penilaian kinerja dikembangkan untuk menilai kemampuan peserta didik dalam mendemonstrasikan pengetahuan dan keterampilannya pada berbagai situasi nyata dan konteks tertentu (Zahrok, 2009). Dalam konteks PAI, penilaian kinerja dapat digunakan untuk mengukur kemampuan peserta didik dalam mempraktikkan ibadah, membaca Al-Qur'an, berdakwah, dan mengaplikasikan nilai-nilai Islam dalam berbagai situasi nyata.

Teknik penilaian yang sesuai untuk menilai hasil belajar kognitif dan psikomotorik adalah teknik tes verbal, baik dalam bentuk objektif maupun uraian, sementara hasil belajar psikomotorik dalam pembelajaran PAI dapat diukur menggunakan tes penampilan atau kinerja, dengan instrumen untuk memperoleh data menggunakan skala penilaian dan daftar periksa (checklist) Prihatin & Hamami, 2022). Hal ini menunjukkan bahwa penilaian kinerja dalam PAI memerlukan instrumen yang terstruktur dan terstandar, seperti skala penilaian dan daftar periksa, untuk memastikan konsistensi dan objektivitas penilaian.

Dalam konteks pelatihan menulis cerita dengan tema religi, untuk mengevaluasi keterampilan peserta pelatihan, penting adanya rubrik penilaian yang dapat mengukur tingkat keterampilan mereka secara objektif, di mana rubrik ini akan menjadi instrumen penilaian yang sangat berguna untuk mengidentifikasi dan menilai aspek-aspek dalam penulisan cerita dengan fokus tema religi, dengan kriteria-kriteria yang mencakup pengembangan tema, struktur cerita, penggunaan bahasa, dan keseluruhan kualitas penyampaian pesan religius dalam cerita Piliang et al., 2024). Pendekatan pengembangan rubrik penilaian yang komprehensif ini dapat diadaptasi untuk digunakan dalam pengembangan rubrik penilaian kinerja dalam PAI.

 

C.5 Jenis-Jenis Penilaian Kinerja dalam PAI

Dalam konteks PAI, terdapat berbagai jenis penilaian kinerja yang dapat digunakan sesuai dengan aspek kompetensi yang ingin diukur. Pertama, penilaian kinerja ibadah, yang mengukur kemampuan peserta didik dalam mempraktikkan berbagai ibadah seperti shalat, wudhu, membaca Al-Qur'an, dan ibadah lainnya. Kedua, penilaian kinerja akhlak, yang mengukur kemampuan peserta didik dalam mendemonstrasikan perilaku yang sesuai dengan nilai-nilai akhlak Islam dalam berbagai situasi nyata. Ketiga, penilaian kinerja dakwah, yang mengukur kemampuan peserta didik dalam menyampaikan pesan-pesan Islam kepada orang lain secara efektif dan persuasif Prihatin & Hamami, 2022), Wiyani, 1970).

Dalam konteks implementasi pendidikan karakter berbasis Islam, penilaian aspek pengetahuan dilakukan melalui tes tertulis, tes lisan, dan penugasan yang diberikan oleh guru, sementara hasil penilaian dilaporkan dalam bentuk nilai angka, predikat, dan deskripsi pencapaian kompetensi mata pelajaran Rosyad, 2020; . Hal ini menunjukkan bahwa penilaian kinerja dalam PAI harus diintegrasikan dengan bentuk penilaian lainnya untuk menghasilkan gambaran yang komprehensif tentang pencapaian kompetensi peserta didik.

Dalam konteks penerapan HOTS untuk memperkuat moderasi beragama peserta didik di Madrasah Aliyah, kemampuan analitis peserta didik tentang moderasi beragama diukur melalui tes tertulis dan wawancara (Basri et al., 2022), yang menunjukkan bahwa penilaian kinerja dalam PAI dapat dikombinasikan dengan instrumen penilaian lainnya untuk menghasilkan penilaian yang lebih komprehensif dan akurat.

 

C.6 Pengembangan Rubrik Penilaian Kinerja dalam PAI

Pengembangan rubrik penilaian kinerja yang komprehensif merupakan komponen penting dalam penilaian kinerja PAI yang berkualitas. Rubrik penilaian kinerja harus mencakup kriteria-kriteria penilaian yang spesifik dan terukur, yang mencerminkan berbagai aspek keterampilan keagamaan yang ingin diukur (Firoozi et al., 2019; , Piliang et al., 2024). Dalam konteks penilaian bahasa, guru memerlukan pelatihan dalam mengembangkan rubrik untuk digunakan dalam menilai keterampilan produktif berbicara dan menulis (Firoozi et al., 2019) yang menunjukkan bahwa pengembangan rubrik penilaian kinerja merupakan keterampilan yang harus dikuasai oleh setiap guru PAI.

Dalam konteks pelatihan menulis cerita dengan tema religi, rubrik penilaian mencakup kriteria-kriteria seperti pengembangan tema, struktur cerita, penggunaan bahasa, dan keseluruhan kualitas penyampaian pesan religius dalam cerita Piliang et al., 2024). Pendekatan pengembangan rubrik yang komprehensif ini dapat diadaptasi untuk digunakan dalam pengembangan rubrik penilaian kinerja dalam PAI, dengan menyesuaikan kriteria-kriteria penilaian dengan aspek-aspek keterampilan keagamaan yang ingin diukur.

Dalam konteks pengembangan instrumen penilaian karakter spiritual di taman kanak-kanak, penskoran pada setiap item instrumen bergerak dari skor 1 hingga 4 (Faizah & Purwanto, 2021), yang menunjukkan bahwa rubrik penilaian kinerja dalam PAI dapat menggunakan skala penilaian berjenjang yang memungkinkan guru untuk membedakan berbagai tingkat kemampuan kinerja peserta didik. Penggunaan skala penilaian berjenjang ini akan meningkatkan akurasi dan reliabilitas penilaian kinerja dalam PAI.

 

.7 Integrasi Portofolio dan Penilaian Kinerja dalam Sistem Penilaian PAI

Integrasi portofolio dan penilaian kinerja dalam sistem penilaian PAI yang komprehensif merupakan pendekatan yang paling efektif dalam mengukur berbagai aspek kompetensi keagamaan peserta didik secara holistik. Instrumen penilaian keterampilan berupa rubrik penilaian yang meliputi beberapa teknik penilaian seperti praktik, projek, produk, portofolio, dan teknik lainnya Rizqiani & Wijayanti, 2022; , yang menunjukkan bahwa portofolio dan penilaian kinerja merupakan komponen integral dari sistem penilaian keterampilan yang komprehensif dalam PAI.

Dalam konteks penilaian autentik PAI, penilaian autentik secara konseptual jauh lebih bermakna daripada tes pilihan ganda yang terstandar Prihatin & Hamami, 2022). Integrasi portofolio dan penilaian kinerja dalam sistem penilaian PAI merupakan salah satu bentuk penilaian autentik yang paling komprehensif, karena memungkinkan guru PAI untuk mengukur kemampuan peserta didik dalam mengaplikasikan ajaran Islam dalam konteks kehidupan nyata yang relevan dengan pengalaman mereka sehari-hari.

Dalam konteks evaluasi kurikulum humanis religius, terdapat 5 prinsip evaluasi yaitu: 1) kehadiran saat pembekalan dan pelaksanaan, 2) kedisiplinan dan tanggung jawab dalam melaksanakan tugas-tugas, 3) sikap, 4) kemampuan melaksanakan tugas-tugas, dan 5) kemampuan membuat laporan (Rizal et al., 2023). Kelima prinsip evaluasi ini dapat menjadi landasan dalam pengembangan sistem penilaian PAI yang mengintegrasikan portofolio dan penilaian kinerja secara komprehensif.

 

Tantangan dan Solusi dalam Pengembangan

Instrumen Non-Tes PAI

Tantangan dalam Pengembangan Instrumen Non-Tes PAI

Pengembangan instrumen non-tes dalam PAI menghadapi berbagai tantangan yang perlu diatasi secara sistematis. Pertama, subjektivitas dalam penilaian merupakan tantangan utama dalam penggunaan instrumen non-tes, terutama dalam penilaian sikap religius dan penilaian kinerja (Firoozi et al., 2019; . Kedua, keterbatasan waktu dalam pelaksanaan dan penilaian merupakan tantangan lain yang sering dihadapi oleh guru PAI dalam menggunakan instrumen non-tes secara optimal. Ketiga, keterbatasan kemampuan guru PAI dalam mengembangkan instrumen non-tes yang berkualitas merupakan tantangan yang tidak kalah penting Suhardiyanto & Tijan, 2019).

Instrumen penilaian keterampilan hanya berupa rubrik penilaian keterampilan tiap KD dan tidak ada instrumen penilaian secara spesifik aspek apa saja yang perlu dikuasai oleh peserta didik sebagai bentuk penilaian, serta pada pelaksanaannya instrumen penilaian yang telah dibuat tidak semua terlaksana, hanya beberapa instrumen saja yang dipakai oleh guru Rizqiani & Wijayanti, 2022; . Temuan ini menunjukkan bahwa pengembangan dan penggunaan instrumen non-tes dalam PAI masih menghadapi berbagai tantangan praktis yang perlu diatasi melalui pelatihan dan pendampingan yang komprehensif bagi guru PAI.

 

Solusi dalam Pengembangan Instrumen Non-Tes PAI

Untuk mengatasi berbagai tantangan dalam pengembangan instrumen non-tes PAI, diperlukan beberapa solusi yang sistematis dan komprehensif. Pertama, pengembangan rubrik penilaian yang komprehensif dan terstruktur untuk meminimalkan subjektivitas dalam penilaian (Firoozi et al., 2019; , Piliang et al., 2024). Kedua, pelatihan dan pendampingan bagi guru PAI dalam mengembangkan dan menggunakan instrumen non-tes yang berkualitas (Andrijati et al., 2022; , Suhardiyanto & Tijan, 2019). Ketiga, kolaborasi antar berbagai pihak di sekolah, termasuk guru PAI, wali kelas, dan guru BK, dalam pelaksanaan penilaian sikap religius peserta didik Rosyad, 2020; .

Dalam konteks pelatihan penyusunan soal HOTS bagi guru SD, hasil pretes dan postes mengindikasikan bahwa terdapat peningkatan yang signifikan skor peserta sebelum dan setelah pelatihan sebesar 24,8 atau 47,55% (Andrijati et al., 2022; . Hal ini menunjukkan bahwa pelatihan yang tepat dapat meningkatkan kemampuan guru PAI dalam mengembangkan instrumen non-tes yang berkualitas secara signifikan. Dalam konteks pengembangan modul pelatihan untuk pengembangan profesional guru di madrasah, hasil penelitian menunjukkan bahwa pelatihan menggunakan modul dapat secara efektif meningkatkan profesionalisme guru SKI di lingkungan Kementerian Agama di Provinsi Maluku Latuapo, 2023), yang menunjukkan bahwa pengembangan modul pelatihan yang komprehensif merupakan salah satu strategi yang efektif untuk meningkatkan kompetensi guru PAI dalam mengembangkan instrumen non-tes yang berkualitas.

Faktor-Faktor yang Mempengaruhi Kualitas Instrumen Evaluasi PAI

C .   Faktor-Faktor yang Mempengaruhi Kualitas Instrumen Evaluasi PAI C.1 Faktor Desain dan Konstruksi Instrumen Desain dan konstruksi i...