C. Faktor-Faktor yang Mempengaruhi Kualitas Instrumen Evaluasi PAI
C.1 Faktor Desain dan Konstruksi Instrumen
Desain dan konstruksi instrumen merupakan faktor pertama yang paling
mendasar dalam menentukan kualitas instrumen evaluasi PAI. Untuk melaksanakan
karakteristik instrumen tes ada beberapa syarat yang harus dipenuhi, di
antaranya adalah validitas, indeks kesukaran, daya pembeda, keberfungsian
pengecoh (digunakan untuk soal pilihan ganda), dan reliabilitas Dewi &
Prabowo, 2022; . Kualitas desain dan konstruksi instrumen secara langsung
mempengaruhi validitas dan reliabilitas instrumen yang dikembangkan.
Prosedur pengembangan instrumen yang sistematis mencakup: 1) menentukan
spesifikasi instrumen; 2) menulis instrumen; 3) menentukan skala instrumen; 4)
menentukan sistem penskoran; 5) menelaah instrumen; 6) melakukan uji coba; 7)
menganalisis instrumen; 8) merakit instrumen; 9) melaksanakan pengukuran; 10)
menafsirkan hasil pengukuran Subagis & Setiawan, 2022; . Prosedur
pengembangan yang sistematis ini merupakan faktor penting dalam memastikan
kualitas instrumen evaluasi PAI yang dikembangkan.
Dalam konteks pengembangan instrumen Islamic Personality Scale
(IPS), prosedur pengembangan instrumen mencakup: (a) pengembangan spesifikasi
alat ukur; (b) penulisan pertanyaan atau pernyataan; (c) penelaahan pertanyaan
atau pernyataan; (d) perakitan instrumen/alat ukur untuk keperluan uji coba;
(e) melakukan uji coba; (f) analisis hasil uji coba; (g) perakitan dan seleksi
butir pernyataan; (h) bentuk akhir adalah membuat administrasi alat ukur
(instrumen); dan (i) penyusunan norma dan skala Farmawati & Hidayati,
2019). Prosedur pengembangan yang komprehensif ini merupakan faktor kunci dalam
memastikan kualitas instrumen evaluasi PAI yang dikembangkan.
D.2 Faktor Kualitas Item Instrumen
Kualitas item instrumen merupakan faktor kedua yang sangat penting dalam
menentukan kualitas instrumen evaluasi PAI secara keseluruhan. Soal yang
dijadikan alat evaluasi harus memiliki ciri-ciri soal yang baik, salah satunya
yaitu terkait kevalidan soal (Mutakin, 2023; . Kualitas item instrumen mencakup
berbagai aspek, termasuk kejelasan rumusan item, kesesuaian dengan tujuan
pembelajaran, tingkat kesukaran, daya pembeda, dan efektivitas pengecoh (untuk
soal pilihan ganda).
Dalam analisis butir soal Penilaian Tengah Semester (PTS) mata pelajaran
matematika, hasil analisis dari 40 butir soal PTS menunjukkan bahwa: (1) 40
butir soal termasuk dalam kategori valid dari segi isi; (2) ditinjau dari segi
indeks kesukaran terdapat 11 atau 27,5% butir soal dalam kategori sukar, 17
atau 42,5% dalam kategori sedang, 11 atau 27,5% dalam kategori mudah; (3)
ditinjau dari segi daya pembeda terdapat 2 atau 5,1% butir soal dalam kategori
baik, 8 atau 20,5% dalam kategori cukup, 24 atau 61,5% dalam kategori jelek;
(5) reliabilitas soal PTS adalah sebesar 0,3076 di mana 0,3076 < 0,70
sehingga reliabilitasnya rendah Dewi & Prabowo, 2022; . Temuan ini
menunjukkan bahwa kualitas item instrumen secara langsung mempengaruhi
reliabilitas instrumen secara keseluruhan.
Mengapa skor Cronbach alpha rendah namun penelitian masih
dilanjutkan? Hal ini mungkin terjadi karena pertanyaan yang terlalu sedikit
atau korelasi yang rendah antar butir pernyataan Subagis & Setiawan, 2022;
. Hal ini menunjukkan bahwa jumlah item dan korelasi antar item merupakan
faktor penting yang mempengaruhi reliabilitas instrumen evaluasi PAI. Instrumen
dengan jumlah item yang terlalu sedikit atau dengan korelasi antar item yang
rendah cenderung memiliki reliabilitas yang rendah.
D.3 Faktor Skala Pengukuran
Skala pengukuran yang digunakan dalam instrumen evaluasi PAI merupakan
faktor ketiga yang mempengaruhi kualitas instrumen. Dalam pengembangan
instrumen evaluasi PAI, berbagai jenis skala pengukuran dapat digunakan,
termasuk skala Likert, skala penilaian berjenjang, dan skala dikotomis.
Pemilihan skala pengukuran yang tepat sangat penting untuk memastikan bahwa
instrumen dapat mengukur konstruk yang ingin diukur secara akurat dan
komprehensif.
Dalam validasi instrumen pengukuran fundamentalisme agama bagi responden
Muslim, validitas skala peringkat adalah pengujian yang dilakukan untuk
memverifikasi apakah rating pilihan yang digunakan membingungkan bagi
responden atau tidak; pada tabel terlihat bahwa rata-rata observasi dimulai
dari logit -0,58 untuk pilihan 1 (STS) dan meningkat ke logit 1,32 untuk
pilihan 5 (SS) Wibisono, 2018). Hal ini menunjukkan bahwa skala pengukuran yang
digunakan dalam instrumen evaluasi PAI harus divalidasi untuk memastikan bahwa
pilihan jawaban yang disediakan tidak membingungkan responden dan dapat
membedakan antara berbagai tingkat kemampuan atau sikap peserta didik.
Dalam pengembangan instrumen penilaian karakter spiritual di taman
kanak-kanak, penskoran pada setiap item instrumen bergerak dari skor 1 hingga 4
(Faizah & Purwanto, 2021). Penggunaan skala penilaian berjenjang ini
memungkinkan guru untuk membedakan berbagai tingkat perkembangan karakter
spiritual peserta didik secara lebih akurat dibandingkan dengan skala dikotomis
(ya/tidak atau benar/salah).
D.4 Faktor Sampel dan Prosedur Pengujian
Sampel dan prosedur pengujian merupakan faktor keempat yang mempengaruhi
kualitas instrumen evaluasi PAI. Pemilihan kelas dilakukan secara acak dengan
kriteria semua peserta didik dalam kelas tersebut telah mempelajari materi atau
topik yang akan diujikan menggunakan instrumen penilaian kinerja ini; uji coba
lapangan ini dilakukan untuk memastikan bahwa instrumen yang digunakan sudah
layak dan baik serta memiliki tingkat validitas dan reliabilitas yang baik
(Serevina et al., 2018). Hal ini menunjukkan bahwa pemilihan sampel yang
representatif dan prosedur pengujian yang sistematis merupakan faktor penting dalam
memastikan kualitas instrumen evaluasi PAI.
Jumlah responden yang digunakan untuk uji validitas dan reliabilitas
kuesioner akan mempengaruhi hasil Amalia et al., 2022; . Dalam konteks
pengembangan instrumen evaluasi PAI, guru PAI harus mempertimbangkan jumlah
responden yang memadai dalam proses uji coba instrumen. Penggunaan sampel yang
terlalu kecil dapat mengakibatkan hasil pengujian yang tidak stabil dan tidak
dapat digeneralisasikan, sementara penggunaan sampel yang terlalu besar dapat
mengakibatkan pemborosan sumber daya.
D.5 Faktor Kompetensi Pengembang Instrumen
Kompetensi pengembang instrumen merupakan faktor kelima yang sangat
penting dalam menentukan kualitas instrumen evaluasi PAI. Masih banyak guru
yang masih kesulitan dalam menyusun soal berbasis HOTS, terutama pada bagaimana
mendesain penilaian pengetahuan berbasis HOTS, menentukan soal yang HOTS level
1 (pemahaman), level 2 (penerapan), dan level 3 (penalaran), serta penyusunan
pedoman penskoran Suhardiyanto & Tijan, 2019; . Keterbatasan kompetensi
guru PAI dalam mengembangkan instrumen evaluasi yang berkualitas merupakan
salah satu faktor utama yang mempengaruhi kualitas instrumen evaluasi PAI di
Indonesia.
Dalam konteks pelatihan penyusunan soal HOTS bagi guru SD, hasil pretes
dan postes mengindikasikan bahwa terdapat peningkatan yang signifikan skor
peserta sebelum dan setelah pelatihan sebesar 24,8 atau 47,55% (Andrijati et
al., 2022). Hal ini menunjukkan bahwa pelatihan yang tepat dapat meningkatkan
kompetensi guru PAI dalam mengembangkan instrumen evaluasi yang berkualitas
secara signifikan. Peningkatan kompetensi guru PAI dalam mengembangkan
instrumen evaluasi yang berkualitas merupakan investasi penting dalam
meningkatkan kualitas evaluasi pembelajaran PAI secara keseluruhan.
Dalam konteks pengembangan modul pelatihan untuk pengembangan profesional
guru di madrasah, hasil penelitian menunjukkan bahwa pelatihan menggunakan
modul dapat secara efektif meningkatkan profesionalisme guru SKI di lingkungan
Kementerian Agama di Provinsi Maluku (Latuapo, 2023). Temuan ini menunjukkan
bahwa pengembangan modul pelatihan yang komprehensif merupakan salah satu
strategi yang efektif untuk meningkatkan kompetensi guru PAI dalam
mengembangkan instrumen evaluasi yang berkualitas.
D.6 Faktor Konteks dan Karakteristik Peserta Didik
Konteks dan karakteristik peserta didik merupakan faktor keenam yang
mempengaruhi kualitas instrumen evaluasi PAI. Instrumen evaluasi PAI yang
berkualitas harus mempertimbangkan karakteristik peserta didik, termasuk
tingkat perkembangan kognitif, latar belakang budaya dan agama, serta
pengalaman belajar sebelumnya. Dalam konteks implementasi pendidikan karakter
religius di SMP Hikmah Teladan Bandung, faktor penghambat implementasi adalah
perbedaan lingkungan pergaulan dan lingkungan masyarakat Abdillah & Syafei,
2020), yang menunjukkan bahwa konteks dan karakteristik peserta didik dapat
mempengaruhi hasil penilaian PAI secara signifikan.
Dalam konteks pengembangan kuesioner KAP untuk peserta didik Tahfiz,
kuesioner dikembangkan secara khusus untuk peserta didik Tahfiz yang memiliki
karakteristik dan kebutuhan yang berbeda dari peserta didik pada umumnya
(Rozali et al., 2024; . Hal ini menunjukkan bahwa instrumen evaluasi PAI harus
dikembangkan dengan mempertimbangkan karakteristik spesifik peserta didik yang
akan dinilai, sehingga instrumen yang dikembangkan benar-benar relevan dan
sesuai dengan konteks pembelajaran PAI yang sesungguhnya.
D.7 Faktor Teknologi dan Metode Analisis
Teknologi dan metode analisis yang digunakan dalam pengembangan dan
pengujian instrumen evaluasi PAI merupakan faktor ketujuh yang mempengaruhi
kualitas instrumen. Penggunaan software analisis yang tepat, seperti SPSS,
ANATES, atau software analisis model Rasch, dapat meningkatkan akurasi dan
efisiensi proses pengujian validitas dan reliabilitas instrumen evaluasi PAI
(Mutakin, 2023; , Muslim et al., 2017; , Wibisono, 2018).
Manfaat setelah dilakukan analisis instrumen soal menggunakan SPSS adalah
dapat membantu dalam evaluasi atas tes yang digunakan, mendukung penulisan
butir soal yang efektif, menentukan apakah suatu fungsi butir soal sesuai
dengan yang diharapkan, dan merevisi materi yang dinilai atau diukur (Mutakin,
2023; . Penggunaan software analisis yang tepat memungkinkan guru PAI untuk
melakukan analisis butir soal secara lebih cepat, akurat, dan komprehensif,
sehingga dapat meningkatkan kualitas instrumen evaluasi PAI yang dikembangkan.
Dalam konteks pengembangan instrumen evaluasi berbasis teknologi,
pengembangan asesmen berbasis komputer (Computer Based Test/CBT)
memungkinkan penggunaan instrumen evaluasi yang lebih canggih dan efisien,
termasuk penskoran otomatis untuk soal-soal pilihan ganda dan penskoran
semi-otomatis untuk soal-soal uraian (Pranata et al., 2020). Penggunaan
teknologi dalam pengembangan dan pengujian instrumen evaluasi PAI dapat
meningkatkan kualitas dan efisiensi proses evaluasi secara signifikan.
Implikasi Validitas dan Reliabilitas
bagi Pengembangan Instrumen Evaluasi PAI
Implikasi bagi Pengembangan Instrumen Tes PAI
Pemahaman tentang validitas dan reliabilitas memiliki implikasi yang
sangat penting bagi pengembangan instrumen tes PAI yang berkualitas. Dalam
pengembangan instrumen tes PAI, guru PAI harus memastikan bahwa setiap item
soal memiliki validitas isi yang baik, yaitu sesuai dengan KD dan indikator
pembelajaran yang telah ditetapkan dalam kurikulum (Hidayati, 2017; , Rofik,
2020). Selain itu, guru PAI juga harus memastikan bahwa instrumen tes PAI yang
dikembangkan memiliki reliabilitas yang memadai, yaitu menghasilkan hasil
penilaian yang konsisten apabila digunakan pada kondisi yang berbeda.
Dalam konteks pengembangan instrumen tes PAI berbasis HOTS, instrumen
HOTS perlu melalui proses uji dan analisis kelayakan, di antaranya yaitu uji
kevalidan dari validator, uji validitas, uji reliabilitas, uji tingkat
kesukaran, uji daya beda, analisis model Rasch, analisis dengan formula Alpha
Cronbach, dan uji pengecoh soal (Desiriah & Setyarsih, 2021). Proses
analisis yang komprehensif ini memastikan bahwa instrumen tes PAI yang
digunakan dalam penilaian benar-benar berkualitas tinggi dan mampu mengukur kemampuan
berpikir tingkat tinggi peserta didik secara akurat.
Implikasi bagi Pengembangan Instrumen Non-Tes PAI
Pemahaman tentang validitas dan reliabilitas juga memiliki implikasi yang
penting bagi pengembangan instrumen non-tes PAI, termasuk instrumen observasi,
angket, skala sikap, dan rubrik penilaian kinerja. Dalam pengembangan instrumen
penilaian karakter spiritual di taman kanak-kanak, validasi instrumen dilakukan
oleh 7 orang ahli menggunakan formula Aiken, dengan hasil bahwa semua indikator
memiliki indeks Aiken antara 0,714 hingga 1,000, dengan rata-rata 0,901, dan
reliabilitas instrumen penilaian karakter yang dikembangkan cukup baik, dilihat
dari nilai Cronbach Alpha sebesar 0,914 (Faizah & Purwanto, 2021).
Proses validasi dan uji reliabilitas yang sistematis ini merupakan langkah
penting dalam memastikan kualitas instrumen non-tes PAI yang dikembangkan.
Dalam konteks pengembangan instrumen Islamic Personality Scale
(IPS), hasil uji reliabilitas dengan Alpha Cronbach menghasilkan
koefisien reliabilitas sebesar 0,876, yang menunjukkan bahwa IPS memiliki
homogenitas yang baik Farmawati & Hidayati, 2019). Temuan ini menunjukkan
bahwa instrumen non-tes PAI yang dikembangkan dengan prosedur yang tepat dapat
memiliki tingkat validitas dan reliabilitas yang tinggi, yang merupakan
prasyarat bagi pengembangan instrumen evaluasi PAI yang berkualitas.



