1. Pendahuluan
Validitas dan reliabilitas merupakan dua pilar utama
yang menentukan kualitas instrumen evaluasi dalam Pendidikan Agama Islam (PAI).
Tanpa kedua properti psikometrik ini, instrumen evaluasi tidak dapat diandalkan
untuk menghasilkan data yang akurat tentang pencapaian kompetensi peserta
didik. Baik tidaknya suatu instrumen penelitian ditentukan oleh validitas dan
reliabilitasnya; validitas instrumen mempermasalahkan sejauh mana pengukuran
tepat dalam mengukur apa yang akan diukur, sedangkan reliabilitas
mempermasalahkan sejauh mana suatu pengukuran dapat dipercaya karena
keajegannya (Saputro & Raharjo, 2023; . Instrumen dikatakan valid saat
dapat mengungkap data dari variabel secara tepat tidak menyimpang dari keadaan
yang sebenarnya, dan instrumen dikatakan reliabel saat mengungkap data yang
dapat dipercaya (Saputro & Raharjo, 2023; .
Dalam konteks
evaluasi PAI, pentingnya validitas dan reliabilitas instrumen semakin menonjol
mengingat kompleksitas dan multidimensionalitas kompetensi yang harus diukur.
PAI tidak hanya mencakup dimensi kognitif, tetapi juga dimensi afektif dan
psikomotorik yang memerlukan instrumen evaluasi yang dirancang secara cermat
dan tervalidasi secara komprehensif (Prihatin & Hamami, 2022; , (Faizah
& Purwanto, 2021). Dalam kegiatan Penelitian Tindakan Kelas (PTK),
instrumen tes (soal) yang digunakan sebagai alat ukur untuk mengukur
keberhasilan suatu metode atau tindakan perlu diuji kualitasnya berdasarkan
unsur validitas, reliabilitas, indeks kesukaran, dan daya pembeda soal
(Mutakin, 2023; . Hal ini menunjukkan bahwa pengujian validitas dan
reliabilitas bukan hanya merupakan prosedur teknis semata, tetapi merupakan
bagian integral dari proses pengembangan instrumen evaluasi PAI yang
berkualitas.
Dalam konteks yang
lebih luas, validitas suatu instrumen adalah seberapa jauh instrumen tersebut
mengukur apa yang hendak diukur; jika validitas suatu instrumen semakin tinggi,
maka akan semakin baik instrumen itu untuk digunakan Sovia, 2023). Sementara
itu, reliabilitas adalah indikator tingkat kehandalan atau kepercayaan terhadap
suatu hasil pengukuran, di mana suatu pengukuran dikatakan handal (reliable)
jika konsisten memberikan jawaban yang sama Sovia, 2023). Kedua konsep ini
menjadi landasan fundamental dalam pengembangan instrumen evaluasi PAI yang
mampu menghasilkan data yang akurat, konsisten, dan dapat dipertanggungjawabkan
secara ilmiah.
2. Konsep dan Jenis-Jenis Validitas dalam Instrumen Evaluasi PAI
2.1 Konsep Dasar Validitas
Validitas merupakan konsep yang paling fundamental dalam pengembangan
instrumen evaluasi. Validity basically means "measure what is intended to
be measured" Dewi & Prabowo, 2022; , yang berarti validitas pada
dasarnya mengacu pada kemampuan instrumen untuk mengukur apa yang seharusnya
diukur. Dalam konteks evaluasi PAI, validitas instrumen sangat penting karena
PAI mencakup berbagai dimensi kompetensi yang kompleks, mulai dari pengetahuan
keagamaan, sikap religius, hingga keterampilan praktik ibadah (Prihatin &
Hamami, 2022; , (Faizah & Purwanto, 2021).
Validitas dapat dilakukan dengan beberapa tipe, yaitu validitas konstruk
(construct validity), validitas isi (content validity), dan
validitas berdasarkan kriteria (criterion-related validity) Amalia et
al., 2022; . Menurut Djali dan Pudji sebagaimana dikutip dalam literatur,
validasi penelitian dilakukan dengan teknik uji content validity
(validitas isi), uji construct validity (validitas konstruk), serta uji criterion-related
validity (validitas berdasarkan kriteria) Farmawati & Hidayati, 2019).
Ketiga jenis validitas ini memiliki karakteristik dan teknik pengujian yang
berbeda-beda, yang harus dipilih sesuai dengan tujuan dan konteks pengembangan
instrumen evaluasi PAI.
Dalam konteks pengembangan instrumen penilaian kinerja berbasis
pendekatan saintifik, prinsip umum dan penting dalam proses penilaian atau
evaluasi adalah adanya hubungan komponen pembelajaran antara lain tujuan
pembelajaran, kegiatan pembelajaran, dan evaluasi, di mana kegiatan evaluasi
sangat tergantung pada instrumen yang digunakan dalam proses evaluasi (Serevina
et al., 2018). Hal ini menunjukkan bahwa validitas instrumen evaluasi PAI harus
dipertimbangkan dalam konteks keselarasan antara tujuan pembelajaran, proses
pembelajaran, dan instrumen evaluasi yang digunakan.
Dalam melakukan analisis validitas terdapat dua cara yang digunakan,
yaitu menggunakan validitas logis dan empiris. Validitas logis digunakan untuk
mengukur hasil penalaran yang sudah ada, sedangkan validitas empiris digunakan
untuk menentukan valid atau tidaknya suatu instrumen yang telah dianalisis Dewi
& Prabowo, 2022; . Alat ukur yang digunakan untuk mengukur kesesuaian
antara butir soal dengan kisi-kisi dan kunci jawaban adalah validitas isi, yang
termasuk dalam validitas logis Dewi & Prabowo, 2022; . Pemahaman tentang
perbedaan antara validitas logis dan empiris ini sangat penting bagi guru PAI
dalam mengembangkan instrumen evaluasi yang berkualitas.
2.2 Validitas Isi (Content Validity)
Validitas isi merupakan jenis validitas yang paling fundamental dalam
pengembangan instrumen evaluasi PAI. Suatu instrumen disebut valid atau tidak
menurut validitas isi jika isi instrumen tersebut telah merupakan sampel yang
representatif dari keseluruhan yang akan diukur (Sari et al., 2015). Dalam
konteks evaluasi PAI, validitas isi berarti bahwa instrumen yang dikembangkan
harus mencakup semua aspek kompetensi PAI yang ingin diukur secara
representatif dan proporsional.
Validitas isi terpenuhi jika koefisien pearson korelasi di atas 0,30
(Sari et al., 2015), yang menunjukkan bahwa setiap item instrumen memiliki
korelasi yang signifikan dengan skor total instrumen. Dalam pengembangan
instrumen penilaian psikomotor pada penggunaan lego dalam mata pelajaran
matematika, uji validitas isi menggunakan indeks Aiken Subagis & Setiawan,
2022; , yang merupakan salah satu metode yang paling banyak digunakan dalam
pengujian validitas isi instrumen evaluasi. Dalam pengembangan panduan observasi
keterampilan stimulasi literasi, uji validitas isi dilakukan dengan menyebarkan
panduan kepada 20 expert judgment untuk memberikan penilaian, dengan
hasil analisis menggunakan metode Aiken's yang menunjukkan bahwa koefisien
Aiken's V pada indikator keperilakuan bergerak dari angka 0,812 sampai dengan
0,962 yang dapat dikatakan valid Harahap, 2023; .
Dalam konteks pengembangan instrumen evaluasi PAI, validitas isi dapat
diuji melalui proses telaah oleh para ahli (expert judgment) yang
memiliki kompetensi dalam bidang PAI dan pengukuran pendidikan. Dalam
pengembangan instrumen penilaian karakter spiritual di taman kanak-kanak,
validasi instrumen dilakukan oleh 7 orang ahli menggunakan formula Aiken,
dengan hasil bahwa semua indikator memiliki indeks Aiken antara 0,714 hingga
1,000, dengan rata-rata 0,901 (Faizah & Purwanto, 2021). Proses validasi
yang sistematis ini merupakan langkah penting dalam memastikan validitas isi
instrumen evaluasi PAI yang dikembangkan.
Dalam konteks pengembangan soal HOTS pada materi asam-basa, hasil
validasi menunjukkan bahwa soal yang dikembangkan sangat valid (90,7%)
berdasarkan aspek materi, konstruksi, HOTS, dan bahasa (Risdiana et al., 2022).
Hal ini menunjukkan bahwa validitas isi instrumen evaluasi PAI harus mencakup
penilaian terhadap berbagai aspek kualitas instrumen, tidak hanya kesesuaian
dengan materi pembelajaran.
2.3 Validitas Konstruk (Construct Validity)
Validitas konstruk adalah penilaian tentang seberapa baik seorang
peneliti menerjemahkan teori yang digunakan ke dalam alat ukur Amalia et al.,
2022; . Dalam konteks evaluasi PAI, validitas konstruk berarti bahwa instrumen
yang dikembangkan harus mampu mengukur konstruk-konstruk psikologis dan
pedagogis yang relevan dengan tujuan pembelajaran PAI, seperti pemahaman
keagamaan, sikap religius, dan keterampilan praktik ibadah.
Validitas konstruk dapat diuji menggunakan berbagai metode statistik,
termasuk analisis faktor (factor analysis), korelasi antar item, dan
model persamaan struktural (Structural Equation Modeling/SEM). Dalam
pengembangan instrumen penilaian psikomotor, uji validitas konstruk menggunakan
analisis faktor dengan nilai KMO 0,616 > 0,5, sig 0,000 < 0,05 dengan Initial
Eigenvalues Commulative 61% > 62,508% dan terbentuk 4 faktor Subagis
& Setiawan, 2022; . Dalam pengembangan instrumen sikap mahasiswa terhadap
mata kuliah Fisika Matematika, hasil kuesioner yang telah disebarkan kepada 46
mahasiswa dianalisis menggunakan teknik Partial Least Square (PLS),
dengan hasil bahwa instrumen memiliki validitas yang baik untuk setiap item
pertanyaan (Astalini et al., 2018).
Dalam konteks validasi instrumen pengukuran fundamentalisme agama bagi
responden Muslim menggunakan model Rasch, hasil uji unidimensionalitas
instrumen menunjukkan bahwa pengukuran yang dilakukan mampu menjelaskan sebesar
41,8% varians responden, yang dapat menjadi jaminan bahwa validitas konstruk
instrumen telah sesuai harapan Wibisono, 2018). Temuan ini menunjukkan bahwa
model Rasch merupakan salah satu metode yang efektif dalam pengujian validitas
konstruk instrumen evaluasi PAI, terutama untuk instrumen yang mengukur
konstruk-konstruk yang kompleks dan multidimensional.
Selain itu, validitas internal dan eksternal juga merupakan aspek penting
dari validitas konstruk. Pada tahap validasi oleh dosen ahli, validasi
bertujuan untuk mengetahui kelayakan setiap butir dari pernyataan serta untuk
memenuhi validitas isi dan validitas tampang (Astalini et al., 2018). Validasi
dengan validator ini dilakukan beberapa kali sehingga diperoleh instrumen
angket yang valid menurut validator (Astalini et al., 2018), yang menunjukkan
bahwa proses validasi konstruk harus dilakukan secara iteratif dan
berkelanjutan hingga instrumen mencapai tingkat validitas yang memadai.
2.4 Validitas Berdasarkan Kriteria (Criterion-Related Validity)
Validitas berdasarkan kriteria mengacu pada kemampuan instrumen untuk
memprediksi atau berkorelasi dengan kriteria eksternal yang relevan. Dalam
konteks evaluasi PAI, validitas berdasarkan kriteria dapat diuji dengan
membandingkan hasil pengukuran instrumen yang dikembangkan dengan hasil
pengukuran instrumen lain yang telah terbukti valid dan reliabel, atau dengan
membandingkan hasil pengukuran dengan kriteria kinerja nyata peserta didik
dalam konteks kehidupan keagamaan.
Validitas berdasarkan kriteria dapat dibedakan menjadi dua jenis, yaitu
validitas konkuren (concurrent validity) dan validitas prediktif (predictive
validity). Validitas konkuren mengacu pada kemampuan instrumen untuk
berkorelasi dengan kriteria yang diukur pada waktu yang sama, sementara
validitas prediktif mengacu pada kemampuan instrumen untuk memprediksi kinerja
peserta didik di masa depan Amalia et al., 2022; , Farmawati & Hidayati,
2019). Dalam konteks evaluasi PAI, validitas prediktif sangat relevan karena
tujuan utama PAI adalah membentuk peserta didik yang beriman, bertakwa, dan
berakhlak mulia dalam kehidupan nyata (Supaat, 1970; , Suharjo et al., 2020).
Dalam konteks pengukuran toleransi beragama, pengukuran toleransi
beragama menggunakan skala yang mencakup tiga aspek atau dimensi, yaitu
keadilan (fairness), empati (empathy), dan kewajaran (reasonableness),
dengan menggunakan metode Confirmatory Factor Analysis (CFA) untuk menguji
validitas konstruk skala (Fariz & Saloom, 2021). Pendekatan pengujian
validitas yang komprehensif ini dapat diadaptasi untuk digunakan dalam
pengujian validitas instrumen evaluasi PAI yang mengukur aspek-aspek sikap
religius peserta didik.
2.5 Validitas Konvergen dan Diskriminan
Dalam konteks pengembangan instrumen evaluasi PAI menggunakan pendekatan Partial
Least Square (PLS), validitas konvergen (convergent validity) dan
validitas diskriminan (discriminant validity) merupakan dua jenis
validitas yang penting untuk diuji. Validitas konvergen adalah bentuk pengujian
hubungan setiap indikator reflektif pada variabel latennya, dengan syarat skor loading
yaitu > 0,7 Supriyanto & Fitria, 2022). Sementara itu, validitas
diskriminan mengacu pada kemampuan instrumen untuk membedakan antara
konstruk-konstruk yang berbeda secara konseptual.
Dalam penelitian tentang pengaruh fasilitas wisata dan kualitas pelayanan
terhadap niat berkunjung kembali, pengujian outer model terbagi menjadi
3 parameter yaitu convergent validity, composite reliability, dan
cronbach alpha (Septianing & Farida, 2021). Pendekatan pengujian
validitas yang komprehensif ini dapat diadaptasi untuk digunakan dalam
pengujian validitas instrumen evaluasi PAI yang dikembangkan menggunakan
pendekatan PLS-SEM.
Dalam konteks pengembangan instrumen evaluasi PAI berbasis model Rasch,
validitas skala peringkat (rating scale validity) juga merupakan aspek
penting yang harus diuji. Validitas skala peringkat adalah pengujian yang
dilakukan untuk memverifikasi apakah rating pilihan yang digunakan
membingungkan bagi responden atau tidak Wibisono, 2018). Pengujian validitas
skala peringkat ini sangat relevan untuk instrumen evaluasi PAI yang
menggunakan skala Likert atau skala penilaian berjenjang lainnya.
2.6 Teknik Pengujian Validitas
Berbagai teknik statistik dapat digunakan untuk menguji validitas
instrumen evaluasi PAI. Pertama, korelasi Pearson (Pearson Product Moment)
merupakan teknik yang paling umum digunakan untuk menguji validitas item
instrumen. Uji validitas menggunakan pearson product moment dan
reliabilitas diuji dengan cronbach's alpha Amalia et al., 2022; .
Instrumen dikatakan valid jika r hitung > dari r tabel (Saputro &
Raharjo, 2023; , yang menunjukkan bahwa setiap item instrumen memiliki korelasi
yang signifikan dengan skor total instrumen.
Kedua, analisis faktor (factor analysis) merupakan teknik yang
digunakan untuk menguji validitas konstruk instrumen evaluasi. Dalam
pengembangan instrumen penilaian psikomotor, teknik analisis data untuk menguji
validitas menggunakan korelasi Exploratory Factor Analysis (EFA) dan
data dianalisis menggunakan SPSS 26.0 Subagis & Setiawan, 2022; . Ketiga,
formula Aiken merupakan teknik yang digunakan untuk menguji validitas isi
instrumen evaluasi berdasarkan penilaian para ahli. Dalam pengembangan panduan
observasi keterampilan stimulasi literasi, hasil uji validitas isi dianalisis
dengan metode Aiken's Harahap, 2023; .
Keempat, Confirmatory Factor Analysis (CFA) merupakan teknik yang
digunakan untuk menguji validitas konstruk instrumen evaluasi secara lebih
ketat. Dalam pengukuran toleransi beragama, penelitian menggunakan metode CFA
dan dianalisis oleh software Lisrel 8.7 (Fariz & Saloom, 2021). Kelima,
model Rasch merupakan teknik yang digunakan untuk menguji validitas instrumen
evaluasi berdasarkan teori respons butir (Item Response Theory/IRT).
Dalam validasi instrumen pengukuran fundamentalisme agama bagi responden Muslim,
analisis model Rasch memberikan proses verifikasi bagi asumsi peringkat yang
diberikan dalam instrumen Wibisono, 2018).

Tidak ada komentar:
Posting Komentar