1. Pendahuluan
Analisis
butir soal merupakan prosedur yang sangat penting dalam pengembangan dan
evaluasi instrumen penilaian pendidikan, termasuk dalam konteks Pendidikan
Agama Islam (PAI). Analisis butir soal bertujuan untuk mengetahui kualitas
setiap butir soal secara individual, sehingga dapat diidentifikasi soal-soal
yang perlu diperbaiki, direvisi, atau diganti sebelum digunakan dalam penilaian
yang sesungguhnya (Mutakin, 2023; , (Dewi & Prabowo, 2022; . Dua parameter
utama dalam analisis butir soal yang paling fundamental adalah tingkat
kesukaran (difficulty index) dan daya beda (discriminating power),
yang keduanya memberikan informasi yang sangat berharga tentang kualitas dan
efektivitas setiap butir soal dalam mengukur kemampuan peserta didik Ikhlas et
al., 2023), (Febriyanty et al., 2021; .
Tingkat
kesukaran soal merupakan salah satu indikator untuk menganalisis butir-butir
item tes hasil belajar yang baik, di mana soal yang baik tidak terlalu susah
ataupun tidak terlalu mudah namun dalam tingkat kesulitan sedang atau cukup
Ikhlas et al., 2023). Sementara itu, daya pembeda soal adalah kemampuan
butir-butir item soal untuk membedakan antara testee yang memiliki kemampuan
tinggi dan testee yang memiliki kemampuan rendah, dengan anggapan bahwa
kemampuan setiap testee itu berbeda-beda, dan butir-butir item tes hasil
belajar haruslah mencerminkan perbedaan tersebut Ikhlas et al., 2023). Kedua
parameter ini, bersama dengan validitas dan reliabilitas, membentuk kerangka
komprehensif untuk menilai kualitas instrumen evaluasi pendidikan (Dewi &
Prabowo, 2022; , Fitriani et al., 2024).
Dalam
konteks pengembangan instrumen evaluasi PAI yang berkualitas, analisis tingkat
kesukaran dan daya beda soal merupakan langkah yang tidak dapat diabaikan.
Teknik analisis data dalam pengembangan instrumen tes mencakup validasi ahli,
analisis soal (validitas, reliabilitas, tingkat kesukaran, dan daya beda),
analisis profil kemampuan peserta didik, dan analisis angket respons peserta
didik Fitriani et al., 2024). Pemahaman yang mendalam tentang konsep, teknik
perhitungan, dan interpretasi hasil analisis tingkat kesukaran dan daya beda
soal merupakan kompetensi esensial yang harus dimiliki oleh setiap guru PAI dan
pengembang instrumen evaluasi pendidikan.
2.
Konsep Tingkat Kesukaran Soal
2.1
Pengertian dan Definisi Tingkat Kesukaran
Tingkat
kesukaran soal (difficulty index atau item difficulty) adalah
parameter yang menunjukkan seberapa mudah atau sulit suatu soal bagi peserta
didik yang mengikuti tes. Secara teknis, tingkat kesukaran soal didefinisikan
sebagai proporsi atau persentase peserta didik yang menjawab soal tersebut
dengan benar dari keseluruhan peserta yang mengikuti tes Ikhlas et al., 2023),
(Febriyanty et al., 2021; . Indeks tingkat kesukaran soal merupakan salah satu
indikator untuk menganalisis butir-butir item tes hasil belajar yang baik, di
mana tidak terlalu susah ataupun tidak terlalu mudah namun dalam tingkat
kesulitan sedang atau cukup Ikhlas et al., 2023).
Dalam
konteks Item Response Theory (IRT) dan model Rasch, tingkat kesukaran
soal direpresentasikan sebagai parameter lokasi butir (item location
parameter) yang menunjukkan posisi soal pada kontinum kemampuan. Semakin
tinggi nilai parameter lokasi butir, semakin tinggi tingkat kesulitannya dan
semakin rendah peluang responden untuk menjawab soal tersebut dengan benar
(Widhiarso & Hanifa, 2023). Dalam analisis butir berbasis model Rasch,
tingkat kesulitan butir soal dikategorikan berdasarkan nilai rata-rata logit
dan nilai standar deviasi pada item measure Aprilia et al., 2021), yang
memberikan informasi yang lebih rinci dan akurat tentang tingkat kesukaran soal
dibandingkan dengan pendekatan Classical Test Theory (CTT).
Dalam
konteks pengembangan instrumen tes three-tier untuk mengidentifikasi
miskonsepsi pada konsep fluida statis, data empirik menunjukkan rentang indeks
tingkat kesukaran berkisar 0,07 sampai 0,40, dengan nilai rata-rata indeks
kesukaran butir soal adalah 0,24 dan terkategorikan sukar (Kamilah &
Suwarna, 2019). Sementara itu, dalam pengembangan instrumen tes three-tier
multiple choice berbantuan Google Form untuk mengukur kemampuan berpikir
kritis siswa pada topik stoikiometri, tingkat kesukaran butir soal sedang
mendominasi Fitriani et al., 2024). Perbedaan distribusi tingkat kesukaran ini
menunjukkan bahwa karakteristik tingkat kesukaran soal sangat dipengaruhi oleh
jenis soal, materi yang diujikan, dan karakteristik peserta didik yang menjadi
sasaran penilaian.
2.2
Landasan Teoritis Tingkat Kesukaran Soal
Secara
teoritis, tingkat kesukaran soal didasarkan pada asumsi bahwa setiap soal
memiliki tingkat kesulitan yang berbeda-beda, dan perbedaan tingkat kesulitan
ini harus mencerminkan variasi kemampuan peserta didik yang diukur. Dalam
konteks Confirmatory Factor Analysis (CFA) untuk analisis butir soal,
meskipun semua item dalam suatu tes telah terbukti mengukur atribut yang sama
(valid), tetapi selalu terdapat variasi dalam hal karakteristik item seperti
tingkat kesukarannya, kemampuannya dalam membedakan individu satu dengan
lainnya (discriminating power), dan tingkat variasi kesalahan pengukuran
(varians residual) yang dimilikinya (Umar & Nisa, 2020; . Hal ini
menunjukkan bahwa tingkat kesukaran merupakan karakteristik intrinsik dari
setiap butir soal yang harus dianalisis secara cermat.
Dalam
konteks CFA untuk variabel kategoris, perbedaan item dalam hal tingkat
kesukaran (thresholds), daya pembeda (factor loadings), dan
varians kesalahan pengukuran (residual variances) dapat diperhitungkan
secara simultan (Umar & Nisa, 2020; . Idealnya, butir-butir soal dalam
suatu tes bersifat paralel dalam hal tingkat kesukaran, daya pembeda soal, dan
varians kesalahan pengukuran (Umar & Nisa, 2020; . Namun dalam praktiknya,
sangat jarang ditemukan tes yang memiliki butir-butir soal yang benar-benar paralel
dalam ketiga aspek tersebut, sehingga analisis tingkat kesukaran menjadi sangat
penting untuk memastikan kualitas instrumen evaluasi.
Dalam
konteks analisis kemampuan literasi dan numerasi menggunakan soal AKM (Asesmen
Kompetensi Minimum), butir-butir soal level kognitif reasoning
memiliki nilai logit item measure lebih tinggi dibandingkan butir-butir
soal level kognitif knowing, yaitu sebesar 1,44, sehingga butir soal
level kognitif reasoning termasuk dalam kategori soal sangat sukar
(Haryani et al., 2023). Hal ini menunjukkan bahwa tingkat kesukaran soal
berkorelasi erat dengan tingkat kognitif soal berdasarkan taksonomi Bloom, di
mana soal-soal yang mengukur kemampuan berpikir tingkat tinggi cenderung
memiliki tingkat kesukaran yang lebih tinggi dibandingkan soal-soal yang
mengukur kemampuan berpikir tingkat rendah.
2.3
Formula Perhitungan Tingkat Kesukaran
Dalam
pendekatan Classical Test Theory (CTT), tingkat kesukaran soal dihitung
menggunakan formula yang sederhana namun informatif. Formula dasar untuk
menghitung tingkat kesukaran soal adalah sebagai berikut:
P =
B / N
Di
mana:
- P =
Proporsi (difficulty index = angka indeks kesukaran item)
- B =
Banyaknya testee yang menjawab benar pada item soal yang dianalisis
- N = Jumlah
seluruh testee yang mengikuti tes Ikhlas et al., 2023)
Formula
ini menghasilkan nilai P yang berkisar antara 0 hingga 1, di mana nilai P yang
mendekati 0 menunjukkan bahwa soal sangat sukar (hampir tidak ada peserta yang
menjawab benar), sementara nilai P yang mendekati 1 menunjukkan bahwa soal
sangat mudah (hampir semua peserta menjawab benar) Ikhlas et al., 2023),
(Febriyanty et al., 2021; .
Dalam
konteks analisis butir soal Penilaian Tengah Semester (PTS) mata pelajaran
matematika, tingkat kesukaran soal dianalisis dengan bantuan program Microsoft
Excel (Dewi & Prabowo, 2022; . Sementara itu, dalam pengembangan instrumen
tes three-tier multiple choice berbantuan Google Form, tingkat kesukaran
soal dianalisis menggunakan program ANATES 4.0.2 Fitriani et al., 2024).
Penggunaan software analisis yang tepat dapat meningkatkan akurasi dan
efisiensi proses analisis tingkat kesukaran soal secara signifikan.
Dalam
konteks analisis model Rasch, tingkat kesukaran soal direpresentasikan sebagai
parameter lokasi butir dalam skala logit, yang memberikan informasi yang lebih
rinci dan akurat tentang tingkat kesukaran soal dibandingkan dengan formula CTT
sederhana (Laeli & Kasmui, 2024), (Haryani et al., 2023). Soal pretest dan
posttest yang digunakan dalam penelitian tentang penerapan model pembelajaran
berbasis masalah berbantuan media QuizWhizzer telah melewati pengujian
menggunakan analisis Rasch Model sehingga dinyatakan layak untuk digunakan
(Laeli & Kasmui, 2024), yang menunjukkan bahwa analisis model Rasch
merupakan pendekatan yang semakin banyak digunakan dalam analisis tingkat
kesukaran soal.
2.4
Kategori Tingkat Kesukaran Soal
Berdasarkan
nilai indeks tingkat kesukaran (P) yang diperoleh, soal dapat dikategorikan ke
dalam beberapa kelompok. Interpretasi indeks kesukaran soal mengacu pada
kriteria sebagai berikut:
|
Interval
|
Kriteria
|
|
0,70
≤ P ≤ 1,00 |
Butir
Soal Mudah |
|
0,30
≤ P ≤ 0,70 |
Butir
Soal Sedang |
|
0,00
≤ P ≤ 0,30 |
Butir
Soal Sukar |
(Febriyanty
et al., 2021;
Kategorisasi
ini merupakan standar yang paling umum digunakan dalam analisis butir soal di
Indonesia. Suatu soal yang mempunyai interpretasi tingkat kesukaran sedang maka
dikatakan baik; sejalan dengan penelitian Muluki (2020) sebagaimana dikutip
dalam literatur, soal yang baik memiliki 50% atau lebih dengan tingkat kesukaran
sedang Fitriani et al., 2024). Hal ini menunjukkan bahwa soal dengan tingkat
kesukaran sedang merupakan soal yang paling ideal untuk digunakan dalam
penilaian, karena dapat membedakan antara peserta didik yang memiliki kemampuan
tinggi dan rendah secara lebih efektif.
Dalam
analisis butir soal PTS mata pelajaran matematika, dari 40 butir soal yang
dianalisis, ditemukan bahwa 11 atau 27,5% butir soal termasuk dalam kategori
sukar, 17 atau 42,5% butir soal termasuk dalam kategori sedang, dan 11 atau
27,5% butir soal termasuk dalam kategori mudah (Dewi & Prabowo, 2022; .
Distribusi tingkat kesukaran ini menunjukkan bahwa soal yang dianalisis
memiliki distribusi yang cukup baik, meskipun masih didominasi oleh soal dengan
tingkat kesukaran sedang.
Dalam
pengembangan instrumen tes three-tier untuk mengidentifikasi miskonsepsi
pada konsep fluida statis, nilai rata-rata indeks kesukaran butir soal adalah
0,24 dan terkategorikan sukar (Kamilah & Suwarna, 2019). Sementara itu,
dalam pengembangan instrumen tes three-tier multiple choice berbantuan
Google Form untuk mengukur kemampuan berpikir kritis, tingkat kesukaran butir
soal sedang mendominasi Fitriani et al., 2024). Perbedaan distribusi tingkat
kesukaran ini menunjukkan bahwa karakteristik tingkat kesukaran soal sangat
dipengaruhi oleh jenis soal dan materi yang diujikan.
2.5
Faktor-Faktor yang Mempengaruhi Tingkat Kesukaran Soal
Tingkat
kesukaran soal dipengaruhi oleh berbagai faktor yang perlu dipahami oleh guru
PAI dan pengembang instrumen evaluasi. Pertama, tingkat kognitif soal
berdasarkan taksonomi Bloom merupakan faktor utama yang mempengaruhi tingkat
kesukaran soal. Soal-soal yang mengukur kemampuan berpikir tingkat tinggi
(menganalisis, mengevaluasi, dan mencipta) cenderung memiliki tingkat kesukaran
yang lebih tinggi dibandingkan soal-soal yang mengukur kemampuan berpikir
tingkat rendah (mengingat dan memahami) (Haryani et al., 2023), Fitriani et
al., 2024).
Kedua,
kompleksitas materi yang diujikan juga mempengaruhi tingkat kesukaran soal.
Soal-soal yang menguji materi yang kompleks dan multidimensional cenderung
lebih sukar dibandingkan soal-soal yang menguji materi yang sederhana dan
faktual. Dalam konteks PAI, soal-soal yang menguji pemahaman tentang
konsep-konsep teologis yang kompleks atau aplikasi nilai-nilai Islam dalam
situasi nyata yang kompleks cenderung lebih sukar dibandingkan soal-soal yang
menguji pengetahuan faktual tentang ajaran Islam (Supaat, 1970; , Suharjo et
al., 2020).
Ketiga,
kualitas rumusan soal juga mempengaruhi tingkat kesukaran soal. Soal yang
dirumuskan dengan bahasa yang tidak jelas atau ambigu dapat menjadi lebih sukar
bukan karena kompleksitas materi yang diujikan, tetapi karena kesulitan peserta
didik dalam memahami maksud soal (Nurwahidah, 2023). Oleh karena itu, analisis
tingkat kesukaran soal harus selalu dikombinasikan dengan analisis kualitas
rumusan soal dari aspek bahasa dan konstruksi.
Keempat,
karakteristik peserta didik yang mengikuti tes juga mempengaruhi tingkat
kesukaran soal. Soal yang sama dapat memiliki tingkat kesukaran yang berbeda
apabila diujikan kepada kelompok peserta didik yang berbeda dalam hal
kemampuan, latar belakang pendidikan, dan pengalaman belajar (Amalia et al.,
2022). Hal ini menunjukkan bahwa tingkat kesukaran soal bersifat relatif dan
harus selalu diinterpretasikan dalam konteks karakteristik peserta didik yang
menjadi sasaran penilaian.

Tidak ada komentar:
Posting Komentar