1. Pendahuluan
Analisis kualitas soal objektif merupakan proses sistematis untuk
mengevaluasi sejauh mana instrumen penilaian yang digunakan mampu mengukur
hasil belajar peserta didik secara valid, reliabel, dan akurat. Dalam konteks
pendidikan Indonesia, kualitas soal objektif menjadi perhatian utama karena
instrumen penilaian yang berkualitas rendah dapat menghasilkan data yang
menyesatkan tentang kemampuan peserta didik (Mutakin, 2023; , Azzahroh et al.,
2022). Analisis kualitas soal objektif mencakup berbagai aspek, mulai dari
validitas, reliabilitas, tingkat kesukaran, daya pembeda, hingga efektivitas
pengecoh, yang kesemuanya harus dianalisis secara komprehensif untuk memastikan
kualitas instrumen penilaian (Mutakin, 2023; , Ayubi et al., 2023), (Aprilia et
al., 2021).
Pentingnya analisis kualitas soal objektif semakin dirasakan
seiring dengan meningkatnya tuntutan terhadap kualitas pendidikan di Indonesia.
Menurut survei PISA tahun 2019, Indonesia berada pada peringkat ke-72 dari 77
negara, yang menunjukkan bahwa kualitas pendidikan Indonesia masih perlu
ditingkatkan secara signifikan Risdiana et al., 2022; . Salah satu upaya
peningkatan kualitas pendidikan adalah melalui pengembangan dan analisis
instrumen penilaian yang berkualitas, termasuk soal objektif yang digunakan
dalam berbagai jenjang pendidikan Risdiana et al., 2022; , Syahida &
Irwandi, 2015), (Andrijati et al., 2022).
Dalam kegiatan Penelitian Tindakan Kelas (PTK), instrumen tes
(soal) yang digunakan sebagai alat ukur untuk mengukur keberhasilan suatu
metode atau tindakan perlu diuji kualitasnya (Mutakin, 2023; . Manfaat setelah
dilakukan analisis instrumen soal adalah dapat membantu dalam evaluasi atas tes
yang digunakan, mendukung penulisan butir soal yang efektif, menentukan apakah
suatu fungsi butir soal sesuai dengan yang diharapkan, dan merevisi materi yang
dinilai atau diukur (Mutakin, 2023; . Hal ini menunjukkan bahwa analisis
kualitas soal objektif bukan hanya merupakan kegiatan pasca-penulisan, tetapi
juga merupakan bagian dari proses pengembangan instrumen penilaian yang
berkelanjutan dan berkesinambungan.
2. Dimensi Analisis Kualitas Soal Objektif
2.1 Validitas
Validitas merupakan dimensi pertama dan paling fundamental dalam
analisis kualitas soal objektif. Validitas merujuk pada kemampuan soal untuk
mengukur apa yang seharusnya diukur, sehingga hasil pengukuran benar-benar
mencerminkan kemampuan peserta didik yang ingin diukur (Mutakin, 2023; ,
(Aprilia et al., 2021). Dalam penelitian analisis kualitas instrumen tes
menggunakan software SPSS, ditemukan bahwa semua 20 item soal baik instrumen
tes subtema 1 dan 2 kesemuanya valid dan reliabel (Mutakin, 2023; . Hal ini
menunjukkan bahwa proses analisis validitas yang sistematis dapat menghasilkan
instrumen yang berkualitas tinggi.
Validitas soal objektif dapat dibedakan menjadi beberapa jenis,
antara lain validitas isi (content validity), validitas konstruk (construct
validity), dan validitas empiris (empirical validity). Dalam
pengembangan asesmen HOTS berbasis CBT, validitas logis yang diperoleh dari
validasi ahli pada asesmen HOTS menggunakan CBT adalah 81% dengan kategori
valid, sementara validitas empiris diperoleh dari hasil tes HOTS siswa
menggunakan CBT yang menunjukkan bahwa keempat tipe soal mampu mengukur HOTS
siswa (Pranata et al., 2020). Dalam pengembangan soal HOTS pada materi
asam-basa, hasil validasi menunjukkan bahwa soal yang dikembangkan sangat valid
(90,7%) berdasarkan aspek materi, konstruksi, HOTS, dan bahasa Risdiana et al.,
2022.
Dalam konteks pengembangan soal HOTS materi sel Volta, validasi
dilakukan oleh 6 orang ahli dengan menilai dalam segi aspek konstruk soal,
materi pada soal, dan bahasa yang digunakan, dengan nilai rata-rata validitas
sebesar 0,727 sehingga termasuk dalam kategori tinggi Ayubi et al., 2023). Hal
ini menunjukkan bahwa validasi oleh ahli merupakan langkah penting dalam
memastikan kualitas soal objektif sebelum digunakan dalam penilaian yang
sesungguhnya.
Dalam pengembangan tes membaca bahasa Indonesia berbasis web,
karakteristik tes pilihan ganda, tes benar-salah, dan tes menjodohkan memiliki
validitas isi yang baik dan koefisien reliabilitas tes masing-masing kategori
tinggi, dengan nilai Alpha masing-masing 0,748, 0,762, dan 0,772 (Masae, 2019).
Temuan ini menunjukkan bahwa ketiga bentuk soal objektif dapat memiliki
validitas dan reliabilitas yang tinggi apabila dikembangkan dengan prosedur
yang tepat.
2.2 Reliabilitas
Reliabilitas merupakan dimensi kedua yang penting dalam analisis
kualitas soal objektif. Reliabilitas merujuk pada konsistensi hasil pengukuran,
yaitu sejauh mana soal menghasilkan hasil yang sama apabila digunakan pada
kondisi yang berbeda (Mutakin, 2023; , Azzahroh et al., 2022). Dalam analisis
butir soal ujian akhir semester mata kuliah psikologi belajar, soal benar-salah
memperoleh hasil reliabilitas tes sebesar 0,41 dan soal pilihan ganda
memperoleh angka 0,46, yang menunjukkan bahwa kedua jenis soal memiliki
reliabilitas yang sedang Azzahroh et al., 2022).
Dalam pengembangan soal HOTS materi sel Volta, rata-rata
reliabilitas soal sebesar 0,720 termasuk dalam kategori tinggi Ayubi et al.,
2023). Dalam penelitian aplikasi model Rasch pada instrumen tes kemampuan
pemecahan masalah, nilai Cronbach's alpha sebesar 0,82 dengan kriteria bagus
sekali, sementara nilai person reliability sebesar 0,78 (cukup) dan
nilai item reliability sebesar 0,85 (bagus) (Aprilia et al., 2021).
Perbedaan nilai reliabilitas ini menunjukkan bahwa kualitas soal objektif
sangat bervariasi tergantung pada proses pengembangannya.
Dalam pengembangan soal HOTS pada materi asam-basa, reliabilitas
per butir soal sangat tinggi dan soal dapat diterima Risdiana et al., 2022; .
Hal ini menunjukkan bahwa soal HOTS yang dikembangkan dengan prosedur yang
tepat dapat memiliki reliabilitas yang tinggi, meskipun soal tersebut mengukur
kemampuan berpikir tingkat tinggi yang lebih kompleks.
2.3 Tingkat Kesukaran
Tingkat kesukaran (difficulty index) merupakan parameter
yang menunjukkan seberapa mudah atau sulit suatu soal bagi peserta didik. Dalam
analisis kualitas instrumen tes menggunakan software SPSS, tingkat kesukaran
instrumen tes subtema 1 terdapat 4 soal kategori sedang dan 16 soal kategori
mudah, sementara instrumen tes subtema 2 terdapat 10 soal kategori sedang dan
10 soal kategori mudah (Mutakin, 2023; . Distribusi tingkat kesukaran ini
menunjukkan bahwa soal yang dianalisis cenderung mudah dan belum memiliki
distribusi tingkat kesukaran yang ideal.
Dalam analisis butir soal ujian akhir semester, tingkat kesukaran
soal benar-salah memperoleh persentase 51,67% sampai 95%, soal pilihan ganda
33% sampai 81%, dan soal esai 33% sampai 55%, yang menunjukkan tidak ada soal
yang sukar Azzahroh et al., 2022). Temuan ini sejalan dengan penelitian tentang
kualitas instrumen penilaian sumatif seni rupa di SMP Kabupaten Sleman, yang
menemukan bahwa instrumen penilaian masih didominasi soal dengan tingkat
kesukaran mudah dan sedang dan belum mencakup soal untuk kategori high order
thinking skill (Prihadi et al., 2021; .
Dalam pengembangan soal HOTS materi sel Volta, rata-rata tingkat
kesukaran butir soal sebesar 0,466 termasuk dalam kategori sedang Ayubi et al.,
2023). Dalam penelitian aplikasi model Rasch, tingkat kesulitan butir soal
dikategorikan berdasarkan nilai rata-rata logit dan nilai standar deviasi pada item
measure (Aprilia et al., 2021). Distribusi tingkat kesukaran yang ideal
adalah sekitar 25% soal mudah, 50% soal sedang, dan 25% soal sukar, meskipun
distribusi ini dapat disesuaikan dengan tujuan penilaian.
2.4 Daya Pembeda
Daya pembeda (discriminating power) merupakan parameter yang
menunjukkan kemampuan soal untuk membedakan antara peserta didik yang memiliki
kemampuan tinggi dan rendah. Dalam analisis kualitas instrumen tes menggunakan
software SPSS, uji daya pembeda instrumen tes subtema 1 kesemuanya dalam
kategori baik, sementara instrumen tes subtema 2 terdapat 19 soal dengan
kategori baik dan 1 soal dengan kategori tidak baik (Mutakin, 2023; Hal ini
menunjukkan bahwa sebagian besar soal yang dianalisis memiliki daya pembeda
yang baik.
Dalam analisis butir soal ujian akhir semester, daya pembeda soal
benar-salah memiliki persentase 12,50% sampai 68,75%, soal pilihan ganda 18,75%
sampai 62,50%, dan soal esai 15,63% sampai 29,63%, yang berarti soal memiliki
daya beda yang beragam mulai dari jelek hingga baik sekali Azzahroh et al.,
2022). Dalam pengembangan soal HOTS materi sel Volta, rata-rata daya pembeda
sebesar 0,492 termasuk dalam kategori baik Ayubi et al., 2023). Menurut
Arikunto (2007) sebagaimana dikutip dalam penelitian tersebut, daya pembeda
butir soal untuk membuktikan perbedaan antara peserta didik dengan kemampuan
tinggi dan rendah dapat diambil sebesar 50% dengan kemampuan tinggi dan 50%
dengan kemampuan rendah Ayubi et al., 2023).
2.5 Efektivitas Pengecoh
Efektivitas pengecoh (distractor effectiveness) merupakan
parameter khusus untuk soal pilihan ganda yang menunjukkan seberapa efektif
pilihan jawaban yang salah dalam menarik peserta didik yang tidak memahami
materi. Dalam analisis butir soal ujian akhir semester, efektivitas pengecoh
pada soal pilihan ganda menunjukkan bahwa 30% soal memiliki efektivitas
pengecoh yang kurang baik, 50% memiliki efektivitas pengecoh yang baik, dan 10%
memiliki efektivitas pengecoh yang sangat baik Azzahroh et al., 2022). Temuan
ini menunjukkan bahwa penulisan pengecoh yang efektif merupakan salah satu
aspek yang paling sulit dalam pengembangan soal pilihan ganda.
Dalam pengembangan tes membaca bahasa Indonesia berbasis web,
efektivitas pengecoh butir tes menunjukkan hasil yang baik karena pengecoh
bekerja dengan baik (Masae, 2019). Hal ini menunjukkan bahwa dengan proses
pengembangan yang tepat, efektivitas pengecoh soal pilihan ganda dapat
ditingkatkan secara signifikan.
3. Analisis Kualitas Soal Objektif dari Aspek Materi, Konstruksi,
dan Bahasa
3.1 Aspek Materi
Analisis kualitas soal objektif dari aspek materi mencakup
penilaian terhadap kesesuaian soal dengan kompetensi dasar dan indikator
pembelajaran, keakuratan materi yang diujikan, serta kesesuaian tingkat
kognitif soal dengan tujuan pembelajaran. Dalam penelitian kualitas instrumen
penilaian sumatif seni rupa di SMP Kabupaten Sleman, ditemukan bahwa secara
umum kualitas soal pilihan ganda sangat baik dari segi materi, konstruksi, dan
bahasa, namun dari segi tingkat pengetahuan masih didominasi soal dalam
kategori tingkat ingatan dan pemahaman dan belum mencakup soal untuk kategori
HOTS (Prihadi et al., 2021; .
Dalam pengembangan soal HOTS pada materi asam-basa, analisis
instrumen tes menunjukkan bahwa soal ulangan asam-basa masih pada level
kognitif C1-C3, yang berarti soal belum mengukur kemampuan berpikir tingkat
tinggi Risdiana et al., 2022; . Hal ini menunjukkan bahwa analisis kualitas
soal dari aspek materi harus mencakup penilaian terhadap tingkat kognitif soal
berdasarkan taksonomi Bloom, tidak hanya keakuratan materi yang diujikan.
Kaidah penulisan butir soal HOTS agak berbeda dengan kaidah
penulisan butir soal pada umumnya, di mana perbedaannya terletak pada aspek
materi, sedangkan pada aspek konstruksi dan bahasa relatif sama (Andrijati et
al., 2022; . Hal ini menunjukkan bahwa analisis kualitas soal dari aspek materi
untuk soal HOTS memerlukan perhatian khusus terhadap tingkat kognitif soal dan
penggunaan stimulus yang tepat.
Dalam analisis keterampilan berpikir tingkat tinggi pada soal Ujian
Nasional Kimia, ditemukan bahwa penyebab jarang munculnya jenjang kognitif
mengevaluasi (C5) dan mencipta (C6) pada soal ujian dipengaruhi oleh bentuk
instrumen yang digunakan, yaitu soal pilihan ganda Syahida & Irwandi,
2015). Temuan ini menunjukkan bahwa analisis kualitas soal dari aspek materi
harus mempertimbangkan keterbatasan bentuk soal dalam mengukur tingkat kognitif
tertentu.
3.2 Aspek Konstruksi
Analisis kualitas soal objektif dari aspek konstruksi mencakup
penilaian terhadap struktur soal, kejelasan rumusan pokok soal (stem),
homogenitas pilihan jawaban, dan efektivitas pengecoh. Dalam pengembangan soal
HOTS materi sel Volta, validasi dilakukan dengan menilai dalam segi aspek
konstruk soal, materi pada soal, dan bahasa yang digunakan Ayubi et al., 2023).
Dalam pengembangan asesmen HOTS berbasis CBT, rata-rata validasi konstruksi
pada tipe soal multiple choice mencapai 77%, tipe soal true or false
mencapai 77%, dan tipe soal matching mencapai 76%, yang artinya semua
tipe soal memiliki validasi konstruksi yang valid (Pranata et al., 2020).
Dalam konteks analisis kualitas soal pilihan ganda, soal pilihan
ganda memiliki anatomi soal yang terdiri atas stimulus, kalimat soal, dan
pilihan jawaban (ada pengecoh dan kunci), dan terdapat kaidah-kaidah dalam
penulisan soal pilihan ganda yang juga bisa menentukan kualitas soal serta
level berpikirnya (Purwasih, 2020). Hal ini menunjukkan bahwa analisis kualitas
soal dari aspek konstruksi harus mencakup penilaian terhadap semua komponen
soal, termasuk stimulus, kalimat soal, dan pilihan jawaban.
Dalam penelitian tentang kendala calon pendidik dalam membuat soal
pilihan ganda HOT, ditemukan bahwa mahasiswa ternyata sulit membuat stimulus
soal, yang merupakan salah satu komponen konstruksi soal yang paling penting
(Purwasih, 2020). Hal ini menunjukkan bahwa analisis kualitas soal dari aspek
konstruksi harus memberikan perhatian khusus terhadap kualitas stimulus soal,
terutama untuk soal yang dirancang untuk mengukur HOTS.
3.3 Aspek Bahasa
Analisis kualitas soal objektif dari aspek bahasa mencakup
penilaian terhadap kejelasan bahasa yang digunakan, kesesuaian dengan kaidah
bahasa Indonesia yang baik dan benar, serta keterbacaan soal bagi peserta
didik. Dalam pengembangan soal HOTS materi sel Volta, aspek bahasa merupakan
salah satu aspek yang dinilai dalam proses validasi oleh ahli Ayubi et al.,
2023). Dalam pengembangan asesmen HOTS berbasis CBT, rata-rata validasi bahasa
pada tipe soal true or false mencapai 84% dan tipe soal matching
mencapai 83%, yang artinya soal memiliki validasi bahasa yang valid (Pranata et
al., 2020).
Dalam analisis penggunaan bahasa dalam soal cerita matematika,
ditemukan bahwa terdapat ketidaktepatan dalam penggunaan bahasa soal dengan
persentase yang variatif: ketidakgramatikalan 31%, ketidaktepatan diksi 25%,
ketidakhematan 15%, ketidakparalelan 6%, dan ketidaklogisan 22% (Nurwahidah,
2023). Temuan ini menunjukkan bahwa analisis kualitas soal dari aspek bahasa
merupakan aspek yang sering diabaikan namun sangat penting untuk memastikan
soal dapat dipahami dengan benar oleh peserta didik.
4. Metode dan Alat Analisis Kualitas Soal Objektif
4.1 Analisis Klasik (Classical Test Theory)
Analisis kualitas soal objektif secara tradisional dilakukan
menggunakan pendekatan Classical Test Theory (CTT), yang mencakup
analisis validitas, reliabilitas, tingkat kesukaran, daya pembeda, dan
efektivitas pengecoh. Dalam penelitian analisis kualitas instrumen tes
menggunakan software SPSS, analisis dilakukan berdasarkan unsur validitas,
reliabilitas, indeks kesukaran, dan daya pembeda soal yang diolah dengan
bantuan software SPSS versi 16.0 (Mutakin, 2023; . Penggunaan software analisis
memungkinkan pendidik untuk melakukan analisis butir soal secara lebih cepat,
akurat, dan komprehensif.
Dalam analisis butir soal ujian akhir semester, data dianalisis
menggunakan software Anates ver.4 dan Microsoft Excel Azzahroh et al., 2022).
Software Anates merupakan salah satu software analisis butir soal yang paling
banyak digunakan di Indonesia, karena kemudahan penggunaannya dan kemampuannya
untuk menganalisis berbagai parameter kualitas soal secara sekaligus.
4.2 Analisis Model Rasch (Item Response Theory)
Selain pendekatan CTT, analisis kualitas soal objektif juga dapat
dilakukan menggunakan pendekatan Item Response Theory (IRT), khususnya
model Rasch. Dalam penelitian aplikasi model Rasch pada instrumen tes kemampuan
pemecahan masalah, analisis model Rasch dilakukan untuk summary statistics,
item-fit, wright-map, item-measure, person-measure,
person-fit, dan item-DIF (Aprilia et al., 2021). Nilai person
reliability sebesar 0,78 (cukup) dan nilai item reliability sebesar
0,85 (bagus), sementara nilai Cronbach's alpha sebesar 0,82 (bagus sekali)
(Aprilia et al., 2021).
Analisis model Rasch memberikan informasi yang lebih rinci tentang
kualitas soal dibandingkan dengan pendekatan CTT, karena model Rasch
mempertimbangkan kemampuan masing-masing responden yang menjawab tes dan
kesulitan setiap butir item tes secara bersamaan (Aprilia et al., 2021). Wright
Map yang dihasilkan dari analisis model Rasch menggambarkan sebaran
kemampuan siswa dan tingkat kesulitan soal dengan skala yang sama, sehingga
memberikan informasi yang sangat berharga bagi guru dalam mengidentifikasi kemampuan
siswa dan menganalisis kualitas butir soal yang diuji (Aprilia et al., 2021).
Dalam tinjauan literatur pengembangan instrumen penilaian HOTS
fisika di SMA, disebutkan bahwa instrumen HOTS perlu melalui proses uji dan
analisis kelayakan, di antaranya yaitu uji kevalidan dari validator, uji
validitas, uji reliabilitas, uji tingkat kesukaran, uji daya beda, analisis
model Rasch, analisis dengan formula Alpha Cronbach, dan uji pengecoh soal
Desiriah & Setyarsih, 2021). Hal ini menunjukkan bahwa analisis kualitas
soal HOTS memerlukan pendekatan yang lebih komprehensif dibandingkan dengan soal
biasa.
4.3 Analisis Kualitas Soal HOTS
Analisis kualitas soal objektif yang dirancang untuk mengukur HOTS
memerlukan perhatian khusus terhadap beberapa aspek tambahan. Soal-soal HOTS
pada konteks asesmen mengukur kemampuan: (1) transfer satu konsep ke konsep
lainnya, (2) memproses dan menerapkan informasi, (3) mencari kaitan dari
berbagai informasi yang berbeda-beda, (4) menggunakan informasi untuk
menyelesaikan masalah, dan (5) menelaah ide dan informasi secara kritis
Suhardiyanto & Tijan, 2019). Analisis kualitas soal HOTS harus memastikan
bahwa soal yang dikembangkan benar-benar mengukur kemampuan-kemampuan tersebut.
Dalam pelatihan penyusunan soal HOTS bagi guru SD, evaluasi hasil
pelatihan meliputi aspek pengetahuan dan keterampilan, di mana pada aspek
keterampilan, peserta diminta menyusun soal HOTS berdasarkan langkah-langkah
yang telah dijelaskan (Andrijati et al., 2022; . Rerata skor produk penyusunan
soal HOTS peserta pelatihan sebesar 85 dengan kategori baik (B), yang
menunjukkan bahwa guru dapat mengembangkan soal HOTS yang berkualitas dengan
pelatihan yang tepat (Andrijati et al., 2022; .
Dalam pelatihan penyusunan soal HOTS bidang matematika di SMP
Barunawati Surabaya, dari tugas yang diberikan untuk menyusun soal-soal HOTS,
setelah dievaluasi hasilnya sudah baik dan memenuhi kaidah tipe soal-soal HOTS
Hanafi et al., 2024; . Hal ini menunjukkan bahwa pelatihan yang tepat dapat
meningkatkan kemampuan guru dalam mengembangkan soal HOTS yang berkualitas.
5. Tantangan dalam Analisis Kualitas Soal Objektif
5.1 Keterbatasan Soal Pilihan Ganda dalam Mengukur HOTS
Salah satu tantangan utama dalam analisis kualitas soal objektif
adalah keterbatasan soal pilihan ganda dalam mengukur HOTS. Penggunaan tes
jenis pilihan ganda tidak terlepas dari kelebihan-kelebihan yang dimilikinya
sebagai instrumen penilaian, antara lain memuat banyak materi, mengukur
berbagai tingkatan kognitif, memiliki keandalan yang cenderung lebih tinggi
dari pada soal uraian, dapat digunakan pada ujian dengan jumlah peserta yang
sangat banyak dan menghendaki hasil yang cepat, serta memiliki sistem penskoran
yang mudah, cepat, dan objektif Syahida & Irwandi, 2015). Namun demikian,
penyebab jarang munculnya jenjang kognitif mengevaluasi (C5) dan mencipta (C6)
pada soal ujian dipengaruhi oleh bentuk instrumen yang digunakan, yaitu soal
pilihan ganda Syahida & Irwandi, 2015).
Dalam konteks analisis kualitas soal, hal ini menunjukkan bahwa
soal pilihan ganda yang hanya mengukur tingkat kognitif rendah (C1-C3) memiliki
kualitas yang kurang baik dari segi materi, meskipun mungkin memiliki validitas
dan reliabilitas yang tinggi. Oleh karena itu, analisis kualitas soal objektif
harus mencakup penilaian terhadap tingkat kognitif soal, tidak hanya parameter
psikometrik seperti validitas dan reliabilitas.
5.2 Kesulitan dalam Membuat Stimulus Soal
Tantangan lain dalam pengembangan dan analisis kualitas soal
objektif adalah kesulitan dalam membuat stimulus soal yang tepat. Dalam
penelitian tentang kendala calon pendidik dalam membuat soal pilihan ganda HOT,
ditemukan bahwa mahasiswa sulit membuat stimulus soal, kurang memahami materi
sosiologi, kurang menguasai aplikasi taksonomi Bloom, waktu belajar yang tidak
mencukupi, dan penjelasan dosen yang kurang baik (Purwasih, 2020). Kesulitan
dalam membuat stimulus soal merupakan hambatan utama dalam pengembangan soal
pilihan ganda yang berkualitas tinggi.
Dalam penelitian tentang kendala guru dalam menyusun soal HOTS,
ditemukan bahwa masih banyak guru yang masih kesulitan dalam menyusun soal
berbasis HOTS, terutama pada bagaimana mendesain penilaian pengetahuan berbasis
HOTS, menentukan soal yang HOTS level 1 (pemahaman), level 2 (penerapan), dan
level 3 (penalaran), serta penyusunan pedoman penskoran Suhardiyanto &
Tijan, 2019). Hal ini menunjukkan bahwa analisis kualitas soal HOTS harus
mempertimbangkan kemampuan guru dalam mengembangkan soal HOTS yang berkualitas.
5.3 Keterbatasan Kemampuan Guru dalam Menganalisis Kualitas Soal
Tantangan lain dalam analisis kualitas soal objektif adalah
keterbatasan kemampuan guru dalam melakukan analisis butir soal secara
sistematis. Dalam penelitian tentang aplikasi model Rasch pada instrumen tes,
disebutkan bahwa guru mengalami kesulitan menyusun instrumen yang baik sesuai
dengan kaidah penyusunan instrumen penilaian yang baik (Aprilia et al., 2021).
Hal ini menunjukkan bahwa pelatihan dan pendampingan bagi guru dalam
mengembangkan dan menganalisis kualitas soal objektif merupakan kebutuhan yang
mendesak.
Dalam pelatihan penyusunan soal HOTS bagi guru SD, hasil pretes dan
postes mengindikasikan bahwa terdapat peningkatan yang signifikan skor peserta
sebelum dan setelah pelatihan sebesar 24,8 atau 47,55% (Andrijati et al., 2022;
. Hal ini menunjukkan bahwa pelatihan yang tepat dapat meningkatkan kemampuan
guru dalam mengembangkan soal HOTS yang berkualitas secara signifikan.
6. Prosedur Analisis Kualitas Soal Objektif yang Komprehensif
6.1 Tahap Perencanaan
Analisis kualitas soal objektif yang komprehensif dimulai dari
tahap perencanaan, yang mencakup penentuan tujuan penilaian, penyusunan
kisi-kisi soal, dan pemilihan bentuk soal yang tepat. Dalam pengembangan soal
HOTS pada materi asam-basa, langkah-langkah dalam menyusun soal HOTS menurut
Kemendikbud (2019) yaitu menganalisis KD, memilih stimulus, menyusun kisi-kisi
soal, menyusun soal, dan menyusun kunci jawaban dan pedoman penskoran Risdiana
et al., 2022; . Tahap perencanaan yang baik merupakan fondasi bagi pengembangan
soal objektif yang berkualitas tinggi.
Dalam perencanaan penilaian di SMA Negeri 1 Bumiayu, perencanaan
penilaian dilakukan melalui beberapa tahap yaitu: penentuan tujuan penilaian
hasil belajar, penentuan instrumen penilaian, penentuan bentuk penilaian,
penentuan teknik penilaian, pembuatan kisi-kisi dan butir soal, dan penyusunan
pedoman penskoran (Rizqiani & Wijayanti, 2022). Tahapan perencanaan yang
sistematis ini merupakan prasyarat bagi pengembangan soal objektif yang
berkualitas.
6.2 Tahap Pengembangan dan Validasi
Setelah tahap perencanaan, soal objektif harus dikembangkan dan
divalidasi oleh ahli sebelum digunakan dalam penilaian yang sesungguhnya. Dalam
pengembangan soal HOTS materi sel Volta, model pengembangan yang digunakan
terdiri dari 10 tahapan yang meliputi penentuan subjek penelitian dan tujuan
tes, pengembangan tes, penulisan dan validasi butir soal oleh ahli, penyusunan
kembali hasil revisi, pelaksanaan tes, analisis hasil tes, revisi tes, tes
akhir dan validasi, pengembangan norma-norma, serta penyusunan buku tes Ayubi
et al., 2023). Proses pengembangan yang sistematis ini memastikan bahwa soal
yang dihasilkan memiliki kualitas yang tinggi.
Dalam pengembangan soal HOTS pada materi asam-basa, penilaian uji
coba kepada pengguna terdiri dari 3 orang guru kimia, 3 orang mahasiswa baru
pendidikan kimia, dan 30 siswa kelas XII, dengan respons guru yang sangat
setuju dan uji satu-satu yang sangat baik Risdiana et al., 2022; . Hal ini
menunjukkan bahwa validasi oleh berbagai pihak, termasuk guru, mahasiswa, dan
siswa, merupakan bagian penting dari proses pengembangan soal objektif yang
berkualitas.
6.3 Tahap Analisis Butir Soal
Setelah soal diuji cobakan, analisis butir soal harus dilakukan
untuk mengevaluasi kualitas setiap butir soal secara individual. Dalam
penelitian analisis kualitas instrumen tes menggunakan software SPSS, analisis
dilakukan berdasarkan unsur validitas, reliabilitas, indeks kesukaran, dan daya
pembeda soal (Mutakin, 2023; . Dalam penelitian aplikasi model Rasch, analisis
dilakukan untuk summary statistics, item-fit, wright-map, item-measure,
person-measure, person-fit, dan item-DIF (Aprilia et al.,
2021).
Dalam tinjauan literatur pengembangan instrumen penilaian HOTS
fisika di SMA, disebutkan bahwa instrumen HOTS perlu melalui proses uji dan
analisis kelayakan, di antaranya yaitu uji kevalidan dari validator, uji
validitas, uji reliabilitas, uji tingkat kesukaran, uji daya beda, analisis
model Rasch, analisis dengan formula Alpha Cronbach, dan uji pengecoh soal
Desiriah & Setyarsih, 2021). Proses analisis yang komprehensif ini
memastikan bahwa soal yang digunakan dalam penilaian benar-benar berkualitas
tinggi.
6.4 Tahap Revisi dan Penyempurnaan
Berdasarkan hasil analisis butir soal, soal yang tidak memenuhi
standar kualitas harus direvisi atau diganti. Dalam penelitian analisis
kualitas instrumen tes menggunakan software SPSS, disebutkan bahwa manfaat
analisis instrumen soal adalah dapat membantu dalam evaluasi atas tes yang
digunakan, mendukung penulisan butir soal yang efektif, menentukan apakah suatu
fungsi butir soal sesuai dengan yang diharapkan, dan merevisi materi yang
dinilai atau diukur (Mutakin, 2023; . Proses revisi yang sistematis merupakan
bagian penting dari siklus pengembangan soal objektif yang berkualitas.
7. Implikasi Analisis Kualitas Soal Objektif bagi Praktik
Pendidikan
7.1 Peningkatan Kompetensi Guru
Analisis kualitas soal objektif memiliki implikasi penting bagi
peningkatan kompetensi guru dalam mengembangkan instrumen penilaian. Dalam
pelatihan penyusunan soal HOTS bagi guru SD, kegiatan pelatihan bertujuan untuk
meningkatkan standar kompetensi profesi guru sekolah dasar yang difokuskan pada
kemampuan menilai guru SD, khususnya dalam menyusun soal HOTS (Andrijati et
al., 2022; . Hasil pelatihan menunjukkan bahwa terdapat peningkatan yang
signifikan skor peserta sebelum dan setelah pelatihan sebesar 24,8 atau 47,55%
(Andrijati et al., 2022; .
Dalam pelatihan penyusunan soal HOTS bidang matematika di SMP
Barunawati Surabaya, dengan bertambahnya kompetensi dan kemampuan guru-guru
dalam mengembangkan materi matematika dan penerapannya dapat memberikan
perubahan tentang persepsi siswa terhadap mata pelajaran matematika yang
berujung pada peningkatan nilai ujian bidang matematika Hanafi et al., 2024; .
Hal ini menunjukkan bahwa peningkatan kompetensi guru dalam mengembangkan soal
objektif yang berkualitas memiliki dampak positif yang signifikan terhadap
hasil belajar peserta didik.
7.2 Pengembangan Sistem Penilaian yang Lebih Baik
Analisis kualitas soal objektif juga memiliki implikasi penting
bagi pengembangan sistem penilaian yang lebih baik di sekolah. Dalam
pendampingan pengembangan penilaian pengetahuan berbasis HOTS bagi MGMP PPKn
SMP di Kota Semarang, kegiatan pendampingan bertujuan untuk meningkatkan
pemahaman guru dalam penyusunan penilaian pengetahuan berbasis HOTS
Suhardiyanto & Tijan, 2019). Dari segi penguasaan materi, terjadi
peningkatan pemahaman terhadap penyusunan soal berbasis HOTS yaitu dari hasil
tanya jawab yang dilakukan tim pengabdian pada awal kegiatan dan setelah
dilaksanakannya kegiatan, sebagian besar peserta pengabdian menyatakan ada
peningkatan pemahaman dalam penyusunan penilaian pengetahuan berbasis HOTS
Suhardiyanto & Tijan, 2019).
Dalam konteks implementasi penilaian PPKn di SMA Negeri 1 Bumiayu,
teknik penilaian kompetensi pengetahuan dilakukan dengan cara tes tertulis
yaitu dengan ulangan harian, ulangan tengah semester, ulangan akhir tahun,
ulangan akhir semester, dan ujian sekolah, dengan bentuk soal ulangan
menggunakan pilihan ganda dan esai (Rizqiani & Wijayanti, 2022). Hal ini
menunjukkan bahwa soal objektif, khususnya soal pilihan ganda, masih menjadi
instrumen penilaian yang dominan di sekolah, sehingga analisis kualitas soal
objektif menjadi sangat penting.
8. Kesimpulan
Analisis kualitas soal objektif merupakan proses yang komprehensif
dan sistematis yang mencakup berbagai dimensi, mulai dari validitas,
reliabilitas, tingkat kesukaran, daya pembeda, hingga efektivitas pengecoh
(Mutakin, 2023; , Azzahroh et al., 2022), Ayubi et al., 2023). Analisis
kualitas soal objektif juga harus mencakup penilaian terhadap aspek materi,
konstruksi, dan bahasa soal, yang ketiganya harus dipenuhi secara bersamaan
untuk menghasilkan instrumen penilaian yang berkualitas tinggi (Prihadi et al.,
2021; , Risdiana et al., 2022; , Ayubi et al., 2023).
Berbagai metode analisis kualitas soal objektif telah dikembangkan,
mulai dari pendekatan Classical Test Theory (CTT) yang menggunakan
software seperti SPSS dan Anates (Mutakin, 2023; , Azzahroh et al., 2022),
hingga pendekatan Item Response Theory (IRT) yang menggunakan model
Rasch (Aprilia et al., 2021), Desiriah & Setyarsih, 2021). Setiap
pendekatan memiliki kelebihan dan keterbatasan tersendiri, sehingga penggunaan
kombinasi berbagai pendekatan analisis dapat menghasilkan informasi yang lebih
komprehensif tentang kualitas soal objektif.
Tantangan utama dalam analisis kualitas soal objektif meliputi
keterbatasan soal pilihan ganda dalam mengukur HOTS Syahida & Irwandi,
2015), kesulitan dalam membuat stimulus soal yang tepat (Purwasih, 2020), dan
keterbatasan kemampuan guru dalam melakukan analisis butir soal secara
sistematis (Aprilia et al., 2021). Untuk mengatasi tantangan-tantangan ini,
diperlukan pelatihan dan pendampingan bagi guru dalam mengembangkan dan
menganalisis kualitas soal objektif (Andrijati et al., 2022; , Hanafi et al.,
2024; , Suhardiyanto & Tijan, 2019), serta pengembangan sistem penilaian
yang lebih komprehensif yang mengintegrasikan berbagai bentuk penilaian,
termasuk soal objektif dan soal uraian (Umasih, 2012; , Syahida & Irwandi,
2015).

