Senin, 27 April 2026

Analisis Kualitas Soal Objektif

 


1. Pendahuluan

Analisis kualitas soal objektif merupakan proses sistematis untuk mengevaluasi sejauh mana instrumen penilaian yang digunakan mampu mengukur hasil belajar peserta didik secara valid, reliabel, dan akurat. Dalam konteks pendidikan Indonesia, kualitas soal objektif menjadi perhatian utama karena instrumen penilaian yang berkualitas rendah dapat menghasilkan data yang menyesatkan tentang kemampuan peserta didik (Mutakin, 2023; , Azzahroh et al., 2022). Analisis kualitas soal objektif mencakup berbagai aspek, mulai dari validitas, reliabilitas, tingkat kesukaran, daya pembeda, hingga efektivitas pengecoh, yang kesemuanya harus dianalisis secara komprehensif untuk memastikan kualitas instrumen penilaian (Mutakin, 2023; , Ayubi et al., 2023), (Aprilia et al., 2021).

Pentingnya analisis kualitas soal objektif semakin dirasakan seiring dengan meningkatnya tuntutan terhadap kualitas pendidikan di Indonesia. Menurut survei PISA tahun 2019, Indonesia berada pada peringkat ke-72 dari 77 negara, yang menunjukkan bahwa kualitas pendidikan Indonesia masih perlu ditingkatkan secara signifikan Risdiana et al., 2022; . Salah satu upaya peningkatan kualitas pendidikan adalah melalui pengembangan dan analisis instrumen penilaian yang berkualitas, termasuk soal objektif yang digunakan dalam berbagai jenjang pendidikan Risdiana et al., 2022; , Syahida & Irwandi, 2015), (Andrijati et al., 2022).

 

Dalam kegiatan Penelitian Tindakan Kelas (PTK), instrumen tes (soal) yang digunakan sebagai alat ukur untuk mengukur keberhasilan suatu metode atau tindakan perlu diuji kualitasnya (Mutakin, 2023; . Manfaat setelah dilakukan analisis instrumen soal adalah dapat membantu dalam evaluasi atas tes yang digunakan, mendukung penulisan butir soal yang efektif, menentukan apakah suatu fungsi butir soal sesuai dengan yang diharapkan, dan merevisi materi yang dinilai atau diukur (Mutakin, 2023; . Hal ini menunjukkan bahwa analisis kualitas soal objektif bukan hanya merupakan kegiatan pasca-penulisan, tetapi juga merupakan bagian dari proses pengembangan instrumen penilaian yang berkelanjutan dan berkesinambungan.

 

2. Dimensi Analisis Kualitas Soal Objektif

2.1 Validitas

Validitas merupakan dimensi pertama dan paling fundamental dalam analisis kualitas soal objektif. Validitas merujuk pada kemampuan soal untuk mengukur apa yang seharusnya diukur, sehingga hasil pengukuran benar-benar mencerminkan kemampuan peserta didik yang ingin diukur (Mutakin, 2023; , (Aprilia et al., 2021). Dalam penelitian analisis kualitas instrumen tes menggunakan software SPSS, ditemukan bahwa semua 20 item soal baik instrumen tes subtema 1 dan 2 kesemuanya valid dan reliabel (Mutakin, 2023; . Hal ini menunjukkan bahwa proses analisis validitas yang sistematis dapat menghasilkan instrumen yang berkualitas tinggi.

Validitas soal objektif dapat dibedakan menjadi beberapa jenis, antara lain validitas isi (content validity), validitas konstruk (construct validity), dan validitas empiris (empirical validity). Dalam pengembangan asesmen HOTS berbasis CBT, validitas logis yang diperoleh dari validasi ahli pada asesmen HOTS menggunakan CBT adalah 81% dengan kategori valid, sementara validitas empiris diperoleh dari hasil tes HOTS siswa menggunakan CBT yang menunjukkan bahwa keempat tipe soal mampu mengukur HOTS siswa (Pranata et al., 2020). Dalam pengembangan soal HOTS pada materi asam-basa, hasil validasi menunjukkan bahwa soal yang dikembangkan sangat valid (90,7%) berdasarkan aspek materi, konstruksi, HOTS, dan bahasa Risdiana et al., 2022.

Dalam konteks pengembangan soal HOTS materi sel Volta, validasi dilakukan oleh 6 orang ahli dengan menilai dalam segi aspek konstruk soal, materi pada soal, dan bahasa yang digunakan, dengan nilai rata-rata validitas sebesar 0,727 sehingga termasuk dalam kategori tinggi Ayubi et al., 2023). Hal ini menunjukkan bahwa validasi oleh ahli merupakan langkah penting dalam memastikan kualitas soal objektif sebelum digunakan dalam penilaian yang sesungguhnya.

Dalam pengembangan tes membaca bahasa Indonesia berbasis web, karakteristik tes pilihan ganda, tes benar-salah, dan tes menjodohkan memiliki validitas isi yang baik dan koefisien reliabilitas tes masing-masing kategori tinggi, dengan nilai Alpha masing-masing 0,748, 0,762, dan 0,772 (Masae, 2019). Temuan ini menunjukkan bahwa ketiga bentuk soal objektif dapat memiliki validitas dan reliabilitas yang tinggi apabila dikembangkan dengan prosedur yang tepat.

2.2 Reliabilitas

Reliabilitas merupakan dimensi kedua yang penting dalam analisis kualitas soal objektif. Reliabilitas merujuk pada konsistensi hasil pengukuran, yaitu sejauh mana soal menghasilkan hasil yang sama apabila digunakan pada kondisi yang berbeda (Mutakin, 2023; , Azzahroh et al., 2022). Dalam analisis butir soal ujian akhir semester mata kuliah psikologi belajar, soal benar-salah memperoleh hasil reliabilitas tes sebesar 0,41 dan soal pilihan ganda memperoleh angka 0,46, yang menunjukkan bahwa kedua jenis soal memiliki reliabilitas yang sedang Azzahroh et al., 2022).

Dalam pengembangan soal HOTS materi sel Volta, rata-rata reliabilitas soal sebesar 0,720 termasuk dalam kategori tinggi Ayubi et al., 2023). Dalam penelitian aplikasi model Rasch pada instrumen tes kemampuan pemecahan masalah, nilai Cronbach's alpha sebesar 0,82 dengan kriteria bagus sekali, sementara nilai person reliability sebesar 0,78 (cukup) dan nilai item reliability sebesar 0,85 (bagus) (Aprilia et al., 2021). Perbedaan nilai reliabilitas ini menunjukkan bahwa kualitas soal objektif sangat bervariasi tergantung pada proses pengembangannya.

Dalam pengembangan soal HOTS pada materi asam-basa, reliabilitas per butir soal sangat tinggi dan soal dapat diterima Risdiana et al., 2022; . Hal ini menunjukkan bahwa soal HOTS yang dikembangkan dengan prosedur yang tepat dapat memiliki reliabilitas yang tinggi, meskipun soal tersebut mengukur kemampuan berpikir tingkat tinggi yang lebih kompleks.

2.3 Tingkat Kesukaran

Tingkat kesukaran (difficulty index) merupakan parameter yang menunjukkan seberapa mudah atau sulit suatu soal bagi peserta didik. Dalam analisis kualitas instrumen tes menggunakan software SPSS, tingkat kesukaran instrumen tes subtema 1 terdapat 4 soal kategori sedang dan 16 soal kategori mudah, sementara instrumen tes subtema 2 terdapat 10 soal kategori sedang dan 10 soal kategori mudah (Mutakin, 2023; . Distribusi tingkat kesukaran ini menunjukkan bahwa soal yang dianalisis cenderung mudah dan belum memiliki distribusi tingkat kesukaran yang ideal.

Dalam analisis butir soal ujian akhir semester, tingkat kesukaran soal benar-salah memperoleh persentase 51,67% sampai 95%, soal pilihan ganda 33% sampai 81%, dan soal esai 33% sampai 55%, yang menunjukkan tidak ada soal yang sukar Azzahroh et al., 2022). Temuan ini sejalan dengan penelitian tentang kualitas instrumen penilaian sumatif seni rupa di SMP Kabupaten Sleman, yang menemukan bahwa instrumen penilaian masih didominasi soal dengan tingkat kesukaran mudah dan sedang dan belum mencakup soal untuk kategori high order thinking skill (Prihadi et al., 2021; .

Dalam pengembangan soal HOTS materi sel Volta, rata-rata tingkat kesukaran butir soal sebesar 0,466 termasuk dalam kategori sedang Ayubi et al., 2023). Dalam penelitian aplikasi model Rasch, tingkat kesulitan butir soal dikategorikan berdasarkan nilai rata-rata logit dan nilai standar deviasi pada item measure (Aprilia et al., 2021). Distribusi tingkat kesukaran yang ideal adalah sekitar 25% soal mudah, 50% soal sedang, dan 25% soal sukar, meskipun distribusi ini dapat disesuaikan dengan tujuan penilaian.

2.4 Daya Pembeda

Daya pembeda (discriminating power) merupakan parameter yang menunjukkan kemampuan soal untuk membedakan antara peserta didik yang memiliki kemampuan tinggi dan rendah. Dalam analisis kualitas instrumen tes menggunakan software SPSS, uji daya pembeda instrumen tes subtema 1 kesemuanya dalam kategori baik, sementara instrumen tes subtema 2 terdapat 19 soal dengan kategori baik dan 1 soal dengan kategori tidak baik (Mutakin, 2023; Hal ini menunjukkan bahwa sebagian besar soal yang dianalisis memiliki daya pembeda yang baik.

Dalam analisis butir soal ujian akhir semester, daya pembeda soal benar-salah memiliki persentase 12,50% sampai 68,75%, soal pilihan ganda 18,75% sampai 62,50%, dan soal esai 15,63% sampai 29,63%, yang berarti soal memiliki daya beda yang beragam mulai dari jelek hingga baik sekali Azzahroh et al., 2022). Dalam pengembangan soal HOTS materi sel Volta, rata-rata daya pembeda sebesar 0,492 termasuk dalam kategori baik Ayubi et al., 2023). Menurut Arikunto (2007) sebagaimana dikutip dalam penelitian tersebut, daya pembeda butir soal untuk membuktikan perbedaan antara peserta didik dengan kemampuan tinggi dan rendah dapat diambil sebesar 50% dengan kemampuan tinggi dan 50% dengan kemampuan rendah Ayubi et al., 2023).

2.5 Efektivitas Pengecoh

Efektivitas pengecoh (distractor effectiveness) merupakan parameter khusus untuk soal pilihan ganda yang menunjukkan seberapa efektif pilihan jawaban yang salah dalam menarik peserta didik yang tidak memahami materi. Dalam analisis butir soal ujian akhir semester, efektivitas pengecoh pada soal pilihan ganda menunjukkan bahwa 30% soal memiliki efektivitas pengecoh yang kurang baik, 50% memiliki efektivitas pengecoh yang baik, dan 10% memiliki efektivitas pengecoh yang sangat baik Azzahroh et al., 2022). Temuan ini menunjukkan bahwa penulisan pengecoh yang efektif merupakan salah satu aspek yang paling sulit dalam pengembangan soal pilihan ganda.

Dalam pengembangan tes membaca bahasa Indonesia berbasis web, efektivitas pengecoh butir tes menunjukkan hasil yang baik karena pengecoh bekerja dengan baik (Masae, 2019). Hal ini menunjukkan bahwa dengan proses pengembangan yang tepat, efektivitas pengecoh soal pilihan ganda dapat ditingkatkan secara signifikan.

 

3. Analisis Kualitas Soal Objektif dari Aspek Materi, Konstruksi, dan Bahasa

3.1 Aspek Materi

Analisis kualitas soal objektif dari aspek materi mencakup penilaian terhadap kesesuaian soal dengan kompetensi dasar dan indikator pembelajaran, keakuratan materi yang diujikan, serta kesesuaian tingkat kognitif soal dengan tujuan pembelajaran. Dalam penelitian kualitas instrumen penilaian sumatif seni rupa di SMP Kabupaten Sleman, ditemukan bahwa secara umum kualitas soal pilihan ganda sangat baik dari segi materi, konstruksi, dan bahasa, namun dari segi tingkat pengetahuan masih didominasi soal dalam kategori tingkat ingatan dan pemahaman dan belum mencakup soal untuk kategori HOTS (Prihadi et al., 2021; .

Dalam pengembangan soal HOTS pada materi asam-basa, analisis instrumen tes menunjukkan bahwa soal ulangan asam-basa masih pada level kognitif C1-C3, yang berarti soal belum mengukur kemampuan berpikir tingkat tinggi Risdiana et al., 2022; . Hal ini menunjukkan bahwa analisis kualitas soal dari aspek materi harus mencakup penilaian terhadap tingkat kognitif soal berdasarkan taksonomi Bloom, tidak hanya keakuratan materi yang diujikan.

Kaidah penulisan butir soal HOTS agak berbeda dengan kaidah penulisan butir soal pada umumnya, di mana perbedaannya terletak pada aspek materi, sedangkan pada aspek konstruksi dan bahasa relatif sama (Andrijati et al., 2022; . Hal ini menunjukkan bahwa analisis kualitas soal dari aspek materi untuk soal HOTS memerlukan perhatian khusus terhadap tingkat kognitif soal dan penggunaan stimulus yang tepat.

Dalam analisis keterampilan berpikir tingkat tinggi pada soal Ujian Nasional Kimia, ditemukan bahwa penyebab jarang munculnya jenjang kognitif mengevaluasi (C5) dan mencipta (C6) pada soal ujian dipengaruhi oleh bentuk instrumen yang digunakan, yaitu soal pilihan ganda Syahida & Irwandi, 2015). Temuan ini menunjukkan bahwa analisis kualitas soal dari aspek materi harus mempertimbangkan keterbatasan bentuk soal dalam mengukur tingkat kognitif tertentu.

3.2 Aspek Konstruksi

Analisis kualitas soal objektif dari aspek konstruksi mencakup penilaian terhadap struktur soal, kejelasan rumusan pokok soal (stem), homogenitas pilihan jawaban, dan efektivitas pengecoh. Dalam pengembangan soal HOTS materi sel Volta, validasi dilakukan dengan menilai dalam segi aspek konstruk soal, materi pada soal, dan bahasa yang digunakan Ayubi et al., 2023). Dalam pengembangan asesmen HOTS berbasis CBT, rata-rata validasi konstruksi pada tipe soal multiple choice mencapai 77%, tipe soal true or false mencapai 77%, dan tipe soal matching mencapai 76%, yang artinya semua tipe soal memiliki validasi konstruksi yang valid (Pranata et al., 2020).

Dalam konteks analisis kualitas soal pilihan ganda, soal pilihan ganda memiliki anatomi soal yang terdiri atas stimulus, kalimat soal, dan pilihan jawaban (ada pengecoh dan kunci), dan terdapat kaidah-kaidah dalam penulisan soal pilihan ganda yang juga bisa menentukan kualitas soal serta level berpikirnya (Purwasih, 2020). Hal ini menunjukkan bahwa analisis kualitas soal dari aspek konstruksi harus mencakup penilaian terhadap semua komponen soal, termasuk stimulus, kalimat soal, dan pilihan jawaban.

Dalam penelitian tentang kendala calon pendidik dalam membuat soal pilihan ganda HOT, ditemukan bahwa mahasiswa ternyata sulit membuat stimulus soal, yang merupakan salah satu komponen konstruksi soal yang paling penting (Purwasih, 2020). Hal ini menunjukkan bahwa analisis kualitas soal dari aspek konstruksi harus memberikan perhatian khusus terhadap kualitas stimulus soal, terutama untuk soal yang dirancang untuk mengukur HOTS.

3.3 Aspek Bahasa

Analisis kualitas soal objektif dari aspek bahasa mencakup penilaian terhadap kejelasan bahasa yang digunakan, kesesuaian dengan kaidah bahasa Indonesia yang baik dan benar, serta keterbacaan soal bagi peserta didik. Dalam pengembangan soal HOTS materi sel Volta, aspek bahasa merupakan salah satu aspek yang dinilai dalam proses validasi oleh ahli Ayubi et al., 2023). Dalam pengembangan asesmen HOTS berbasis CBT, rata-rata validasi bahasa pada tipe soal true or false mencapai 84% dan tipe soal matching mencapai 83%, yang artinya soal memiliki validasi bahasa yang valid (Pranata et al., 2020).

Dalam analisis penggunaan bahasa dalam soal cerita matematika, ditemukan bahwa terdapat ketidaktepatan dalam penggunaan bahasa soal dengan persentase yang variatif: ketidakgramatikalan 31%, ketidaktepatan diksi 25%, ketidakhematan 15%, ketidakparalelan 6%, dan ketidaklogisan 22% (Nurwahidah, 2023). Temuan ini menunjukkan bahwa analisis kualitas soal dari aspek bahasa merupakan aspek yang sering diabaikan namun sangat penting untuk memastikan soal dapat dipahami dengan benar oleh peserta didik.

 

4. Metode dan Alat Analisis Kualitas Soal Objektif

4.1 Analisis Klasik (Classical Test Theory)

Analisis kualitas soal objektif secara tradisional dilakukan menggunakan pendekatan Classical Test Theory (CTT), yang mencakup analisis validitas, reliabilitas, tingkat kesukaran, daya pembeda, dan efektivitas pengecoh. Dalam penelitian analisis kualitas instrumen tes menggunakan software SPSS, analisis dilakukan berdasarkan unsur validitas, reliabilitas, indeks kesukaran, dan daya pembeda soal yang diolah dengan bantuan software SPSS versi 16.0 (Mutakin, 2023; . Penggunaan software analisis memungkinkan pendidik untuk melakukan analisis butir soal secara lebih cepat, akurat, dan komprehensif.

Dalam analisis butir soal ujian akhir semester, data dianalisis menggunakan software Anates ver.4 dan Microsoft Excel Azzahroh et al., 2022). Software Anates merupakan salah satu software analisis butir soal yang paling banyak digunakan di Indonesia, karena kemudahan penggunaannya dan kemampuannya untuk menganalisis berbagai parameter kualitas soal secara sekaligus.

4.2 Analisis Model Rasch (Item Response Theory)

Selain pendekatan CTT, analisis kualitas soal objektif juga dapat dilakukan menggunakan pendekatan Item Response Theory (IRT), khususnya model Rasch. Dalam penelitian aplikasi model Rasch pada instrumen tes kemampuan pemecahan masalah, analisis model Rasch dilakukan untuk summary statistics, item-fit, wright-map, item-measure, person-measure, person-fit, dan item-DIF (Aprilia et al., 2021). Nilai person reliability sebesar 0,78 (cukup) dan nilai item reliability sebesar 0,85 (bagus), sementara nilai Cronbach's alpha sebesar 0,82 (bagus sekali) (Aprilia et al., 2021).

Analisis model Rasch memberikan informasi yang lebih rinci tentang kualitas soal dibandingkan dengan pendekatan CTT, karena model Rasch mempertimbangkan kemampuan masing-masing responden yang menjawab tes dan kesulitan setiap butir item tes secara bersamaan (Aprilia et al., 2021). Wright Map yang dihasilkan dari analisis model Rasch menggambarkan sebaran kemampuan siswa dan tingkat kesulitan soal dengan skala yang sama, sehingga memberikan informasi yang sangat berharga bagi guru dalam mengidentifikasi kemampuan siswa dan menganalisis kualitas butir soal yang diuji (Aprilia et al., 2021).

Dalam tinjauan literatur pengembangan instrumen penilaian HOTS fisika di SMA, disebutkan bahwa instrumen HOTS perlu melalui proses uji dan analisis kelayakan, di antaranya yaitu uji kevalidan dari validator, uji validitas, uji reliabilitas, uji tingkat kesukaran, uji daya beda, analisis model Rasch, analisis dengan formula Alpha Cronbach, dan uji pengecoh soal Desiriah & Setyarsih, 2021). Hal ini menunjukkan bahwa analisis kualitas soal HOTS memerlukan pendekatan yang lebih komprehensif dibandingkan dengan soal biasa.

4.3 Analisis Kualitas Soal HOTS

Analisis kualitas soal objektif yang dirancang untuk mengukur HOTS memerlukan perhatian khusus terhadap beberapa aspek tambahan. Soal-soal HOTS pada konteks asesmen mengukur kemampuan: (1) transfer satu konsep ke konsep lainnya, (2) memproses dan menerapkan informasi, (3) mencari kaitan dari berbagai informasi yang berbeda-beda, (4) menggunakan informasi untuk menyelesaikan masalah, dan (5) menelaah ide dan informasi secara kritis Suhardiyanto & Tijan, 2019). Analisis kualitas soal HOTS harus memastikan bahwa soal yang dikembangkan benar-benar mengukur kemampuan-kemampuan tersebut.

Dalam pelatihan penyusunan soal HOTS bagi guru SD, evaluasi hasil pelatihan meliputi aspek pengetahuan dan keterampilan, di mana pada aspek keterampilan, peserta diminta menyusun soal HOTS berdasarkan langkah-langkah yang telah dijelaskan (Andrijati et al., 2022; . Rerata skor produk penyusunan soal HOTS peserta pelatihan sebesar 85 dengan kategori baik (B), yang menunjukkan bahwa guru dapat mengembangkan soal HOTS yang berkualitas dengan pelatihan yang tepat (Andrijati et al., 2022; .

Dalam pelatihan penyusunan soal HOTS bidang matematika di SMP Barunawati Surabaya, dari tugas yang diberikan untuk menyusun soal-soal HOTS, setelah dievaluasi hasilnya sudah baik dan memenuhi kaidah tipe soal-soal HOTS Hanafi et al., 2024; . Hal ini menunjukkan bahwa pelatihan yang tepat dapat meningkatkan kemampuan guru dalam mengembangkan soal HOTS yang berkualitas.

 

5. Tantangan dalam Analisis Kualitas Soal Objektif

5.1 Keterbatasan Soal Pilihan Ganda dalam Mengukur HOTS

Salah satu tantangan utama dalam analisis kualitas soal objektif adalah keterbatasan soal pilihan ganda dalam mengukur HOTS. Penggunaan tes jenis pilihan ganda tidak terlepas dari kelebihan-kelebihan yang dimilikinya sebagai instrumen penilaian, antara lain memuat banyak materi, mengukur berbagai tingkatan kognitif, memiliki keandalan yang cenderung lebih tinggi dari pada soal uraian, dapat digunakan pada ujian dengan jumlah peserta yang sangat banyak dan menghendaki hasil yang cepat, serta memiliki sistem penskoran yang mudah, cepat, dan objektif Syahida & Irwandi, 2015). Namun demikian, penyebab jarang munculnya jenjang kognitif mengevaluasi (C5) dan mencipta (C6) pada soal ujian dipengaruhi oleh bentuk instrumen yang digunakan, yaitu soal pilihan ganda Syahida & Irwandi, 2015).

Dalam konteks analisis kualitas soal, hal ini menunjukkan bahwa soal pilihan ganda yang hanya mengukur tingkat kognitif rendah (C1-C3) memiliki kualitas yang kurang baik dari segi materi, meskipun mungkin memiliki validitas dan reliabilitas yang tinggi. Oleh karena itu, analisis kualitas soal objektif harus mencakup penilaian terhadap tingkat kognitif soal, tidak hanya parameter psikometrik seperti validitas dan reliabilitas.

5.2 Kesulitan dalam Membuat Stimulus Soal

Tantangan lain dalam pengembangan dan analisis kualitas soal objektif adalah kesulitan dalam membuat stimulus soal yang tepat. Dalam penelitian tentang kendala calon pendidik dalam membuat soal pilihan ganda HOT, ditemukan bahwa mahasiswa sulit membuat stimulus soal, kurang memahami materi sosiologi, kurang menguasai aplikasi taksonomi Bloom, waktu belajar yang tidak mencukupi, dan penjelasan dosen yang kurang baik (Purwasih, 2020). Kesulitan dalam membuat stimulus soal merupakan hambatan utama dalam pengembangan soal pilihan ganda yang berkualitas tinggi.

Dalam penelitian tentang kendala guru dalam menyusun soal HOTS, ditemukan bahwa masih banyak guru yang masih kesulitan dalam menyusun soal berbasis HOTS, terutama pada bagaimana mendesain penilaian pengetahuan berbasis HOTS, menentukan soal yang HOTS level 1 (pemahaman), level 2 (penerapan), dan level 3 (penalaran), serta penyusunan pedoman penskoran Suhardiyanto & Tijan, 2019). Hal ini menunjukkan bahwa analisis kualitas soal HOTS harus mempertimbangkan kemampuan guru dalam mengembangkan soal HOTS yang berkualitas.

5.3 Keterbatasan Kemampuan Guru dalam Menganalisis Kualitas Soal

Tantangan lain dalam analisis kualitas soal objektif adalah keterbatasan kemampuan guru dalam melakukan analisis butir soal secara sistematis. Dalam penelitian tentang aplikasi model Rasch pada instrumen tes, disebutkan bahwa guru mengalami kesulitan menyusun instrumen yang baik sesuai dengan kaidah penyusunan instrumen penilaian yang baik (Aprilia et al., 2021). Hal ini menunjukkan bahwa pelatihan dan pendampingan bagi guru dalam mengembangkan dan menganalisis kualitas soal objektif merupakan kebutuhan yang mendesak.

Dalam pelatihan penyusunan soal HOTS bagi guru SD, hasil pretes dan postes mengindikasikan bahwa terdapat peningkatan yang signifikan skor peserta sebelum dan setelah pelatihan sebesar 24,8 atau 47,55% (Andrijati et al., 2022; . Hal ini menunjukkan bahwa pelatihan yang tepat dapat meningkatkan kemampuan guru dalam mengembangkan soal HOTS yang berkualitas secara signifikan.

 

6. Prosedur Analisis Kualitas Soal Objektif yang Komprehensif

6.1 Tahap Perencanaan

Analisis kualitas soal objektif yang komprehensif dimulai dari tahap perencanaan, yang mencakup penentuan tujuan penilaian, penyusunan kisi-kisi soal, dan pemilihan bentuk soal yang tepat. Dalam pengembangan soal HOTS pada materi asam-basa, langkah-langkah dalam menyusun soal HOTS menurut Kemendikbud (2019) yaitu menganalisis KD, memilih stimulus, menyusun kisi-kisi soal, menyusun soal, dan menyusun kunci jawaban dan pedoman penskoran Risdiana et al., 2022; . Tahap perencanaan yang baik merupakan fondasi bagi pengembangan soal objektif yang berkualitas tinggi.

Dalam perencanaan penilaian di SMA Negeri 1 Bumiayu, perencanaan penilaian dilakukan melalui beberapa tahap yaitu: penentuan tujuan penilaian hasil belajar, penentuan instrumen penilaian, penentuan bentuk penilaian, penentuan teknik penilaian, pembuatan kisi-kisi dan butir soal, dan penyusunan pedoman penskoran (Rizqiani & Wijayanti, 2022). Tahapan perencanaan yang sistematis ini merupakan prasyarat bagi pengembangan soal objektif yang berkualitas.

6.2 Tahap Pengembangan dan Validasi

Setelah tahap perencanaan, soal objektif harus dikembangkan dan divalidasi oleh ahli sebelum digunakan dalam penilaian yang sesungguhnya. Dalam pengembangan soal HOTS materi sel Volta, model pengembangan yang digunakan terdiri dari 10 tahapan yang meliputi penentuan subjek penelitian dan tujuan tes, pengembangan tes, penulisan dan validasi butir soal oleh ahli, penyusunan kembali hasil revisi, pelaksanaan tes, analisis hasil tes, revisi tes, tes akhir dan validasi, pengembangan norma-norma, serta penyusunan buku tes Ayubi et al., 2023). Proses pengembangan yang sistematis ini memastikan bahwa soal yang dihasilkan memiliki kualitas yang tinggi.

Dalam pengembangan soal HOTS pada materi asam-basa, penilaian uji coba kepada pengguna terdiri dari 3 orang guru kimia, 3 orang mahasiswa baru pendidikan kimia, dan 30 siswa kelas XII, dengan respons guru yang sangat setuju dan uji satu-satu yang sangat baik Risdiana et al., 2022; . Hal ini menunjukkan bahwa validasi oleh berbagai pihak, termasuk guru, mahasiswa, dan siswa, merupakan bagian penting dari proses pengembangan soal objektif yang berkualitas.

6.3 Tahap Analisis Butir Soal

Setelah soal diuji cobakan, analisis butir soal harus dilakukan untuk mengevaluasi kualitas setiap butir soal secara individual. Dalam penelitian analisis kualitas instrumen tes menggunakan software SPSS, analisis dilakukan berdasarkan unsur validitas, reliabilitas, indeks kesukaran, dan daya pembeda soal (Mutakin, 2023; . Dalam penelitian aplikasi model Rasch, analisis dilakukan untuk summary statistics, item-fit, wright-map, item-measure, person-measure, person-fit, dan item-DIF (Aprilia et al., 2021).

Dalam tinjauan literatur pengembangan instrumen penilaian HOTS fisika di SMA, disebutkan bahwa instrumen HOTS perlu melalui proses uji dan analisis kelayakan, di antaranya yaitu uji kevalidan dari validator, uji validitas, uji reliabilitas, uji tingkat kesukaran, uji daya beda, analisis model Rasch, analisis dengan formula Alpha Cronbach, dan uji pengecoh soal Desiriah & Setyarsih, 2021). Proses analisis yang komprehensif ini memastikan bahwa soal yang digunakan dalam penilaian benar-benar berkualitas tinggi.

6.4 Tahap Revisi dan Penyempurnaan

Berdasarkan hasil analisis butir soal, soal yang tidak memenuhi standar kualitas harus direvisi atau diganti. Dalam penelitian analisis kualitas instrumen tes menggunakan software SPSS, disebutkan bahwa manfaat analisis instrumen soal adalah dapat membantu dalam evaluasi atas tes yang digunakan, mendukung penulisan butir soal yang efektif, menentukan apakah suatu fungsi butir soal sesuai dengan yang diharapkan, dan merevisi materi yang dinilai atau diukur (Mutakin, 2023; . Proses revisi yang sistematis merupakan bagian penting dari siklus pengembangan soal objektif yang berkualitas.

 

7. Implikasi Analisis Kualitas Soal Objektif bagi Praktik Pendidikan

7.1 Peningkatan Kompetensi Guru

Analisis kualitas soal objektif memiliki implikasi penting bagi peningkatan kompetensi guru dalam mengembangkan instrumen penilaian. Dalam pelatihan penyusunan soal HOTS bagi guru SD, kegiatan pelatihan bertujuan untuk meningkatkan standar kompetensi profesi guru sekolah dasar yang difokuskan pada kemampuan menilai guru SD, khususnya dalam menyusun soal HOTS (Andrijati et al., 2022; . Hasil pelatihan menunjukkan bahwa terdapat peningkatan yang signifikan skor peserta sebelum dan setelah pelatihan sebesar 24,8 atau 47,55% (Andrijati et al., 2022; .

Dalam pelatihan penyusunan soal HOTS bidang matematika di SMP Barunawati Surabaya, dengan bertambahnya kompetensi dan kemampuan guru-guru dalam mengembangkan materi matematika dan penerapannya dapat memberikan perubahan tentang persepsi siswa terhadap mata pelajaran matematika yang berujung pada peningkatan nilai ujian bidang matematika Hanafi et al., 2024; . Hal ini menunjukkan bahwa peningkatan kompetensi guru dalam mengembangkan soal objektif yang berkualitas memiliki dampak positif yang signifikan terhadap hasil belajar peserta didik.

7.2 Pengembangan Sistem Penilaian yang Lebih Baik

Analisis kualitas soal objektif juga memiliki implikasi penting bagi pengembangan sistem penilaian yang lebih baik di sekolah. Dalam pendampingan pengembangan penilaian pengetahuan berbasis HOTS bagi MGMP PPKn SMP di Kota Semarang, kegiatan pendampingan bertujuan untuk meningkatkan pemahaman guru dalam penyusunan penilaian pengetahuan berbasis HOTS Suhardiyanto & Tijan, 2019). Dari segi penguasaan materi, terjadi peningkatan pemahaman terhadap penyusunan soal berbasis HOTS yaitu dari hasil tanya jawab yang dilakukan tim pengabdian pada awal kegiatan dan setelah dilaksanakannya kegiatan, sebagian besar peserta pengabdian menyatakan ada peningkatan pemahaman dalam penyusunan penilaian pengetahuan berbasis HOTS Suhardiyanto & Tijan, 2019).

Dalam konteks implementasi penilaian PPKn di SMA Negeri 1 Bumiayu, teknik penilaian kompetensi pengetahuan dilakukan dengan cara tes tertulis yaitu dengan ulangan harian, ulangan tengah semester, ulangan akhir tahun, ulangan akhir semester, dan ujian sekolah, dengan bentuk soal ulangan menggunakan pilihan ganda dan esai (Rizqiani & Wijayanti, 2022). Hal ini menunjukkan bahwa soal objektif, khususnya soal pilihan ganda, masih menjadi instrumen penilaian yang dominan di sekolah, sehingga analisis kualitas soal objektif menjadi sangat penting.

 

8. Kesimpulan

Analisis kualitas soal objektif merupakan proses yang komprehensif dan sistematis yang mencakup berbagai dimensi, mulai dari validitas, reliabilitas, tingkat kesukaran, daya pembeda, hingga efektivitas pengecoh (Mutakin, 2023; , Azzahroh et al., 2022), Ayubi et al., 2023). Analisis kualitas soal objektif juga harus mencakup penilaian terhadap aspek materi, konstruksi, dan bahasa soal, yang ketiganya harus dipenuhi secara bersamaan untuk menghasilkan instrumen penilaian yang berkualitas tinggi (Prihadi et al., 2021; , Risdiana et al., 2022; , Ayubi et al., 2023).

Berbagai metode analisis kualitas soal objektif telah dikembangkan, mulai dari pendekatan Classical Test Theory (CTT) yang menggunakan software seperti SPSS dan Anates (Mutakin, 2023; , Azzahroh et al., 2022), hingga pendekatan Item Response Theory (IRT) yang menggunakan model Rasch (Aprilia et al., 2021), Desiriah & Setyarsih, 2021). Setiap pendekatan memiliki kelebihan dan keterbatasan tersendiri, sehingga penggunaan kombinasi berbagai pendekatan analisis dapat menghasilkan informasi yang lebih komprehensif tentang kualitas soal objektif.

Tantangan utama dalam analisis kualitas soal objektif meliputi keterbatasan soal pilihan ganda dalam mengukur HOTS Syahida & Irwandi, 2015), kesulitan dalam membuat stimulus soal yang tepat (Purwasih, 2020), dan keterbatasan kemampuan guru dalam melakukan analisis butir soal secara sistematis (Aprilia et al., 2021). Untuk mengatasi tantangan-tantangan ini, diperlukan pelatihan dan pendampingan bagi guru dalam mengembangkan dan menganalisis kualitas soal objektif (Andrijati et al., 2022; , Hanafi et al., 2024; , Suhardiyanto & Tijan, 2019), serta pengembangan sistem penilaian yang lebih komprehensif yang mengintegrasikan berbagai bentuk penilaian, termasuk soal objektif dan soal uraian (Umasih, 2012; , Syahida & Irwandi, 2015).

Minggu, 26 April 2026

Bentuk-Bentuk Tes Objektif



A.     Bentuk-Bentuk Tes Objektif (Pilihan Ganda, Benar-Salah, Menjodohkan)

1. Pendahuluan

Penulisan butir soal objektif yang berkualitas merupakan salah satu aspek paling krusial dalam pengembangan instrumen penilaian pendidikan. Kualitas butir soal secara langsung menentukan validitas dan reliabilitas hasil pengukuran yang diperoleh, sehingga berpengaruh pada ketepatan keputusan pedagogis yang diambil oleh pendidik (Mondolang et al., 2019; , Azzahroh et al., 2022; . Dalam konteks pendidikan Indonesia, kaidah penulisan butir soal objektif yang baik mencakup aspek materi, konstruksi, dan bahasa, yang ketiganya harus dipenuhi secara bersamaan agar instrumen penilaian dapat berfungsi secara optimal Prihadi et al., 2021).

Tes objektif, yang mencakup soal pilihan ganda (multiple choice), benar-salah (true-false), menjodohkan (matching), dan isian (completion), merupakan bentuk instrumen penilaian yang paling banyak digunakan di berbagai jenjang pendidikan (Mondolang et al., 2019; , (Pranata et al., 2020; . Namun demikian, penggunaan tes objektif yang tidak memperhatikan kaidah penulisan yang baik dapat menghasilkan instrumen yang tidak valid, tidak reliabel, dan tidak mampu mengukur kemampuan peserta didik secara akurat Azzahroh et al., 2022; , Masae, 2019; . Oleh karena itu, pemahaman mendalam tentang kaidah penulisan butir soal objektif yang baik menjadi kebutuhan mendasar bagi setiap pendidik dan pengembang instrumen penilaian.

2. Prinsip Umum Penulisan Butir Soal Objektif

2.1 Validitas dan Reliabilitas sebagai Landasan Utama

Setiap butir soal objektif yang baik harus memenuhi dua syarat utama, yaitu validitas dan reliabilitas. Validitas merujuk pada kemampuan soal untuk mengukur apa yang seharusnya diukur, sedangkan reliabilitas merujuk pada konsistensi hasil pengukuran Azzahroh et al., 2022; , Masae, 2019; . Dalam penelitian analisis butir soal ujian akhir semester mata kuliah psikologi belajar, ditemukan bahwa soal benar-salah memperoleh hasil reliabilitas tes sebesar 0,41 dan soal pilihan ganda memperoleh angka 0,46, yang menunjukkan bahwa kedua jenis soal memiliki reliabilitas yang sedang Azzahroh et al., 2022; . Sementara itu, dalam pengembangan tes membaca bahasa Indonesia berbasis web, karakteristik tes pilihan ganda, tes benar-salah, dan tes menjodohkan memiliki validitas isi yang baik dan koefisien reliabilitas tes masing-masing kategori tinggi, dengan nilai Alpha masing-masing 0,748, 0,762, dan 0,772 Masae, 2019; .

2.2 Kesesuaian dengan Tujuan Pembelajaran

Butir soal yang baik harus selaras dengan tujuan pembelajaran yang telah ditetapkan. Dalam pengembangan instrumen penilaian HOTS fisika di SMA, disebutkan bahwa soal tes yang dikembangkan harus memperhatikan ciri-ciri HOTS seperti indikator-indikator HOTS, KKO (Kata Kerja Operasional), permasalahan fisika dan stimulus, serta taksonomi Bloom Desiriah & Setyarsih, 2021). Hal ini menunjukkan bahwa kaidah penulisan soal tidak dapat dilepaskan dari kerangka tujuan pembelajaran yang ingin dicapai.

2.3 Aspek Materi, Konstruksi, dan Bahasa

Secara umum, kualitas butir soal objektif dinilai dari tiga aspek utama: materi, konstruksi, dan bahasa. Penelitian tentang kualitas instrumen penilaian sumatif seni rupa di SMP Kabupaten Sleman menunjukkan bahwa secara umum kualitas soal pilihan ganda yang digunakan sangat baik dari segi materi, konstruksi, dan bahasa Prihadi et al., 2021). Ketiga aspek ini menjadi standar baku dalam penilaian kualitas butir soal objektif di Indonesia dan harus dipenuhi secara bersamaan.

 

3. Kaidah Penulisan Soal Pilihan Ganda

3.1 Kaidah Aspek Materi

Dari segi materi, soal pilihan ganda yang baik harus memenuhi beberapa kaidah penting. Pertama, soal harus mengukur kompetensi yang sesuai dengan indikator pembelajaran yang telah ditetapkan. Dalam penelitian pengembangan soal HOTS pada materi asam-basa, hasil validasi menunjukkan bahwa soal yang dikembangkan sangat valid (90,7%) berdasarkan aspek materi, konstruksi, HOTS, dan bahasa (Risdiana et al., 2022; . Kedua, materi yang ditanyakan harus faktual, konseptual, prosedural, atau metakognitif sesuai dengan dimensi pengetahuan yang ingin diukur (Pranata et al., 2020; .

Ketiga, soal pilihan ganda harus mampu membedakan antara peserta didik yang memiliki kemampuan tinggi dan rendah. Dalam analisis butir soal, daya pembeda soal pilihan ganda memiliki persentase 18,75% sampai 62,50%, yang berarti soal memiliki daya beda yang beragam mulai dari jelek hingga baik sekali Azzahroh et al., 2022; . Soal dengan daya pembeda yang baik merupakan indikator bahwa soal tersebut telah memenuhi kaidah materi yang baik.

Keempat, tingkat kesukaran soal harus diperhatikan agar soal tidak terlalu mudah atau terlalu sulit. Dalam penelitian kualitas instrumen penilaian sumatif seni rupa, ditemukan bahwa instrumen penilaian masih didominasi soal dengan tingkat kesukaran mudah dan sedang dan belum mencakup soal untuk kategori high order thinking skill Prihadi et al., 2021). Hal ini menunjukkan pentingnya memperhatikan distribusi tingkat kesukaran soal dalam penulisan butir soal pilihan ganda.

3.2 Kaidah Aspek Konstruksi

Dari segi konstruksi, soal pilihan ganda yang baik harus memenuhi kaidah-kaidah teknis penulisan yang ketat. Pertama, pokok soal (stem) harus dirumuskan dengan jelas dan tidak menimbulkan penafsiran ganda. Soal pilihan ganda terdiri dari sebuah pernyataan atau pertanyaan (pokok soal/stem) yang diikuti oleh beberapa alternatif jawaban, di mana peserta didik diminta untuk memilih satu jawaban yang paling tepat (Rohmawati et al., 2021). Kejelasan rumusan stem merupakan syarat mutlak agar soal dapat mengukur kemampuan yang sebenarnya.

Kedua, pilihan jawaban (option) harus homogen dan logis. Dalam pengembangan asesmen HOTS berbasis CBT, rata-rata validasi konstruksi pada tipe soal multiple choice mencapai 77%, yang artinya soal memiliki validasi konstruksi yang valid Pranata et al., 2020). Ketiga, hanya ada satu jawaban yang benar atau paling benar di antara semua pilihan yang tersedia. Keempat, pengecoh (distractor) harus berfungsi dengan baik untuk menarik peserta didik yang tidak memahami materi.

Efektivitas pengecoh merupakan salah satu aspek konstruksi yang paling penting dalam soal pilihan ganda. Dalam analisis butir soal, ditemukan bahwa 30% soal pilihan ganda memiliki efektivitas pengecoh yang kurang baik, 10% yang termasuk dalam efektivitas pengecoh baik adalah 50%, sedangkan efektivitas pengecoh yang sangat baik hanya 10% Azzahroh et al., 2022; . Temuan ini menunjukkan bahwa penulisan pengecoh yang efektif merupakan tantangan tersendiri dalam pengembangan soal pilihan ganda.

Kelima, soal pilihan ganda yang baik harus dilengkapi dengan stimulus yang mampu menstimulus kemampuan berpikir peserta didik. Soal pilihan ganda dapat melatih kemampuan eksplorasi fenomena fisika peserta didik dengan bantuan ilustrasi soal yang mampu menstimulus kemampuan berpikir peserta didik (Pranata et al., 2020; . Penggunaan stimulus berupa wacana, gambar, grafik, video, animasi, dan simulasi interaktif dapat meningkatkan kualitas soal pilihan ganda secara signifikan (Pranata et al., 2020; .

3.3 Kaidah Aspek Bahasa

Dari segi bahasa, soal pilihan ganda yang baik harus menggunakan bahasa yang baku, jelas, dan mudah dipahami oleh peserta didik. Dalam analisis penggunaan bahasa dalam soal cerita matematika, ditemukan bahwa terdapat ketidaktepatan dalam penggunaan bahasa soal dengan persentase yang variatif: ketidakgramatikalan 31%, ketidaktepatan diksi 25%, ketidakhematan 15%, ketidakparalelan 6%, dan ketidaklogisan 22% (Nurwahidah, 2023). Temuan ini menunjukkan betapa pentingnya memperhatikan aspek bahasa dalam penulisan butir soal objektif.

Bahasa yang digunakan dalam soal harus komunikatif, sesuai dengan tingkat perkembangan peserta didik, dan tidak mengandung kata-kata yang dapat menimbulkan penafsiran ganda. Dalam pengembangan soal HOTS pada materi asam-basa, hasil validasi menunjukkan bahwa soal yang dikembangkan sangat valid berdasarkan aspek bahasa (Risdiana et al., 2022; , yang menunjukkan bahwa aspek bahasa merupakan komponen penting dalam penilaian kualitas soal.

 

4. Kaidah Penulisan Soal Benar-Salah

4.1 Kaidah Aspek Materi

Soal benar-salah yang baik harus mengandung pernyataan yang secara faktual benar atau salah secara mutlak, tanpa ambiguitas. Pernyataan yang digunakan harus didasarkan pada fakta, konsep, atau prinsip yang telah dipelajari oleh peserta didik. Dalam penelitian analisis kemampuan literasi sains siswa kelas X, data diperoleh berdasarkan hasil tes NOSLiT dalam bentuk pilihan ganda dan benar-salah, yang menunjukkan bahwa soal benar-salah dapat digunakan untuk mengukur berbagai aspek kemampuan kognitif peserta didik (Kamelia et al., 2022).

Soal benar-salah yang baik juga harus mampu mendeteksi miskonsepsi pada peserta didik. Tes diagnostik di awal pembelajaran menggunakan kuis trivia dengan bentuk soal benar-salah dengan alasan, yang terbukti efektif dalam mendeteksi miskonsepsi (Permana & Bakri, 2022). Oleh karena itu, penulisan soal benar-salah yang baik harus mempertimbangkan kemungkinan miskonsepsi yang umum terjadi pada peserta didik terkait materi yang diujikan.

4.2 Kaidah Aspek Konstruksi

Dari segi konstruksi, soal benar-salah yang baik harus memenuhi beberapa kaidah penting. Pertama, setiap pernyataan harus mengandung satu ide pokok yang jelas dan tidak mengandung dua pernyataan sekaligus. Kedua, pernyataan harus dirumuskan secara singkat, padat, dan jelas agar tidak menimbulkan kebingungan pada peserta didik.

Ketiga, untuk mengatasi kelemahan utama soal benar-salah berupa tingginya kemungkinan menebak (50%), soal benar-salah dapat dikembangkan dengan menambahkan pilihan "Yakin" atau "Tidak Yakin" (Y-TY). Penelitian yang dilakukan oleh Mondolang et al. menunjukkan bahwa penilaian kelas yang menggunakan bentuk soal tipe B-S yang dilengkapi dengan pilihan Y-TY dapat mengukur pemahaman siswa secara lebih objektif dibandingkan dengan bentuk soal B-S tanpa pilihan Y-TY (Mondolang et al., 2019; . Validasi instrumen pengembangan soal benar-salah yang dilengkapi pilihan Y-TY oleh pakar evaluasi dan pakar materi melalui instrumen angket diperoleh rerata persentase sebesar 92,5% dengan kategori valid (Mondolang et al., 2019; .

Keempat, soal benar-salah dapat dikembangkan menjadi soal benar-salah dengan alasan (true-false with reason) untuk meningkatkan kemampuannya dalam mengukur proses kognitif yang lebih tinggi. Tes diagnostik dalam bentuk formatif berupa tes pilihan ganda empat tingkat (four-tier multiple choice test) yang dikembangkan dari soal benar-salah terbukti efektif dalam menilai kesalahpahaman peserta didik (Permana & Bakri, 2022).

Kelima, dalam konteks pengembangan asesmen HOTS berbasis CBT, rata-rata validasi konstruksi pada tipe soal true or false mencapai 77%, yang artinya soal memiliki validasi konstruksi yang valid Pranata et al., 2020). Rata-rata validasi bahasa pada tipe soal true or false mencapai 84%, yang artinya soal memiliki validasi bahasa yang valid Pranata et al., 2020).

4.3 Kaidah Aspek Bahasa

Dari segi bahasa, soal benar-salah yang baik harus menggunakan pernyataan yang jelas, tidak ambigu, dan tidak mengandung kata-kata yang dapat mengarahkan peserta didik ke jawaban yang benar (clue words). Pernyataan yang mengandung kata-kata seperti "selalu", "tidak pernah", "semua", atau "tidak ada" cenderung mengarahkan peserta didik untuk menjawab "salah", sehingga harus dihindari dalam penulisan soal benar-salah yang baik.

 

5. Kaidah Penulisan Soal Menjodohkan

5.1 Kaidah Aspek Materi

Soal menjodohkan yang baik harus mengukur kemampuan peserta didik dalam mengenali hubungan antara konsep-konsep yang homogen. Dalam pengembangan tes membaca bahasa Indonesia berbasis web, soal menjodohkan digunakan bersama dengan soal pilihan ganda dan benar-salah, dengan hasil bahwa karakteristik tes menjodohkan memiliki validitas isi yang baik dan koefisien reliabilitas tes yang tinggi (Alpha = 0,772) Masae, 2019; . Hal ini menunjukkan bahwa soal menjodohkan yang dirancang dengan baik dapat menghasilkan instrumen yang valid dan reliabel.

Materi yang diujikan dalam soal menjodohkan harus homogen, artinya semua item dalam satu set soal menjodohkan harus berasal dari satu topik atau konsep yang sama. Pencampuran materi yang berbeda dalam satu set soal menjodohkan dapat membingungkan peserta didik dan mengurangi validitas soal.

5.2 Kaidah Aspek Konstruksi

Dari segi konstruksi, soal menjodohkan yang baik harus memenuhi beberapa kaidah penting. Pertama, jumlah item dalam kolom jawaban harus lebih banyak daripada jumlah item dalam kolom pertanyaan untuk mengurangi kemungkinan menebak. Kedua, semua item dalam satu set soal menjodohkan harus dapat dimuat dalam satu halaman agar peserta didik tidak perlu membolak-balik halaman saat menjawab.

Ketiga, petunjuk pengerjaan soal menjodohkan harus jelas dan mudah dipahami. Dalam pengembangan asesmen HOTS berbasis CBT, tipe soal matching mendapatkan persentase kelayakan tertinggi sebesar 93% (Pranata et al., 2020; , Pranata et al., 2020), yang menunjukkan bahwa soal menjodohkan yang dirancang dengan baik memiliki tingkat kelayakan yang sangat tinggi untuk digunakan dalam penilaian. Rata-rata validasi konstruksi pada tipe soal matching mencapai 76%, yang artinya soal memiliki validasi konstruksi yang valid Pranata et al., 2020).

Keempat, soal menjodohkan yang baik harus memiliki stimulus yang jelas dan tidak menimbulkan penafsiran ganda. Dalam konteks pengembangan asesmen HOTS berbasis CBT, soal menjodohkan dilengkapi dengan ilustrasi dalam bentuk wacana, gambar, grafik, video, animasi, dan simulasi interaktif untuk meningkatkan kemampuannya dalam menstimulus HOTS peserta didik (Pranata et al., 2020; .

5.3 Kaidah Aspek Bahasa

Dari segi bahasa, soal menjodohkan yang baik harus menggunakan bahasa yang konsisten antara kolom pertanyaan dan kolom jawaban. Petunjuk pengerjaan harus ditulis dengan jelas dan menggunakan bahasa yang mudah dipahami oleh peserta didik. Rata-rata validasi bahasa pada tipe soal matching mencapai 83%, yang artinya soal memiliki validasi bahasa yang valid Pranata et al., 2020).

 

6. Analisis Butir Soal sebagai Bagian dari Kaidah Penulisan

6.1 Pentingnya Analisis Butir Soal

Analisis butir soal merupakan bagian integral dari proses penulisan butir soal objektif yang baik. Dalam kegiatan PTK, instrumen tes (soal) yang digunakan sebagai alat ukur untuk mengukur keberhasilan suatu metode atau tindakan perlu diuji kualitasnya berdasarkan unsur validitas, reliabilitas, indeks kesukaran, dan daya pembeda soal Mutakin, 2023; . Analisis butir soal memungkinkan pendidik untuk mengidentifikasi soal-soal yang perlu diperbaiki atau diganti sebelum digunakan dalam penilaian yang sesungguhnya.

Manfaat setelah dilakukan analisis instrumen soal adalah dapat membantu dalam evaluasi atas tes yang digunakan, mendukung penulisan butir soal yang efektif, menentukan apakah suatu fungsi butir soal sesuai dengan yang diharapkan, dan merevisi materi yang dinilai atau diukur Mutakin, 2023; . Hal ini menunjukkan bahwa analisis butir soal bukan hanya merupakan kegiatan pasca-penulisan, tetapi juga merupakan bagian dari proses penulisan butir soal yang berkelanjutan.

6.2 Tingkat Kesukaran

Tingkat kesukaran (difficulty index) merupakan salah satu parameter penting dalam analisis butir soal. Dalam penelitian pengembangan tes membaca bahasa Indonesia berbasis web, analisis butir tes berdasarkan tingkat kesukaran butir tes menunjukkan hasil yang baik Masae, 2019; . Dalam penelitian pengembangan instrumen penilaian HOTS fisika, disebutkan bahwa instrumen HOTS perlu melalui proses uji tingkat kesukaran sebagai bagian dari analisis kelayakan instrumen Desiriah & Setyarsih, 2021).

Tingkat kesukaran soal pilihan ganda dalam analisis butir soal ujian akhir semester menunjukkan bahwa soal pilihan ganda memiliki tingkat kesukaran antara 33% sampai 81%, yang menunjukkan tidak ada soal yang sukar Azzahroh et al., 2022; . Distribusi tingkat kesukaran yang ideal adalah sekitar 25% soal mudah, 50% soal sedang, dan 25% soal sukar, meskipun distribusi ini dapat disesuaikan dengan tujuan penilaian.

6.3 Daya Pembeda

Daya pembeda (discriminating power) merupakan parameter yang menunjukkan kemampuan soal untuk membedakan antara peserta didik yang memiliki kemampuan tinggi dan rendah. Dalam analisis butir soal, daya pembeda soal benar-salah memiliki persentase 12,50% sampai 68,75%, soal pilihan ganda 18,75% sampai 62,50%, yang berarti soal memiliki daya beda yang beragam mulai dari jelek hingga baik sekali Azzahroh et al., 2022; .

Dalam penelitian pengembangan instrumen HOTS, disebutkan bahwa instrumen HOTS perlu melalui proses uji daya beda sebagai bagian dari analisis kelayakan instrumen Desiriah & Setyarsih, 2021). Soal dengan daya pembeda yang baik merupakan indikator bahwa soal tersebut telah memenuhi kaidah penulisan yang baik dan dapat digunakan secara efektif dalam penilaian.

6.4 Efektivitas Pengecoh

Efektivitas pengecoh (distractor effectiveness) merupakan parameter khusus untuk soal pilihan ganda yang menunjukkan seberapa efektif pilihan jawaban yang salah dalam menarik peserta didik yang tidak memahami materi. Dalam analisis butir soal, ditemukan bahwa 30% soal pilihan ganda memiliki efektivitas pengecoh yang kurang baik Azzahroh et al., 2022; . Hal ini menunjukkan bahwa penulisan pengecoh yang efektif merupakan salah satu aspek yang paling sulit dalam penulisan soal pilihan ganda.

Pengecoh yang baik harus tampak masuk akal bagi peserta didik yang tidak memahami materi, tetapi jelas salah bagi peserta didik yang memahami materi dengan baik. Dalam penelitian pengembangan tes membaca bahasa Indonesia berbasis web, efektivitas pengecoh butir tes menunjukkan hasil yang baik karena pengecoh bekerja dengan baik Masae, 2019

 

7. Penggunaan Teknologi dalam Penulisan dan Analisis Butir Soal

7.1 Pemanfaatan Software Analisis

Penggunaan teknologi dalam penulisan dan analisis butir soal objektif telah berkembang pesat. Dalam penelitian analisis butir soal ujian akhir semester, data dianalisis menggunakan software Anates ver.4 dan Microsoft Excel Azzahroh et al., 2022; . Dalam penelitian analisis instrumen penelitian dalam PTK, instrumen soal dianalisis menggunakan software SPSS versi 16.0 Mutakin, 2023; . Penggunaan software analisis memungkinkan pendidik untuk melakukan analisis butir soal secara lebih cepat, akurat, dan komprehensif.

7.2 Pengembangan Asesmen Berbasis Komputer

Pengembangan asesmen berbasis komputer (Computer Based Test/CBT) merupakan salah satu inovasi terkini dalam penulisan dan pelaksanaan tes objektif. Dalam penelitian pengembangan asesmen HOTS berbasis CBT, produk asesmen HOTS menggunakan CBT dengan empat tipe soal (benar-salah, pilihan ganda, isian, dan menjodohkan) terbukti valid dan praktis (Pranata et al., 2020; , Pranata et al., 2020). Pengembangan asesmen berbasis CBT memungkinkan penggunaan stimulus yang lebih beragam, seperti wacana, gambar, grafik, video, animasi, dan simulasi interaktif, yang dapat meningkatkan kualitas soal secara signifikan (Pranata et al., 2020; .

Dalam pengembangan tes membaca bahasa Indonesia berbasis web, proses pengembangan tes diawali dengan penyusunan kisi-kisi, menyusun butir-butir soal dan ditelaah butir tes oleh ahli serta merevisi, uji coba tes, dan analisis butir tes Masae, 2019; . Proses ini menunjukkan bahwa pengembangan tes berbasis teknologi tetap harus mengikuti kaidah penulisan butir soal yang baik.

 

8. Kaidah Penulisan Soal Objektif untuk Mengukur HOTS

8.1 Karakteristik Soal HOTS

Penulisan soal objektif untuk mengukur HOTS (Higher Order Thinking Skills) memerlukan perhatian khusus terhadap beberapa kaidah tambahan. Soal tes yang dikembangkan harus memperhatikan ciri-ciri HOTS seperti indikator-indikator HOTS, KKO, permasalahan fisika dan stimulus, serta taksonomi Bloom Desiriah & Setyarsih, 2021). Cara mengevaluasi HOTS peserta didik dapat ditempuh dengan cara memilih (multiple-choice, matching, rank-order items), menggeneralisasi (jawaban singkat, esai), dan memberi alasan (Risdiana et al., 2022;

8.2 Penggunaan Stimulus dalam Soal HOTS

Penggunaan stimulus yang tepat merupakan kaidah penting dalam penulisan soal objektif untuk mengukur HOTS. Soal pilihan ganda dapat melatih kemampuan eksplorasi fenomena fisika peserta didik dengan bantuan ilustrasi soal yang mampu menstimulus kemampuan berpikir peserta didik (Pranata et al., 2020; . Stimulus yang digunakan dapat berupa wacana, gambar, grafik, video, animasi, dan simulasi interaktif (Pranata et al., 2020; .

8.3 Validasi Soal HOTS

Soal objektif untuk mengukur HOTS harus melalui proses validasi yang ketat. Instrumen HOTS perlu melalui proses uji dan analisis kelayakan, di antaranya yaitu uji kevalidan dari validator, uji validitas, uji reliabilitas, uji tingkat kesukaran, uji daya beda, analisis model Rasch, analisis dengan formula Alpha Cronbach, dan uji pengecoh soal Desiriah & Setyarsih, 2021). Dalam penelitian pengembangan soal HOTS pada materi asam-basa, hasil validasi menunjukkan bahwa soal yang dikembangkan sangat valid (90,7%) berdasarkan aspek materi, konstruksi, HOTS, dan bahasa (Risdiana et al., 2022; .

9. Proses Pengembangan Butir Soal Objektif yang Baik

9.1 Tahapan Pengembangan

Pengembangan butir soal objektif yang baik harus mengikuti tahapan yang sistematis. Dalam pengembangan tes membaca bahasa Indonesia berbasis web, proses pengembangan tes diawali dengan penyusunan kisi-kisi, menyusun butir-butir soal dan ditelaah butir tes oleh ahli serta merevisi, uji coba tes, dan analisis butir tes Masae, 2019; . Tahapan ini mencerminkan proses pengembangan butir soal yang komprehensif dan sistematis.

Dalam penelitian pengembangan soal benar-salah dengan pilihan Y-TY, penelitian menggunakan model Research & Development (R&D) dari Sivasailam Thiagarajan, Dorothy S. Semmel, dan Melvyn I. Semmel yang terdiri dari 4 tahap utama yaitu define (pendefinisian), design (perancangan), develop (pengembangan), dan disseminate (penyebaran) (Mondolang et al., 2019; . Model pengembangan ini merupakan salah satu model yang paling banyak digunakan dalam pengembangan instrumen penilaian.

9.2 Validasi oleh Ahli

Validasi oleh ahli merupakan tahapan penting dalam pengembangan butir soal objektif yang baik. Dalam penelitian pengembangan soal benar-salah dengan pilihan Y-TY, validasi instrumen oleh pakar evaluasi dan pakar materi melalui instrumen angket diperoleh rerata persentase sebesar 92,5% dengan kategori valid (Mondolang et al., 2019; . Dalam penelitian pengembangan asesmen HOTS berbasis CBT, validitas logis yang diperoleh dari validasi ahli pada asesmen HOTS menggunakan CBT adalah 81% dengan kategori valid (Pranata et al., 2020; , Pranata et al., 2020).

9.3 Uji Coba dan Revisi

Setelah melalui proses validasi oleh ahli, butir soal objektif harus diuji cobakan kepada peserta didik sebelum digunakan dalam penilaian yang sesungguhnya. Dalam penelitian pengembangan soal benar-salah dengan pilihan Y-TY, dari hasil uji coba kepada 32 siswa, soal yang dikembangkan dapat meminimalisir spekulasi siswa dalam menjawab soal (Mondolang et al., 2019; . Dalam penelitian pengembangan tes membaca bahasa Indonesia berbasis web, uji coba tes dilakukan kepada 12 mahasiswa Thailand yang kuliah di Universitas Negeri Yogyakarta Masae, 2019.

 

10. Kesimpulan

Kaidah penulisan butir soal objektif yang baik mencakup aspek materi, konstruksi, dan bahasa yang harus dipenuhi secara bersamaan untuk menghasilkan instrumen penilaian yang valid, reliabel, dan mampu mengukur kemampuan peserta didik secara akurat Prihadi et al., 2021). Setiap bentuk soal objektif, baik pilihan ganda, benar-salah, maupun menjodohkan, memiliki kaidah penulisan yang spesifik yang harus diperhatikan oleh para pendidik dan pengembang instrumen penilaian (Mondolang et al., 2019; , (Pranata et al., 2020; , Masae, 2019; .

Analisis butir soal merupakan bagian integral dari proses penulisan butir soal objektif yang baik, mencakup analisis validitas, reliabilitas, tingkat kesukaran, daya pembeda, dan efektivitas pengecoh Azzahroh et al., 2022; , Desiriah & Setyarsih, 2021), Mutakin, 2023; . Penggunaan teknologi, baik dalam bentuk software analisis maupun pengembangan asesmen berbasis komputer, dapat meningkatkan kualitas dan efisiensi proses penulisan dan analisis butir soal objektif (Pranata et al., 2020; , Mutakin, 2023; , Pranata et al., 2020).

Penulisan soal objektif untuk mengukur HOTS memerlukan perhatian khusus terhadap penggunaan stimulus yang tepat, kesesuaian dengan indikator HOTS, dan proses validasi yang ketat (Risdiana et al., 2022; , Desiriah & Setyarsih, 2021). Dengan memperhatikan semua kaidah penulisan butir soal objektif yang baik, para pendidik dapat mengembangkan instrumen penilaian yang berkualitas tinggi dan mampu mengukur hasil belajar peserta didik secara komprehensif dan akurat (Mondolang et al., 2019; , Azzahroh et al., 2022; , Masae, 2019; , Prihadi et al., 2021).


 

Analisis Kualitas Soal Objektif

  1. Pendahuluan Analisis kualitas soal objektif merupakan proses sistematis untuk mengevaluasi sejauh mana instrumen penilaian yang dig...