Sabtu, 16 Mei 2026

Interpretasi Hasil Analisi Butir Soal

 


C. Interpretasi Hasil Analisis Butir Soal

C.1 Kriteria Interpretasi Tingkat Kesukaran

Interpretasi hasil analisis tingkat kesukaran soal harus dilakukan secara cermat dan komprehensif, dengan mempertimbangkan tujuan penilaian, karakteristik peserta didik, dan konteks pembelajaran. Berdasarkan nilai indeks tingkat kesukaran (P) yang diperoleh, soal dapat diinterpretasikan sebagai berikut:

Soal Mudah (P = 0,70 - 1,00): Soal yang termasuk dalam kategori mudah menunjukkan bahwa sebagian besar peserta didik mampu menjawab soal tersebut dengan benar. Soal yang terlalu mudah tidak mampu membedakan antara peserta didik yang memiliki kemampuan tinggi dan rendah, sehingga memiliki nilai diagnostik yang rendah (Febriyanty et al., 2021; , Ikhlas et al., 2023). Dalam konteks evaluasi PAI, soal yang terlalu mudah mungkin hanya mengukur pengetahuan faktual yang sederhana tentang ajaran Islam, tanpa mengukur pemahaman yang lebih mendalam atau kemampuan aplikasi nilai-nilai Islam dalam kehidupan nyata.

Soal Sedang (P = 0,30 - 0,70): Soal yang termasuk dalam kategori sedang merupakan soal yang paling ideal untuk digunakan dalam penilaian, karena dapat membedakan antara peserta didik yang memiliki kemampuan tinggi dan rendah secara efektif Fitriani et al., 2024), Ikhlas et al., 2023). Suatu soal yang mempunyai interpretasi tingkat kesukaran sedang maka dikatakan baik Fitriani et al., 2024). Dalam konteks evaluasi PAI, soal dengan tingkat kesukaran sedang dapat mengukur berbagai aspek kompetensi keagamaan peserta didik secara lebih komprehensif dan akurat.

Soal Sukar (P = 0,00 - 0,30): Soal yang termasuk dalam kategori sukar menunjukkan bahwa hanya sebagian kecil peserta didik yang mampu menjawab soal tersebut dengan benar. Soal yang terlalu sukar dapat menurunkan motivasi peserta didik dan tidak memberikan informasi yang berguna tentang kemampuan sebagian besar peserta didik Ikhlas et al., 2023), (Febriyanty et al., 2021; . Namun demikian, soal yang sukar dapat berguna dalam konteks penilaian selektif atau penilaian yang bertujuan untuk mengidentifikasi peserta didik yang memiliki kemampuan sangat tinggi.

Dalam analisis butir soal PTS mata pelajaran matematika, dari 40 butir soal yang dianalisis, ditemukan bahwa 11 atau 27,5% butir soal termasuk dalam kategori sukar, 17 atau 42,5% butir soal termasuk dalam kategori sedang, dan 11 atau 27,5% butir soal termasuk dalam kategori mudah (Dewi & Prabowo, 2022; . Distribusi tingkat kesukaran ini menunjukkan bahwa soal yang dianalisis memiliki distribusi yang cukup baik, meskipun masih didominasi oleh soal dengan tingkat kesukaran sedang.

Dalam analisis butir soal ujian akhir semester mata kuliah psikologi belajar, tingkat kesukaran soal benar-salah memperoleh persentase 51,67% sampai 95%, soal pilihan ganda 33% sampai 81%, dan soal esai 33% sampai 55%, yang menunjukkan tidak ada soal yang sukar (Azzahroh et al., 2022). Temuan ini menunjukkan bahwa soal yang dianalisis cenderung mudah dan belum memiliki distribusi tingkat kesukaran yang ideal, sehingga perlu dilakukan revisi untuk meningkatkan proporsi soal dengan tingkat kesukaran sedang dan sukar.

C.2 Kriteria Interpretasi Daya Beda

Interpretasi hasil analisis daya beda soal juga harus dilakukan secara cermat dan komprehensif. Pembagian daya pembeda berdasarkan kriteria baik atau buruknya daya beda suatu item adalah sebagai berikut:

Nilai D

Kategori

0,00 - 0,20

Jelek (Poor)

0,21 - 0,40

Cukup (Satisfactory)

0,41 - 0,70

Baik (Good)

0,71 - 1,00

Baik Sekali (Excellent)

Negatif

Sangat Jelek (harus dibuang)

(Febriyanty et al., 2021)

Soal dengan nilai D yang negatif menunjukkan bahwa soal tersebut berfungsi terbalik, di mana peserta didik berkemampuan rendah lebih banyak menjawab benar dibandingkan peserta didik berkemampuan tinggi. Soal dengan nilai D negatif harus segera direvisi atau diganti karena dapat menghasilkan data penilaian yang menyesatkan Ikhlas et al., 2023), (Febriyanty et al., 2021; .

Dalam analisis butir soal ujian akhir semester, daya pembeda soal benar-salah memiliki persentase 12,50% sampai 68,75%, soal pilihan ganda 18,75% sampai 62,50%, dan soal esai 15,63% sampai 29,63%, yang berarti soal memiliki daya beda yang beragam mulai dari jelek hingga baik sekali (Azzahroh et al., 2022). Dalam pengembangan soal HOTS materi sel Volta, rata-rata daya pembeda sebesar 0,492 termasuk dalam kategori baik (Ayubi et al., 2023; . Dalam pengembangan instrumen tes three-tier multiple choice berbantuan Google Form, persentase data daya pembeda dengan kategori baik lebih banyak yaitu 44,5% Fitriani et al., 2024).

Dalam analisis butir soal menggunakan software SPSS, uji daya pembeda instrumen tes subtema 1 kesemuanya dalam kategori baik, sementara instrumen tes subtema 2 terdapat 19 soal dengan kategori baik dan 1 soal dengan kategori tidak baik (Mutakin, 2023; . Temuan ini menunjukkan bahwa sebagian besar soal yang dianalisis memiliki daya beda yang baik, meskipun masih terdapat beberapa soal yang perlu direvisi untuk meningkatkan daya bedanya.

 

C.3 Hubungan antara Tingkat Kesukaran dan Daya Beda

Tingkat kesukaran dan daya beda soal memiliki hubungan yang erat dan saling mempengaruhi. Secara umum, soal dengan tingkat kesukaran sedang cenderung memiliki daya beda yang lebih baik dibandingkan soal yang terlalu mudah atau terlalu sukar. Soal yang terlalu mudah (P mendekati 1) atau terlalu sukar (P mendekati 0) cenderung memiliki daya beda yang rendah, karena tidak mampu membedakan antara peserta didik yang memiliki kemampuan tinggi dan rendah secara efektif Ikhlas et al., 2023), (Dewi & Prabowo, 2022; .

Dalam konteks analisis butir soal PTS mata pelajaran matematika, ditemukan bahwa soal dengan tingkat kesukaran sedang cenderung memiliki daya beda yang lebih baik dibandingkan soal dengan tingkat kesukaran mudah atau sukar (Dewi & Prabowo, 2022; . Hal ini menunjukkan bahwa dalam pengembangan instrumen evaluasi PAI, guru PAI harus berupaya untuk mengembangkan soal-soal dengan tingkat kesukaran sedang agar dapat menghasilkan instrumen yang memiliki daya beda yang baik.

Dalam konteks analisis kemampuan literasi dan numerasi menggunakan soal AKM, butir-butir soal level kognitif reasoning memiliki nilai logit item measure lebih tinggi dibandingkan butir-butir soal level kognitif knowing, yang menunjukkan bahwa soal-soal yang mengukur kemampuan berpikir tingkat tinggi cenderung lebih sukar dan memiliki daya beda yang berbeda dibandingkan soal-soal yang mengukur kemampuan berpikir tingkat rendah (Haryani et al., 2023). Temuan ini menunjukkan bahwa dalam pengembangan instrumen evaluasi PAI berbasis HOTS, guru PAI harus mempertimbangkan hubungan antara tingkat kognitif soal, tingkat kesukaran, dan daya beda soal secara terintegrasi.

 

C.4 Interpretasi Hasil Analisis Butir dalam Konteks PAI

Interpretasi hasil analisis butir soal dalam konteks PAI harus mempertimbangkan beberapa aspek khusus yang berkaitan dengan karakteristik PAI sebagai mata pelajaran yang mencakup dimensi kognitif, afektif, dan psikomotorik. Pertama, soal-soal PAI yang mengukur aspek kognitif (pengetahuan keagamaan) dapat dianalisis menggunakan formula tingkat kesukaran dan daya beda yang standar Ikhlas et al., 2023), (Febriyanty et al., 2021; . Kedua, soal-soal PAI yang mengukur aspek afektif (sikap religius) memerlukan pendekatan analisis yang berbeda, karena tidak ada jawaban yang secara objektif benar atau salah (Prihatin & Hamami, 2022; , Faizah & Purwanto, 2021).

Dalam konteks pengembangan instrumen evaluasi PAI berbasis HOTS, interpretasi hasil analisis butir soal harus mempertimbangkan tingkat kognitif soal berdasarkan taksonomi Bloom. Soal-soal yang mengukur kemampuan berpikir tingkat tinggi (menganalisis, mengevaluasi, dan mencipta) cenderung memiliki tingkat kesukaran yang lebih tinggi dan daya beda yang berbeda dibandingkan soal-soal yang mengukur kemampuan berpikir tingkat rendah (mengingat dan memahami) (Fitria & Baroroh, 2023; , (Basri et al., 2022). Oleh karena itu, interpretasi hasil analisis butir soal PAI berbasis HOTS harus mempertimbangkan konteks tingkat kognitif soal secara komprehensif.

Dalam konteks penerapan HOTS untuk memperkuat moderasi beragama peserta didik di Madrasah Aliyah, skor rata-rata keseluruhan untuk aspek relevansi aqidah dalam aktivitas kehidupan sehari-hari adalah 0,82, yang termasuk dalam kategori sangat tinggi (Basri et al., 2022). Temuan ini menunjukkan bahwa soal-soal PAI yang mengukur kemampuan peserta didik dalam mengaplikasikan nilai-nilai Islam dalam kehidupan nyata dapat menghasilkan data yang akurat dan informatif tentang pencapaian kompetensi peserta didik, apabila dikembangkan dan dianalisis dengan prosedur yang tepat.

 

C.5 Tindak Lanjut Berdasarkan Hasil Analisis Butir

Berdasarkan hasil analisis tingkat kesukaran dan daya beda soal, guru PAI dan pengembang instrumen evaluasi dapat mengambil berbagai tindak lanjut yang tepat untuk meningkatkan kualitas instrumen evaluasi. Pertama, soal yang memiliki tingkat kesukaran yang tidak sesuai (terlalu mudah atau terlalu sukar) dan daya beda yang rendah harus direvisi atau diganti dengan soal yang lebih berkualitas (Mutakin, 2023; , (Dewi & Prabowo, 2022; . Kedua, soal yang memiliki tingkat kesukaran sedang dan daya beda yang baik dapat dipertahankan dan digunakan dalam penilaian yang sesungguhnya Fitriani et al., 2024), Ikhlas et al., 2023).

Manfaat setelah dilakukan analisis instrumen soal adalah dapat membantu dalam evaluasi atas tes yang digunakan, mendukung penulisan butir soal yang efektif, menentukan apakah suatu fungsi butir soal sesuai dengan yang diharapkan, dan merevisi materi yang dinilai atau diukur (Mutakin, 2023; . Hal ini menunjukkan bahwa analisis butir soal bukan hanya merupakan kegiatan evaluatif, tetapi juga merupakan bagian dari proses pengembangan instrumen evaluasi yang berkelanjutan dan berkesinambungan.

Dalam konteks pengembangan instrumen tes three-tier untuk mengidentifikasi miskonsepsi pada konsep fluida statis, dari 22 soal two-tier test pilihan ganda didapatkan 18 soal yang valid dan empat soal yang tidak valid, dengan nilai content validity index (CVI) sebesar 0,9 (Kamilah & Suwarna, 2019). Soal yang valid kemudian dilanjutkan ke tahap validitas konstruksi, reliabilitas, dan analisis butir soal (Kamilah & Suwarna, 2019). Proses seleksi soal berdasarkan hasil analisis butir ini merupakan langkah penting dalam memastikan kualitas instrumen evaluasi yang dikembangkan.

 

C.6 Penggunaan Software dalam Analisis Butir Soal

Penggunaan software analisis yang tepat merupakan faktor penting dalam meningkatkan akurasi dan efisiensi proses analisis butir soal. Berbagai software analisis butir soal telah tersedia dan dapat digunakan oleh guru PAI dan pengembang instrumen evaluasi, termasuk SPSS, ANATES, dan software analisis model Rasch seperti Winsteps atau FACETS (Mutakin, 2023; , Fitriani et al., 2024), Aprilia et al., 2021).

Dalam penelitian analisis kualitas instrumen tes menggunakan software SPSS, analisis dilakukan berdasarkan unsur validitas, reliabilitas, indeks kesukaran, dan daya pembeda soal yang diolah dengan bantuan software SPSS versi 16.0 (Mutakin, 2023; . Dalam pengembangan instrumen tes three-tier multiple choice berbantuan Google Form, tingkat kesukaran dan daya beda soal dianalisis menggunakan program ANATES 4.0.2 Fitriani et al., 2024). Dalam penelitian aplikasi model Rasch pada instrumen tes kemampuan pemecahan masalah, analisis model Rasch dilakukan untuk summary statistics, item-fit, wright-map, item-measure, person-measure, person-fit, dan item-DIF Aprilia et al., 2021).

Penggunaan software analisis yang tepat memungkinkan guru PAI untuk melakukan analisis butir soal secara lebih cepat, akurat, dan komprehensif, sehingga dapat meningkatkan kualitas instrumen evaluasi PAI yang dikembangkan. Namun demikian, penggunaan software analisis harus selalu disertai dengan pemahaman yang mendalam tentang konsep dan interpretasi hasil analisis butir soal, agar hasil analisis dapat diinterpretasikan secara tepat dan digunakan sebagai dasar pengambilan keputusan yang akurat tentang kualitas instrumen evaluasi.

 

Analisis Butir Soal dalam Konteks Pengembangan Instrumen Evaluasi PAI yang Komprehensif

Integrasi Analisis Tingkat Kesukaran dan Daya Beda dengan Parameter Lainnya

Analisis tingkat kesukaran dan daya beda soal harus selalu diintegrasikan dengan analisis parameter lainnya, termasuk validitas, reliabilitas, dan efektivitas pengecoh (untuk soal pilihan ganda), untuk menghasilkan penilaian yang komprehensif tentang kualitas instrumen evaluasi PAI. Teknik analisis data dalam pengembangan instrumen tes mencakup validasi ahli, analisis soal (validitas, reliabilitas, tingkat kesukaran, dan daya beda), analisis profil kemampuan peserta didik, dan analisis angket respons peserta didik Fitriani et al., 2024). Integrasi berbagai parameter analisis butir soal ini akan menghasilkan gambaran yang lebih komprehensif dan akurat tentang kualitas instrumen evaluasi PAI yang dikembangkan.

Dalam pengembangan soal HOTS materi sel Volta, hasil analisis menunjukkan bahwa 10 butir soal yang dikembangkan memiliki nilai rata-rata tingkat kesukaran 0,466 (kategori sedang), rata-rata daya pembeda 0,492 (kategori baik), rata-rata validitas 0,559 (kategori cukup), serta rata-rata reliabilitas 0,720 (kategori tinggi) (Ayubi et al., 2023; . Profil kualitas instrumen yang komprehensif ini memberikan gambaran yang jelas tentang kekuatan dan kelemahan instrumen yang dikembangkan, sehingga dapat diambil tindak lanjut yang tepat untuk meningkatkan kualitasnya.

 

Analisis Butir Soal sebagai Proses Berkelanjutan

Analisis butir soal harus dipandang sebagai proses yang berkelanjutan dan tidak hanya dilakukan sekali sebelum instrumen digunakan dalam penilaian yang sesungguhnya. Setiap kali instrumen digunakan dalam penilaian, data jawaban peserta didik harus dianalisis untuk memperbarui informasi tentang tingkat kesukaran dan daya beda setiap butir soal (Mutakin, 2023; , (Dewi & Prabowo, 2022; . Proses analisis butir soal yang berkelanjutan ini akan memungkinkan guru PAI untuk terus meningkatkan kualitas instrumen evaluasi yang digunakan, sehingga dapat menghasilkan data penilaian yang semakin akurat dan informatif dari waktu ke waktu.

Dalam konteks pengembangan bank soal PAI yang berkualitas, analisis butir soal yang berkelanjutan merupakan komponen yang tidak dapat diabaikan. Soal-soal yang telah terbukti memiliki tingkat kesukaran sedang dan daya beda yang baik dapat disimpan dalam bank soal dan digunakan kembali dalam penilaian berikutnya, sementara soal-soal yang memiliki kualitas yang kurang baik harus direvisi atau diganti dengan soal-soal yang lebih berkualitas (Mutakin, 2023; , Fitriani et al., 2024).

 

Rangkuman

Analisis butir soal yang mencakup tingkat kesukaran dan daya beda merupakan komponen yang sangat penting dalam pengembangan instrumen evaluasi PAI yang berkualitas. Tingkat kesukaran soal mengacu pada proporsi peserta didik yang menjawab soal dengan benar, dan dikategorikan menjadi soal mudah (P = 0,70-1,00), sedang (P = 0,30-0,70), dan sukar (P = 0,00-0,30. Soal dengan tingkat kesukaran sedang merupakan soal yang paling ideal untuk digunakan dalam penilaian, karena dapat membedakan antara peserta didik yang memiliki kemampuan tinggi dan rendah secara efektif.

Daya beda soal mengacu pada kemampuan soal untuk membedakan antara peserta didik yang memiliki kemampuan tinggi dan rendah, dan dikategorikan menjadi jelek (D = 0,00-0,20), cukup (D = 0,21-0,40), baik (D = 0,41-0,70), dan baik sekali (D = 0,71-1,00) (Febriyanty et al., 2021; , Ikhlas et al., 2023). Soal dengan nilai D negatif harus segera direvisi atau diganti karena berfungsi terbalik dan dapat menghasilkan data penilaian yang menyesatkan.

Interpretasi hasil analisis butir soal harus dilakukan secara cermat dan komprehensif, dengan mempertimbangkan tujuan penilaian, karakteristik peserta didik, dan konteks pembelajaran PAI. Analisis tingkat kesukaran dan daya beda soal harus selalu diintegrasikan dengan analisis parameter lainnya, termasuk validitas, reliabilitas, dan efektivitas pengecoh, untuk menghasilkan penilaian yang komprehensif tentang kualitas instrumen evaluasi PAI. Penggunaan software analisis yang tepat, seperti SPSS, ANATES, dan software analisis model Rasch, dapat meningkatkan akurasi dan efisiensi proses analisis butir soal secara signifikan.

Tidak ada komentar:

Posting Komentar

Interpretasi Hasil Analisi Butir Soal

  C. Interpretasi Hasil Analisis Butir Soal C.1 Kriteria Interpretasi Tingkat Kesukaran Interpretasi hasil analisis tingkat kesukaran so...