image
HomeLatest Updates and Articles
Menggali Konsep Dasar IRT: Esensi dari Perbedaan Individu dan Karakteristik Soal

Menggali Konsep Dasar IRT: Esensi dari Perbedaan Individu dan Karakteristik Soal

Setiap tahunnya, para siswa kelas 12 fokus belajar untuk melaksanakan tes masuk perguruan tinggi. UTBK, salah satu tes yang akrab terdengar para siswa tahun terakhir, memiliki kesulitan yang lumayan tinggi, usut demi usut ternyata semenjak tahun 2018 UTBK menerapkan penggunaan IRT dalam penilaiannya. Apa itu IRT dan mengapa kita menggunakannya? Mari kita gali lebih dalam!

image
Menggali Konsep Dasar IRT: Esensi dari Perbedaan Individu dan Karakteristik Soal

Key Points:

Antara kesulitan soal dan kemampuan testee tidak bergantung satu sama lain.

Probabilitas jawaban benar peserta adalah bagian krusial di teori respon butir.

Terdapat tiga parameter dalam IRT yang dapat digunakan untuk analisis.


Setiap tahunnya, para siswa kelas 12 fokus belajar untuk melaksanakan tes masuk perguruan tinggi. UTBK, salah satu tes yang akrab terdengar para siswa tahun terakhir, memiliki kesulitan yang lumayan tinggi, usut demi usut ternyata semenjak tahun 2018 UTBK menerapkan penggunaan IRT dalam penilaiannya. Apa itu IRT dan mengapa kita menggunakannya? Mari kita gali lebih dalam!


Kenapa IRT?

Item Response Theory (IRT) atau teori respons butir menjadi alternatif dalam mengkonsepsi dan menganalisis pengukuran dalam ilmu perilaku (Furr, 2021). 

Manfaat IRT terdapat pada perlakuan terhadap reliabilitas dan error pengukuran melalui fungsi informasi item dihitung untuk setiap itemnya. Fungsi informasi item ini memperhitungkan semua karakteristik item dan efisiensi pengukuran pada tingkat kemampuan yang berbeda. Keuntungan lainnya adalah invariansi item IRT, jadi kelompok atau individu dapat diuji dengan rangkaian item yang berbeda, sesuai tingkat kemampuan mereka dan skor dapat langsung dibandingkan (Magno, 2009).


IRT vs CTT

Sebelum adanya kehadiran pendekatan IRT pada psikometri, terdapat Classical Test Theory (CTT). Penerapan model CTT pernah kita temui pada soal-soal sekolah seperti ulangan harian. Dimana modelnya bergantung pada jumlah yang dijawab benar dan kemampuan individu, umumnya model ini menghasilkan skor 1 dan 0 sehingga kemampuan siswa dapat dilihat dari perolehan skor total. Bayangkan, ada siswa biologi dengan kemampuan yang tinggi maka soal biologi tersebut akan menjadi mudah. Dengan demikian, pada soal yang mudah, kemampuannya terlihat tinggi. Jadi, antara kesulitan soal dan kemampuan testee sangat bergantung satu sama lain. Hal ini mengundang perdebatan terkait model yang dapat menjelaskan atribut psikologi yang baik. Hadirlah model IRT yang menghubungkan antara parameter item (karakteristik item) dengan karakteristik individu (latent traits) untuk memprediksi probabilitas menjawab soal dengan benar. Lantas, apa perbedaan antara keduanya?

(a) Dalam IRT, item menjadi unit analisis, sedangkan pada CTT tes menjadi unitnya.

(b) Pengukuran dengan item sedikit bisa lebih reliabel pada IRT, pada CTT item panjang lebih reliabel.

(c) Respon item dari pengukuran berbeda dapat dikomparasi selama latent trait sama, pada CTT hanya bisa dikomparasi jika pengukuran bersifat paralel.

(d) Properti item IRT tidak bergantung pada sampel representatif.

(e) Pada IRT item bisa mempunyai kategori respon yang berbeda.


Mari menyelami IRT!

Probabilitas jawaban benar peserta adalah bagian yang krusial. Karakteristik item dan sifat laten dihubungkan melalui formula matematika, yang menunjukkan probabilitas jawaban benar. Maka dari itu, kemampuan peserta dan kesulitan soal mengalami interdependensi (ketidaktergantungan). IRT memiliki dua postulat, yaitu:  (a) Keberhasilan menjawab soal dengan benar diprediksi dari sifat laten individu. (b) Hubungan keberhasilan dengan sifat laten dapat dinyatakan dengan fungsi Item Characteristic Curve (ICC). 

Peran ICC di model IRT sangat penting loh, Faxtorians! Model matematika ini menjelaskan hubungan probabilitas keberhasilan menjawab dengan kemampuan yang diukur. Agar terbayang, misal peserta dihadapkan soal yang sulit, jika ia memiliki kemampuan yang rendah maka probabilitas untuk menjawab benar juga akan rendah (p<0,5), sebaliknya jika kemampuannya tinggi probabilitasnya akan meningkat (p>0,5).

Nah, IRT juga mempunyai asumsi dasar sebagai berikut:

(a) Monotonicity, asumsi bahwa meningkatnya trait level, meningkat juga probabilitas jawaban benar. (b) Unidimensi, yaitu item-item hanya dapat mengukur satu kemampuan/konstruk. (c) Invariansi item, ICC tidak berubah pada populasi yang berbeda, maka bisa mengukur parameter di kelompok manapun. (d) Independensi lokal, artinya probabilitas peserta menjawab benar tidak terpengaruh dengan jawaban yang diberikan di tes lain.


Parameter IRT

Model pengukuran mengekspresikan hubungan antara hasil dan komponen yang memengaruhi hasil. IRT menghubungkan secara matematis, probabilitas individu dengan trait level berbeda akan merespon dengan cara tertentu ke item tertentu (Furr, 2021):

(1) 1PL – One-parameter logistic model (Rasch Model)

Respon peserta ditentukan dari trait level individu dan hanya terdapat satu karakteristik/parameter, yaitu kesulitan item.

Singkatnya, 1PL merupakan model simpel, yang hanya diaplikasikan di item dikotomi (dua pilihan seperti true/false).

(2) 2PL – Two-parameter logistic model

Respon peserta ditentukan dari trait level individu, kesulitan item, dan daya beda. Faxtorians ingat mengenai ICC yang ter-mention sebelumnya? Yap, ICC dapat menggambarkan probabilitas antara peserta yang berkemampuan tinggi dan rendah pada 2PL dan 3PL.

(3) 3PL – Three-parameter logistic model

Respon peserta ditentukan dari trait level individu, kesulitan item, dan daya beda, dan guessing. Adanya kehadiran guessing bisa meningkat trait level sebesar setidaknya 25% menjawab benar pada soal pilihan ganda yang memiliki empat opsi. 


Penerapan IRT

Lalu, sampai disini sedikit banyak dasar mengenai IRT sudah faxtorians ketahui. Namun, bagaimana penerapan IRT ini pada kasus nyata? Terdapat sebuah penelitian oleh Amelia & Kriswantoro (2017) terkait karakteristik soal kimia salah satu SMAN di Yogyakarta, melibatkan 101 pola respon terhadap tes berupa soal pilihan ganda lima opsi. Butir-butir soal yang sudah dirumuskan guru diestimasi dengan IRT, menghasilkan 28 butir fit model 1PL, 37 butir fit model 2PL, dan 36 butir fit model 3PL. Setelah dianalisis lebih lanjut menggunakan uji One-Way Anova Repeated Measure, 2PL memiliki mean-difference terbaik. 2PL dianggap cocok dengan penelitian ini, mengapa? Model 2PL dapat mengestimasi kemampuan paling tinggi dibandingkan model lainnya pada analisis ini. Sehingga, dari penelitian ini dapat diketahui kategori rerata kemampuan siswa kelas XI IPA sekolah ini pada kategori sedang.


IRT mungkin terlihat sangat kompleks, tetapi hal itu justru memberikan banyak keuntungan. Bagaimana pemahamanmu terkait IRT saat ini? Faxtor sendiri sudah memiliki beberapa alat tes yang berbasis IRT. Mari kita bersama gunakan alat ukur berbasis IRT di Indonesia!


Referensi

image
Written By
Salsabila Eka Ranansyah
Related Article
image
Between Hate or Dislike learning proces...
Beberapa dari kita mungkin sudah tidak asing denga...
24 Oct 2023
image
Tingkatkan Produktivitas Kerja dengan De...
Di era industri 4.0 ini, fleksibilitas dunia kerja...
04 May 2023
image
Apakah Kepribadian Tetap Sama dari Waktu...
Dewasa ini kita mungkin sudah cukup sering mendeng...
02 Apr 2023
image
Faxtor Jalin Kolaborasi Dengan Game Deve...
Bandung, 17 Desember 2020 - Faxtor Indonesia sebag...
17 Dec 2022