PERBANDINGAN ALGORITMA TF/IDF DAN BLEU UNTUK PENILAIAN JAWABAN ESAI OTOMATIS

  • Hesti Wahyu Nugroho Jurusan Teknik Elektro, Fakultas Teknik, Universitas Negeri Semarang, Indonesia
  • Feddy Setio Pribadi Jurusan Teknik Elektro, Fakultas Teknik, Universitas Negeri Semarang, Indonesia
  • Ulfah Mediaty Arief Jurusan Teknik Elektro, Fakultas Teknik, Universitas Negeri Semarang, Indonesia
  • Sri Sukamta Jurusan Teknik Elektro, Fakultas Teknik, Universitas Negeri Semarang, Indonesia
Keywords: TF/IDF, BLEU, perluasan kunci jawaban, penyisipan huruf, Automatic Essay Scoring, Frequency Term, Inverse Document Frequency, web

Abstract

Setiap proses pembelajaran memerlukan suatu evaluasi berupa tes. Dalam perkembangannya tes dapat dilakukan secara online. Jenis tes antara lain tes benar salah, test pilihan ganda, tes mencocokan, dan tes esai. Sudah banyak penelitian di luar negeri maupun di dalam negeri yang mengembangkan metode-metode sebagai penilai jawaban esai otomatis. Sebagai contoh Eksperimen LSA untuk esai GMAT (Graduation Management Achievement Test) menghasilkan persetujuan dengan manusia sebesar 85%-91% (Valenti, Neri, & Cucchiarelli, 2003), Electronic Essay Rater (E-Rater) menghasilkan 87%-94% (Valenti, Neri, & Cucchiarelli, 2003), untuk penelitian di dalam negeri hasil uji coba SIMPLE (Ratna, Budiharjo, & Hartanto, 2007) menghasilkan 69.80%-94.64% untuk lima mahasiswa dan 77.18%-98.42% untuk sepuluh mahasiswa. Hasil yang didapatkan masih jauh dari yang diharapkan. Hal ini yang mendasari dilakukannya penelitian mengenai pembobotan yang baik dalam penilaian jawaban esai otomatis. Penelitian ini membandingkan Algoritma pembobotan TF/IDF dan BLEU dengan alat bantu Automatic Essay Scoring yang berbasis web untuk membobotkan jawaban siswa terhadap kunci jawaban esai serta meneliti pengaruh perluasan kunci jawaban serta penyisipan huruf pada kata kurang huruf (toleransi) untuk memaksimalkan hasil penilaian. Algoritma TF-IDF merupakan salah satu skema pembobotan istilah/term dalam pencarian dokumen yang terdiri pembobotan lokal Frequency Term (TF), pembobotan global Inverse Document Frequency (IDF), dan normalisasi. Sedangkan Algoritma BLEU merupakan salah satu sistem evaluasi otomatis yang dikenalkan oleh grup riset IBM. Dalam penelitian ini penulis menghitung nilai BLEU sampai 4-gram (4 kata) saja, sedangkan esai yang dinilai dibatasi pada esai yang merupakan jawaban dari pertanyaan pada tes esai (maksimal 250 kata per jawaban), bukan esai karangan yang panjang (lebih dari 250 kata) dan jawaban yang dinikai berupa kalimat bukan berupa jawaban hasil perhitungan (matematika, fisika dan kimia). Uji coba dilakukan dengan 10 soal esai dengan 22 peserta ujian. Secara keseluruhan, rata-rata korelasi TF/IDF-penilaian guru mencapai 0.70 dengan nilai korelasi tertinggi mencapai 0.98, sedangkan rata-rata korelasi BLEU-penilaian gurur mencapai 0.63 dengan nilai korelasi tertinggi mencapai 0.97. secara keseluruhan nilai yang dihasilkan algoritma TF/IDF lebih tinggi dari BLEU.


Every learning process requires an evaluation of a test. In the development of the test can be done online. Types of tests include tests completely false, multiple choice tests, matching tests, and essay tests. There have been many studies abroad and within the country are developing methods as assessor automated essay answers. For example Experimental LSA for GMAT essay (Graduation Management Achievement Test) results in agreement with the human by 85% -91% (Valenti, Neri, & Cucchiarelli, 2003), the Electronic Essay Rater (E-Rater) resulted in 87% -94% (Valenti , Neri, & Cucchiarelli, 2003), for research on domestic trial results SIMPLE (Ratna, Budiharjo, & Hartanto, 2007) resulted in 69.80% -94.64% for the five students and 77.18% -98.42% for ten students. The results obtained are still far from the expected. It is for conducting research on a good weighting in the assessment of automated essay answers. This study compared the weighting algorithm TF / IDF and BLEU with Automatic Essay Scoring tools are web-based to membobotkan answers to the answer key student essay and examines the impact of the expansion of the answer key and the insertion of letters in the word less letters (tolerance) to maximize the results of the assessment. Algorithm TF-IDF weighting scheme is one term / terms in the search for documents consisting of local weighting Term Frequency (TF), Inverse Document Frequency weighting globally (IDF), and normalization. While the algorithm is one of the BLEU automatic evaluation system introduced by IBM research group. In this study the authors calculate the value to 4-gram BLEU (4 words) only, while the assessed essay essay is limited to the answers of the questions on the test essay (maximum of 250 words per answer), not an essay written by a long (more than 250 words ) and answer dinikai not be the answer in the form of sentence calculation results (mathematics, physics and chemistry). The test is done with 10 essays by 22 examinees. Overall, the average correlation of TF / IDF-teacher ratings reached 0.70 with the highest correlation value reaches 0.98, while the average correlation of BLEU-assessment gurur reached 0.63 with the highest correlation value reaches 0.97. overall value of the resulting algorithm TF / IDF higher than BLEU.

Author Biographies

Hesti Wahyu Nugroho, Jurusan Teknik Elektro, Fakultas Teknik, Universitas Negeri Semarang, Indonesia
Feddy Setio Pribadi, Jurusan Teknik Elektro, Fakultas Teknik, Universitas Negeri Semarang, Indonesia
Ulfah Mediaty Arief, Jurusan Teknik Elektro, Fakultas Teknik, Universitas Negeri Semarang, Indonesia
Sri Sukamta, Jurusan Teknik Elektro, Fakultas Teknik, Universitas Negeri Semarang, Indonesia

References

Arikunto, Suharsimi (2010). Prosedur Penelitian Suatu Pendekatan Praktik. Yogyakarta : Rineka Cipta.

Connolly, Thomas M., Begg, Carolyn E. (2005). Database System : A Practical Approach to Design, Implementation, and Management, fourth edition. England: Addison-Wesley.

Harisma, N. Z. (2008). Implementasi system penilaian esai otomatis metode LSA dengan tiga bobot kata kunci. Depok: Fakultas Teknik Universitas Indonesia.

Hermawandi, D. (2008). Implementasi pembobotan SICBI pada aplikasi essay grading metode LSA. Depok: Fakultas Teknik Universitas Indonesia.

Krisnanda, B. P. (2005). Sistem penilaian essay otomatis dengan menggunakan metode LSA. Depok: Fakultas Teknik Universitas Indonesia.

Manning, C. D., Raghavan, P., Schutze, H. (2008). Introduction to information retrieval. New York: Cambridge University Press.

Octaria, D. (2008). Implementasi skema pembobotan pada aplikasi penilaian esai otomatis metode LSA. Depok: Fakultas Teknik Universitas Indonesia.

Pressman, Roger S. (2002). Rekayasa Perangkat Lunak :Pendekatan Praktisi (Buku 1). Yogyakarta : Andi

Ratna, A.A.P., Budiardjo, B., Hartanto, D. (2007, April). SIMPLE: sistim penilai esai otomatis untuk menilai tes dalam bahasa Indonesia. Jurnal Makara Teknologi, 5-11.

Septiantri, Heninggar (2009). Perbandingan Metode Latent Semantic Analysis dan Vector Space Model untuk Sistem Penilai Jawaban Esai Otomatis Bahasa Indonesia. Depok: Fakultas Teknik Universitas Indonesia.

Subagyo, Pangestu (2002). Forecasting Konsep dan Aplikasi. Yogyakarta: BPFE Yogyakarta.

Sudijono, Anas. (2005). Pengantar evaluasi pendidikan. Jakarta: PT Raja Grafindo Persada.

Valenti, S., Neri, F., Cucchiearelli, A. (2003). An overview of current research on automated essay grading. Jurnal of Information Technology Education, Volume 2.

Whitten, Jeffrey L (2007). System Analysis and Design Methods 7th. Mc Graw Hill Education. New York

Williams, R. (2001). Automated essay grading: An evaluation of four conceptual models. In A. Herrmann and M. M. Kulski (Eds), Expanding Horizons in Teaching and Learning. Proceedings of the 10th Annual Teaching Learning Forum, 7-9 February 2001. Perth: Curtin University of Technology. http://otl.curtin.edu.au/events/conferences/tlf/tlf2001/williams.html

Published
2014-10-01
How to Cite
Nugroho, H., Pribadi, F., Arief, U., & Sukamta, S. (2014). PERBANDINGAN ALGORITMA TF/IDF DAN BLEU UNTUK PENILAIAN JAWABAN ESAI OTOMATIS. Edu Komputika Journal, 1(2). https://doi.org/10.15294/edukomputika.v1i2.7798