Penanganan Imbalanced Dataset untuk Klasifikasi Komentar Program Kampus Merdeka Pada Aplikasi Twitter

  • Cindy Magnolia Amikom Purwokerto University
  • Ade Nurhopipah Universitas Amikom Purwokerto
  • Bagus Adhi Kusuma Universitas Amikom Purwokerto
Keywords: ADASYN, Imbalanced Dataset, Random Combination Sampling, SMOTE, Under Sampling

Abstract

Imbalanced dataset merupakan hal yang sering ditemukan secara alami dalam proses penambangan data. Kondisi ini sangat mempengaruhi keakuratan klasifikasi data seperti yang terjadi dalam klasifikasi komentar program Kampus Merdeka yang peneliti lakukan. Penelitian ini akan fokus pada penanganan Imbalanced dataset untuk meningkatkan kinerja klasifikasi komentar yang berasal dari aplikasi Twitter. Data diklasifikasikan ke dalam empat kelas yaitu kelas 0 (untuk informasi), kelas 1 (untuk opini), kelas 2 (untuk pertanyaan), dan kelas 3 (untuk out of topic). Metode yang digunakan untuk balancing dataset adalah Undersampling, Oversampling menggunakan SMOTE dan ADASYN, serta Random Combination Sampling. Evaluasi performa dilakukan menggunakan algoritma Support Vector Machine (SVM) dengan perbandingan komposisi data training dan testing 80:20. Metode pembobotan data yang digunakan adalah Term Frequency-Inverse Document Frequency (TF-IDF) dengan nilai max_features 3000, 5000, dan 7000. Hasil pengujian awal menunjukan bahwa nilai akurasi dan F1-score pada Imbalanced dataset secara berurut-urut adalah 0,7 dan 0,7. Sedangkan metode penanganan Imbalanced dataset dapat meningkatkan nilai F1-score, kecuali pada penerapan metode Undersampling. Metode terbaik ditunjukan oleh penerapan ADASYN dengan nilai akurasi dan F1-score berurut-urut sebesar 0,9 dan 0,9. Penggunaan max_features pada TF-IDF juga mempengaruhi hasil performa klasifikasi, dengan max_features terbaik ditunjukan pada jumlah 5000.

References

Amira, S. A., Utama, S., & Fahmi, M. H. (2020). Penerapan Metode Support Vector Machine untuk Analisis Sentimen pada Review Pelanggan Hotel. Edu Komputika Journal, 7(2), 40-48. doi:

Ardiyansyah, & Rahayuningsih, P. A. (2020). Penerapan Teknik Sampling untuk Mengatasi Imbalance Class pada Klasifikasi Online Shoppers Intention. Jurnal Teknik Informatika Kaputama (JTIK), 4(1), 7-15. doi:

Delimayanti, M.K., Sari, R., Laya, M., Faisal, M. R., & Pahrul. (2021). Pemanfaatan Metode Multiclass-SVM pada Model Klasifikasi Pesan Bencana Banjir di Twitter. Edu Komputika Journal 8(1), 39-47.

Fernandez, A., Garcia, S., Galar, M., Prati, R. C., Krawczyk, B., & Herrera, F. (2018). Learning from Imbalance Data Sets. Cham, Switzerland: Springer. doi:10.1007/978-3-319-98074-4

Fithriasari, K., Hariastuti, I., & Wening, K. S. (2020). Handling Imbalance Data in Classification Model with Nominal Predictors. International Journal of Computing Science and Applied Mathematics, 6(1), 33-37.

Fitriani, R. D., Yasin, H., & Tarno. (2021). Penanganan Klasifikasi Kelas Data Tidak Seimbang dengan Random Oversampling pada Naive Bayes. Jurnal Gaussian, 10(1), 11-20.

Hidayat, W., Ardiansyah, M., & Setyanto, A. (2021). Pengaruh Algoritma ADASYN dan SMOTE terhadap performa Support Vector Machine pada Ketidakseimbangan Dataset Airbnb. Edumatic: Jurnal Pendidikan Informatika, 5(1), 11-20.

Kampus Merdeka. (2021). Program Kampus Merdeka. Retrieved from Kampus Merdeka: https://kampusmerdeka.kemdikbud.go.id/program

Kasanah, A. N., Muladi, & Pujianto, U. (2019). Penerapan Teknik SMOTE untuk Mengatasi Imbalance Class dalam Klasifikasi Objektivitas Berita Online menggunakan Algoritma KNN. Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi), 3(2), 196-201. doi: 10.29207/resti.v3i2.945

Kholila, N. (2021). Analisis Sentimen terhadap Program Merdeka Belajar - Kampus Merdeka pada Twitter menggunakan Support Vector Machine (SVM). ANTIVIRUS: Jurnal Ilmiah Teknik Informatika, 15(2), 252-261. doi:10.35457/antivirus.v15i2.1866

Mutawali, L., Zaen, M. T., & Bagye, W. (2019). Klasifikasi Teks Sosial Media Twitter menggunakan Support Vector Machine (Studi Kasus Penusukan Wiranto). Jurnal Informatika & Rekayasa Elektronika (JIRE), 2(2), 43-51.

Mutmainah, S. (2021). Penanganan Imbalance Data pada Klasifikasi Kemungkinan Penyakit Stroke. Jurnal SNATi, 1(1), 10-16.

Pipin, S.J., Kurniawan, H. (2022). Analisis Sentimen Kebijakan MBKM berdasarkan Opini Masyarakat di Twitter menggunakan LSTM. Jurnal SIFO Mikroskil, 23(2), 197-208.

Pratama, I., Chandra, A. Y., & Prasetyaningrum, P. T. (2021). Seleksi Fitur dan Penanganan Imbalanced Data menggunakan RFECV dan ADASYN. Jurnal Eksplora Informatika, 11(1), 38-49. doi:10.30864/eksplora.v11i1.578

Qadrini, L., Hikmah, & Megasari. (2022). Oversampling, Undersampling, Smote SVM dan Random Forest pada Klasifikasi Penerima Bidikmisi Sejawa Timur Tahun 2017. Journal of Computer System and Informatics (JoSYC), 3(4), 386-391. doi:10.47065/josyc.v3i4.2154

Siringoringo, R. (2018). Klasifikasi Data Tidak Seimbang menggunakan Algoritma SMOTE dan k-Nearest Neighbor. Jurnal ISD, 3(1), 44-49.

Zhafira, D.F., Rahayudi, B., Indriati. (2021). Analisis Sentimen Kebijakan Kampus Merdeka menggunakan Naïve Bayes dan Pembobotan TF-IDF berdasarkan Komentar pada Youtube. Jurnal Sistem Informasi, Teknologi Informasi, dan Edukasi Sistem Informasi (JUST-SI), 2(1), 55-63.

Published
2022-12-31
How to Cite
Magnolia, C., Nurhopipah, A., & Kusuma, B. (2022). Penanganan Imbalanced Dataset untuk Klasifikasi Komentar Program Kampus Merdeka Pada Aplikasi Twitter. Edu Komputika Journal, 9(2), 105 - 113. https://doi.org/10.15294/edukomputika.v9i2.61854