PEMILIHAN FEATURE DENGAN CHI SQUARE DALAM ALGORITMA NAÏVE BAYES UNTUK KLASIFIKASI BERITA

  • Alfian Nur Rahmad Jurusan Teknik Elektro, Fakultas Teknik, Universitas Negeri Semarang, Indonesia
  • Feddy Setio Pribadi Jurusan Teknik Elektro, Fakultas Teknik, Universitas Negeri Semarang, Indonesia
Keywords: Chi Square, classification, feature selection, Naïve Bayes, news

Abstract

Klasifikasi berita secara manual tidak mungkin dilakukan. Klasifikasi otomatis banyak dilakukan dengan algoritma naïve bayes, tetapi jumlah feature kata yang banyak dapat mengurangi akurasi klasifikasi. Penelitian ini bertujuan untuk mengetahui penerapan, pengaruh dan nilai recall, precision, f-measure dan akurasi dari pemilihan feature Chi Square terhadap kinerja algoritma Naïve Bayes untuk mengklasifikasikan teks berita secara otomatis. Pada penelitian ini diterapkan teknik pemilihan feature dengan Chi Square dalam Algoritma Naïve Bayes. Data penelitian diambil dari www.kompas.com sebanyak 1350 buah sebagai data latih dan 150 buah sebagai data uji. Pengujian dilakukan dengan mengklasifikasikan berita tanpa pemilihan feature Chi Square dan mengklasifikasikan berita dengan menerapkan pemilihan feature Chi Square dengan taraf nyata α 0.05, 0.01, 0.005, dan 0.001. Selanjutnya akan dievaluasi dengan metode evaluasi recall, precision, f-measure dan akurasi. Dari klasifikasi berita otomatis tanpa pemilihan feature yang dilakukan, diperoleh hasil recall 96.67%, precision 96.75%, f-measure 96.68% dan akurasi 96.67%. Sedangkan klasifikasi berita dengan pemilihan feature menggunakan chi square pada taraf nyata α 0.05, 0.01, 0.005, dan 0.001 diperoleh hasil yang sama yaitu recall 98%, precision 98%, f-measure 97.99%, dan akurasi 98%. Dari hasil tersebut, dapat diketahui bahwa pemilihan feature menggunakan chi square dapat mempengaruhi kinerja algoritma Naïve Bayes untuk mengklasifikasikan berita secara otomatis.

 

Classification of news manually impossible. Automatic classification lot to do with the naïve Bayes algorithm, but the number of words that many features can reduce the accuracy of the classification. This study aims to determine the application, influence and value of recall, precision, f-measure and accuracy of election Chi Square feature of the performance Naïve Bayes algorithm to automatically classify news text. In this study feature selection techniques applied by Chi Square in Naïve Bayes algorithm. Data were taken from as many as 1350 pieces www.kompas.com as training data and 150 as test data. Testing is done by classifying feature election news without Chi Square and classifying news by applying the Chi Square feature selection with significance level α 0:05, 0:01, 0.005, and 0.001. Next will be evaluated by the evaluation method of recall, precision, f-measure and accuracy. Automatic classification of news without selecting a feature that is done, the result recall 96.67%, 96.75% precision, f-measure 96.68% and 96.67% accuracy. While the classification of news with feature selection using the chi square on the real level α 0:05, 0:01, 0005, and 0001 obtained the same result, namely 98% recall, 98% precision, f-measure 97.99%, and accuracy 98%. From these results, it is known that the selection of the feature using the chi square can affect the performance Naïve Bayes algorithm to automatically classify news.

Author Biographies

Alfian Nur Rahmad, Jurusan Teknik Elektro, Fakultas Teknik, Universitas Negeri Semarang, Indonesia
Feddy Setio Pribadi, Jurusan Teknik Elektro, Fakultas Teknik, Universitas Negeri Semarang, Indonesia

References

Alshalabi, Hamood, Sabrina Tiun, Nazlia Omar, dan Mohammed Albared. 2013. Experiments on the Use of Feature Selection and Machine Learning Methods in Automatic Malay Text Categorization. ICEEI 2013. Universiti Kebangsaan Malaysia. Malaysia.

Feldman, Ronen dan James Sanger. 2007. The Text Mining Handbook Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press. New York.

Hamzah, Amir. 2012. Klasifikasi Teks dengan Naïve Bayes Classifier (NBC) untuk Pengelompokan Teks Berita dan Abstract Akademis. Prosiding Seminar.

Herawan, Yoga. 2011. Ekstraksi Ciri Dokumen Tumbuhan Obat Menggunakan Chi-Kuadrat dengan Klasifikasi Naïve Bayes. IPB. Bogor.

Isa, Dino, V.P. Kallimani, dan Lam Hong Lee. 2009. Using The Self Organizing Map For Clustering Of Text Documents. Expert Systems with Applications 36 (2009) 9584–9591. Elsevier.

Kompan, Michal dan Maria Beilikova. 2011. News Article Classification Based on a Vector Representation Including Words’ Collocations. Third International Conference on Software, Services and Semantic Technologies S3T 2011 Advances in Intelligent and Soft Computing Volume 101, 2011, pp 1-8. Springer Berlin Heidelberg.

Liliana, Dewi Y., Agung Hardianto, dan M. Ridok. 2011. Indonesian News Classification using Support Vector Machine. World Academy of Science, Engineering and Technology Vol:5 2011-09-21.

Musthafa, Aziz. 2009. Klasifikasi Otomatis Dokumen Berita Kejadian Berbahasa Indonesia. Skripsi. Jurusan Teknik Informatika, Fakultas Sains dan Teknologi, Universitas Islam Negeri (UIN) Maulana Malik Ibrahim. Malang.

Nindhi dan Vispal Gupta. 2012. Punjabi Text Classification using Naïve Bayes, Centroid and Hybrid Approach. http://airccj.org/CSCP/vol2/csit2421.pdf. 28 Maret 2015 (13.23 WIB).

Odeh, Ashraf, Aymen Abu-Errub, Qusai Shambour dan Nidal Turab. 2014. Arabic Text Categarization Algortithm Using Vector Evaluation Method. International Journal of Computer Science & Information Technology (IJCSIT) Vol. 6, No. 6. Jordan.

Saad, Motaz K. dan Wesam Ashor. 2010. Arabic Text Classification Using Decision Trees. http://site.iugaza.edu.ps/msaad/files/2011/01/mksaad-arabic-text-classification-using-decision-trees-CSIT2010.pdf. 28 Maret 2015 (13.11 WIB).

Schneider, Karl-Michael. 2005. Techniques For Improvind the Performance of Naïve Bayes for Text Classification. In Proceedings of CICLing, pages 682-693

Sun, Changqiu, Xiaolong Wang, dan Jun Xu. 2009. Study on Feature Selection in Finance Text Categorization. Proceedings of the 2009 IEEE International Conference on Systems, Man, and Cybernetics. San Antonio.

Ting, S.L., W.H. Ip, dan Albert H.C. Tsang. 2011. Is Naïve Bayes a Good Classifier for Document Classification ?. International Journal of Software Engineering and It’s Application. Vol.5, No.3, July. The Hong Kong Polytechnic University. Hongkong.

Trstenjak, Bruno, Sasa Mikac, dan Dzenana Donko. 2014. KNN with TF-IDF Based Framework for Text Categorization. Procedia Engineering 69 ( 2014 ) 1356 – 1364. Elsevier.

Wibisono, Yudi. 2005. Klasifikasi Berita Berbahasa Indonesia menggunakan Naïve Bayes Classifier. Seminar Nasional Matematika. UPI. Bandung.

Published
2015-06-01
How to Cite
Rahmad, A., & Pribadi, F. (2015). PEMILIHAN FEATURE DENGAN CHI SQUARE DALAM ALGORITMA NAÏVE BAYES UNTUK KLASIFIKASI BERITA. Edu Komputika Journal, 2(1). https://doi.org/10.15294/edukomputika.v2i1.7823