Clustering Data Campuran Numerik dan Kategorik Menggunakan Algoritme Ensemble Quick RObust Clustering using linKs (QROCK)
Main Article Content
Abstract
Pengekstrakan informasibaru dan berguna dari basis data yang besar untuk membantu mengambil keputusan (Knowledge Discovery) disebut data mining. Clustering merupakan teknik data mining untuk melakukan pengelompokkan data yang memiliki similaritas tinggi ke dalam cluster yang sama. Umumnya proses clustering hanya untuk data numerik atau kategorik saja, namun kerap kali ditemui kasus data campuran numerik dan kategorik. Algoritme Cluster Ensemble Based Mixed Data (algCEBMD) adalah salah satu algoritme untuk mengoperasikan data campuran. Tahap yang dilakukan pada algCEBMD adalah mengelompokkan masing-masing data numerik dan kategorik dengan algoritme yang sesuai, kemudian hasil masing-masing algoritme digabung dan dikelompokkan dengan algoritme data kategorik. Pada penelitian ini digunakan algoritme ensemble QROCK dimanapengelompokkan data numerik menggunakan algoritme K-Medoid danpengelompokkan data kategorikmenggunakan algoritme Quick RObust Clustering using linKs (QROCK), selanjutnya hasil masing-masing kelompok digabung dan dilakukan pengelompokkan menggunakan algoritme QROCK. Pada sekumpulan data sering terdapat nilai yang terpaut jauh dari nilai umumnya atau karakteristik data tersebut sangat berbeda dengan data lainnya, yang disebut outlier. Tujuan penelitian ini untuk mengkaji algoritme ensemble QROCK terhadap data denganoutlier. Hasil penelitian menunjukkan bahwa algoritme K-Medoid dan QROCK memiliki sifat robust yang baiksehingga algoritme ensemble QROCK juga memiliki sifat robust yang baik untuk data outlier.
Article Details
References
Anderson, T. W., & Sclove, S. L. (1974). Introductory Statistical Analysis. Houghton Mifflin.
Bhagat, P. M., Halgaonkar, P. S., & Wadhai, V. M. (2013). Review of Clustering Algorithm for Categorical Data. International Journal of Engineering and Advanced Technology, 3(2), 341–345.
Dewangan, R. R., Sharma, L. K., & Akasapu, A. K. (2010). Fuzzy Clustering Technique for Numerical and Categorical dataset. International Journal on Computer Science and Engineering (IJCSE), 75–80.
Dutta, M., Mahanta, A. K., & Pujari, A. K. (2005). QROCK: A quick version of the ROCK algorithm for clustering of categorical data. Pattern Recognition Letters, 26(15), 2364–2373.
Guha, S., Rastogi, R., & Shim, K. (1999). ROCK: A Robust Clustering Algorthim for Categorical. International Conference on Data Engineering, 512–521.
Han, J., Kamber, M., & Pei, J. (2012). Data Mining Concepts and Techniques Third Edition. The Morgan Kaufmann Series in Data Management Systems.
He, Z., Xu, X., & Deng, S. (2005). A Cluster Ensemble Method for Clustering Categorical Data. Information Fusion, 6(2), 143–151.
Irwansyah, E., & Faisal, M. (2015). Advanced Clustering: Teori dan Aplikasi. DeePublish.
Johnson, R. A., & Wichern, D. W. and others. (2002). Applied Multivariate Statistical Analysis. Prentice Hall.
Madhulatha, T. S. (2012). An Overview of Clustering Methods. IOSR Journal of Engineering, 2(4), 719–725.
Nahdliyah, M. A., Widiharih, T., & Prahutama, A. (2019). Metode K-Medoids Clustering dengan Validasi Silhouette Index dan C-Index. Jurnal Gaussian, 8(2), 161–170.
Rani, Y., & Rohil, H. (2013). A Study of Hierarchical Clustering Algorithm. International Journal of Information and Computation Technology, 3(11), 1225–1232.
Saket J, S., & Pandya, S. (2016). An Overview of Partitioning Algorithms in Clustering Techniques. International Journal of Advanced Research in Computer Engineering & Technology (IJARCET), 5(6), 1943–1946.
Salem, S. Ben, Naouali, S., & Chtourou, Z. (2018). A fast and effective partitional clustering algorithm for large categorical datasets using a k-means based approach. Computers and Electrical Engineering, 68, 463–483.
Sari, I. A., & Saputro, D. R. S. (2021). Algoritme Quick RObust Clustering using linKs (QROCK) untuk Clustering Data Kategorik. PRISMA, Prosiding Seminar Nasional Matematika, 4, 640–644.
Tan, P. N., Steinbach, M., & Kumar, V. (2006). Introduction to Data Mining. Pearson Education.
Thuraisingham, B. (2000). A Primer for Understanding and Applying Data Mining. IT Professional, 2(1), 28–31.
Wanto, A., Siregar, M. N. H., Windarto, A. P., Hartama, D., Ginantra, N. L. W. S. R., Napitupulu, D., Negara, E. S., Dewi, M. R. L. S. V., & Prianto, C. (2020). Data Mining : Algoritma dan Implementasi. Yayasan Kita Menulis.
Yoon, H. S., Ahn, S. Y., Lee, S. H., Cho, S. B., & Kim, J. H. (2006). Heterogeneous Clustering Ensemble Method For Combining Different Cluster Results. International Workshop on Data Mining for Biomedical Applications, 82–92.