Kajian Indeks Validitas pada Algoritma K-Means Enhanced dan K-Means MMCA

Main Article Content

Aida Fastabiqa Khairati
A.A Adlina
G.F Hertono
B.D Handari

Abstract

Algoritma K-Meansmerupakan salah satu metode yang banyak digunakan dalam penyelesaian masalah clustering seperti masalah pengenalan pola, partisi dan pengelompokkan taksonomi pada tumbuhan. AlgoritmaK-Means memiliki ketergantungan terhadap pemilihan titik pusat awal klaster yang dilakukan secara acak. Hal ini dapat mempengaruhi hasil clustering karena adanya perubahan titik pusat awal klaster pada tiap simulasi. Metode Enhanceddan Maximum Minimum CriterionAlgorithm merupakan dua metode yang dapat diterapkan pada algoritma K-Meansdalam pemilihan titik pusat awal klaster. Penerapan kedua metode tersebut pada algoritma K-Means menghasilkan hasil clustering yanglebih optimal. Hal tersebut ditunjukkan dengan jumlah iterasi yang sama pada tiap simulasi dalam mencapai kriteria konvergen dan nilai rata-rata similaritas terhadap data benchmark yang lebih baik. Selain itu, kesulitan algoritma K-Means adalah dalam menentukan jumlah klaster optimal suatu himpunan data.Indeks validitas merupakan metode yang dapat digunakan untuk menentukan hasil clusteringdengan jumlah klaster optimal pada himpunan data. Pada makalah ini, dilakukan clustering menggunakan algoritma K-Means, K-Means Enhanced dan K-Means Maximum Minimum Criterion Algorithm. Selanjutnya, masing-masing hasil clustering tersebut dievaluasi oleh empat jenis indeks validitas, yaitu indeks Silhouette, Davies-Bouldin, Dunn, dan Calinski-Harabasz. Implementasi tersebut dilakukan padahimpunan data benchmark yang sudah diketahui jumlah klaster optimalnya yaitu himpunan data Iris, Ruspini, Seeds, dan Wine. Hasil implementasi dibandingkan untuk mengetahuiapakah keempat indeks validitas dapat memprediksi jumlah klaster dengan tepat.  Dari hasil simulasi, indeks Silhouette, Davies-Bouldin, dan Calinski-Harabasz dapat memprediksi jumlah klaster optimal lebih baik dibandingkan dengan Dunn.

Article Details

How to Cite
Khairati, A. F., Adlina, A., Hertono, G., & Handari, B. (2019). Kajian Indeks Validitas pada Algoritma K-Means Enhanced dan K-Means MMCA. PRISMA, Prosiding Seminar Nasional Matematika, 2, 161-170. Retrieved from https://journal.unnes.ac.id/sju/prisma/article/view/28906
Section
Articles

References

Baarsch, J., & Celebi, M. E. (2012). Investigation of Internal Validity Measures for K-Means Clustering. International Multiconference of engineers and computer scientists 1 (hal. 14-16). LA: Louisiana Board of Regents.
Bakshi, M., Derakhshi, M. R., & Zafarani, E. (2012, June). Review and Comparison between Clustering Algorithms with Duplicate Entities Detection Purpose. Computer Science & Emerging Technologies, 3, 108-114.
Dunn, J. C. (1973-09-01). Well-Separated Clusters and Optimal Fuzzy Partitions. Journal of Cybernetics (published 1974). 4 (1): 95–104.
Davies, D. L., & Bouldin, D. W. (1979, May). A Cluster Separation Measure. IEEE Transactions on Pattern Analysis and Machine Intelligence, 224-227.
Halkidi, M., Batistakis, Y., & Vazirgiannis, M. (2001). On Clustering Validation Techniques. Intelligent Information Systems, 107-145.
Jain, A. K. (2010). Data Clustering: 50 years beyond K-means. Pattern Recognition Letters 31, 651-666.
Jain, A., Murty, M., & Flynn, P. (1999). Data Clustering: A Review. ACM Computing Surveys, 264-323.
Lasheng, C., & Yuqiang, L. (2017). Improved Initial Clustering Center Selection Algorithm. SIGNAL PROCESSING Algorithm, Architecture, Arrangements and Application (SPA). Poznan: IEEE.
Liu, Y., Li, Z., Xiong, H., Gao, X., & Wu, J. (2010). Understanding of Internal Clustering Validation Measures. IEEE International Conference on Data Mining, (hal. 911-916).
Maitra, R., & Melnykov, V. (2012). Simulating Data to Study Performance of Finite Mixture Modeling and Clustering Algorithms. Computational and Graphical Statistics, 1-26.
Nanda, S., Mahanty, B., & Tiwari, M. (2010). Clustering Indian stock market data for portfolio management. Expert Systems with Applications, 8793–8798.
Nazeer, K. A., & Sebastian, M. (2009). Improving the Accuracy and Efficiency of the K-means Clustering Algorithm. World Congress on Engineering, 1. London.
Rosseeuw, P. J. (1987). Silhouettes: a graphical aid to the interpretation and validation of cluster analysis. Computational and Applied Mathematics, 53-65.
Yedla, M., Pathakota, S. R., & Srinivasa, T. M. (2010). Enhanching K-Means Clustering Algorithm with Improved Initial Center. International Journal of Computer Science and Information Technologies, Vol 1(2), 121-125