Perbandingan Metode Klasifikasi Supervised Learning pada Data Bank Customers Menggunakan Python
Main Article Content
Abstract
Makalah ini bertujuan untuk menganalisis dan membandingkan metode–metode pendekatan supervised learning dengan menggunakan studi kasus data churn modelling dari kaggle. Penelitian ini menggunakan program jupyter notebook berbahasa python. Langkah yang dilakukan adalah persiapan yaitu untuk menyiapkan modul yang digunakan untuk analisis supervised learning. kemudian pre-processing data yaitu melabeli data yang memiliki tipe data kategorik, setelah itu membagi data untuk data training dan tesing dengan perbandingan 9:1. Lalu dibuat model dan confussion matriknya untuk setiap metode. Metode yang digunakan adalah regresi logistik, K-nearest neighboor, naive bayes, super vector machine, dan random forest. Berdasarkan hasil perhitungan akurasi metode supervised learning diperoleh nilai: 0,82 untuk metode regresi logistik, 0,839 untuk metode K-nearest Neighboor, 0,8 untuk metode super vector machine, 0,836 untuk metode naive bayes, 0,791 untuk metode decision tree, 0,862 untuk metode random forest. Jadi dilihat dari akurasinya maka metode random forest adalah metode terbaik untuk menganalisis data bank-customer dengan nilai akurasi 0,862.
Article Details
References
Breiman, L., & Cutler, A. (2003). Random forests manual v4. In Technical report. UC Berkel.
Fractal. (2003) Comparative Analysis of Classification Techniques, A Fractal White Paper.
McKinney Wes. (2012). Python for data analysis, O'Relly
Suyanto. (2018). Machine learning tingkat dasar dan lanjut, bandung, informatika
Hair, J. F., Black, W. C., Babin, B. J., Anderson, R. E., & Tatham, R. L. (1998). Multivariate data analysis (Vol. 5, No. 3, pp. 207-219). Upper Saddle River, NJ: Prentice hall.