PERFORMA KLASIFIKASI DATA TIDAK SEIMBANG DENGAN PENDEKATAN MACHINE LEARNING (STUDI KASUS: DIABETES INDIAN PIMA)

Masjidil Aqsha, Nurtiti Sunusi

Abstract


Diabetes merupakan suatu penyakit atau gangguan metabolisme kronis dengan multi etiologi yang ditandai dengan tingginya kadar gula darah disertai dengan gangguan metabolisme karbohidrat, lipid, dan protein sebagai akibat insufisiensi fungsi insulin. Faktor risiko diabetes berhubungan dengan status diabetes sesorang. Berbagai pendekatan machine learning menjadi alternatif dalam memprediksi status diabetes. Namun, dalam banyak kasus, data yang tersedia tidak cukup seimbang dalam kelas datanya. Adanya ketidakseimbangan data dapat menyebabkan hasil prediksi menjadi tidak akurat. Tujuan penelitian dalam paper ini adalah untuk mengatasi masalah ketidakseimbangan data dan membandingkan kinerja model dalam memprediksi status diabetes. Secara umum, metode seperti Synthetic Minority Over-sampling Technique (SMOTE) dan Adaptive Synthetic (ADASYN) dapat digunakan untuk menyeimbangkan data. Data Diabetes Indian Pima yang telah diseimbangkan kemudian diprediksi dengan metode machine learning seperti metode Bagging, Random Forest, dan XGBoost. Hasil penelitian menunjukkan bahwa performa model machine learning meningkat setelah menangani ketidakseimbangan data dan model terbaik adalah model XGBoost. 


Keywords


Diabetes; Data Tidak Seimbang; Machine Learning

Full Text:

PDF

References


American Diabetes Association, 2015, Standards of medical care in diabetes 2015 abridged for primary care providers, Clinical Diabetes, 33(2) : 97 – 111

Baros, R. C., Basgalupp, M. P., Carvalho, A. C. P. L. F., & Freitas, A. A., 2011, Towards the automatic design of decision tree induction algorithms, Dalam: Proceedings of the 13th annual conference companion on Genetic and evolutionary computation, 182 – 196

Yang, P., Yang, Y. H., Zhou, B. B., & Zomaya, A. Y., 2010, A Review of Ensemble Methods in Bioinformatics: Including Stability of Feature Selection and Ensemble Feature Selection Methods, Current Bioinformatics, 5(4) : 296 – 308

Aqsha, M., Thamrin, S. A., & Lawi, A., 2021, Combination of ADASYN-N and Random Forest in Predicting of Obesity Status in Indonesia: A Case Study of Indonesian Basic Health Research 2013, Journal of Physics: Conference Series, 2123 : 012039

Rombe, Y., Thamrin, S. A., & Lawi, A., 2022, Application of Adaptive Synthetic Nominal and Extreme Gradient Boosting Methods in Determining Factors Affecting Obesity: A Case Study of Indonesian Basic Health Research Survey 2013, Indonesian Journal of Statistics and Its Applications, 6(2) : 309 – 317

Mustaqim, M., Warsito, B., & Surarso, B., 2019, Kombinasi Synthetic Minority Oversampling Technique (SMOTE) dan Neural Network Backpropagation untuk menangani data tidak seimbang pada prediksi pemakaian alat kontrasepsi implan, Jurnal Ilmiah Teknologi Sistem Informasi, 5(2) : 116 – 127

He, H., Bai, Y., Gracia, E. A., & Li, S., 2008, ADASYN: Adaptive Synthetic Sampling Approach for Imbalanced Learning, Dalam: 2008 IEEE International Joint Conference on Neural Networks (IEEE World Congress on Computational Intelligence), 1322 – 1328

Yap, B. W., Rani, K. A., Rahman, H. A. A., Fong, S., Khairudin, Z., & Abdullah, N. N., 2014, An Application of Oversampling, Undersampling, Bagging and Boosting in Handling Imbalanced Datasets, Dalam: Herawan, T., Deris, M., Abawajy, J. (eds) Proceedings of the First International Conference on Advanced Data and Information Engineering (DaEng-2013), 285 : 13 – 22

Chawla, N. V., Bowyer, K. W., Hall, L. O., & Kegelmeyer, W. P., 2002, SMOTE: Synthetic Minority Over-sampling Technique, Journal of Artificial Intelligence Research, 16(1) : 321 – 357

Zhu, T., Lin, Y., & Liu, Y., 2017, Synthetic Minority Oversampling Technique for Multiclass Imbalance Problems, Pattern Recognition, 72(C) : 327 – 340

Alghamdi, M., Al-Mallah, M., Keteyian, S., Brawner, C., Ehrman, J., & Sakr, S., 2017, Predicting diabetes mellitus using SMOTE and ensemble machine learning approach: The Henry Ford ExercIse Testing (FIT) project, PLOS ONE, 12(7) : e0179805

Breiman, L., 1996, Bagging Predictors In Machine Learning, Kluwer Academic, Boston

Han, J., Kamber, M., & Pei, J., 2012, Data Mining: Concept and Techniques, Edisi ke-3, Elsevier Inc, USA

Breiman, L., 2001, Random Forests In Machine Learning, Kluwer Academic, Boston

Chen, T., & Guestrin, C., 2016, XGBoost: A Scalable Tree Boosting System, Dalam: International Conference on Knowledge Discovery and Data Mining, 785 – 794

Patil, I., 2021, Visualizations with statistical details: The ’ggstatsplot’ ap- proach, Journal of Open Source Software, 6(61) : 3167




DOI: https://doi.org/10.25077/jmua.12.2.176-193.2023

Refbacks

  • There are currently no refbacks.


Copyright (c) 2024 Jurnal Matematika UNAND

Creative Commons License
This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.

Lisensi Creative Commons
Ciptaan disebarluaskan di bawah Lisensi Creative Commons Atribusi-BerbagiSerupa 4.0 Internasional.