DOI QR코드

DOI QR Code

Cost-Sensitive Learning for Cardio-Cerebrovascular Disease Risk Prediction

심혈관질환 위험 예측을 위한 비용민감 학습 모델

  • Received : 2021.11.29
  • Accepted : 2021.12.14
  • Published : 2021.12.31

Abstract

In this study, we propose a cardiovascular disease prediction model using machine learning. First, a multidimensional analysis of various differences between the two groups is performed and the results are visualized. In particular, we propose a predictive model using cost-sensitive learning that can improve the sensitivity for cases where there is a high class imbalance between the normal and patient groups, such as diseases. In this study, a predictive model is developed using CART and XGBoost, which are representative machine learning technologies, and prediction and performance are compared for cardiovascular disease patient data. According to the study results, CART showed higher accuracy and specificity than XGBoost, and the accuracy was about 70% to 74%.

본 연구에서는 기계 학습을 사용하여 심혈관 질환 예측 모델을 제안한다. 먼저 두 집단간에 다양한 차이를 다차원분석하고 그 결과를 시각화한다. 특히, 질환과 같이 정상집단과 환자집단 간에 높은 클래스 불균형이 존재하는 경우에 대하여 민감도를 향상시킬 수 있는 비용 민감 학습을 사용하는 예측 모델을 제안한다. 본 연구에서는 대표적인 머신러닝 기술인 CART와 XGBoost를 사용하여 예측모델을 개발하고, 심혈관 질환 환자 데이터를 대상으로 예측하고 성능을 비교한다. 연구결과에 따르면 CART가 XGBoost 보다 더 높은 정확도와 특이도를 보였으며, 정확도는 약 70%~74%로 나타났다.

Keywords

Acknowledgement

본 연구는 참고문헌[10]을 토대로 작성되었으며, 정부(식품의약품안전처) 출연연구사업 지원을 받아 수행된 연구임(과제고유번호: KMDF-RnD 21163수입안517-1)

References

  1. Bosma, H., Peter, R., Siegrist, J., & Marmot, M. (1998). Two alternative job stress models and the risk of coronary heart disease. American Journal of Public Health, 88(1), 68-74. https://doi.org/10.2105/AJPH.88.1.68
  2. 지선하, 송지원, 조홍근, 김상연, 장양수, & 김정희.(2004), "허혈성심질환 발생예측모형 (health risk appraisal) 개발 연구," 한국지질 동맥경화학회지, 14(2), 153-168.
  3. 홍새미, 변해원, 김정순 and 문순희. (2015). 지역사회 거주 노인의 심뇌혈관질환 예측 모형. 예술인문사회 융합 멀티미디어 논문지, 5(1), 37-46.
  4. Chawla, N. V., Japkowicz, N., & Kotcz, A.(2004), "Special issue on learning from imbalanced data sets," ACM Sigkdd Explorations Newsletter, 6(1), 1-6. https://doi.org/10.1145/1007730.1007733
  5. Burke, G. M., Genuardi, M., Shappell, H., D'Agostino Sr, R. B., & Magnani, J. W. (2017). Temporal associations between smoking and cardiovascular disease, 1971 to 2006 (from the Framingham Heart Study). The American journal of cardiology, 120(10), 1787-1791. https://doi.org/10.1016/j.amjcard.2017.07.087
  6. 이동훈, 김민호, 김영원, 한영웅, 임명은, 김대희, 정호열, 최재훈.(2017), "Deep Belief Network를 이용한 심혈관계 질환 위험 예측," 제 29회 영상처리 및 이해에 관한 워크샵 IPIU 2017, Jeju, 1-3.
  7. 강길원 등(2019), 빅데이터 연계를 통한 심혈관 질환 예측 모형 개발, 보건복지부 보건의료기술연구개발사업 보고서, 충북대학교 산학협력단.
  8. Elkan, C.(2001), "The foundations of cost-sensitive learning," International Joint Conference on Artificial Intelligence. Lawrence Erlbaum Associates Ltd, 17(1), 973-978.
  9. Ling, C. X., & Sheng, V. S.(2008), "Cost-Sensitive Learning and the Class Imbalance Problem; 2011," Encyclopedia of Machine Learning, berlin, Springer.
  10. 이유나(2019), Cost-Sensitive Learning을 활용한 심뇌혈관 질환 발생 예측 모형 개발, 충북대학교 석사학위논문.