데이터마이닝을 이용한 위암 예측모형 개발과 활용

Developing the predictive model for stomach cancer using data mining

  • 박일수 (국민건강보험공단 건강보험정책연구원) ;
  • 한준태 (국민건강보험공단 건강보험정책연구원) ;
  • 강석복 (영남대학교 통계학과) ;
  • 지재훈 (인제대학교 병원전략경영연구소)
  • Park, Il-Su (Health Insurance Policy Research Institute, National Health Insurance Corporation) ;
  • Han, Jun-Tae (Health Insurance Policy Research Institute, National Health Insurance Corporation) ;
  • Kang, Suk-Bok (Department of Statistics, Yeungnam University) ;
  • Ji, Jae-Hoon (Center for Health Care Strategic Management, Inje University)
  • 투고 : 2010.10.01
  • 심사 : 2010.11.23
  • 발행 : 2010.11.30


본 연구는 국민건강보험공단의 건강검진데이터, 자격 및 보험료, 그리고 진료비 데이터를 활용하여 위암 발생 예측모형을 개발하고자 하였다. 모형개발에는 데이터마이닝 방법론에 의한 로지스틱 회귀모형을 활용하였으며, 모형개발은 남성, 여성 그리고 전체에 대해 각각 개발하여 각 모형에서 위암 발생 결정요인의 차이를 비교하였다. 그 결과 위암 발견 예측에 가장 큰 영향을 미치는 특성은 수검자의 연령이었고, 다음으로 음주, 가족병력 (암) 순으로 나타났다. 남자가 여자보다 위암 발견 가능성이 다소 높은 것으로 나타났으며, 남성의 경우는 연령, 여성의 경우는 음주유무가 위암 발생에 많은 영향을 미치는 것을 확인 할 수 있었다.

We develope the predictive model for the incidence of the stomach cancer by utilizing the health screening data of the National Health Insurance in Korea. We also explore the characteristics for the stomach cancer. We perform the logistic regression analysis using the data mining methodology and use SAS Enterprise Miner 4.1. This study shows that there exists a higher rate of the stomach cancer for males than females. Our study confirms that the major influencing factors for the incidence of the stomach cancer are age, drinking and a family history of cancer, lack of exercise. For man, the age is the most important determinant of the stomach cancer incidence, whereas the drinking is the most important determinant of the stomach cancer incidence for women.



  1. 강성홍, 최순호 (2001). 데이터마이닝을 이용한 보건소의 건강증진사업의 효율화 방안. <대한의료정보학회지>, 7, 37-48.
  2. 고민정, 한준태 (2010). 주요 위험요인별 허혈성심질환 사망위험도 분석. <한국데이터정보과학회지>, 21, 201-209.
  3. 김정순 (2004). <역학원론>, 신광출판사, 서울.
  4. 박일수, 용왕식, 김유미, 강성홍, 한준태 (2008). 데이터마이닝 기법을 활용한 맞춤형 고혈압 사후관리 모형 개발. <응용통계연구>, 21, 639-647.
  5. 용왕식, 박일수, 강성홍, 김원중, 김공현, 김광기, 박노래 (2006). 고혈압 발생 예측 모형 개발. <보건교육.건강증진학회지>, 22, 13-28.
  6. 유근영, 신해림 (2003). 암의 위험요인과 예방. <한국역학회지>, 25, 1 -15.
  7. 이애경, 이상이, 박일수, 김수영, 윤태호, 정백근 (2006). 대장암 발생 고위험군의 예측모형 개발과 활용. <예방의학회지>, 39, 438-446.
  8. D'Agostino, Sr R. B., Grundy, S., Sullivan, L. M. and Wilson, P. (2001). Validation of the Framingham coronary heart disease prediction scores. Journal of the American Medical Association, 286, 180-187. https://doi.org/10.1001/jama.286.2.180
  9. Liu, J., Hong, Y., D'Agostino, Sr R. B., Wu, Z., Wang, W., Sun, J., Wilson, P. W. F., Kannel, W. B. and Zhao D. (2004). Predictive value for the Chinese population of the Framingham CHD risk assessment tool compared with the Chinese multi-provincial cohort study. Journal of the American Medical Association. 291, 2591-2599. https://doi.org/10.1001/jama.291.21.2591
  10. The World Health Organization's Fight Against Cancer (2007), WHO.