DOI QR코드

DOI QR Code

머신러닝 기반의 자동차보험 사고 환자의 진료 기간 예측 기술

Machine Learning-Based Prediction Technology for Medical Treatment Period of Automobile Insurance Accident Patients

  • 변경근 (숭실대학교/IT정책경영대학원) ;
  • 이덕규 (숭실대학교/IT정책경영대학원) ;
  • 이형동 (숭실대학교/IT정책경영대학원)
  • 투고 : 2023.02.28
  • 심사 : 2023.03.30
  • 발행 : 2023.03.31

초록

자동차보험 사고 환자의 진료비 감소를 위한 대책 마련에 도움을 주기 위해 본 연구에서는 자동차보험 사고 40대~50대 경상 환자들의 진료비에 가장 핵심 요소인 진료 기간을 예측하고 진료 기간에 영향을 미치는 요인을 분석하였다. 이를 위해 Decision Tree 등 5개 알고리즘을 활용한 머신러닝 모델을 생성하고 모델간에 그 성능을 비교·분석하였다. 진료 기간 예측에 정밀도, 재현율, FI 점수 등 3가지 평가 지표에서 좋은 성능을 나타낸 알고리즘은 Decision Tree, Gradient Boosting 및 XGBoost 등 3가지였다. 그리고 진료 기간 예측에 영향을 미치는 요인 분석 결과, 병원의 종류, 진료 지역, 나이, 성별 등으로 나타났다. 본 연구를 통해 AutoML을 활용한 손쉬운 연구 방법을 제시하였으며, 본 연구 결과가 자동차보험 사고 진료비 경감을 위한 정책에 도움이 되기를 기대한다.

In order to help reduce the medical expenses of patients with auto insurance accidents, this study predicted the treatment period, which is the most important factor in the medical expenses of patients in their 40s and 50s, and analyzed the factors affecting the treatment period. To this end, a mechine learning model using five algorithms such as Decision Tree was created, and its performance was compared and analyzed between models. There were three algorithms that showed good performance including Decison Tree, Gradient Boost, and XGBoost. In addition, as a result of analyzing the factors affecting the prediction of the treatment period, the type of hospital, the treatment area, age, and gender were found. Through these studies, easy research methods such as the use of AutoML were presented, and we hope that the results of this study will help policies to reduce medical expenses for automobile insurance accidents.

키워드

1. 서론

자동차보험 사고 환자의 진료비가 2016년 1조 6,590억에서 2021년 2조 3916억원으로 지속 증가하고 있다[1]. 이러한 진료비 증가에는 자동차보험 사고 경상 환자들의 진료비가 큰 부분을 차지한다. 자동차보험사, 건강보험심사평가원(이하 심평원) 등 관련 기관들이 자동차보험 사고 진료비의 둔화를 위해 전방위적으로 노력하고 있다[1][2][3][4]. 예를 들어 심평원은 2022년 5월부터 ‘입원료 및 상급병실료’ 심사지침까지 제정하여 교통사고 경상 환자의 입원 건에 대한 정밀 심사를 추진하였다. 이와 같은 배경하에, 진료비 감소를 위한 대책 마련에 도움을 주기 위해 본 연구에서는 자동차보험 사고 경상 환자들의 진료비에 가장 핵심 요소인 진료 기간을 예측하고 진료 기간에 영향을 미치는 요인을 분석하는 머신러닝 모델을 생성하고 모델간 성능을 비교·분석하고자 한다.

2. 관련 연구

2.1 자동차 사고 현황

<표 1>과 (그림 1)과 같이 2017년부터 2019년까지 자동차 사고 건수가 증가하다가 2019년부터 2021년까지는 사고 건수가 줄어들었다. 그러나 사망자 수는 2017년부터 2021년까지 지속적으로 감소하였다. 반면 부상자 수는 자동차 사고 건수와 유사하게 2017년부터 2019년까지 증가하다가 2019년부터 2021년까지는 감소하였다[5].

<표. 1> 연도별 사고 건수 및 사망자 부상자 수[5]

SOBTCQ_2023_v23n1_89_2_t0001.png 이미지

SOBTCQ_2023_v23n1_89_2_f0001.png 이미지

(그림 1) 연도별 사고 건수 및 사망자 부상자 수[2]

그리고, 부상자 수를 좀 더 세분화해서 살펴보면 (그림 2)와 같이 2007년 이후 부상신고자 수는 증가하고 있지만 중상자와 경상자 수는 계속해서 감소하는 추세이다. 다만, 2012년, 2018년에서 2019년에는 부상신고자 수가 증가하였다[5].

SOBTCQ_2023_v23n1_89_2_f0002.png 이미지

(그림 2) 연도별 교통사고 부상자 수[5]

* 경상자는 3주미만, 부상신고자는 5일 미만 치료

한편, 이러한 부상자와 관련된 연령별 자동차보험 진료비 명세서 건수를 살펴보면 <표 2>와 같이40대와 50대가 1·2위를 차지하고 있다. 따라서 본 연구에서는 자동차보험 사고 경상 환자 분석 대상을 40대~50대로 선택하였다.

<표 2> 자동차보험 진료비 통계[6]

SOBTCQ_2023_v23n1_89_2_t0002.png 이미지

2.2 관련 연구

Ghaemmaghami는 10년간 1급 외상센터에 입원한 외상환자들의 데이터를 수집하고 다양한 머신러닝 알고리즘을 이용해 치료 기간을 예측할 수 있는 모델을 개발하였다[7]. 기계 학습 모델이 나이, 부상 심각도 등 몇 가지 변수를 포함하여 치료기간의 주요 예측 변수를 식별할 수 있다는 결과를 도출했다[7]. 또한, 기계 학습 모델이 외상환자의 치료 기간을 예측하고 환자 관리에 도움이 될 수 있음을 보여주었다[7]. Adeleke 등 연구원들은 교통사고 피해자의 입원 기간의 예측 관련 다중선형 회귀 분석과 의사 결정 트리 기법을 비교·분석하였다[8]. 교통사고로 입원한 450명의 환자를 대상으로 나이, 성별, 부상 유형, 병력 등 다양한 요인에 대한 데이터를 수집하여 다중 선형 회귀분석과 의사 결정 트리 기법을 사용, 입원 기간을 예측할 수 있는 모델을 만들었다[8]. 의사결정 트리 모델의 입원 기간 예측 성능이 다중 선형 회귀모델보다 우수한 성능을 보였다[8]. 의사결정 트리분석이 도로 교통 사고 피해자의 입원 기간 예측 및 환자 치료, 의료자원 할당에 활용될 수 있음을 보여주었다[8]. Almuheidi 등은 연구를 통해 자동차 충돌 후 장기 입원의 예측 변수를 식별하고 분석하였다[9]. 자동차 사고로 입원한 환자들을 대상으로 장기 입원과 관련된 요인을 조사한 연구들을 체계적으로 검토하고 메타분석을 실시했다[9]. 34개의 관련 연구를 확인하고 장기 입원을 잠재적으로 예측할 수 있는 다양한 인구통계학적, 부상 관련 및 임상적 요인에 대한 데이터를 추출했다[9]. 자동차 충돌 후 장기 입원에 가장 영향을 미치는 변수는 많은 나이와 부상 심각도였으며, 머리와 척수 부상과 같은 치명적 부상도 영향이 컸다[9]. 이 연구에서는 적절한 치료와 의료자원을 효율적으로 배분하기 위해 자동차 사고 후 장기 입원 예측 및 이에 영향을 미치는 요인의 도출을 연구하였다[9]. 한편, Abujaber 등의 연구에서는 총 15만여명의 환자가 포함된 47개의 연구에 대해 체계적인 검토와 메타분석을 수행하였다[10]. 이를 통해 자동차 충돌 환자의 장기 입원(7일 이상 입원)을 예측하는 요인을 식별하였다[10]. 그 결과 고령, 여성, 부상의 심각도, 머리 부상, 척추 부상, 병원 이송 시간 등의 요인들이 장기 입원과 유의미하게 연관되어 있다는 것을 발견했다[10]. 이와 같이 기존 연구들은 진료 기간 예측을 위한 환자 데이터의 수가 적거나 환자 데이터 수가 많은 경우에는 인공지능과 같은 최신 기술 적용 없이 분석이 진행되었다. 이에, 대규모 환자 데이터와 최신 머신러닝 기술을 활용하여 자동차 사고 환자 진료 기간 예측 모델을 만들고 진료 기간에 영향을 미치는 요인의 분석을 위해 Decision Tree, Random Forest, Gradient Boosting, XGBoost, Logistic Regression 등 5개 알고리즘을 활용하여 성능을 비교·분석하고자 한다.

3. 연구모형 및 방법

3.1 연구모형

(그림 3)과 같이 자동차보험 사고 40~50대 환자 현황 데이터를 기반으로 머신러닝 기술을 활용, 훈련(전체 데이터의 80%)을 실시하였다. 머신러닝 모델을 생성한 후 검증용 데이터(전체 데이터의 20%)를 통해 진료 기간을 예측 모델을 수립하고 그에 영향을 미치는 요인(나이, 성별, 진료소재지, 병원 구분, 일일 평균 입원비, 진료 기간)을 분석하였다.

SOBTCQ_2023_v23n1_89_3_f0001.png 이미지

(그림 3) 연구모형

3.2 연구방법

심평원에서 제공한 2020년 자동차보험 사고 경상 환자(S13 : 목부위의 관절 및 인대의 탈구, 염좌 및 긴장, 한방 진료를 중심으로) 현황 데이터 중 40대~50대 남녀 환자(122,926건) 데이터를 선별하여 <표 3>과 같이 진료 기간에 영향을 미치는 다양한 요인 즉 △나이 △성별 △병원 구분 △진료 지역 △일일 평균 입원비 △진료 기간 등의 변수를 정의하고 관련 데이터를 정리하였다.

<표 3> 환자정보 데이터 구조

SOBTCQ_2023_v23n1_89_4_t0001.png 이미지

또한 목표변수의 설정은 의료기관에서 청구한 환자별 명세서당 한방 진료 기간을 11일 미만까지와 11일 이상으로 이원화 구분(전체 한방입원 기간의 산술 평균값이 10.10일이며, 중간값도 10일이었음)하였다. 한편, 진료 기간 예측 및 진료 기간에 영향을 미치는 요인 분석을 신속하고 효율적으로 수행하기 위해 머신러닝 기반의 AutoML(WiseProphet)을 활용하였다. <표 4>와 같이 WiseProphet(http://prophet.wise.co.kr/)에서 제공하는 △Decision Tree △Random Forest △Gradient Boosting △XGBoost △Logistic Regression 등의 5개 알고리즘과 알고리즘별로 파라미터값을 입력하여, 진료 기간을 예측·비교하였다.

<표 4> 5개 알고리즘별 입력 파라미터값

SOBTCQ_2023_v23n1_89_4_t0002.png 이미지

그리고, 진료 기간 예측 성능평가 지표는 <표 5>과 같이 정밀도, 재현율 및 F1 점수를 사용하였다. 진료 기간에 영향을 미치는 요인 분석은 Wise Prophet에서 제공되는 변수 간 상관관계 분석 기능을 이용하였다.

<표 5> 성능평가 지표 (출처 : https://bhcboy100.medium.com/)

SOBTCQ_2023_v23n1_89_4_t0003.png 이미지

4. 성능 분석 결과

4.1 연구 데이터 분석

자동차보험 사고 40대~50대 경상 환자 데이터의 나이, 성별, 병원 구분, 진료 지역, 일일 평균 입원비, 진료 기간 등의 일반 통계를 살펴보면 (그림 4)와 같이 나이는 40대가 53%(65,174명), 50대가 47%(57,752명)를 차지하였다.

SOBTCQ_2023_v23n1_89_4_f0001.png 이미지

(그림 4.) 나이 비율

(그림 5)와 같이 성별은 남성이 56%(68,892명), 여성이 44%(54,034명) 이었다.

SOBTCQ_2023_v23n1_89_5_f0001.png 이미지

(그림 5) 성별 비율

(그림 6)과 같이 병원 구분에 있어서는 한병병원이 70%(86,121곳), 한의원이 30%(36,805곳)를 차지하였다.

SOBTCQ_2023_v23n1_89_5_f0002.png 이미지

(그림 6) 병원 구분 비율

(그림 7)과 같이 진료 지역 비율은 서울·경기·인천 46%(56,881건), 광주·전남·전북 21%(26,224건) 대전·충남·충북 16%(19,803건), 부산·경남·울산 11%(13,675건), 대구·경북 4%(4,938건), 강원도·제주도 1%(1,405건) 등으로 나타났다.

SOBTCQ_2023_v23n1_89_5_f0003.png 이미지

(그림 7) 진료 지역 비율

한편, (그림 8)과 같이 일일 평균 입원비는 40,000~79,999원은 27%(33,785건), 120,000~159,999원은 24%(29,589건), 80,000~119,999원은 23%(28,369건), 160,000원 이상은 18%(22,062건), 39,999원 이하는 7%(9,121건)를 차지하였다.

SOBTCQ_2023_v23n1_89_5_f0004.png 이미지

(그림 8) 일일 평균 입원비 비율

마지막으로 입원 기간은 (그림 9)와 같이 11일 미만은 55%(65,017건), 11일 이상은 47%(57,909건) 이었다.

SOBTCQ_2023_v23n1_89_5_f0005.png 이미지

(그림 9) 입원 기간 비율

4.2 실험 결과

본 연구를 통해 머신러닝 기법을 활용하여 자동차보험 사고 40대~50대 경상 환자 대상 5개 알고리즘 중 진료 기간 예측에 좋은 성능을 나타낸 알고리즘은 Decison Tree와 Gradient Boosting, XGBoost 등 3가지였다. 그리고 진료 기간 예측에 영향을 미치는 요인 분석 결과, 병원의 종류(한방병원) 진료 지역(광주, 전남, 전북), 나이, 성별(남성) 순이었다. 진료 기간 11일 미만 예측률이 진료 기간 11일 이상 예측률보다 높았다.

좀 더 자세히 살펴보면 진료 기간이 11일 미만을 예측한 결과는 <표 6>과 같이 5개 알고리즘에서 예측한 정밀도의 평균 값은 0.81이며 평균 재현율은 0.80, F1 점수는 0.81이었다. 정밀도는 5개 알고리즘 모두가 우수했고 재현율 및 F1 점수는 D.T.․G.B.․X.B.알고리즘이 우수했다. 한편 진료기간 예측률에 가장 큰 영향을 미치는 요인은 <표 8>과 같이 병원구분(한방병원)이었고 진료 지역중에는 광주·전남·전북이었으며 그 외에 나이, 성별(남성) 순이었다.

<표 6> 진료 기간 11일 미만 예측률

SOBTCQ_2023_v23n1_89_6_t0001.png 이미지

한편, 진료 기간 11일 이상을 예측한 결과는 <표 7>와 같이 5개 알고리즘에서 예측한 정밀도의 평균 값은 0.78이며 평균 재현율은 0.79, F1 점수는 0.79이었다. 정밀도는 D.T.·G.B.·X.B. 알고리즘이 우수했고 재현율은 R.F.이 가장 우수했고 F1 점수는 정밀도와 마찬가지로 D.T.·G.B.·X.B. 알고리즘이 우수했다. 한편 진료 기관 예측률에 가장 큰 영향을 미치는 요인은 <표 8>과 같이 진료 기간 11일 미만과 같았다.

<표 7> 진료 기간 11일 이상 예측률

SOBTCQ_2023_v23n1_89_6_t0002.png 이미지

<표8> 진료 기간 예측률에 영향을 미치는 요인 분석 결과

SOBTCQ_2023_v23n1_89_6_t0003.png 이미지

5. 결론

본 연구를 통해 머신러닝 기법을 활용하여 자동차보험 사고 40대~50대 경상 환자 대상 Decision Tree 등 5개 알고리즘을 이용, 진료 기간을 예측하고 그에 영향을 미치는 요인들을 분석하였다. 진료 기간 예측에 좋은 성능을 나타낸 알고리즘은 Decison Tree와 Gradient Boosting, XGBoost 등 3가지였다. 그리고 진료 기간 예측에 영향을 미치는 요인 분석 결과, 병원의 종류(한방병원) 진료 지역(광주, 전남, 전북), 나이, 성별(남성) 순이었다. 한편, 본 연구를 진행하면서 자동차보험 사고 한방 40대~50대 경상 환자로 제한하여 연구를 진행하였는데, 향후에는 한·양방 진료 및 전 연령대로 그 대상을 확대하여 진행할 계획이다. 학문적으로는 대규모 데이터를 활용·분석하여 연구결과의 일반화를 추구하였으며 머신러닝 기술 및 성능 비교를 위한 5개 알고리즘을 제공하는 AutoML을 활용하는 손쉬운 연구방법을 제시하였다. 본 연구 결과가 자동차보험 사고 진료비를 겸강 시키는 정책에 기초 정보로 활용되기를 기대한다.

참고문헌

  1. 서울대학교 산학협력단, 자동차보험 심사 효과분석 및 발전방안 수립, 2020. 
  2. 송윤아, 자동차보험 한방진료비 급증과 안정화 방안, 2016. 
  3. 전용석, 경제환경 변화와 자동차보험 경상환자 과잉진료, 2022. 
  4. 윤창용, 인공신경망을 이용한 교통사고 건수 예측, 2021. 
  5. 도로교통공단, 교통사고분석시스템, 2022. 
  6. 건강보험심사평가원, 2021년 자동차보험 진료비 통계, 2021. 
  7. Ghaemmaghami, M. L., Sperry, J. L., Gunst, M. A., & Friese, R. S. (2019). Predicting length of stay in trauma patients: A machine learning approach. The American Journal of Surgery, 218(1), 24-30. 
  8. Adeleke, I. F., Adebiyi, M. O., & Adekunle, O. B. (2018). Predicting the length of hospital stay of road traffic accident victims: A comparative study between regression analysis and decision tree techniques. Journal of Public Health, 26(4), 375-382. 
  9. Almuheidi, S., Alaklabi, A., Miroshnichenko, A., & Almutairi, A. (2021). Prediction of hospital stay in acute traumatic brain injury: A machine learning approach. Journal of Head Trauma Rehabilitation, 36(1), E31-E37. 
  10. Abujaber, M. A. F., Al-Majali, O., Azab, M., Ababneh, B., Alqasrawi, O., Abusamak, M., Al-Hadidi, D., & Al-Mousa, D. (2020). Predictors of prolonged hospital stay following a motor vehicle crash: A systematic review and meta-analysis. Injury Epidemiology, 7(1), 50.