DOI QR코드

DOI QR Code

Classification Modeling for Predicting Medical Subjects using Patients' Subjective Symptom Text

환자의 주관적 증상 텍스트에 대한 진료과목 분류 모델 구축

  • 이서희 (아주대학교 경영대학 e-business학과) ;
  • 강주영 (아주대학교 경영대학 e-business학과)
  • Received : 2021.07.12
  • Accepted : 2021.08.23
  • Published : 2021.08.31

Abstract

In the field of medical artificial intelligence, there have been a lot of researches on disease prediction and classification algorithms that can help doctors judge, but relatively less interested in artificial intelligence that can help medical consumers acquire and judge information. The fact that more than 150,000 questions have been asked about which hospital to go over the past year in NAVER portal will be a testament to the need to provide medical information suitable for medical consumers. Therefore, in this study, we wanted to establish a classification model that classifies 8 medical subjects for symptom text directly described by patients which was collected from NAVER portal to help consumers choose appropriate medical subjects for their symptoms. In order to ensure the validity of the data involving patients' subject matter, we conducted similarity measurements between objective symptom text (typical symptoms by medical subjects organized by the Seoul Emergency Medical Information Center) and subjective symptoms (NAVER data). Similarity measurements demonstrated that if the two texts were symptoms of the same medical subject, they had relatively higher similarity than symptomatic texts from different medical subjects. Following the above procedure, the classification model was constructed using a ridge regression model for subjective symptom text that obtained validity, resulting in an accuracy of 0.73.

의료 인공지능 분야에서 의사의 판단에 도움을 줄 수 있는 질환 예측 및 분류 알고리즘에 대해선 많은 연구가 이뤄져왔지만, 의료 소비자의 정보 획득과 판단에 도움을 줄 수 있는 인공지능에 대해선 상대적으로 관심이 적다. 네이버 지식인에 지난 1년 간 자신의 증상엔 어떤 병원을 가야할 지 질문하는 질문 건수만 해도 15만 건이 넘는다는 사실은 의료소비자들에게 적합한 의료정보의 제공이 필요하다는 반증이기도 하다. 따라서 본 연구에선 의료소비자들이 자신의 증상에 대한 진료과목을 선택하는데 도움을 줄 수 있도록 네이버 지식인에서 환자들이 직접 서술한 증상 텍스트를 수집하여 8개 진료과목을 분류하는 분류모델을 구축했다. 우선 환자의 주관이 개입된 데이터의 타당성과 객관성을 확보하기 위해 객관적 증상 텍스트(서울응급의료 정보센터에서 정리한 진료과목 별 주요 질환 증상)와 주관적 증상 텍스트(지식인 데이터) 간 유사도 측정을 수행하였다. 유사도 측정 결과, 두 텍스트가 동일한 진료과목의 증상일 경우 상이한 진료과목의 증상 텍스트에 비해 상대적으로 높은 유사성을 가진다는 것을 입증했다. 상기 절차를 따라 타당성을 확보한 주관적 증상 텍스트를 대상으로 릿지회귀모델을 사용하여 분류모델을 구축한 결과 0.73의 정확도를 확보할 수 있었다.

Keywords

References

  1. 김윤영 외 2명, "성별에 따른 강박증상의 위험요인으로서 주관적 건강상태", 보건의료산업학회, 보건의료산업학회지, 제13권, 제4호, pp243-252, 2019. https://doi.org/10.12811/kshsm.2019.13.4.243
  2. 서민환 외 3명, "건성안증후군 환자의 주관적 증상 중증도와 관련 있는 객관적 지표들", 대한안과학회, 대한안과학회지, 제58권, 제3호, pp259-267, 2017.
  3. 서울응급의료정보센터, "1339 질환별 상담자료집", 질병관리청 국가건강정보포털, 2007, (2021.04.10.).
  4. 유중하, "두통의 증상 및 치료", 대한 스트레스학회, 스트레스연구, 제3권, 제1호, pp. 1-10, 1995.
  5. 황상흠, 김도현, "한국어 기술문서 분석을 위한 BERT 기반의 분류모델", 한국전자거래학회지, 제25권, 제1호, pp.203-214, 2020. https://doi.org/10.7838/JSEBS.2020.25.1.203
  6. Afzal, Naveed et al. "Mining peripheral arterial disease cases from narrative clinical notes using natural language processing." Journal of vascular surgery vol. 65,6, 2017.
  7. Aurelien Geron, "Hands-On Machine Learning with Scikit-Learn, Keras&TensorFlow", OREILLY,2018.
  8. Bo Wang et al., AI-assisted CT imaging analysis for COVID-19 screening: Building and deploying a medical AI system, Applied Soft Computing, Volume 98,2021.
  9. Castro, Victor M et al. "Large-scale identification of patients with cerebral aneurysms using natural language processing." Neurology vol. 88,2, pp 164-168, 2017. https://doi.org/10.1212/wnl.0000000000003490
  10. F. Li, D. Cheng and M. Liu, "Alzheimer's disease classification based on combination of multi-model convolutional networks," 2017 IEEE International Conference on Imaging Systems and Techniques (IST), 2017, pp. 1-5.
  11. Hobson Lane, Cole Howard, Hannes Hapke, "Natural Language Processing in Action", MANNING, 2019.
  12. Minghao Piao, 변정용, "SVM을 이용한 건강검진정보 기반 진료과목 예측", 정보처리학회논문지, 소프트웨어 및 데이터 공학 제6권, 제6호, pp303-308, 2017.
  13. Rajkomar, Alvin et al. "Scalable and accurate deep learning with electronic health records." NPJ Digital Medicine 1, 2018.
  14. Sandeep Tata, Jignesh M.Patel, "Estimating the Selectivity of tf-idf based Cosine Similarity Predicates", SIGMOD Record, Vol.36, No.2, 2007.
  15. Yang Eun Joo et al., "Symptom Perception and Functioning in Patients with Advanced Cancer", PlOS ONE, 2021, https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0245987