DOI QR코드

DOI QR Code

혼합 기계 학습 기반 소변 스펙트럼 분석 앙상블 모델

Ensemble Model for Urine Spectrum Analysis Based on Hybrid Machine Learning

  • Choi, Jaehyeok (Dept. of Computer Engineering, Pukyong National University) ;
  • Chung, Mokdong (Dept. of Computer Engineering, Pukyong National University)
  • 투고 : 2020.07.10
  • 심사 : 2020.07.17
  • 발행 : 2020.08.31

초록

In hospitals, nurses are subjectively determining the urine status to check the kidneys and circulatory system of patients whose statuses are related to patients with kidney disease, critically ill patients, and nursing homes before and after surgery. To improve this problem, this paper proposes a urine spectrum analysis system which clusters urine test results based on a hybrid machine learning model consists of unsupervised learning and supervised learning. The proposed system clusters the spectral data using unsupervised learning in the first part, and classifies them using supervised learning in the second part. The results of the proposed urine spectrum analysis system using a mixed model are evaluated with the results of pure supervised learning. This paper is expected to provide better services than existing medical services to patients by solving the shortage of nurses, shortening of examination time, and subjective evaluation in hospitals.

키워드

1. 서론

최근 개인의 의료정보를 바탕으로 분석 및 예측하여 각종 의료 서비스를 제공하는 연구가 활발하게 진행되고 있다[1]. 본 연구에서는 이러한 개인 의료 정보 중 병실에서 수기로 측정하는 소변 상태 결과를 머신러닝의 혼합모델을 이용하여 예측하고자 한다.

소변 상태 검사는 중환자의 경우는 첫 24시간 소변량이 사망률과 높은 연관성이 있어 중요한 검사이다[2]. 그래서 수술 전/후 환자, 신장 질병 환자, 중환자, 요양병원에서 신장과 순환기계 확인을 위해 유린백(Urine Bag)를 사용하여 측정을 하고 있다. 측정 방식은 간호사가 시간당 소변량, 색상 탁도, 성분을 소변 비색표를 보고 주관적으로 결정을 하고 있으며 최근 병원에서 간호사 부족으로 인해 대 소변량 측정, 맥박, 혈압측정 등을 간호보조 인력에게 위임을 하고 있다[3]. 또한 소변 측정 후 전자의무기록 (EMR, Electronic Medical Record)을 통해 의료진과 공유하는 시간까지 1∼3시간 소요가 되어 환자에 대한 빠른 대응이 불가하다. 그래서 본 연구는 기존 간호사 소변검사와 관련한 물리적 자원소비를 최소화하는데 목적이 있다. 따라서 소변을 가시광선 적외선 영역의 스펙트럼으로 변환한 18개 채널의 기계학습의 데이터를 비지도 학습과 지도학습을 혼합한 혼합 모델을 이용한 시스템을 제안하고자 한다.

본 논문의 구성은 다음과 같다. 2 절 관련 연구에 서는 소변해석, 스펙트럼, 머신러닝 기술들을 살펴보고, 3 절에서는 의료 데이터와 혼합모델의 이용 사례와 제안하는 소변 스펙트럼 분석 구성을 살펴본다. 4 절에서는 제안시스템을 평가하고, 마지막으로 5 절에서는 결론 및 향후 연구 방향을 제시한다.

2. 관련 연구

2.1 기계학습

기계학습은 컴퓨터에게 사람이 직접 지시하지 않아도 데이터를 통해 컴퓨터가 학습을 하고 그것을 사용해 컴퓨터가 자동으로 문제를 해결할 수 있도록 하는 것을 의미한다.

기계학습은 크게 3가지로 구별할 수 있는데 지도 학습, 비지도학습, 강화학습으로 구분이 되며 본 논문에서는 지도학습과 비지도학습 그리고 두가지 경우를 혼합하여 사용하는 혼합모델을 사용한다. 

지도학습은 주어진 훈련 데이터가 입력 데이터가 목표 데이터로 이루어지는 경우이다. 가령, 훈련 데이터가 사진1, 사진2, 사진3으로 구성된 경우 각 훈련 데이터에 고양이, 강아지, 앵무새로 지정하여 학습을 진행한다.

비지도학습은 데이터 내에서 비슷한 특징을 집단화, 군집화 하는 방법을 말하며 훈련 데이터가 목표 데이터 없이 오직 입력 데이터로만 학습하는 경우이다. 예를 들어 지도학습과 다르게 문장1, 문장2, 문장3 데이터 만을 가지고 학습을 진행한다.

혼합모델은 2가지 이상의 모델을 사용하는 학습 기법이며 본 논문에서는 비지도학습과 지도학습 방법을 상호 보완적으로 사용하지만 이 경우 비지도학습에서 지도학습으로 넘어갈 때 비지도학습의 결과인 군집화에서 지도학습 데이터로 만들어야 되는 문제점이 있는데 본 논문에서는 전문가 확인 시스템 방법으로 해결을 한다.[6]

본 논문에서 사용하는 비지도학습 모델은 Kmeans 알고리즘 이며 지도학습으로 사용된 모델은 XGBoost(Extreme Gradient Boosting)이다. K-means 알고리즘은 주어진 데이터를 k개의 군집화로 하는 알고리즘으로 각 군집화의 거리 차이의 분산을 최소화하는 방식으로 동작한다. XGBoost는 앙상블 모델의 부스팅(Boosting)기법을 이용한 모델이다. 앙상블 모델은 여러 모델을 이용하여 학습을 하여 모델의 예측결과를 평균하여 예측을 하는 방법이며 다수의 모델을 사용함으로 혼합 모델이라고도 한다. 앙상블 모델에서 Fig. 1처럼 배깅(Bagging) 기법과 부스팅기법으로 나뉘며 배깅 기법은 다수의 모델을 병렬 형식으로 학습 시키는 기법인데 각 모델은 독립적으로 학습이 진행되며 종 결과는 각 모델 결과를 합하여 구한다. 대표적인 배깅은 랜덤 포레스트(Random Forest)가 있다. 부스팅 기법은 약한 분류가 가능한 다수의 모델을 결합하여 강한 모델을 만드는 기법으로서 주어진 데이터를 약한 분류기를 통해서 학습한 후 학습된 결과에서 나타나는 오차를 또 다른 약한 분류기에서 학습시켜 오차를 줄여 나간다. 첫 번째 학습을 통해 생성된 모델에서 오류를 발생 시키는 데이터를 여러 모델을 순차적으로 오류를 줄여나가며 최종 결과는 배깅 기법과 같이 각 모델 결과를 합하여 구한다.[7] 대표적인 부스팅은 AdaBoost와 XGBoost가 있다. 본 눈문에서 사용하는 기법은 부스팅 기법이며 그중에 XGBoost을 2진 분류 지도학습으로 사용한다.

MTMDCW_2020_v23n8_1059_f0001.png 이미지

Fig. 1. Bagging and Boosting Structure

2.2 소변검사

소변은 소변 혈액이 신장을 통과하면서 혈액 내의 노폐물이 걸러진 후 방광에 모였다가 배출되는 것이다. 이러한 소변 생성 과정을 통해 신장을 체내 수분량을 조절하게 되며 체내에서 재사용할 수 있는 단백질, 전해질 및 기타 화합물을 보존하는 노폐물을 배출시키는 역할을 하고 있다.

소변검사란 소변의 색, 혼탁도 등 물리적 성상을 검사하고 소변으로 배출되는 여러 종류의 노폐물을 반 정량적으로 검출하는 검사이며 요로 감염 등의 신장 및 비뇨기계 질환, 내분비 질환, 대사성질환 및 전해질 이상을 비롯한 각종 질환의 선별검사이기 때문에 매우 중요한 검사 이다. 소변은 채취가 용이하여 환자에게 주는 부담이 적어 건강검진, 임신 중, 입원 혹은 수술 전 검사 목적으로 모든 환자에게 일차적으로 시행하는 검사이다.

소변검사는 3가지 방법이 있으며 물리적 성상 검사, 화학적 검사, 요침사 검사가 있다. 물리적 성상 검사는 소변의 육안적 색조 및 혼탁도, 냄새를 검사하고 화학적 검사는 요시험지봉을 이용하여 10가지 항목을 반정량적으로 검출하는 검사이다 마지막으로 요침사 검사는 현미경을 이용하여 적혈구, 백혈구, 세균 및 각종 결정을 관찰하는 검사이다. 보통 병원에서 소변검사 라고 한다면 물리적 성상 검사와 화학적 검사를 의미하며 요침사 검사는 소변검사 결과에 따라 추가적인 검사로 진행을 한다. 소변검사 방법은 보통 물리적 성상 검사와 화학적 검사는 같이 진행을 한다. 간호사가 유린 백에서 소변의 색, 혼탁도, 냄새를 검사 후 요시험지봉과 비색표를 가지고 육안으로 확인 후 추가적인 검사가 필요할 경우 임상 병리실의 임상병리사가 요시험지봉을 기계로 다시 한번 검사를 한다.[4]

2.3 소변검사 문제점 및 스펙트럼 분석

병원의 소변검사의 문제점이 3가지가 있는데 첫 번째가 정보 공유시간 지연, 두 번째 의료 인력 부족, 마지막으로 간호사가 주관적으로 소변검사를 결정한다는 것이다. 정보 공유시간 지연은 간호사가 소변을 측정 후 EMR(전자의무기록, ELectronic Medical Record) 또는 EHR(전자건강기록, Electronic Health Record)을 통해 의료진과 공유하는 시간까지 약 1~3시간 소요 되며, 의료 인력 부족은 소변 상태를 측정에는 많은 시간이 소요되는데 간호사 인력 부족으로 소변 상태 측정을 간호보조 인력에 위임을 하고 있다.(대, 소변량측정, 맥박, 혈압측정, 흡인, 위관급식 등) 마지막으로 간호사가 주관적 소변검사를 결정하는 부분은 간호사가 환자의 소변 이상 유무 1차적 판단이 간호사의 주관에 결정을 하고 있다. 이러한 문제점을 개선하기 위해 소변 스펙트럼 분석 방법을 제안한다. 또한 기존 지도학습으로 의료 데이터를 학습하였다면 본 논문에서는 지도학습(Supervised Learning)과 비지도학습(Unsupervised Learning) 즉 혼합모델(Hybrid Model)을 제안하여 기존 지도학습 보다 좋은 결과를 얻을 수 있는 방향을 제시한다.

스펙트럼은 파장 또는 주파수에 따라 측정을 하여 감마선(∼0.01 nm), 엑스선(0.01 nm∼10 nm), 자외선(10 nm∼400 nm), 가시광선(400 nm∼700 nm), 적외선(700 nm∼1000 nm), 마이크로파(1000 nm∼1 m), 전파(1 m∼) 총 7가지 영역으로 구분한다. 가시광선, 적외선 2가지 영역을 사용하여 실험을 진행한다[5].

3. 소변 스펙트럼 분석을 위한 모델 설계

3.1 소변 데이터 수집 및 가공

본 연구에서는 서부산 C병원 (종합 병원 규모) 에서 약 7만개 소변검사 데이터를 제공받아 연구를 진행하였고 본 대학 기관생명윤리위원회에서 승인 받은 연구이다(승인번호 : 1041386-202003-HR-15-02). 아래 Table 1는 제공받은 소변검사 데이터의 10가지 성분 명을 나타내고 있다.

Table 1. Urinary Components

MTMDCW_2020_v23n8_1059_t0001.png 이미지

본 논문에서 제시하는 연구 방법은 비지도학습과 지도학습을 혼합하여 사용을 하며 먼저 비지도학습으로 군집화 한 다음 지도학습을 사용하여 분류한다.

연구 범위는 본 논문에서 제시하는 10가지 성분 중 검출이 되면 위험한 4가지 성분을 바탕으로 하여 성분의 미검출, 검출을 분류 기준으로 한다.

본 논문의 전체적인 소변 스펙트럼 분석 구조는 Fig. 2 그림 처럼 소변검사, 스펙트럼 변환, 비지도학습 : K-means 군집화, 영역 전문가 확인 시스템, 지도학습 : XGBoost 로 구성이 되어있다.

MTMDCW_2020_v23n8_1059_f0002.png 이미지

Fig. 2. Sequence of Urine Spectrum Analysis.

소변검사에서 BLD, PRO, GLU, LEU 등의 데이터를 스펙트럼으로 변화 후 혼합모델의 비지도 학습을 이용해 군집화를 한 다음에 영역 전문가 확인 시스템에서 영역 전문가-의사의 확인을 통해 데이터를 가공 후 지도학습으로 최종 결과를 예측한다.

아래 Table 2는 병원으로부터 소변검사 결과 데이터 수집 항목이며 BLD, PRO, GLU, LEU 등 총 4개 성분의 결과 약 7만 개 데이터를 수집하였다. 각 성분의 검사결과가 뜻하는 의미는 neg(Negative) 의미는 미검출을 의미하고 숫자 결과는 낮은 수치부터 큰 수치까지 반정량적으로 측정 된다.

Table 2. Urinary Inspection Results​​​​​​​

MTMDCW_2020_v23n8_1059_t0002.png 이미지

3.2 소변 데이터 스펙트럼 변환

소변 데이터를 스펙트럼 데이터로 변환하기 위해서 서부산 C병원에서 환자의 소변을 받아 AMS회사의 AS72651 기계를 이용하여 소변 데이터를 스펙트럼 데이터로 변환하였고, 2절 관련 연구에서 소개된 가시광선과 적외선 영역에서 넓은 스펙트럼을 얻기 위해 3개의 기계를 사용하여 각 기계마다 6개 총 18채널을 설정하여 변환을 하였다. 첫 번째 기계는 보라, 남색, 파랑, 초록을 검출 하였으며 두 번째 기계는 초록, 노랑, 주황, 빨강, 적외선 영역 2개를 검출 하고 마지막 기계에서 주황, 빨강 영역 3개, 적외선 영역 2개를 검출 하였다. 그리하여 최종적으로 Fig. 3 처럼 18개, A∼W까지의 스펙트럼 데이터로 변환하였다.

MTMDCW_2020_v23n8_1059_f0003.png 이미지

Fig. 3. Urine Spectrum Data.​​​​​​​

3.3 소변 스펙트럼 분석 시스템

일반적으로 사용하는 앙상블 모델은 다수의 지도 학습 모델을 가지고 학습을 한다. 하지만 비지도 학습과 지도 학습을 같이 사용하는 경우는 다수의 지도 학습과 다른 방법이 필요하다. 비지도 학습과 지도 학습의 차이점은 학습할 데이터에 있는데, 비지도 학습은 학습 데이터의 정답을 알 수 없고, 지도 학습은 정답을 알고 있다 즉 비지도 학습의 결과는 데이터의 특징에 따라 군집화 결과가 나오며 지도 학습의 결과는 정답이 출력된다. 따라서 비지도 학습 결과를 지도 학습 데이터로 사용하기 위해서는 아래 Fig. 4 처럼 중간에서 비지도 학습 군집화 결과에 레이블링을 해주기 위한 방법이 필요 하다. 본 논문에서는 비지도 학습과 지도 학습을 혼합모델을 만들기 위한 방법으로 영역 전문가 확인 시스템을 제안한다.

MTMDCW_2020_v23n8_1059_f0004.png 이미지

Fig. 4. Structure of Urine Spectrum Analysis.​​​​​​​

혼합모델의 구성은 BLD, PRO, GLU, LEU 등 4가지의 소변검사 성분을 수집하여 스펙트럼 데이터를 얻은 후에 혼합 모델의 비지도 학습 K-means, 영역 전문가 확인 시스템, 지도 학습으로 구성된다. 

소변검사 결과 데이터를 수집하여 A∼W의 18 개 채널 스펙트럼 데이터를 얻어 혼합모델의 첫 번째 부분인 비지도 학습은 한 데이터가 18개이며 있으며 K-means 군집화를 사용 하여 K=2, 즉 2가지로 군집화를 하여 다음 혼합모델인 영역 전문가 확인 시스템으로 결과 값을 보낸다.

영역 전문가 확인 시스템에서는 비지도 학습 Kmeans 군집화 결과를 영역 전문가-의사가 확인하여 BLD, PRO, GLU, LEU 등의 각 성분의 미검출과 검출로 구분한다.

4. 실험 결과 및 고찰

실험 환경은 CPU i7-8700, 메모리 16GB 사용하였으며 운영체제는 윈도우 10 아나콘다의 쥬피터 노트북에서 텐서플로우 2.0 버전을 사용 하여 실험을 하였다.

각 성분별 마다 비교 평가를 위해 평가 방식은 TP, FP, FN, TN 방식으로 하였으며 각 평가 방식의 세부 내용은 True Positive(TP) : 실제 검출인 정답을 검출이라고 예측, False Positive(FP) : 실제 미검출인 정답을 검출 이라고 예측, False Negative(FN) : 실제 검출인 정답을 미검출 이라고 예측, True Negative(TN) 실제 미검출인 정답을 미검출 이라고 예측. 이렇게 총 4가지로 평가를 하였으며 True Positive를 Type 1, False Positive를 Type 2, False Negative를 Type 3, True Negative를 Type 4로 작성하여 평가표 Table 3을 작성한다.

Table 3. Results of Urine Spectrum Analysis

MTMDCW_2020_v23n8_1059_t0003.png 이미지

​​​​​​​​​​​​​​가장 먼저 이진 분류 DNN, XGboost, 그리고 제안 시스템을 비교 평가한다. 제안시스템의 경우는 비지도 학습에서 정상적으로 군집화된 데이터만 지도학습으로 넘어가기 때문에 다른 평가 모델과 전체 데이터수가 다르게 되어서 병원에서 중요하게 생각하는 오진율을 각 모델에 추가해서 평가를 하였다.

Type 1(True → True), Type 4(False → False)는 정상적으로 예측을 한 것이며 Type 2(False → True), Type 3(True → False)는 정상적으로 예측을 하지 못한 것이다. 이러한 평가 기준을 가지고 각 성분의 DNN, XGBoost, 제안시스템을 비교하면 전체적으로 좋은 결과를 보여주고 있다 하지만 XGBoost와 제안 시스템의 GLU 성분의 결과는 보면 제안시스템과 XGboost와의 한건의 오진율을 보여주고 있다. 이를 제외하고는 제안시스템이 기존 XGboost 오진율 보다 BLD 1.7%, PRO 0.2%, LEU 0.7% 감소된 오진율을 보여주고 있다.

이로 인해 지도학습만 사용하는 것 보다 비지도 학습과 지도학습을 같이 사용 한 모델이 더 좋은 성능을 보여주는 것을 알 수 있다. 이 실험 결과로 오진율을 최소화 할 수 있는 방법은 군집화 실패 데이터를 사용하는 것보다 군집화 성공 데이터를 사용하는 것이 좋은 성능을 보여 줄 수 있는 것으로 확인하였다.

본 논문의 제안시스템이 높은 정확도와 낮은 오진율의 이유는 이진(검출과 미검출)으로 분류를 하였기 때문이며 3.1절 Table 2처럼 의료 환경에서 사용하는 반정량적(BLD : neg, 5, 10, 50, 250)으로 실험할 경우 정확도가 다소 떨어질 것으로 예측된다. 이 실험 결과로 의료 환경의 문제점인 의료인력 부족으로 인한 기존 소변검사를 간략하게 할 수 있을 것이며, 또한 영역 전문가 확인 시스템으로 간호사의 주관적인 검사를 최소화 하고 장시간이 걸렸던 전자의무기록 공유시간도 단축 할 수 있다. 마지막으로 제안시스템은 혼합 기계학습 모델을 사용한 제안시스템이 XGboost 보다 BLD 1.7%, PRO 0.2%, GLU 0.1%, LEU 0.7%의 낮은 오진율을 보여 주기 때문에 현재보다 높은 의료 서비스를 제공할 수 있을 것이다.

5. 결론

본 논문에서는 병원의 소변검사 문제점으로 정보 공유 시간 지연, 의료인력 부족, 간호사의 주관적 소변검사 결정 등의 문제들을 해결하기 위해 혼합 기계 학습에 기반을 둔 소변 스펙트럼 분석 시스템을 제안하였다. 소변 스펙트럼 분석 시스템은 소변검사 데이터를 가지고 스펙트럼으로 변환하여 ,비지도학습 : K-means, 영역 전문가 확인 시스템 그리고 지도학습: XGBoost으로 구성을 하고 있는 혼합모델을 사용하였다. 지도 학습만을 사용 하는 기계 학습 모델이 아니라 비지도 학습과 지도 학습을 혼합 사용하여 순수 지도 학습 보다 좋은 결과를 보여주었다. 또한 비지도 학습의 군집화 결과를 지도 학습을 위한 데이터로 변환 하는 영역 전문가 시스템을 제안하여 비지도 학습과 지도 학습을 같이 사용하는 혼합모델을 제시하여 실 환경 병원에서는 군집화 성공 데이터를 사용하는 것이 기존 보다 더 좋은 의료 서비스를 제공할 수 있을 것이다.

또한 간호사가 직접 병실을 돌아다니면서 소변검사를 함으로써 생긴 정보 공유시간 지연 문제와 의료 인력 부족 문제를 기계학습을 이용하여 소변검사를 간략하게 만들었고 간호사가 주관적으로 소변검사 결정을 하는 부분을 제안시스템의 영역 전문가 확인 시스템을 통하여 해결을 하였다. 또한 기계학습 방식으로 소변검사 데이터가 지도학습으로만 예측하는 것 보다 혼합모델을 사용할 경우 진료 성공을 높일 수 있음을 연구를 통해 알 수 있었다.

향후에는 검출, 미검출 같은 2진 분류가 아닌 각 성분별로 세부 분류 하여 실제 의료 환경에서 테스트를 통해 의료인력 부족 부분에 정량적 평가를 수행하고자 한다.

참고문헌

  1. S.H. Lim, Y.J. Kim and K.G. Kim, “Three-Dimensional Visualization of Medical Image using Image Segmentation Algorithm based on Deep Learning,” Journal of Korea Multimedia Society, Vol. 23, No. 3, pp. 468-475, 2020.
  2. W.C. Kim, H.C. Kim, J.Y. Seo, S.W. Na, S.O. KO, C.M. Lim, et al., "F-133 : Effect of Urine Volume in the First 24 Hours of Intensive Care Unit on Prognosis," The Korea Academy of Tuberculosis and Respiratory Diseases, Vol. 116, No. 0, pp. 173, 2013.
  3. T.W. Lee, K.H. Kang, Y.K. Ko, S.H. Cho, and E.Y. Kim, “Current Status and Challenges of Domestic and Foreign Nurses Manpower Policy,” Journal of Korean Academy of Nursing Administration, Vol. 20, No. 1, pp. 106-116, 2014. https://doi.org/10.11111/jkana.2014.20.1.106
  4. KCDC Urinalysis(2016), https://health.cdc.go.kr/health/HealthInfoArea/HealthInfo/View.do?idx=850 (accessed July 5, 2020).
  5. Ams Company AS7265x Smart 18-channel VIS+NIR Spectral_ID Sensor with Electronic Shutter Datasheet(2018), https://ams.com/documents/20143/36005/AS7265x_DS000612_1-00.pdf/08051c8a-a7f6-6231-7993-2d3fe0bf38b8 (accessed July 5, 2020).
  6. C.M. Bishop, Pattern Recognition and Machine Learning, 2006. (Spinger:New York)
  7. T. Chen and C. Guestrin, "Xgboost: A Scalable Tree Boosting System," Proceedings of the 22nd ACM Sigkdd International Conference on Knowledge Discovery and Data Mining, pp. 785-794, 2016.