1. 서론
자궁경부암은 자궁의 입구인 자궁경부에 발생하는 생식기 암으로 여성 암 중 두 번째로 발병 빈도수가 높은 암이다[1]. 자궁경부암 발병의 주요 원인인 인유두종바이러스(HPV)는 한국 여성 내의 감염률이 높은데 반해 특별한 징후가 없고 잠복기가 길어, 정기적인 검진을 통한 초기 발견이 중요하다[2,3].
자궁경부암의 기본적인 선별검사법으로는 세포 검사(pap cytology)가 사용되어진다. 하지만, 미숙한 검체 채취, 부적절한 세포고정, 그리고 판독상의 오류 등으로 인해 위음성율(false negative rate)이 58%에 이를 정도로 매우 높으며 이를 보완하는 다양한 검사가 있다. 이 중 질확대경검사(colposcopy)는 형태학적으로 암이 의심되는 병변 부위를 타게팅하여 조직을 떼어내는데 매우 유용한 검사이지만, 반드시 전문화된 콜포스코피스트(well experienced colposcopist)에 의해서만 검사가 시행되어야 하는 한계를 가지고 있다. 그러므로 자궁경부암 진단에 있어서 이를 대체할 안전한 선별 검사가 필요하며 현재 각국에서 실행되는 다양한 선별 검사의 정확성과 안전성 높이기 위해 컴퓨터 보조 시스템의 도입이 필요하다[4].
인공지능(AI) 알고리즘을 통한 자궁 경부의 병변을 분류하는 컴퓨터 보조 진단 시스템(computeraided diagnosis, CAD)은 최근 많은 연구와 개발이 진행되고 있다[5]. 따라서 전문의의 판단과 추가적인 보조 시스템으로서 인공지능 시스템을 이용한 자궁경부의 감염 여부를 판단하는 데 도움이 된다.
딥러닝은 의료 영상을 이용한 병변을 분류하고 분석하는 데 중요한 역할을 하고 있다. CNN(Convolutional Neural Network)기반의 딥러닝은 데이터 속 패턴을 발견하고 이미지를 구분하는 정보처리 방식을 모방하여 인공 신경망을 구축한다[6]. 딥러닝 기술은 의료 영상 분야에서도 병변을 촬영한 색조 영상을 자동으로 분류하는 데 적합하다고 보고된다. 피부암(skin cancer), 위내시경(Gastric Endoscopy) 등 질병 단계를 판단하고 암 조직을 발견하기 위한 인공지능 기술 개발이 많이 보고 되고 있다[7,8].
2018년 “Colposcopic assessment of the accuracy of cervical cytology screening(Br Med J)”의 보고에 따르면Keras neural network 와 TensorFlow 라이브러리를 활용해 자궁 경부 이형성증(dysplasia), 상피성 암, 침습성 암 총 3단계로 분류하는 연구가 발표되었다. 이 연구는 정상 자궁 경부를 포함하지 않고 확정 암의 종류를 분류하였고 33∼50%의 정확도의 결과를 나타냈다[9].
또한, 자궁 경부는 질 내 상처와 암 유발과 무관한 감염으로 눈으로 명확한 진단이 어려우며 오진이 잦아 컴퓨터 보조 진단 시스템이 필요하다. 그러나 그에 반해, 현재까지 자궁경부 영상데이터를 딥러닝을 이용해 자궁경부의 병변 유무를 분류한 경우는 보고된 바가 없다.
특히 자궁 경부의 경우, 일부 조직의 색 변화가 병기 분류의 원인이 되므로 이미지의 전 처리가 한정적이다[10]. 그러므로 학습시킬 데이터의 전처리 과정에서 어떤 영상 범위의(FOV, Field of View) 이미지가 모델 성능을 효율적으로 높일지 알아볼 연구가 필요하다. 눈으로 쉽게 분류가 어려운 경우 유사 데이터의 변형은 모델 성능에 차이를 만든다[11]. 크롭한 영상의 경우 이미지가 자궁 경부만을 포함하고 진단에 불필요한 조직을 잘라내어 학습에 쓰일 이상 치를 줄일 수 있다. 그러나 이는 제로 패딩과 같이 영상이 질 내막을 포함하지 않아 자궁 주변 정상 조직의 색과 시약으로 변색된 조직의 민감한 색 차이를 구별하기엔 힘들다. 그러므로 본 연구를 통해 입력 데이터의 형태적 차이를 두어 딥러닝 모델이 자궁 경부 암 발병 여부를 판단하는 데 있어 어떠한 특징에 중점을 두고 학습하는지 알고자 한다. 현재까지 보고된 바에 따르면 자궁 경부암의 임상적 진단 모델 개발에 있어서 데이터의 입력 형태를 비교를 통한 영상 내 특징적 요소를 분석한 바 없다. 딥러닝을 통한 학습에서 영상 입력 범위(FOV)를 바꾸는 전처리 과정은 향후 더 세분화된 자궁경부암 진단 모델 연구에 큰 기반이 될 것이다.
따라서 본 연구는 자궁경부 영상데이터를 인공지능 알고리즘을 적용하였고, 자궁경부 질환 유무를 분류하였다. 전 처리 방법에 너비의 중심에 맞춰 양쪽을 자르는 방식(cropped)과 원본 이미지의 너비에 맞춰 빈 공간을 채우는 방식(zero padding)의 영상 영역 종류에 따른 방법을 이용하여 성능 비교 평가를 진행하였다.
2. 재료 및 방법
2.1 연구 재료
본 연구는 ㈜엔티엘헬스케어에서 개발한 자궁경부 영상진단장비(Dr.Cervicam)를 이용해서 촬영한 자궁경부 이미지를 병기에 따라 정상 자궁경부와 병변이 존재하는 자궁경부 데이터를 수집하였다.
또한, 본 연구는 자궁경부의 정상 여부를 전 처리 과정에 따라 비교하는 연구이므로 비정형 상태(Atypical)를 병변이 있는 자궁 경부로 정의하여 학습하였다. 수집된 데이터는 정상 데이터와 병변 데이터 각각 4,107장, 6,285장으로 정상 훈련 데이터(Normal _Training data) 3,287장, 정상 확인 데이터(Normal _Validation data) 820장, 병변 훈련 데이터(Abnormal _Training data) 5,029장, 병변 확인 데이터 (Abnormal _Validation data) 1,256장이다.
2.2 연구 방법
영상 데이터 이미지는 각 촬영에 이용된 카메라의 가로, 세로 비율이 다르다. 연구에 쓰일 모든 이미지의 가로, 세로 비율을 동일하게 만들고 크기를 256× 256화소로 변환(resampling)하여 사용하였다. 본 연구는 전처리 방식에 따른 진단 모델의 성능을 비교 하기 위해 두 가지의 이미지 전처리 방법이 존재한다. 원본 이미지를 정사각형으로 변환하는 과정에서 이미지의 높이를 한 변으로 하여 너비의 중심에 맞춰 양쪽을 자르는 방식(cropped)과 원본 이미지의 너비에 맞춰 빈 공간을 채우는 방식(zero padding)을 이용하였다. 학습에 필요한 정사각형 이미지를 얻기 위해, 두 가지 방법으로 전 처리한 결과 이미지들을 Fig. 1로 나타냈다.
Fig. 1. Result of image data processing. (a) Original, (b) cropped image, (c) Image with empty rectangles up and down.
2.3 선행 학습
영상의 입력 형태 비교를 위한 최종적 연구에 앞서 연구에 쓰일 학습 모델을 선정하고자 한다 해당 연구에 사용할 학습 모델을 선정하기 위해 영상 분류에 일반적으로 쓰이는 모델인 ResNet-50, Inception V3, DenseNet-121을 선행 학습 모델로 임의로 정하여 비교하였다. 모델의 학습 성능을 실험하기 위해 영상 입력 형태를 크롭 형태로 고정하고 학습에 사용된 컴퓨팅 파워에 따라 배치 사이즈와 반복 횟수를 각각 80, 1000으로 고정하였으며, 학습 조기 종료(Early Stopping) 함수의 patience를 10으로 지정하였다. 이 실험은 입력 데이터 형태를 크롭과 제로 패딩을 비교하는 최종적 연구에 쓰일 모델을 선택하는데 기반이 되었다. Table 1은 각 학습 모델의 따른 결과 값이다.
Table 1. Comparative results of learning models using cropped images(advanced study)
2.4 모델 학습
선행 연구를 기반으로 본 연구는 학습 모델 ResNet-50을 사용하여 영상 입력 형태에 따른 모델 성능 비교를 하고자 한다.
2015년 ILSVRC(ImageNet Large Scale Visual Recognition Challenge, Hawaii, USA)에서 우승한 ResNet은 딥러닝의 이미지 분류 성능을 극대화한 모델이다[12]. 연구에 이용한 ResNet -50 모델은 50개의 구조 층으로 이루어져 있고 연산 시간이 짧다. 또한, ResNet-50은 34-레이어 네트워크의 2-레이어 블록을 3-레이어 병목 블록으로 바꿔 학습의 성능이 높다[13]
본 연구는 ResNet-50모델을 기반으로 영상 전처리 방식에 따른 학습 정확도를 비교하기 위해 배치 사이즈, 반복 횟수, 이미지 크기는 모두 동일하게 설정하였다. 컴퓨팅 파워 기반으로 배치 사이즈(Batch Size)는 80, 반복 횟수(Epochs)는 1000으로 지정하고, 학습 조기 종료(Early Stopping)함수의 patience를 10으로 설정하여, 학습에서 loss의 개선 없이 반복 횟수가 10 이상 지속될 경우 학습을 조기 종료시켜 과적합(over fitting)을 막고자 하였다. 또한, 교차 검증 (Cross Validation)을 이용하여 이미지 학습의 정확도를 판단하였다. 두 가지 유형의 전처리 모델을 비교하기 위해 각각 5개의 평가 지표를 두고 이 평균 값으로 최종적인 모델의 성능을 비교하였다.
3. 결과
본 연구에서는 자궁경부 영상을 분류하고 동일한 조건하에 이미지 전 처리에 따른 모델성능을 비교하기 위해 ResNet-50모델을 활용하여 학습시켰다 결과 이미지는 5-Fold 교차 검증(Cross Validation)에서 각각 정확도(Accuracy), 정밀도(Precision), 재현율(Recall), F1-score, AUC를 기준으로 비교되었다.
Fig. 2. Architectures of ResNet-50 for images processed.
학습 모델의 성능은 실제 정상 자궁 경부를 정상으로 분류한 데이터를 진양성(TP, True Positive), 질환이 있는 자궁 경부로 분류한 데이터를 위양성(FP, False Positive)라고 정의한다. 또한 실제 질환이 있는 자궁 경부를 질환이 있는 자궁 경부로 분류한 데이터를 진음성(TN, True Negative), 정상 자궁경부로 분류한 데이터를 위음성(FN, False Negative)으로 정의한다. 정확도는 전체 데이터(TP+FP+FN+TN)에서 정상 자궁 경부를 정상(TP)으로 병변이 존재하는 자궁 경부를 비정상으로 판단(FN)하는 확률이다((TP+FN)/(TP+FP+FN+TN)). 정밀도는 인공 지능 평가 방법에서 정상으로 평가한 데이터(TP+FP)중에서 실제 정상 자궁 경부 데이터(TP)의 비율이다(TP/(TP+FP)). 재현율은 실제 정상 자궁 경부 데이터(TP+FN)중 평가에서 정상으로 판단한 데이터(TP)의 비율이다(TP/(TP+FN)). F1-score는 2 × 정밀도 × 재현율 / (정밀도 + 재현율)한 값이다. AUC는 ROC커브의 곡선 하면적 값을 나타낸다[14].
각각 다른 방식으로 전 처리한 두 모델의 교차 검증 결과 값을 Table 1, 2로 나타냈다. Table 1은 원본 이미지의 너비를 높이 길이에 맞춰 양변을 잘라낸(cropped) 데이터의 값이다. 이 데이터의 경우, 정확도의 평균은 94.02%, 정밀도의 평균은 96.24%, 재현율의 평균은 94.0%, F1-score 평균은 95.11%, AUC는 98.27%를 나타냈다. Table 2는 원본 이미지에 위아래로 빈 영상을 붙여 만든 데이터의 값이다. 이 데이터의 정확도의 평균은 93.41%, 정밀도의 평균은 95.60%, 재현율의 평균은 93.40%, F1-score 평균은 94.49%, AUC는 97.30%를 나타냈다.
Table 2. Cross-Validation of cropped images
Table 3. Cross-Validation of images with empty rectangles up and down
각 모델의 평균 AUC를 비교하기 위해 Fig. 3에 나타냈다. ROC 곡선은 X축을 1-특이도(Specificity), Y축을 민감도로 한 그래프로 AUC는 이 곡선의 하면적 값을 나타낸다. 특이도는 정상 자궁 경부를 정상이라고 판단하는 확률을 말하며 민감도는 비정상 자궁 경부를 비정상이라고 판단하는 확률이다. 원본을 잘라낸 모델의 AUC 평균값은 0.98이며, 근사 95% 신뢰구간 값은(Confidence Interval) 0.98, 검은 빈 직사각형을 원본 위, 아래에 붙인 모델의 AUC값은 0.97이다. 이 모델의 근사 95% 신뢰구간 값은 0.97이다. 원본을 정사각형으로 자른 데이터의 평균 AUC 값이 약 0.97% 높다. 두 전처리 방법에 의한 비교 ROC 커브 비교 통계에서 유의하게 차이가 났다. (p<0.05).
Fig. 3. The comparison of ROC curves. (a) cropped images(98.27%) (b) zero padding images(97.30%), (p<0.05).
본 연구의 결과에 따르면, 영상의 입력 형태를 크롭한 영상이 제로 패딩한 영상 보다 더 높은 정확도와 AUC값을 갖는다. 결과적으로 이는 경미한 차이이긴 하나, 향후 자궁 경부암의 복합적인 임상적 요소를 파악할 자동 진단 모델 연구에 있어서 크롭 영상을 기반으로 하는 것 유의하다. 또한 크롭 영상을 이용한 학습 모델의 성능이 더 우수하다는 것은 자궁 경부 주위 조직은 자궁 경부암을 진단할 때 이상치에 해당함을 의미한다. 더 나아가, 이는 모델을 통해 자궁 경부암을 진단하는 데 있어서 주위 조직에 대한 병변의 색 변화보다 자궁 경부 내 병변의 형태적 요소가 더 의미가 있다는 것을 의미한다.
4. 고찰
본 논문에서는 딥러닝 기반 컴퓨터 보조 진단 시스템 개발을 위해 자궁 경부의 병변 유무를 분류하고, 학습 성능을 높이기 위한 데이터 전 처리를 연구를 진행하였다. 따라서, 본 연구는 이미지 전처리를 통한 입력 형태 변화를 기준으로 두어 모델 성능을 비교함에 따라, 학습에 사용된 기존의 딥러닝 네트워크 및 코스트 함수를 임의로 지정하여 진행하였다. 추후, 본 연구 실험을 통해 얻게 된 이미지 입력 형태에 따른 모델 학습 결과를 기반으로 최종 자궁 경부암 진단 모델의 성능을 높이기 위한 네트워크 및 모델 함수의 개발 연구를 진행할 예정이다.
질확대경검사에서 자궁 경부를 촬영한 카메라에 따라 다른 각각의 이미지 크기를 통일할 필요가 있었다. 두 가지 전처리 형태로 학습시킨 결과, 두 모델 모두 정상 자궁과 병변이 있는 자궁을 비교적 잘 분류하였지만 일부 이미지에서 오분류가 발생하였다. 본 실험은 데이터를 이미지의 높이에 맞춰 너비를 일관적으로 영상(FOV)를 수정하였다. 이에 따라, 자궁 경부가 이미지 한 쪽에 편중되어 있는 경우, 전처리 후 이미지에서 자궁 경부의 일부가 잘려 병변 유무를 정확히 분류하지 못했다고 판단된다. 또한, 이미지 속 자궁 경부가 주변 조직 보다 작게 찍힌 경우 자궁 경부에 드러나는 병변을 분류할 모델의 정확도를 감소시켰다고 판단된다.
따라서 향후 자궁 경부에 대한 자동 검출을 통해 자궁 경부 영역의 위치에 따라 적응적으로 영상의 범위를 결정하는 방법에 대한 연구가 필요하다. 자궁경부를 딥러닝으로 검출한다면 자궁 경부 이외에 자궁경부 영상진단검사에서 함께 찍히는 질, 외음부 표면의 노이즈를 제거해 자궁경부암의 병변 유무를 더 정확하게 판단할 수 있을 것이다. 또한, 같은 병기 단계의 자궁 경부가 사람에 따라 색, 모양 출혈 여부가 다르므로 더 많은 양의 데이터로 추가적인 학습이 필요하다. 딥러닝은 많은 데이터가 있을수록 정확하고 구체적인 분류가 가능하다. 더욱 다양하고 많은 데이터를 학습시킨다면 본 연구보다 더 정확하고 세분화된 자궁경부암의 병기 단계를 분류할 수 있을 것으로 예상된다.
본 연구에서 결론적으로 이미지를 높이에 맞춰 정사각형 영역의 영상 모델의 정확도 평균은 94.15%, 빈 직사각형을 위 아래로 붙인 모델의 정확도 평균은 93.41%다. 두 모델의 정확도 평균은 통계적으로 유의한 차이지만 전처리 과정에서 너비를 높이에 맞춰 자른 모델을 활용해 학습시킨 분류가 더 정확했다. 따라서 자궁 경부의 병변 유무를 분류하기 위한 모델 연구에 있어서, 입력 영상을 정사각형 형태로 영상을 추출하여 모델을 활용하면 비교적 성능이 더 좋은 진단 시스템을 구현할 수 있다고 판단된다. 자궁경부암의 병기 진행은 연속적이고 단계별 미세한 차이로 병변이 구분되기 어렵다. 그러므로 본 연구와 같은 데이터 전처리 성능 비교는 컴퓨터 보조 시스템 개발에 많은 도움이 될 것으로 판단된다.
References
- Cervix Cancer(2020), https://www.cancer.go.kr/lay1/program/S1T211C223/cancer/view.do?cancer_seq=4877&menu_seq=4882(accessed January 15, 2020).
- Features of cervix cancer (2017), https://www.ywmc.or.kr/web/www/health_sense?p_p_id=board_WAR_bbsportlet&p_p_lifecycle=0&p_p_state=normal&p_p_mode=view&p_p_col_id=column-1&p_p_col_count=1&_board_WAR_bbsportlet_sCurPage=1&_board_WAR_bbsportlet_action=view_message&_board_WAR_bbsportlet_messageId=819 (accessed January 15, 2020).
- E.H. Lee, T.H. Um, H.S. Chi, Y.J. Hong, and Y.J. Cha, “Prevalence and Distribution of Human Papillomavirus Infection in Korean Women as Determined by Restriction Fragment Mass Polymorphism Assay,” Journal of Korean Medical Science, Vol. 27, No. 9, pp. 1091-1097, 2012. https://doi.org/10.3346/jkms.2012.27.9.1091
- Identifying cervical precancer with AI approach (2019), https://www.nih.gov/news-events/news-releases/ai-approach-outperformedhuman-experts-identifying-cervical-precancer (accessed January 16, 2020).
- T.J. Song, S.J. Seong, S.K. Lee, B.R. Kim, W. Ju, K.H. Kim, et al., "Screening Capacity and Cost-effectiveness of the Human Papillomavirus Test Versus Cervicography as an Adjunctive Test to Pap Cytology to Detect Highgrade Cervical Dysplasia," ScienceDirect, Vol. 234, pp. 112-116, 2019.
- K. He, X. Zhang, S. Ren, and J. Sun, "Deep Residual Learning for Image Recognition," Proceeding of 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 770-778, 2016.
- A. Esteva, B. Kuprel, R.A. Novoa, J. Ko, S.M. Swetter, H.M. Blau, et al., "Dermatologist-level Classification of Skin Cancer with Deep Neural Networks," Nature, Vol. 542, pp. 115-118, 2017. https://doi.org/10.1038/nature21056
- S. Lee, H. Joe, and H. Joe, “Computer-aided Diagnosis System for Abnormalities Classification in Gastric Endoscopy Images Using Machine Learning,” Journal of Electrical Engineering and Technology, Vol. 69, No. 1, pp. 107-113, 2020.
- M. Sato, K. Horie, A. Hara, Y. Miyamoto, K. Kurihara, K. Tomio, et al., “Application of Deep Learning to the Classification of Images from Colposcopy,” Oncology Letters, Vol. 15, No. 3, pp. 3518-3523, 2018.
- Cerviacal cytology screening (1988), https://www.bmj.com/content/296/6629/1099 (accessed January 17, 2020).
- J. Lee, N. Kim, and S. Hong, "Performance Analysis of Similar Plant Leaves According to Transformation Input Data of Deep Learning Model." The Institute of Electronics and Information Engineers, pp. 759-762, 2019.
- M. Kyung and H. Lee "A Deep Learningbased Document Title Detection for Automatic Document Type Classification," Journal of the Institute of Electronics and Information Engineers, Vol. 55, No. 9, pp. 53-61, 2018. https://doi.org/10.5573/ieie.2018.55.9.53
- S. Rhyou, H. Kim, and K. Cha, “Development of Access Management System Based on Face Recognition Using ResNet,” Journal of Korea Multimedia Society, Vol. 22, No. 8, pp. 823-831, 2019. https://doi.org/10.9717/KMMS.2019.22.8.823
- Machine Learning Cheat Sheet(2019), https://towardsdatascience.com/machine-learningcheat-sheet-model-evaluation-and-validationb67565df6075?gi=1e0b616965c4 (accessed January 19, 2020).