DOI QR코드

DOI QR Code

Analysis Study on the Detection and Classification of COVID-19 in Chest X-ray Images using Artificial Intelligence

인공지능을 활용한 흉부 엑스선 영상의 코로나19 검출 및 분류에 대한 분석 연구

  • Yoon, Myeong-Seong (Department of Emergency Medicine, College of Medicine Hanyang University) ;
  • Kwon, Chae-Rim (Department of Radiologic Science, Shinhan University) ;
  • Kim, Sung-Min (Department of Radiologic Science, Shinhan University) ;
  • Kim, Su-In (Department of Radiologic Science, Shinhan University) ;
  • Jo, Sung-Jun (Department of Radiologic Science, Shinhan University) ;
  • Choi, Yu-Chan (Department of Radiologic Science, Shinhan University) ;
  • Kim, Sang-Hyun (Department of Radiologic Science, Shinhan University)
  • 윤명성 (한양대학교 의과대학 응급의학과) ;
  • 권채림 (신한대학교 방사선학과) ;
  • 김성민 (신한대학교 방사선학과) ;
  • 김수인 (신한대학교 방사선학과) ;
  • 조성준 (신한대학교 방사선학과) ;
  • 최유찬 (신한대학교 방사선학과) ;
  • 김상현 (신한대학교 방사선학과)
  • Received : 2022.09.03
  • Accepted : 2022.10.31
  • Published : 2022.10.31

Abstract

After the outbreak of the SARS-CoV2 virus that causes COVID-19, it spreads around the world with the number of infections and deaths rising rapidly caused a shortage of medical resources. As a way to solve this problem, chest X-ray diagnosis using Artificial Intelligence(AI) received attention as a primary diagnostic method. The purpose of this study is to comprehensively analyze the detection of COVID-19 via AI. To achieve this purpose, 292 studies were collected through a series of Classification methods. Based on these data, performance measurement information including Accuracy, Precision, Area Under Cover(AUC), Sensitivity, Specificity, F1-score, Recall, K-fold, Architecture and Class were analyzed. As a result, the average Accuracy, Precision, AUC, Sensitivity and Specificity were achieved as 95.2%, 94.81%, 94.01%, 93.5%, and 93.92%, respectively. Although the performance measurement information on a year-on-year basis gradually increased, furthermore, we conducted a study on the rate of change according to the number of Class and image data, the ratio of use of Architecture and about the K-fold. Currently, diagnosis of COVID-19 using AI has several problems to be used independently, however, it is expected that it will be sufficient to be used as a doctor's assistant.

COVID-19를 발생시키는 SARS-CoV2 바이러스가 발생한 후 전염병은 전 세계로 확산되며, 감염 사례와 사망자의 수가 빠르게 증가함에 따라 의료자원의 부족 문제가 야기되었다. 이것을 해결하려는 방법으로 인공지능을 활용한 흉부 X-ray 검사가 일차적인 진단 방법으로 관심을 받게 되었다. 본 연구에서는 인공지능을 통한 COVID-19 판독 방식들에 대해 종합적으로 분석하는 것에 목적을 두고 있다. 이 목적을 달성하기 위해 292개의 논문을 일련의 분류 방법을 거처 수집했다. 이러한 자료들을 토대로 Accuracy, Precision, Area Under Curve(AUC), Sensitivity, Specificity, F1-score, Recall, K-fold, Architecture, Class를 포함한 성능 측정정보를 분석했다. 그 결과로 평균 Accuracy, Precision, AUC, Sensitivity, Specificity 값은 각각 95.2%, 94.81%, 94.01%, 93.5%, 93.92%로 도출되었다. 연도별 성능 측정정보는 점차 증가하는 값을 나타냈고 이 외에도 Class 수, 이미지 데이터 수에 따른 변화율, Architecture 사용 비율, K-fold에 관한 연구를 진행했다. 현재 인공지능을 활용한 COVID-19의 진단은 독자적으로 사용되기에는 여러 문제가 존재하지만, 의사의 보조수단으로써 사용됨에는 부족함이 없을 것으로 예상된다.

Keywords

Ⅰ. INTRODUCTION

코로나바이러스 감염증-19(Corona Virus disease–19, COVID-19)는 2019년 12월 중국 후베이성 우한시에서 처음 발생하여 전 세계적으로 급속도로 확산되었다. 초기에는 원인을 알 수 없었으나 2020년 1월 폐렴의 새로운 유형의 바이러스라고 밝혀지면서, SARS-CoV-2(Severe Acute Respiratory Syndrome-related Corona Virus 2) 병원체가 확인되었다[1]. 세계보건기구(World Health Organization, WHO)는 2020년 3월 11일, 전 세계로 퍼진 COVID-19를 팬데믹으로 선언하였다[2].

통계청(출처: 보건복지부) 자료에 따르면 2022년 8월 23일 기준 국내 누적 확진자 수는 22,449,475명이며, 사망자는 26,161명으로 많은 감염자와 사망자가 보고되었다[3]. COVID-19 바이러스는 보균자로부터 호흡기 또는 입, 코, 눈의 점막으로 침투되어 전염된다. 잠복기를 지난 후 주요 증상은 기침, 발열, 호흡곤란, 피로, 근육통, 두통, 위장관계 합병증 등 다양한 임상 증상이 나타나지만 무증상 감염사례도 많이 발견되고 있다[4].

COVID-19가 발병된 초기에는 흉부 X-ray 검사와 컴퓨터단층촬영(Computed Tomography, CT) 검사가 COVID-19의 진단을 위해 일차 확진 검사로서 사용이 되었다. COVID-19 바이러스의 전형적인 소견은 시간 경과에 따라 흉부 X-ray 영상과 흉부 CT 영상에서 폐 변연부의 간유리 음영 또는 폐 경화가 나타난다. 영상에서 파악한 사실을 토대로 COVID-19 진단을 시행하는 것이다[5]. 하지만 보다 높은 정확도를 가진 RT-PCR 검사가 개발되면서 흉부 X-ray 검사는 일차 진단의 목적으로 사용되지 않게 되었다[6].

그러나 RT-PCR 검사는 이론상 6시간 안에 진단받을 수 있지만, 많은 확진자 수가 의료자원의 부족으로 이어져서 실질적으로는 1일 이상의 시간이 소요되었다. 그로 인해 진단받는 시간이 증가함에 따라 확진자와의 접촉 발생률 또한 증가하였으며 RT-PCR 검사를 시행하는 데 사용되는 비용적인 부분에서도 어려움이 발생했다.

위와 같은 문제를 해결하기 위해 일차적인 흉부X-ray 검사를 진행하여 의심자를 신속하게 조기 검진 및 격리를 시행할 수 있어야 한다. 하지만 팬데믹 상황에서 수많은 흉부 X-ray 영상들을 모두 판독하는 것은 영상 판독의 정확도가 많이 낮아진다. 또한, 다른 바이러스성 폐렴이 COVID-19를 모방할 수 있으므로 실수의 가능성도 커지게 된다. 이를 해결하기 위해서 사람의 눈을 대신할 수 있는 인공지능의 기술을 이용하여 흉부 X-ray를 판독하는 기술이 많이 발전하면서 연구가 활발하게 이루어지고 있다.

하지만 의료 영상을 이용한 인공지능의 연구는 다양한 클래스(Class), 알고리즘, 데이터베이스, 아키텍처(Architecture) 등에 의해 결과가 달라지므로 정확한 값을 파악하기에는 어려움이 존재한다. 이에 본 논문에서는 2019년 12월부터 2022년 4월까지 논문 저널 사이트 중 하나인 PubMed.com을 통해 제시어 X-ray, Deep Learning, COVID-19를 검색하여 나오는 400여 개 논문 중 약 300여 개의 논문을 분류하여 지금까지 연구되어 온 COVID-19 판독 인공지능의 접근 방식들에 대해서 인공지능의 정확도(Accuracy), 정밀도(Precision), Area Under Curve(AUC), 민감도(Sensitivity), 특이도(Specificity), F1-score, Recall, K-fold, 아키텍처(Architecture), 클래스(Class)를 포함한 전체적인 값들을 종합적으로 분석하여 더욱 효과적인 성능 및 접근 방식을 제시 함으로써 앞으로 임상에서 인공지능의 상용화가 이루어질 가능성을 판단하는 지표로써 사용되는것에 목적을 두며 이를 바탕으로 향후 의료 인공지능 적용의 전망을 기술하고자 한다.

Ⅱ. MATERIAL AND METHODS

1. 연구 설계

본 연구를 위한 논문을 수집하는 과정에서 사전에 정한 논문을 바탕으로 연구에 포함 및 제외되는 기준에 따라 X-ray 이미지를 사용하여 딥러닝 기술을 통해 COVID-19 진단의 성능을 비교·분석 및 평가하는 논문들을 분류하고 수집했다. 본 연구의 자료수집을 위한 검색에는 관련 문헌을 수집하기 위해 의학 논문 검색 엔진인 ‘PubMed’에서 ‘X-ray, Covid-19, Deep Learning’의 키워드를 사용하여 2019년 12월 1일부터 2022년 4월 30일까지 1년 5개월간 논문을 수집하기 위한 기초 작업으로 관련된 논문을 최대한 수집하는 단계를 Fig. 1과 같이 거쳤다.

BSSHB5_2022_v16n5_661_f0001.png 이미지

Fig. 1. Analysis Process.

2. 연구 설계분석 대상 및 범위

본 연구는 진단 정확도 검사에 대한 문서화 된 자료들을 토대로 흉부 X-ray 이미지를 사용하여 Accuracy, Precision, AUC, Sensitivity, Specificity, F1-score, Recall, K-fold, Architecture, Class를 포함한 성능 측정정보를 기록하였다. 이렇게 수집된 데이터들의 총 값을 토대로 통계 및 평균값을 분석하여 현재까지 사용 중인 딥러닝 기술과 알고리즘의 성능을 토대로 임상에서의 사용 가능성을 평가했다.

3. 자료 선정 절차 및 제외 기준

X-ray를 이용한 일반촬영을 중심으로 조사를 하였기 때문에 그 외의 CT, MRI 등의 영상은 일차적으로 제외하였다. 단, 자료수집 과정 중 X-ray와 CT, MRI 등의 영상이 함께 제공되어 분석된 논문들은 포함되었지만, 중복된 연구는 제거되었다. 수집된 논문 안에서 인용된 연구들은 누락된 정보를 찾기 위해 따로 수집하는 작업을 거쳤다. 적절한 저널 논문 및 콘퍼런스 절차를 확인하기 위해 일차적으로 제외된 논문 중 포함 및 제외 기준에 따라 논문의 선별과정[7]을 수행했다. 아래와 같은 기준으로 선별한 결과, 총 333개의 논문 중 292개의 논문을 포함하였고 41개의 논문은 제외되었다.

3.1. 포함 기준

아래와 같은 기준들에 부합하는 논문들은 포함되었다.

• COVID-19와 관련된 질환 및 문제에 대해 딥러닝 알고리즘을 적용한 연구

• 각각의 모델들의 성능 측정 데이터를 포함하며 이를 비교 평가한 연구

• 알고리즘을 사용하여 X-ray 사진 이미지를 분석한 연구

• Accuracy, Precision, AUC, Sensitivity, Specificity, F1-score, Recall, K-fold, Architecture, Class를 포함한 성능 측정정보가 있는 연구

3.2. 제외 기준

아래와 같은 기준들에 부합하는 논문들은 제외되었다.

• COVID-19와 관련이 없는 질환 및 문제를 딥러닝 접근 방식을 사용한 연구

• 문제 해결을 위해 사용된 딥러닝 모델에 대한 설명이 없는 연구

• Accuracy, Precision, AUC, Sensitivity, Specificity, F1-score, Recall, K-fold, Architecture, Class를 포함한 성능 측정정보가 없는 연구

• 파라미터들을 변경하면서 데이터값을 올리고 공학적으로 수식 및 공식들을 포함한 연구

• 자체적으로 딥러닝 알고리즘을 개발 및 제안한 연구

• 중복된 논문

4. 분석 계산 방법

\(\begin{aligned}Accuracy=\frac{\text {True Positive+True Negative}}{{\text { True Positive }+ \text { False Positive }+ \text { True Negative }+ \text { False Negative }}}\end{aligned}\)       (1)

\(\begin{aligned}Precision=\frac{\text { True Positive }}{\text { True Positive }+ \text { False Positive }}\\\end{aligned}\)       (2)

\(\begin{aligned}A U C=1-1 /\left(N^{*} P\right)^{*}\left(\sum_{i=1}^{N} \Pi\right)\\\end{aligned}\)       (3)

\(\begin{aligned}Sensitivity=\frac{True Positive}{True Positive + Positive + False Negative}\end{aligned}\)       (4)

\(\begin{aligned}Specificity=\frac{\text { True Negative }}{\text { False Positive }+ \text { True Negative }}\end{aligned}\)       (5)

\(\begin{aligned}F 1=2 \times \frac{(\text { Precision } \times \text { Recall })}{(\text { Precision }+ \text { Recall })}+Score\end{aligned}\)       (6)

\(\begin{aligned}Recall=\frac{\text { Sensitivity } \times \text { Precision }}{\text { Sensitivity }+ \text { Precision }}\\\end{aligned}\)       (7)

Ⅲ. RESULT

1. 연도별 Accuracy, Sensitivity, Specificity 변화율

COVID-19로 인한 팬데믹의 시작으로 많은 사람이 확진되고, 사망자가 발생하면서 COVID-19 라는 질병에 관한 관심이 높아졌다. 이에 연구의 필요성[8] 또한 시간이 지남에 따라 점차 중요하게 여겨지게 되며 관련 논문의 수도 매년 증가하는 현상이 발생했다. 본 연구에서는 증가된 관심과 연구 필요성에 대한 중요도에 따라서 변화된 Accuracy, Sensitivity, Specificity에 관해 연구하고자 한다.

앞서 진행된 연구 분류 작업을 거친 후 논문을 2020년과 2021년도의 연도별로 재분류를 했다. 그 결과는 Fig. 2, Table 1과 같이 2020년에는 118개, 2021년에는 172개의 논문이 도출되었다. 2020년도 연구의 평균 Accuracy, Sensitivity, Specificity는 각각 94.11%, 93.29%, 93.99%로 도출되었으며, 이듬해인 2021년 연구의 평균 Accuracy, Sensitivity, Specificity는 각각 95.98%, 93.73%, 94.06%로 도출되었다.

BSSHB5_2022_v16n5_661_f0002.png 이미지

Fig 2. Rate of change in Accuracy, Sensitivity and Specificity by year.

Table 1. Rate of change in Accuracy, Sensitivity and Specificity by year

BSSHB5_2022_v16n5_661_t0001.png 이미지

2020년도와 2021년의 연구 개수를 살펴보면 그 수가 확연히 증가하였음을 알 수 있다. 이는 2020년에 전 세계 지역에서 확산이 진행됨에 따라 확진자의 수가 급격하게 증가하며 많은 연구가 진행된 것으로 보인다. 이듬해인 2021년에는 오미크론, 델타 변이 등의 다양한 변이가 발생하며 확진자의 수가 걷잡을 수 없이 증가했다. 연구의 필요성이 전년도보다 더 커지면서 시간이 지남에 따라 의료 인공지능에 관한 관심이 점점 높아지는 것을 확인할 수 있다. 2020년도와 2021년도의 Accuracy 값을 비교하였을 때, 전년도보다 1.87%가 증가했다는 것을 확인할 수 있으며, Sensitivity와 Specificity는 각각 0.44%와 0.07%로 다소 증가했음을 알 수 있다. 이를 통해 본 연구에서는 연도별에 따라 결과값들의 평균이 전반적으로 증가했음을 파악하였고, 이는 딥러닝 탐지기술의 필요성[9]과 COVID-19의 연구 필요성의 증가로 인해 시간이 지남에 따라 더 많은 연구가 시행됨으로써 딥러닝을 결합한 진단 기술에 대해 높은 결과와 발전 가능성을 나타낸다는 것을 보여주는 결과이다.

2. Class 수에 따른 Accuracy, Sensitivity, Specificity 변화율

총 292개의 논문 중에서 Class 수에 따라 2중 Class, 3중 Class, 4중 Class, 5중 Class 이상으로 분류하여 Accuracy, Sensitivity, Specificity 변화율에 대해 분석했고 그 결과는 Table 2, Fig. 3에서 확인할 수 있다. 여기서 말하는 Class는 인공지능이 진단할 수 있는 질병의 경우 수를 말한다. 예를 들어 2중 Class는 정상과 코로나와 같이 2개의 경우를 구별할 수 있다. 각 Class의 수에 대해 분석해볼 경우 2중 Class는 97개, 3중 Class는 133개, 4중 Class는 52개, 5중 Class 이상은 10개로 도출되었다.

Table 2. Accuracy, Sensitivity and Specificity Rate of Change by Class

BSSHB5_2022_v16n5_661_t0002.png 이미지

BSSHB5_2022_v16n5_661_f0003.png 이미지

Fig 3. Accuracy, Sensitivity and Specificity Rate of Change by Class.

Class 수에 따른 Accuracy를 통계 분석[10]한 값을 살펴볼 경우, 이중 Class에 대한 평균 Accuracy는 95.33%로 도출되었으며, 3중 Class는 95.52%, 4중 Class는 94.91%, 5중 Class 이상은 91.87%의 결과값이 도출되었다. Class 수에 따른 Sensitivity를 통계 분석한 값을 살펴볼 경우, 2중 Class에 대한 평균 민감도는 93.4%로 도출되었으며, 3중 Class는 94.18%, 4중 Class는 92.93%, 5중 Class 이상은 84.63%의 결과값이 도출되었다. Class 수에 따른 Specificity를 통계 분석한 값을 살펴볼 경우, 2중 Class에 대한 평균 특이도는 93.13%로 도출되었으며, 3중 Class는 93.59%, 4중 Class는 95.68%, 5중 Class 이상은 95.64%의 결과값이 도출되었다.

위와 같은 결과는 이중 Class와 3중 Class, 4중 Class의 딥러닝 탐지 능력 차이가 매우 작음을 나타내며, 다중 Class를 사용한 연구 또한 이중 Class를 사용한 연구와 유사한 진단 테스트의 Accuracy를 나타냈음을 알 수 있다.

이는 COVID-19와 정상만을 구별하는 이중 Class뿐만 아니라 3중 Class와 4중 Class까지 딥러닝을 활용한 코로나 진단 테스트 기능이 발전한 것을 나타낸다. 특히, 2, 3 Class는 95.33%, 95.52%로 가장 높은 진단 Accuracy 값을 보여주고 있다. 이에 의료인공지능 기술의 발전에 따라 COVID-19에 국한되는 것이 아니라 새롭게 발생할 수 있는 전염병에 활용될 것으로 기대된다.

반면, 5중 Class 이상부터 평균 Accuracy와 Sensitivity 값이 감소한다. Subrato Bharati.[11]의 연구결과에 따르면 VDSNet을 통한 기흉, 침윤, 폐기종, 무기폐, 삼출, 섬유증, 폐렴, 흉막 비후, 탈장, 심장 비대, 결절 종괴 및 부종 등 총 15개의 Class 검사한 결과 73%의 정확도를 보였다. 이처럼 다양한 폐질환을 감지하기 위한 하이브리드 알고리즘은 이중 Class를 진단하는 알고리즘 보다 현저히 떨어지는 정확도를 보였다. 이는 다양한 폐 질환을 감지하기 위한 하이브리드 알고리즘 발전의 필요성을 보여준다.

3. 이미지 데이터 수에 따른 Accuracy, Sensitivity, Specificity 변화율

총 292개의 논문 중에서 이미지 데이터 세트를 자릿수에 따라 분류하여 1부터 100, 101부터 1,000, 1,001부터 10,000, 10,001부터 100,000, 100,001부터 1,000,000까지 총 5개의 범위로 나눈 후 Accuracy, Sensitivity, Specificity의 변화율에 대해 분석하여 결과를 나타내었고 이는 Table 3과 Figure 4에서 살펴볼 수 있다. 단, 1,000,001부터 10,000,000까지의 이미지 수를 가진 논문은 1개였기 때문에 평균값을 내기에 적절하지 않다고 판단하여 통계에서 제외했다.

Table 3. Accuracy, Sensitivity and Specificity change rate according to the number of image dataset

BSSHB5_2022_v16n5_661_t0003.png 이미지

BSSHB5_2022_v16n5_661_f0004.png 이미지

Fig 4. Accuracy, Sensitivity and Specificity change rate according to the number of image dataset.

본 연구에서 1부터 100개의 데이터 세트를 사용한 논문의 수는 8개로 나타났으며, 101~1,000개, 1,001~10,000개, 10,001~100,000개, 100,001~1,000,000개의 데이터 세트를 사용한 논문 수는 각각 51, 160, 49, 10개로 도출되었다.

데이터 수에 따른 Accuracy를 통계 분석한 결과, 1부터 100개의 데이터 세트를 사용한 논문의 Accur acy 값은 94.37%로 나타났으며, 101~1,000개, 1,001~10,000개, 10,001~100,000개, 100,001~1,000,000개의 데이터 세트를 사용한 논문의 평균 Accuracy 값은 각각 94.02%, 95.91%, 93.9%, 93.46%의 값을 도출했다.

데이터 수에 따른 Sensitivity를 통계 분석한 결과, 1부터 100개의 데이터 세트를 사용한 논문의 Sensit ivity 값은 94.05%로 나타났으며, 101~1,000개, 1,001~10,000개, 10,001~100,000개, 100,001~1,000,000개의 데이터 세트를 사용한 논문의 평균 Sensitivity 값은 각각 93.32%, 95.03%, 89.86%, 88.13%의 값을 도출했다.

데이터 수에 따른 Specificity를 통계 분석한 결과, 1부터 100개의 데이터 세트를 사용한 논문의 Specifi city 값은 83.93%로 나타났으며, 101~1,000개, 1,001~10,000개, 10,001~100,000개, 100,001~1,000,000개의 데이터 세트를 사용한 논문의 평균 Specificity 값은 각각 91.13%, 95.48%, 93.87%, 93.37%의 값을 도출했다.

이미지 데이터 수에 따른 Accuracy, Sensitivity, Specificity의 변화율을 총 5개의 범위로 나누어 값을 통계를 낸 결과, 1부터 10,000까지의 이미지 수를 가진 논문의 수 및 Accuracy, Sensitivity, Specificity는 점차 증가하는 추세를 보였지만 그 이후 10,001부터 1,000,000까지의 이미지 수를 가진 논문은 점차 감소하는 모습을 볼 수 있다. 본 연구를 실행하기 전에는 데이터 세트의 범주에 따른 Accuracy 값을 평균 내었을 때, Accuracy의 값이 이미지 수에 비례하여 증가한다는 가설을 세웠지만 미리 세운 가설과는 다른 결과값을 도출하였다. 이를 통해 ‘Overfitting’, 즉 기계 학습(Machine learning)에서 학습 데이터를 과하게 학습[12]하여 오히려 Accuracy가 감소하는 현상이 발생하였다는 사실을 알 수 있었다.

이에 본 연구에서는 1,001부터 10,000개의 데이터 세트를 사용하는 연구가 가장 많으며, Accuracy, Sensitivity, Specificity 값 또한 해당 지점에서 가장 높다는 사실을 파악할 수 있다. 이러한 점들을 통해 현재 개발되는 의료 인공지능에 있어서 가장 효율적인 결과를 도출해낼 수 있는 데이터 세트의 수는 1,001부터 10,000개라는 결론을 내릴 수 있다.

4. Architecture 사용 비율에 따른 Accuracy, Sensitivity, Specificity 변화율

Architecture를 중점으로 둔 분석에는 데이터베이스의 부족으로 인한 신뢰성 감소를 막기 위해 5개 이상의 Architecture를 사용한 연구들만을 모아 결과를 도출했다. 그리고 연구의 편의성을 위하여 2가지 이상의 Architecture를 앙상블(Ensembles)한 연구와 2가지 이상의 Architecture를 비교하는 연구와 같이 뚜렷하게 Architecture를 선별하기 어려운 연구와 기반으로 사용한 Architecture를 명확하게 기재하지 않은 논문들은 제외했다.

위의 Fig. 5(a, b, c)에 사용된 Architecture는 ImageNet, VGG, ResNet, Xception, DenseNet, COVID-Net, DarkNet, AlexNet, U-Net 등 다양한 Architecture가 연구에 사용되었다. Architecture를 중심적으로 분석한 결과 Mobile Net을 기반으로 사용한 연구가 99.18%로 가장 높은 정확도 값을 나타냈다. 그리고 Xception을 기반으로 사용한 연구가 99.27%, 97.89%로 가장 높은 민감도와 특이도 값을 나타냈다는 것을 알 수 있다. 반대로 ResNet 18을 기반으로 사용한 연구가 가장 낮은 정확도 값인 91.29%를 나타냈다. 그리고 DenseNet을 기반으로 사용한 연구가 가장 낮은 민감도 값인 86.36%를 나타냈지만 96.45%, 94.81%이란 높은 정확도, 특이도 값을 보여줬다. 가장 높은 정확도 값을 보여준 Mobile Net을 기반으로 사용한 연구가 비교적 저조한 특이도 값인 84.71%를 결과로 나타냈다.

BSSHB5_2022_v16n5_661_f0005.png 이미지

Fig. 5. Accuracy, Sensitivity, and Specificity rate of change according to Architecture utilization​​​​​​​.

Mobile Net을 기반으로 한 연구가 역설적이게도 가장 높은 정확도 값을 가지면서도 가장 낮은 특이도 값을 가진다는 것을 볼 수 있다. 즉, 음성을 음성으로 진단하는 능력인, 특이도가 비교적 낮게 나온 이유는 딥러닝 훈련 과정에서 사용된 데이터베이스가 정상 흉부 X-ray 이미지보다 Covid-19 X-ray 이미지가 더 많아 나타난 것으로 보인다.

5. K-fold 개수의 변화율

알고리즘의 성능을 평가하기 위해 일반적으로 K-fold의 교차검증을 시행한다. T. Wong.[13]에 따르면 K-fold의 교차검증으로부터 얻은 Accuracy 값이 일반적으로 높은 상관관계가 있음을 언급하며, 그 횟수가 증가함에 따라 상관관계가 더 높아질 가능성을 설명했다. 즉, Accuracy의 값에 대해 K-fold 교차검증을 반복적으로 수행하는 편이 더 좋을 뿐만 아니라 K-fold의 교차검증이 분류 알고리즘 성능평가에서 신뢰도를 높일 수 있음을 이야기했다.

따라서 본 연구는 일차적으로 분류한 논문 중 K-fold를 사용한 논문의 수에 대해 분석하였고 이는 Table 4와 같다. 총 292개의 논문 중 K-fold를 사용한 논문의 수는 127개로 약 43.49%에 이르렀다. 그중 4 fold 이하는 21개로 약 16.53%를 차지했으며, 5~9 fold는 71개로 약 55.9%, 10 fold 이상을 사용한 논문의 수는 35개로 약 27.55%를 차지하는 것으로 나타났다.

Table 4. Accuracy, Sensitivity and Specificity change rate according to the number of K-folds​​​​​​​

BSSHB5_2022_v16n5_661_t0004.png 이미지

신뢰도의 향상을 위해 실시되고 있는 K-fold 값에서 5-fold가 가장 많이 사용되는 것으로 나타났다. 이는 효율성에 따른 값으로 파악된다. 4-fold 이하는 교차검증의 횟수가 적기 때문에 충분한 효과를 나타낼 수 없다고 판단하며, 10-fold 이상은 교차검증의 횟수가 많아 신뢰도는 증가하지만 그만큼 여러 번 반복되어야 하므로 이에 따른 인력 및 시간, 비용 등의 문제가 발생할 수 있다. 따라서 가장 적절한 교차검증인 5-fold가 가장 많이 사용되고있다. 현재 K-fold를 적용하지 않은 연구들도 존재하지만, 연구를 보는 사람들에게 연구의 신뢰성을 높이고 정확한 결론을 도출하기 위해서는 K-fold를 사용해야 한다. 더 자세히는 가장 정확한 연구 결과값을 위해서는 5-fold 및 10-fold를 사용하는 것이 효과적이라고 판단된다. 다만, K-fold의 사용으로 Accuracy, Sensitivity, Specificity의 값의 변화 양상에 관한 연구는 없으므로 이에 관한 추가 연구가 필요 할 것으로 예상한다.

6. 전체 Database 값

292개 연구 결과를 통합해본 결과는 Fig. 6, Table 5와 같다. 진단 테스트 Accuracy의 평균값은 95.20%, 최댓값은 100%, 최솟값은 63%이고, 정밀도의 평균값은 94.81%, 최댓값은 100%, 최솟값은 58%이고 AUC의 평균값은 94.01%, 최댓값은 100%, 최솟값은 70.1%이고 Sensitivity의 평균값은 93.50%, 최댓값은 100%, 최솟값은 57%이고 Specificity의 평균값은 93.92%, 최댓값은 100%, 최솟값은 53%이란 값을 도출했다. 이를 통해 현재 딥러닝 탐지기술은 의사의 진단에 있어서 보조적 역할은 물론이고 Zhicheng Jiao.[14]의 연구에 따르면 방사선 전문의가 도출한 중증도 점수 또한 능가했다.

Table 5. Mean, Maximum and Minimum Values of Accuracy, Sensitivity and Specificity of 292 studies based on the data source​​​​​​​

BSSHB5_2022_v16n5_661_t0005.png 이미지

BSSHB5_2022_v16n5_661_f0006.png 이미지

Fig 6. Mean Accuracy, Sensitivity and Specificity values for a total of 292 studies.​​​​​​​

Ⅳ. DISCUSSION

COVID-19 팬데믹 선언 이후 백신의 개발로 인해 감염자의 수는 서서히 줄어드는 것으로 관찰되었다. 그러나 거리 두기 완화로 인해 사람들의 외출이 잦아지고 변이 바이러스 등 지속해서 발견됨에 따라 감염자 수가 다시 급증하는 추세이다. 하지만 코로나와 같이 감염병에 대해 진단 예측 기술에 관한 연구는 부족하다. 이에 본 연구에서는 2019년말부터 2022년 4월까지 COVID-19를 판별하기 위해 흉부 X-ray 영상 데이터 세트와 다양한 딥러닝 기술들을 적용하여 연구한 해외 논문들을 수집하고 인공지능의 정확도, 민감도, 특이도 등을 포함한 전체적인 값들을 분석하여 향후 의료 인공지능 적용의 전망을 기술하고자 본 연구를 진행하였다. 하지만 연구를 진행하면서 여러 오류가 발생하였으며 이러한 제한점에 관해 확인하였다.

첫째, 본 연구는 2020년과 2021년 총 2년간 게재된 연구 결과들만 분석하였으며 2019년과 2022년도에 게재된 논문들은 제외되었다. 2019년의 경우, COVID-19가 처음 발병되었을 때의 연구들이 많이 포함되어 있다. 이 연구들은 본 연구에서 사용되기에는 데이터베이스로 사용된 흉부 X-ray 영상의 질과 양이 다소 떨어지는 경향이 보여 제외되었다. 2022년도의 경우는 2020년도와 2021년도의 연구 결과와 같이 충분한 결과가 있는 것이 아니라 연구가 진행 중인 경우가 많다. 이로 인해 2022년도에 나온 연구 결과가 적은데, 이를 다른 논문들과 동시에 분석을 진행하면 적은 연구 수로 인한 오류가 발생할 수 있으므로 제외되었다.

둘째, 연구마다 사용된 알고리즘에 따라 여러 변화가 관찰된다. 인공지능 연구에서는 다양한 알고리즘을 사용하여 연구가 진행되고 있으며, 이에 따라서 결과에도 많은 영향을 미친다. 본 연구에서 사용된 총 292개의 논문도 각자 다른 알고리즘을 사용하고 이에 대한 결과값들을 나타내고 있다. 알고리즘에 대해 분석을 할 때 어떠한 알고리즘이 준수한 성능을 나타내는 것과 현재 가장 많이 사용되고 있는 알고리즘에 관해서는 확인할 수 있었다. 그러나 본 연구에서 사용된 논문 중 어떠한 알고리즘이 가장 우수하다는 것을 평가할 수 있는 것은 아니다. 각 연구의 상황 및 조건 등에 부합하는 알고리즘은 각자 다르므로 각자 사용하는 알고리즘이 다를 뿐이다.

셋째, 이미지 수에 따른 Accuracy, Sensitivity, Specificity, Volume 비교에 여러 변수가 존재한다. 본 연구는 총 292개의 논문을 분석한 연구이기 때문에 각 논문에 대해 많은 영향을 받는다. 그중에서도 가장 중요한 부분이 Accuracy, Sensitivity, Specificity이다. 그러나 이미지 수에 따른 분석을 시행하는 경우 각 Accuracy, Sensitivity, Specificity에 따른 Volume의 값이 다르다. 어떠한 논문에는 Accuracy가 서술되어 있지만, Sensitivity, Specificity가 서술되지 않은 경우도 많을 뿐 아니라 반대로 Sensitivity의 결과값이 나타나 있지만, Accuracy, Specificity의 정보가 없는 예도 있다. 즉 Accuracy, Sensitivity, Specificity 세 가지가 모두 나타나 있는 것이 아니라 몇 개가 빠져있는 경우가 매우 많다. 이로 인해 Volume 값을 모두 작성하기에는 어려움이 존재했다. 따라서 본 연구에서는 기본적으로 Accuracy에 따른 Volume 값만 다루고 있다.

이처럼 의료 영상을 사용한 인공지능의 연구는 다양한 변수들이 존재한다. 예를 들어 훈련의 사용된 데이터베이스 수에 따라 인공지능의 학습량이 달라지며, 자료수집 및 처리 과정에서 임상 증상 및 징후, 입원 시 검사 소견이 환자마다 다르며, Imaging films가 적용된 데이터들의 사용 여부 또한 데이터베이스의 질적 차이를 일으킨다. 본 연구에서는 이러한 변수들은 배제한 후 연구를 실행하였기에 몇 가지 오류가 있다는 제한점이 존재한다. 추후 연구에서는 이러한 오류들을 포함한 연구의 필요성이 보인다.

Ⅴ. CONCLUSION

총 292개의 논문을 분석한 결과 COVID-19를 탐지하는 딥러닝 모델들은 질병 진단에 대하여 준수한 성능을 보여주었으며, 데이터 세트 및 딥러닝 Architecture의 종류, Class 수, 교차검증과 같은 요소들이 딥러닝 알고리즘의 탐지 성능에 있어 막대한 영향을 끼친다는 것을 알아내었다. 연구에 사용된 것처럼 수많은 알고리즘이 존재하지만 특정한 한 알고리즘이 우수하다고 말하기에는 다소 어려운 부분이 있다. 하지만 2, 3중 Class를 사용했고 1,001~10,000개의 이미지를 데이터베이스로 사용했으며 Mobile Net, Xception Architecture가 기반으로 사용된 알고리즘이 가장 우수한 성적을 보였다.

이러한 의료 인공지능 연구들은 질병 진단에 대하여 기대할 만한 성능 측정정보를 나타냈고 임상에서 구체적으로 인공지능이 활용될 가능성을 보였다. 앞으로 COVID-19 뿐만 아니라 이와 유사한 감염병이 발병할 때, 의료진이 정확하고 신속한 진단과 적절한 치료 결정, 모니터링에 관한 역할을 수월하게 할 수 있을 것으로 전망된다.

Acknowledgments

이 성과는 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구이다(No. 2022R1G1A1004385).

References

  1. A. E. Gorbalenya, S. C. Baker, R. S. Baric, R. J. de Groot, C. Drosten, A. A. Gulyaeva, B. L. Haagmans, C. Lauber, A. M. Leontovich, B. W. Neuman, D. Penzar, S. Perlman, Leo L. M. Poon, D. V. Samborskiy, I. A. Sidorov, I. Sola and J. Ziebuhr, "The species Severe acute respiratory syndrome-related coronavirus: Classifying 2019-nCoV and naming it SARS-CoV-2", Nature Microbiology, Vol. 5, pp. 536-544, 2020. https://doi.org/10.1038/s41564-020-0695-z
  2. S. H. Lee, J. M. Kim, "Coronavirus Disease 2019 (COVID-19): Pandemic and the Challenge of Public Health," Korean Journal of Family Practice, Vol. 10, No. 2, pp. 87-95, 2020. https://doi.org/10.21215/kjfp.2020.10.2.87
  3. https://kosis.kr/index/index.do
  4. Brit Long, Brandon M. Carius, Summer Chavez, Stephen Y. Liang, William J. Brady, Alex Koyfman, Michael Gottlieb, "Clinical update on COVID-19 for the emergency clinician: Presentation and evaluation", American Journal Of Emergency Medicine, Vol. 54, pp. 46-57, 2022. http://dx.doi.org/10.1016/j.ajem.2022.01.028
  5. S. H. Yoon, Ph. D. / Doctor of Radiology, K. H. Lee, Ph. D. / Doctor of Radiology, J. Y. Kim, M. S. / Master of Internal Medicine, Y. K. Lee, Ph. D. / Doctor of Radiology, H. S. Ko, K. H. Kim, C. M. Park, Ph. D. / Doctor of Radiology, Y. H. Kim, Ph. D. / Doctor of Radiology, "Chest Radiographic and CT Findings of the 2019 Novel Coronavirus Disease (COVID-19): Analysis of Nine Patients Treated in Korea", Korean Journal of Radiology, Vol. 21, No. 4, pp. 494-500, 2020. https://doi.org/10.3348/kjr.2020.0132
  6. N. Sethuraman, S. S. Jeremiah, A. Ryo, Ph. D. / Department of Microbiology and Molecular Biodefense Research, "Interpreting Diagnostic Tests for SARS-CoV-2", The Journal of the American Medical Association, Vol. 323, No. 22, pp. 2249-2251, 2020. http://dx.doi.org/10.1001/jama.2020.8259
  7. A. Zheng, "Evaluating Machine Learning Models", O'reilly: Sebastopol, CA, USA, 2015. https://www.oreilly.com/content/evaluating-machine-lear ning-models/
  8. M. S. Lee, "Overcoming the COVID-19 Epidemics with Communities in Korea", Journal of agricultural medicine and community health, Vol. 45, No. 1, pp. 41-46, 2020. https://doi.org/10.5393/JAMCH.2020.45.1.041
  9. D. G. Woon, S. P. Lee, "Artificial Intelligence and Implications of the Fourth Industrial Revolution", Industrial Engineering Magazine, Vol. 72, No. 23, pp. 13-22, 2016. https://doi.org/10.1201/9781003159742
  10. T. Ozturk, M. Talo, E. A. Yildirim, U. B. Baloglu, O. Yildirim, U. A. Rajendra, "Automated detection of COVID-19 cases using deep neural networks with X-ray images", Computers in Biology and Medicine, Vol. 121, pp. 103792, 2020. http://dx.doi.org/10.1016/j.compbiomed.2020.103792
  11. S. Bharati, P. Podder, R. H. Mondal, "Hybrid deep learning for detecting lung diseases from X-ray images", Informatics in Medicine Unlocked, Vol. 20, pp. 100391, 2020. http://dx.doi.org/10.1016/j.imu.2020.100391
  12. X. Ying, "An Overview of Overfitting and its Solutions", Journal of Physics: Conference Series, Vol. 1168, No. 2, pp. 22022, 2019. http://dx.doi.org/10.1088/1742-6596/1168/2/022022
  13. T. T. Wong, P. Y. Yeh, "Reliable Accuracy Estimates from k-Fold Cross Validation", IEEE Transactions on Knowledge and Data Engineering, Vol. 32, No. 8, pp. 1586-1594, 2020. http://dx.doi.org/10.1109/TKDE.2019.2912815
  14. Z. Jiao, J. W. Choi, K. Halsey, T. M. Linh Tran, B. Hsieh, D. Wang, F. Eweje, R. Wang, K. Chang, J. Wu, S. A. Collins, T. Y. Yi, A. T. Delworth, T. Liu, T. T. Healey, S. Lu, J. Wang, X. Feng, M. K. Atalay, L. Yang, M. Feldman, P. J. L. Zhang, W. H. Liao, Y. Fan, H. X. Bai, "Prognostication of patients with COVID-19 using artificial intelligence based on chest x-rays and clinical data: a retrospective study", Lancet Digital Health, Vol. 3, No. 5, pp. 286-294, 2021. https://doi.org/10.1016/s2589-7500(21)00039-x