DOI QR코드

DOI QR Code

Performance Evaluation of YOLOv5 Model according to Various Hyper-parameters in Nuclear Medicine Phantom Images

핵의학 팬텀 영상에서 초매개변수 변화에 따른 YOLOv5 모델의 성능평가

  • Min-Gwan Lee (Department of Radiological Science, Eulji University) ;
  • Chanrok Park (Department of Radiological Science, Eulji University)
  • 이민관 (을지대학교 방사선학과) ;
  • 박찬록 (을지대학교 방사선학과)
  • Received : 2024.01.11
  • Accepted : 2024.02.29
  • Published : 2024.02.29

Abstract

The one of the famous deep learning models for object detection task is you only look once version 5 (YOLOv5) framework based on the one stage architecture. In addition, YOLOv5 model indicated high performance for accurate lesion detection using the bottleneck CSP layer and skip connection function. The purpose of this study was to evaluate the performance of YOLOv5 framework according to various hyperparameters in position emission tomogrpahy (PET) phantom images. The dataset was obtained from QIN PET segmentation challenge in 500 slices. We set the bounding box to generate ground truth dataset using labelImg software. The hyperparameters for network train were applied by changing optimization function (SDG, Adam, and AdamW), activation function (SiLU, LeakyRelu, Mish, and Hardwish), and YOLOv5 model size (nano, small, large, and xlarge). The intersection over union (IOU) method was used for performance evaluation. As a results, the condition of outstanding performance is to apply AdamW, Hardwish, and nano size for optimization function, activation function and model version, respectively. In conclusion, we confirmed the usefulness of YOLOv5 network for object detection performance in nuclear medicine images.

You only look once v5 (YOLOv5)는 객체 검출 과정에 우수한 성능을 보이고 있는 딥러닝 모델 중 하나다. 그러므로 본 연구의 목적은 양전차방출단층촬영 팬텀 영상에서 다양한 하이퍼 파라미터에 따른 YOLOv5 모델의 성능을 평가했다. 데이터 세트는 500장의 QIN PET segmentation challenge로부터 제공되는 오픈 소스를 사용하였으며, LabelImg 소프트웨어를 사용하여 경계박스를 설정했다. 학습의 적용된 하이퍼파라미터는 최적화 함수 SDG, Adam, AdamW, 활성화 함수 SiLu, LeakyRelu, Mish, Hardwish와 YOLOv5 모델 크기에 따라 nano, small, large, xlarge다. 학습성능을 평가하기 위한 정량적 분석방법으로 Intersection of union (IOU)를 사용하였다. 결과적으로, AdmaW의 최적화 함수, Hardwish의 활성화 함수, nano 크기에서 우수한 객체 검출성능을 보였다. 결론적으로 핵의학 영상에서의 객체 검출 성능에 대한 YOLOV5 모델의 유용성을 확인하였다.

Keywords

Ⅰ. INTRODUCTION

다양한 핵의학 검사 방법 중 positron emission tomography (PET) 영상은 목표하는 장기에 관련 방사성동위원소를 주입함으로써 암의 전이 등 진단가치를 향상하는데 주요 역할을 하고 있다[1,2]. 이러한 PET 장치의 발달은 외과적 수술 없이 인체 내부의 기능적 상태를 확인할 수 있는 장점이 있기 때문에 검사 건수는 지속적으로 증가하고 있는 추세다. 또한, 현재 영상 검사의 판독은 영상 저장 및 전송 체계 시스템을 운영하고 있으며 디지털 기반의 의료영상 생성이 가능하기 때문에 효율적인 영상 처리 및 판독이 가능해졌다[3]. 영상 검사 및 진단 측면에서 첨단 의료 기술이 접목되어 수행 되고 있지만, 최등은 증가하는 영상 진단 건수로 전문성 있는 전문의 수급 부족이 발생하고 있고 원격판독이 확대되고 있다고 보고했다[4]. 또한, 원격 판독은 다양한 장점이 있지만, 환자와의 비대면 진료로 세부적인 진단의 제한점이 발생할 수 있다.

최근 의료 진단의 정확도를 향상시키기 위하여 컴퓨터도움진단(compute-aided diagnosis; CAD) 기반의 기술이 임상현장에서 사용되고 있다[5]. 다양한 CAD 기술 중 딥러닝 기반의 다양한 모델이 개발 되었고, 객체 검출(object detection)에 관한 연구가 세분화 되어 수행되고 있다. 컨볼루션 신경망(convolution neural network; CNN)이 객체 검출을 위한 네트워크로 사용되었지만 검출 객체의 수가 증가함에 따라 성능이 저하되는 단점이 있다[6,7]. 이를 보완하기 위하여 R-CNN (regions with convolutional neural networks)의 모델이 개발되었고, 카테고리 분류 (classification), 물체 식별과 객체의 위치 확인을 순차적으로 수행함으로써 객체 검출 분야에 있어 우수한 성능을 보였다[8,9]. 하지만 두 가지 과정을 순차적으로 시행하기 때문에 학습 및 데이터 처리 속도가 느리다는 단점이 발생한다[8]. 최근 You look only once version 5 (YOLOv5)는 학습시간이 오래 걸리는 단점을 보완하면서 객체를 식별하고 위치를 찾는 두 가지 문제를 동시에 수행할 수 있는 모델이다[10]. Kim 등은 YOLOv5모델의 객체 검출 성능을 평가하고자 뇌 computed tomography (CT) 영상을 이용하여 뇌출혈 부위를 검출함으로써 모델의 유용성을 입증하는 연구를 수행하였다[11]. CT 영상에서의 병변 검출 목적의 YOLOv5 모델 적용 선행 연구가 수행되었고, 핵의학 영상에서의 적용도 필요한 시점이다.

그러므로 본 연구에서는 national electrical manufacturers association (NEMA) international electrotechnical commission (IEC) 몸통 팬텀 PET 영상을 이용하여 초매개변수 변화에 따른 YOLOv5의 객체 검출 성능을 평가하고자 한다.

Ⅱ. MATERIAL AND METHODS

1. 데이터 셋 구축

YOLOv5 학습 및 테스트 수행을 위한 데이터셋은 Quantitative Imaging Network (QIN) PET 팬텀에서 제공된 512 × 512 크기의 영상을 Fig. 1-(a)과 같이 500장 이용하였다[12].

BSSHB5_2024_v18n1_21_2_f0001.png 이미지

Fig. 1. The photos of (a) NEMA IEC PET phantom data with different diameter spheres and (b) bounding box dataset.

NEMA IEC 몸통 팬텀은 10 mm, 13 mm, 17 mm, 22 mm, 28 mm, 37 mm 지름으로 구성된 6개의 구가 내부에 위치해 있으며 각 구의 방사능과 배후 방사능의 비율을 8:1 또는 10:1로 유지할 수 있는 방사성동위원소를 주입 후 얻어진 오픈 데이터다.

객체검출을 위하여 학습데이터의 경로 및 6개의 구 크기에 따른 클래스를 설정하는 yaml 파일을 하였다.

그리고, labelImg 소프트웨어를 이용하여 각각의 구에 따른 경계 박스 (bounding box)를 설정함으로써 Label 데이터셋을 Fig. 1-(b)과 같이 구성하였다.

2. YOLO 모델 및 초매개변수 설정

Table 1은 YOLOv5의 성능을 평가하기 위하여 설정한 초매개변수다. 최적화 함수는 stochastic gradient descent (SDG), adaptive moment estimation (Adam), AdamW, 활성화 함수는 sigmoid linear unit (SiLu), leaky rectified linear unit (LeakyRelu), mish, hardswish, YOLOv5의 Nano, Small, Large, Xlarge의 모델 크기에 따라 적용하였다. 본 연구 수행을 위한 표준 설정 조건은 SDG의 최적화 함수, SiLU의 활성화 함수, Xlarge의 YOLO v5 모델 크기와 300번의 학습회수이다.

Table 1. The hyper-parameters for performance evaluation including the reference condition

BSSHB5_2024_v18n1_21_2_t0001.png 이미지

* Reference condition

3. 평가 방법

YOLOv5의 다양한 조건 변화에 따른 성능을 평가하기 위하여 intersection over union (IOU) 인자를 사용하였다. IOU 의 경계박스의 좌표는 경계박스 x, y축의 중심점 좌표, 경계박스의 너비 좌표, 경계박스의 높이 좌표로 구성되어 있다. 6개 각 구에 대한 PET 영상의 경계 박스와 조건 변화에 따른 YOLOv5 모델이 예측 경계 박스에 대한 좌표를 각각 확인하여 Eq. (1)의 IOU 파라미터를 사용하여 비교 평가하였다.

\(\begin{align}I O U=\frac{\operatorname{area}\left(A_{b} \cap B_{p}\right)}{\operatorname{area}\left(A_{b} \cup B_{p}\right)}\end{align}\)       (1)

Ab와 Bp는 각 구의 크기에 따른 경계 면적과 YOLOv5 모델에 의해 예측된 면적을 의미하고, 각각의 중복하는 면적과 전체 면적의 비율로 IOU를 계산하여 객체 검출의 정확도를 평가하였다. 객체 검출의 성능 평가로써 각 구의 IOU 값을 평균하여 비교 분석 하였다.

본 연구는 Pytorch 라이브러리를 이용하였으며, GPU 기반의 GeForce RTX 4080 16 GBytes의 환경에서 수행하였다.

Ⅲ. RESULTS

Fig. 2는 활성화 함수 적용 변화에 따른 각 구의 평균 IOU 결과 값이다. 활성화 함수 변화에 따른 IOU 평균 결과값은 SiLu, LeakyRelu, Mish, Hardwish는 0.75, 0.77, 0.77, 0.81 이다. Fig. 3은 최적화 함수 변화에 따른 IOU 평균 결과값은 SGD, Adam, AdamW로 0.83, 0.83, 0.75이 측정되었다. Fig. 4는 YOLOv5 크기에 따른 IOU 결과값으로 large, xlarge, small, nano 순으로 0.74, 0.75, 0.76, 0.84 이다. Fig. 5는 YOLOv5 크기에 따른 학습 속도 결과 그래프로써 nano, small, large, xlarge 순으로 0.13, 0.14, 0.17, 0.32 시간이 걸렸다.

BSSHB5_2024_v18n1_21_3_f0002.png 이미지

Fig. 2. The intersection over union result graph according to activation functions.

BSSHB5_2024_v18n1_21_3_f0001.png 이미지

Fig. 3. The intersection over union result graph according to optimization functions.

BSSHB5_2024_v18n1_21_3_f0003.png 이미지

Fig. 4. The intersection over union result graph according to YOLOv5 model sizes (YOLOv5l: large size, YOLOv5x: xlarge size, YOLOv5s: small size, YOLOv5n: namo size).

BSSHB5_2024_v18n1_21_3_f0004.png 이미지

Fig. 5. The learning time result according to YOLOv5 model sizes (YOLOv5n: namo size, YOLOv5s: small size, YOLOv5l: large size, YOLOv5x: xlarge size).

Ⅳ. DISCUSSION

본 연구는 6개의 각각 다른 크기를 가지고 있는 핵의학 PET 팬텀 영상을 이용하여 객체 검출 분야에서 우수한 성능을 나타내고 있는 YOLOv5을 모사하고, 활성화 함수, 최적화 함수, YOLOv5 모델 크기에 따라 IOU의 정량적 분석 방법을 이용하여 성능을 평가했다. 또한, Mohiyuddin et al.의 연구결과는 유방암 검출에서의 YOLOv5 모델의 적용 유용성에 대하여 증명하였다[13].

활성화 함수 변화에 따른 IOU 결과 값은 hardswish 적용 조건이 가장 우수하였으며, mish, leakyRelu 와 비교했을 때 약 1.05배, SiLu와 비교했을 때는 1.08배 차이가 발생했다. 또한, 활성화 함수 조건 변화에 따른 IOU 결과는 표준 설정 조건의 SGD의 IOU 값이 가장 낮게 평가되었으며, Adam과 AdamW 설정 조건이 1.11배 향상된 성능을 나타냈다. 그러므로 결과를 바탕으로 최적의 핵의학 팬텀 영상에서 각 구 영상 검출 조건은 활성화 함수는 hardswish, 최적화 함수는 Adam 또는 AdamW가 유용함을 확인하였다. YOLOv5 모델 크기에 따른 성능평가는 nano에서 가장 우수하였으며, large, xlarge, small과 비교 했을때 각각 1.13배, 1.12배, 1.10배의 향상된 성능을 보였다. YOLOv5 모델에 따른 학습 시간은 모델의 파라미터 크기가 증가할 수록 오래 소요되는 특징이 있으며, nano가 가장 학습 시간이 빨랐으며, xlarge와 비교했을 때 nano, small, large는 각각 2.46배, 2.28배, 1.88배의 학습 시간이 감소하는 성능을 나타냈다. 결과적으로, 핵의학 팬텀 영상에서의 각 구의 영상 검출은 nano 크기에서 가장 짧은 학습 시간과 IOU의 우수한 성능을 나타냄을 확인하였다. YOLOv5의 모델의 크기가 증가할수록 학습 시간은 증가하지만 검출 성능에는 영향이 없었다. 또한 기본 초매개변수로 설정되어 있는 SGD 최적화 함수 변수보다 AdamW 조건에서 핵의학 영상의 검출이 우수함을 확인하였다.

연구에서 얻은 기초 결과 데이터를 기반으로 추후 PET 임상 영상에 적용해 보고자 한다. 연구에서 획득된 최적의 초매개변수를 적용하여 방사성 동위원소 주입으로 뇌, 침샘, 간, 심장, 신장, 방광 등 다양한 정상 조직 집적과 암 전이와 같은 병변 부위에도 집적이 되는 핵의학 영상의 정확한 병변을 검출하고 과중한 업무를 보조하기 위한 CAD 기술 기반 YOLOv5 모델의 임상 영상 평가 연구를 계획하고 있다.

Ⅴ. CONCLUSION

본 연구를 NEMA IEC 몸통 팬텀 내 크기가 다른 6개의 구의 PET 영상을 이용하여 다양한 초매개변수 변화에 따른 YOLOv5 모델의 성능을 평가하였다. 결과적으로 YOLOv5 모델적용은 핵의학 영상에서의 객체 검출에 적용 가능성을 제시하였으며, 획득한 데이터를 기반으로 임상 영상적용이 필요하다고 생각된다.

Acknowledgment

이 논문은 2023학년도 을지대학교 학술연구비 지원에 의하여 이루어진 것임.

References

  1. D. W. Townsend, "Multimodality imaging of structure and function", Physics in Medicine and Biology, Vol. 53, No. 4, pp. 1-39, 2008. http://dx.doi.org/10.1088/0031-9155/53/4/R01 
  2. A. Kjaer, "Hybrid imaging with PET/CT and PET/MR", Cancer Imaging(Proceedings of the International Cancer Imaging Society (ICIS) 14th Annual Teaching Course), Vol. 14, No. 1, pp. O32, 2014. http://dx.doi.org/10.1186/1470-7330-14-S1-O32 
  3. I. S. Cho, H. S. Kwon, "Efficient sharing system of medical information for interoperability between PACS system", Journal of the Korea Institute of Information and Communication Engineering, Vol. 13, No. 3, pp. 498-504, 2009. https://doi.org/10.6109/JKIICE.2009.13.3.498 
  4. M. H. Choi, E. Hong, S. E. Jung, H. Woo, W. K. Jeong, et al, "Teleradiology of Korea in 2017: A Questionnaire to Members of The Korean Society of Radiology", Journal of Korean Society Radiology, Vol. 80, No. 4, pp. 684-703, 2019. https://doi.org/10.3348/jksr.2019.80.4.684 
  5. D. Kunio, "Computer-Aided Diagnosis in Medical Imaging: Historical Review. Current Status and Future Potential", Computerized Medical Imaging and Graphics, Vol. 31, No. 4, pp. 198-211, 2007. https://doi.org/10.1016/j.compmedimag.2007.02.002 
  6. J. Lu, L. Tan, H. Jiang, "Review on Convolutional Neural Network (CNN) Applied to Plant Leaf Disease Classification", Agriculture, Vol. 11, No. 8, pp. 707, 2021. https://doi.org/10.3390/agriculture11080707 
  7. J. Qin, W. Pan, X. Xiang, Y. Tan, H. Hou, "A biological image classification method based on improved CNN", Ecological Informatics, Vol. 58, pp. 10193, 2020. https://doi.org/10.1016/j.ecoinf.2020.101093 
  8. R. Girshick, J. Donahue, T. Darrell, J. Malik, "Rich feature hierarchies for accurate object detection and semantic segmentation", In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 580-587, 2014. https://doi.org/10.48550/arXiv.1311.2524 
  9. J. R. R. Uijlings, K. E. A Van De Sande, T. Gevers, A. W. M. Smeulders, "Selective search for object recognition", International journal of computer vision, Vol. 104, No. 2, pp. 154-171, 2013. https://doi.org/10.1007/s11263-013-0620-5 
  10. J. Redmom. S. Divvala, R. Girshick, A. Farhadi, "You Only Look Once: Unified, Real-Time Object Detection", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 779-788, 2016. https://doi.org/10.48550/arXiv.1506.02640 
  11. S. Kim, S. Lee, "Performance evaluation of YOLOv5s for brain hemorrhage detection using computed tomography images", Journal of the Korean Society of Radiology, Vol. 16, No. 1, pp. 25-34, 2022. https://doi.org/10.7742/jksr.2022.16.1.25 
  12. K. Clark, B. Vendt, K. Smith, J. Freymann, J. Kirby, P. Koppel, S. Moore, S. Phillips, D. Maffitt, M. Pringle, L. Tarbox, F. Prior, "The Cancer Imaging Archive (TCIA): maintaining and operating a public information repository", Journal of Digital Imaging, Vol. 26, No. 6, pp. 1045-1102, 2013. https://doi.org/10.1007/s10278-013-9622-7 
  13. A. Mohiyuddin, A. Basharat, U. Chani, et al., "Breast Tumor Detection and Classification in Mammogram Images Using Modified YOLOv5 Network", Computational and Mathematical Methods in Medicine, Vol. 2022, 2022. https://doi.org/10.1155/2022/1359019