A Comparative Study on Artificial in Intelligence Model Performance between Image and Video Recognition in the Fire Detection Area

Jeong Rok Lee;Dae Woong Lee;Sae Hyun Jeong;Sang Jeong;

doi:10.15683/kosdi.2023.12.31.968

Journal of the Society of Disaster Information (한국재난정보학회 논문집)

Volume 19 Issue 4
/
Pages.968-975
/
2023
/
1976-2208(pISSN)
/
2671-5287(eISSN)

The Korean Society of Disaster Information (한국재난정보학회)

DOI QR Code

A Comparative Study on Artificial in Intelligence Model Performance between Image and Video Recognition in the Fire Detection Area

화재 탐지 영역의 이미지와 동영상 인식 사이 인공지능 모델 성능 비교 연구

Jeong Rok Lee (Research Laboratory, AI Reader Co., Ltd) ;
Dae Woong Lee (Research Laboratory, AI Reader Co., Ltd) ;
Sae Hyun Jeong (Research Laboratory, AI Reader Co., Ltd) ;
Sang Jeong (Department of Parliament ICT convergence safety, University of Chung-Ang)

Received : 2023.12.07
Accepted : 2023.12.21
Published : 2023.12.31

https://doi.org/10.15683/kosdi.2023.12.31.968 Citation PDF HTML

Download PDF

⟨ Previous Next ⟩

Abstract

Purpose: We would like to confirm that the false positive rate of flames/smoke is high when detecting fires. Propose a method and dataset to recognize and classify fire situations to reduce the false detection rate. Method: Using the video as learning data, the characteristics of the fire situation were extracted and applied to the classification model. For evaluation, the model performance of Yolov8 and Slowfast were compared and analyzed using the fire dataset conducted by the National Information Society Agency (NIA). Result: YOLO's detection performance varies sensitively depending on the influence of the background, and it was unable to properly detect fires even when the fire scale was too large or too small. Since SlowFast learns the time axis of the video, we confirmed that detects fire excellently even in situations where the shape of an atypical object cannot be clearly inferred because the surrounding area is blurry or bright. Conclusion: It was confirmed that the fire detection rate was more appropriate when using a video-based artificial intelligence detection model rather than using image data.

연구목적: 화재 탐지시 불꽃/연기의 오탐지율이 높은 것을 확인하고 오탐지율을 낮추기 위해 화재 상황을 인식하여 분류하는 방법과 데이터셋을 제안하고자 한다. 연구방법: 동영상을 학습데이터로 활용하여 화재 상황의 특징을 추출하여 분류모델에 적용하고, 평가는 한국정보화진흥원(NIA)에서 진행하는 화재 데이터셋을 이용하여 Yolov8, Slowfast의 모델 성능을 비교 및 분석하였다. 연구결과: YOLO는 배경의 영향에 따라 탐지 성능이 민감하게 변화하며, 화재의 규모가 너무 크거나 작을 때에도 화재를 제대로 감지하지 못했다. SlowFast는 동영상의 시간 축을 같이 학습하기 때문에 비정형 객체에 대해 주변이 흐리거나 밝아 형상을 명확하게 유추할 수 없는 상황에서도 우수하게 화재를 탐지하는 것을 확인했다. 결론: 화재 탐지율은 이미지 데이터 방식보다는 동영상 기반의 인공지능 인식(Detection) 모델을 활용했을 때 더 적절했음을 확인했다.

Keywords

서론

소개

최근 기후재난 이슈와 더불어 캐나다 산불, 하와이 산불과 같은 화재로 인해 엄청난 재산과 인명피해가 발생하고 있다. 화재를 예방하기 위한 노력과 함께 피해를 최대한 줄일 수 있게 화재를 조기에 탐지하기 위한 연구가 진행되고 있다. 현재 소방분야에서는 화재를 탐지하기 위한 불꽃, 연기, 가스 등을 감지하는 센서를 설치하여 관리하고 있다(Khan, 2022). 센서를 활용한 방식은 가격이 저렴하고 작동이 편리하여 건물 및 공장 등에 많이 설치되어 있다. 하지만 정확도가 낮아 오탐이 많다. 이를 보완하기 위해 딥러닝 인공지능 기술인 CNN, Transformer 등의 신경망을 이용한 화재 탐지 모델에 대한 연구가 활발하다(Na et al,, 2020; Jin et al,, 2023). 불꽃 및 연기 객체를 탐지하는 화재 탐지 모델은 입력 영상에서 클래스 정의한 객체의 특징을 추출하여 인식하는 기술로 실시간성을 확보하기 위해 모델을 경량화하는 쪽으로 연구가 계속되고 있다. 여러 CCTV 영상을 동시에 분석할 수 있게 경량화된 모델은 CCTV기반 화재 탐지 시스템에 적용되고 적은 비용으로 많은 공간을 넓게 모니터링할 수 있다(Feichtengofe et al., 2019). 그러나 경량화로 인해 오탐지율이 높아 이를 개선하기 위한 연구가 활발하다. 본 연구에서는 오탐지율을 낮추기 위해 화재 상황 분류 모델과 학습데이터셋을 제안한다. 기존 탐지 모델과 학습방법에 대해 실험을 통해 비교, 평가해 제안방법의 우수성을 증명한다.

본론

모델 사용

이미지 기반 모델은 실시간 탐지 프로그램에 적용할 수 있으며, 2023년을 기준으로 8번째 버전까지 고도화를 거쳐 정확도와 실용성을 모두 갖춘 YOLOv8 (Jocher, 2023) 모델을 선정했으며, COCO(Microsoft Common Objects in Context) (Lin et al, 2014) 데이터를 사전 훈련한 모델에 대해 NIA 화재 데이터셋을 추가 학습했다. Fig. 1은 YOLO 모델 구조를 보여준다.

동영상 기반 모델은 공간과 시간 축의 프레임 수를 달리하여 빠르게 변화하는 모션을 인지하는 네트워크와 느리게 변화하는 모션을 인지하는 네트워크로 구분하는 SlowFast(Feichtengofer, 2019) 모델을 선정했으며, Kinetics-400 (Kay et al., 2017) 데이터를 사전 훈련한 모델에 대해 NIA 화재 데이터셋을 추가 학습했다. Fig. 2는 SlowFast 모델 구조를 보여준다.

JNJBBH_2023_v19n4_968_f0001.png 이미지

Fig. 1. YOLOv8 frame(locher, 2023)

JNJBBH_2023_v19n4_968_f0002.png 이미지

Fig. 2. SlowFast frame(Feichtehofer, 2019)

데이터셋 구성

데이터는 한국정보화진흥원(NIA)에서 제공하는 데이터셋을 사용했으며, 데이터는 1920x1080과 1280x720 크기로 12초 길이의 30FPS 클립으로 구성되어 있다. 클래스는 “정상(NONE)”, “연기(SMOKE)”, “불꽃(FLAME)” 3개로 구분하였으며, 영상에는 불꽃과 연기 등이 다양하게 분포되어 있다. 이미지 기반 모델 동영상 데이터를 이미지로 변환하여 학습을 진행한다. 이 때 정상은 학습할 수 없기 때문에 연기와 불꽃 탐지만 할 수 있도록 학습을 진행하며, 이후 후처리를 통해 정상 클래스를 분류한다. 각 불꽃, 연기, 정상은 300개 클립으로 Table 1과 같이 구성하였고 Table 2는 학습, 검증, 테스트가 8:1:1 비율로 구성됨을 보여준다.

Table 1. Data for each class, 1:1:1 composition of proportions

JNJBBH_2023_v19n4_968_t0001.png 이미지

Table 2. Learning by class, verification, Test data, 8:1:1 composition of proportions

JNJBBH_2023_v19n4_968_t0002.png 이미지

성능평가

평가는 동영상 데이터에 대해 정상, 연기, 불꽃 클래스를 올바르게 분류했는지를 P(Precision), R(Recall), F(F1-Score)로 평가한다. 이미지와 동영상 기반 모델을 동일한 조건으로 평가하기 위해 YOLO는 후처리를 통해 분류 형식에 맞도록 반환값을 조정한다. 1개의 클립은 360장의 이미지로 이뤄진 데이터를 사용하고 있기 때문에 YOLO는 1개의 클립에 대해 총360장 이미지를 읽어 각 이미지 별로 클래스를 탐지한다. 탐지된 우선순위는 불꽃 >= 연기 > 정상으로 판단한다. 불꽃이 발생하는 경우엔 필연적으로 연기가 같이 발생하기 때문에 하나의 이미지에서 연기와 불꽃을 모두 탐지한 경우는 불꽃에 더 높은 우선순위를 부여한다. 360장 이미지에 대해 각 클래스를 탐지한 후 후처리를 위해 S_TH(Score_Threshold)를 0.1, 0.2, ..., 1.0으로 0.1 STEP씩S_TH를 증가하며, 360장 이미지에서 탐지된 불꽃, 연기 비율을 카운팅한다. 이때 카운팅 수량이 S_TH를 넘어서면 해당 클래스로 분류했다고 판단하고 S_TH를 넘기지 못하면 정상 클래스로 분류했다고 판단한다. Fig. 3은 탐지모델인 YOLO의 출력값을 분류로 후처리하는 방법을 보이며, Table 3은 실험에 사용한 PC의 사양을 보여준다.

JNJBBH_2023_v19n4_968_f0003.png 이미지

Fig. 3. YOLO Post-processing methods

Table 3. Server specs

JNJBBH_2023_v19n4_968_t0003.png 이미지

성능비교

테스트셋은 Table 2에 기재된 불꽃, 연기, 정상 클래스별 각 30개의 클립을 사용하며, YOLO 후처리 별 성능은 Table 4와 같고 두 모델에 대한 성능은 Table 5, 클래스 별 성능은 Table 6과 같다(YOLO, S_TH 0.6기준). 제한된 테스트셋 기준에선 전반적으로 이미지 기반의 탐지모델인 YOLO를 사용한 경우가 동영상 기반의 SlowFast 모델보다 정확도가 높게 나타났다. 하지만 YOLO는 Fig. 4와 같이 화재가 발생하였는데 불꽃이 작아 연기 위주인 경우에는 불꽃을 제대로 탐지하지 못했고, Fig. 5와 같이 불꽃의 밝기로 그 주변까지 밝아져 불꽃 형상이 명확하게 보이지 않는 경우에도 1개의 불꽃을 여러 개로 탐지하는 등의 오탐이 존재했다. SlowFast는 YOLO와 다르게 Fig. 4 경우처럼 불꽃이 작고 연기 위주인 경우에도 불꽃을 잘 탐지했으며, Fig. 5처럼 불꽃의 빛 번짐으로 불꽃 형상이 명확하지 않더라도 올바르게 탐지함을 확인하였다. 다만, Table 6에 정상 recall과 연기 precision을 보면 두 클래스 사이 오탐이 성능을 저하시킴을 볼 수 있고 이는 정상에 대한 특징이 명확하지 않아 정상 영상에 존재하는 희미한 구름 등이 연기로 오탐을 일으키는 것으로 유추되어 정상 데이터를 불꽃,연기 보다 배로 확보하여 정상,연기,불꽃 별 성능 추이를 확인해볼 필요가 있다. 마지막으로 두 모델 모두 화재를 올바르게 탐지하지만 현재 테스트 케이스는 명확한 정상, 연기, 불꽃으로 나누어졌기에 YOLO가 보다 우수한 성능을 가짐을 확인할 수 있다. 하지만 노이즈가 많은 데이터를 입력으로 넣은 경우에는 Fig. 4,5와 같이 YOLO의 오탐지가 더 높음을 확인할 수 있다. 이는 너무 소량의 테스트 데이터를 사용하였기에 현재 성능을 그대로 받아들이기 어려운 점을 시사한다.

Table 4. YOLO post-processing, performance by S_TH(0-100)

JNJBBH_2023_v19n4_968_t0004.png 이미지

Table 5. SlowFast, YOLO model performance(0-100)

JNJBBH_2023_v19n4_968_t0005.png 이미지

Table 6. Performance of SlowFast, YOLO model by class(0-100)

JNJBBH_2023_v19n4_968_t0006.png 이미지

JNJBBH_2023_v19n4_968_f0004.png 이미지

Fig. 4. If flames are seen in far away places (YOLO / SlowFast)

JNJBBH_2023_v19n4_968_f0005.png 이미지

Fig. 5. If the shape of the flame is not clearly visible due to the strong flame (YOLO / SlowFast)

결론

화재탐지 분야에서 이미지 기반의 모델 YOLO와 동영상 기반의 모델 SlowFast 성능을 비교하여, 둘 중 어느 접근법이 화재탐지 분야에 더 유효한지 실험하였다. YOLO는 배경의 영향을 많이 받아 주변이 너무밝거나 흐리면 탐지 성능이 급감하며, 화재의 규모가 너무 크거나 작을 때에도 화재를 제대로 감지하지 못했다. 이는 객체 탐지를 위해 레이블링 할 때 주변이 밝거나 흐린 경우 불꽃이나 연기의 형상을 일관되게 잡을 수 없기 때문으로 보이며, 이는 모델 학습 시 성능 저하가 더 가중된 것으로 판단된다. 동영상 기반 모델 SlowFast는 FastPath와 SlowPath를 이용하여 빠르게 변화하는 모션과 느리게 변화하는 모션을 인지하는 네트워크를 구분하여 학습하며, 동영상의 시간 축을 같이 학습하기 때문에 비정형 객체에 대해 주변이 흐리거나 밝아 형상을 명확하게 유추할 수 없는 상황에서도 우수하게 화재를 탐지하는 것을 확인했다. 다만, SlowFast는 불꽃을 잘 예측하지만 정상과 연기 사이 오탐하는 경우가 빈번하다. 이를 개선하기 위해 정상 데이터 분포를 연기, 불꽃 대비 2-5배가량 증가시키며 연기, 불꽃 성능은 유지하되 정상인 경우의 오탐을 줄이는 등 모델 성능 고도화를 위한 연구가 필요하다.

References

Ang G. Aritejh Kr Goil, Henryk Chan, Jieyi Jeric Lew, Xin Chun Lee, Raihan Bin Ahmad Mustaffa, Timotius Jason, Ze Ting Woon, Bingquan Shen. (2023). "A novel application for real-time arrhythmia detection using YOLOv8." arXiv preprint arXiv:2305.16727.
Feichtengofer, C, Haoqi Fan Jitendra Malik Kaiming He. (2019). "SlowFast networks for video recognition." Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pp. 1-10.
Hu C., Tang, P., Jin, W., He, Z., Li, W. (2018). "Real-time fire detection based on deep convolutional long-recurrent networks and optical flow method." Proceedings of the 37th Chinese Control Conference. pp. 9061-9066.
Huo, Y., Zhang, Q., Zhang, Y., Zhu, J., Wang, J. (2022). "3DVSD: An end-to-end 3D convolutional object detection network for video smoke detection." Fire Safety Journal, Vol. 134, pp. 1-11. https://doi.org/10.1016/j.firesaf.2022.103690
Kim, K.-J., Jang, I.-S., Lim, K.-T. (2021a). "Construction of wild-fire smoke data-set and comparative analysis of detection method based on deep neural network." Electronics and Telecommunications Research Institute Winter Conference, pp. 1172-1173.
Jeong, Y.-S., Kim, Y.-W., Yim, J.-I. (2023). "A study on the development of an automatic classification system for life safety prevention service reporting images through the development of AI learning model and AI model serving server." Journal of the Society of Disaster Information, Vol. 19, No. 2, pp. 432-438. https://doi.org/10.15683/KOSDI.2023.6.30.432
Jin, C., Wang, T., Alhusaini, N., Zhao, S., Liu, H., Xu, K., Zhang, J. (2023). "Video fire detection methods based on deep learning : dataset, methods, and future directions." Fire, Vol. 6, No. 8, pp. 3-15. https://doi.org/10.3390/fire6080315
Jocher, G. (2023). YOLO by Ultralytics (Version 8.0.0). https://github.com/ultralytics/ultralytics.
Kay, W., Carreira, J., Simonyan, K., Zhang, B., Hillier, C., Vijayanarasimhan, S., Viola, F., Green, T., Back, T., Natsev, A., Suleyman, M., Zisserman, A. (2017) "The kinetics human action video dataset." arXiv preprint.
Khan, F., Xu, Z., Sun, J., Khan, F.M., Ahmed, A., Zhao, Y. (2022). "Recent advances in sensors for fire detection." Sensors, Vol. 22, No. 9, pp. 3-10. https://doi.org/10.3390/s22093310
Kim, C.Y., Lee, H.-S., Lee, K.Y. (2022). "Implementation of a deep learning based realtime fire alarm system using a data augmentation" Journal of IKEEE, Vol. 26, No. 3, pp. 468-474. https://doi.org/10.7471/IKEEE.2022.26.3.468
Kim, J.-S., Park, S.-M., Hong, C.-H., Park, S.-H., Lee, J.-W. (2022). "Development of AI detection model based on CCTV image for underground utility tunnel." Journal of the Society of Disaster Information, Vol. 18, No. 2, pp. 364-373. https://doi.org/10.15683/KOSDI.2022.6.30.364
Kim, K.-J., Jang, I.-S., Lim, K.-T. (2021b). "Analysis of video-based fire detection learning model".Electronics and Telecommunications Research Institute Summer Conference, pp. 240-241.
Lin, T.-Y., Maire, M., Belongie, S., Bourdev, L., Girshick, R., Hays, J., Perona, P., Ramanan, D., Zitnick, C.L., Dollar, P. (2014). "Miscrosoft COCO common objects in context." European Conference on Computer Vision. pp. 740-755.
Na, Y.-M., Hyun, D.-H., Park, D.-H., Hwang, S.-H., Lee, S.-H. (2020). "AI fire detection & notification system." The Korea Society of Computer and Information, Vol. 25, No. 12, pp. 63-71.
Nam, G.-T., Seo, K.-J., Choi, D.-C. (2022). "A study on the development of AI-based fire fighting facility design technology through image recognition." Journal of the Society of Disaster Information, Vol. 18, No. 4, pp. 883-890. https://doi.org/10.15683/KOSDI.2022.12.31.883
Park, J., Cho, Y.K, Kim, S. (2022). "Deep learning-based UAV image segmentation and inpainting for generating vehicle-free orthomosaic." International-Journal-of-Applied-Earth-Observation-and-Geoinformation, Vol. 115, 103111.
Yan, C., Wang, Q., Zhao, Y., Zhang, X. (2023). "YOLOv5-CSF: An improved deep convolutional neural network for flame detection." Application of Soft Computing, Vol. 27, pp. 19013-19023. https://doi.org/10.1007/s00500-023-08136-6

Journal of the Society of Disaster Information (한국재난정보학회 논문집)

A Comparative Study on Artificial in Intelligence Model Performance between Image and Video Recognition in the Fire Detection Area

화재 탐지 영역의 이미지와 동영상 인식 사이 인공지능 모델 성능 비교 연구

Abstract

Keywords

서론

소개

관련 연구

본론

모델 사용

데이터셋 구성

성능평가

성능비교

결론

References

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)