Ⅰ. 서론
전 지구적인 기후변화는 장기간에 걸친 온도 상승, 강우량의 변화 등으로 전 세계적으로 자연재해가 증가하고 있으며, 그 중 산불의 발생은 세계 각 곳에서 점차 대형화되고 있는 추세이다. 전 세계 각국 산불 관련 연구는 온도 상승에 따른 건조일의 증가로 산불의 발생 건수와 피해면적의 증가를 예측하고 있고, 피해 방지를 위해 선제적인 산불방지 정책이 실시되고 있다. 우리나라는 최근 10년 평균(2013~2022년) 537건의 산불이 발생하여 3,560ha의 산림이 소실되었으며, 이는 매년 1,180개의 축구장 면적(약 3ha)의 산림이 타고 있으며, 2022년 전국에서 발생한 산불은 모두 756건, 피해면적은 24,797ha에 달하는 것으로, 이는 2013년 이후 2022년까지 같은 기간 10년 평균인 537건, 3,560ha와 비교할 때 이례적으로 급증한 수치이다.
그림 1. 대한민국에서 10년(2013~2022)동안 발생한 산불 건수 및 피해 면적
Fig. 1. Number of wildfires and area affected in South Korea over 10 years (2013-2022)
최근 10년(‘13~’22)간 5,368건(평균 537건) 발생, 피해면적 35,596ha(평균 3,560ha)로 산불은 봄철에 집중발생(전체 56.5%), 월별로는 3월에 많은 피해가 발생한다. 산행인구 증가에 따른 입산자 실화와 산림인접지에서의 소각산불이 전체의 59%에 달하며, 우리나라 산림은 산불에 취약한 침엽수 비율이 높은 임상구조 및 산악지형을 보유하고 있다.
표 1. 산불발생 원인에 따른 건수 및 면적
Table 1. Number and area of wildfires by cause
인공지능 기반 영상분석을 통한 산불 감지 시스템이 필요하다. 우리나라는 중앙 및 지역 산불방지대책본부 설치·운영 그리고 산불방지인력 선발·교육 및 현장 배치를 하고 있지만, 인력과 예산 부족한 문제 해결을 위해서 CCTV 영상에 대한 인공지능 기반 영상분석을 통해 실시간 산불 감지 및 정보 공유 시스템이 반드시 필요하다. 최신 인공지능 기술을 활용하여 산불의 특징인 연기, 불길을 자동으로 탐지하여 상황실 전달을 통해 산불 초동 대응 및 소방자원의 신속한 배치로 국민의 생명과 재산 보호가 가능하므로, AI 및 IoT 기술을 활용한 상시 산불 조기감지 및 확산 예측을 통해 산불피해 확산 방지 및 재난관리 체계의 첨단화 구현이 필요하다.
Ⅱ. 관련 연구
산불 탐지 또는 화재 탐지 연구는 다양한 접근 방법을 통해 연구되어 왔다. 실내 환경에서 화재가 발생할 때, 가스 등의 요소들의 확산을 탐지와 열 탐지 등 인식할 수 있는 스마트 센서, 아날로그 센서를 IoT에 결합하여 특정 임계치 이상일 때 화재를 탐지한다.
산불은 실외 환경에 매우 넓은 영역을 관제해야하는데, 영상 처리 기술을 활용해 산불에 대한 특징을 정의하고 임계값을 설정해 산불을 판별한다. 그리고 머신런닝 또는 딥러닝 기술을 활용해 영상정보에서 화염의 색상 특징 정보들과 연기와 같은 질감 특징 정보를 이용한 머신런닝 기반 화재 탐지 연구[5]부터, U-NET을 통한 딥러닝기반의 불꽃 및 연기 탐지[6]연구, YOLO을 통한 딥러닝 기반 산불 객체 탐지[7]연구, YOLO와 DeepSORT 알고리즘을 통한 산불 객체 탐지[8]연구 등 많은 연구를 수행하고 있다.
Ⅲ. 이미지와 텍스트 정보를 활용한 인공지능 기반 산불 탐지 방법
본 논문에서는 YOLOv9를 이용한 산불 후보군 탐지와 산불 후보군에 대한 이미지와 텍스트 정보를 활용한 산불탐지 방법을 제안한다. 입력 영상에 대해 YOLOv9를 이용하여 산불 후보군을 탐지한다. 이때 이때 연기, 화염, 구름, 안개, 굴뚝 등과 같은 클래스로 구분한다. 그 이후 검은색 연기, 화염과 같은 산불 후보군 영역에 대해 이미지와 텍스트 정보를 활용해 산불을 탐지한다.
그림 2. YOLOv9-SCT 아키텍처
Fig. 2. Yolov9-CST(Context Swin Transformer) Architecture
YOLOv9-CST 모델은 연기 감지를 위한 딥러닝 아키텍처로, 백본과 헤더로 구분하여 학습이 수행된다. 먼저 백본의 경우 YOLOv9을 기반으로 Context Swin Transformer를 결합하여 데이터의 복잡한 공간적, 의미적 및 문맥적 관계를 효과적으로 학습한다. 기존의 Generalized Efficient Layer Aggregation Network(GELAN)는 특정 환경이나 데이터셋에 최적화되어 일반화 능력이 제한되고, 네트워크의 깊이에 따른 정보 손실 가능성이 있지만, Swin Transformer는 계층적 패치 기반 접근과 Self-attention 메커니즘을 통해 이러한 한계를 극복한다. 제안하는 모델의 입력은 I∈ℝ1280x1280xC로 정의되며, 식 1에 정의된 Context Modeling을 통과하여 각 패치 Pi와 그 주변 패치와의 관계 학습하여 입력 이미지 내의 공간적 및 의미적 정보를 유지하며, Swin Transformer는 이 정보를 통해 Self-attention을 학습하여 중요한 특징을 강조한다. 즉, 그 과정에서 정보 손실을 최소화할 수 있다.
Ci = f(Pi, neighbors(Pi))
f : Cosine Similarity (1)
그리고 Context Modeling과 Swin Transformer의 출력을 GELAN에서 사용하여 최종예측 Y를 계산한다.
Y = GELAN(Ci + Attention(Q, K, V)) (2)
각 단계는 다양한 해상도에서 특징을 추출하기 위해 Small, Mid, Large로 나누어 학습하되 연기의 객체 특성상 Large보다 Small에서의 정보가 중요하기 때문에 Large의 크기를 Mid와 같게 맞추어 큰 객체의 디테일을 어느 정도 희생하면서도 연산 효율을 높여 최적화한다. 다음으로 헤더는 YOLOv9을 기반으로 다양한 해상도의 Feature map을 융합하고자 Up sampling과 Down sampling을 반복하여 사용하고 Cross Stage Partial(CSP) 블록으로 비선형성을 추가하여 데이터에서 복잡한 패턴을 더 세분화한다. 그리고 최종 추출된 결과를 Concatenation하는데 단순 연결은 입력되는 모든 Tensor를 동등한 차원으로 연결하여 공간적 영향력이 없으므로 식 3과 같이 네트워크가 훈련 과정에서 각 입력 텐서의 중요도를 동적으로 조정할 수 있게 해주어, 더 효과적인 특성 결합이 가능하도록 한다.
Y = concat(∥Wi∥ ∙ Xi, ∥Wj∥ ∙ Xj) (3)
그림 3과 같이 이미지와 텍스트 정보를 이용한 산불탐지 모델은 CLIP(Contrastive Language-Image Pre-Training)[3]를 통해 이미지와 텍스트 간의 관계를 학습시키기 위한 텍스트와 이미지를 결합한 데이터셋을 구성하였으며, 구축절차는 다음과 같다. 데이터 수집은 전체 이미지에서 설명하고자 하는 객체만 잘라내어 이미지로 저장, ChatGPT를 이용하여 해당 이미지를 상세 묘사하는 텍스트를 수집한다. 데이터 정제는 1차 (ChatGPT이용)에서 얻은 상세 묘사 텍스트를 ChatGPT를 재이용하여 묘사에 확실한 단어들만 모인 짧은 문장 텍스트로 재수집한다. 토큰 분류는 2차로 수집된 짧은 문장 텍스트 데이터 확인 및 객체에 관련된 명사, 부사 등을 positive tokens로 지정하여 태그를 지정한다. 이때, 관사, 접속사 등은 제외한다. 품질 검수는 앞의 절차에 대한 과정에서 품질 검수를 수행한다. 이러한 과정은 산불탐지를 위해 중요도가 높은 단어를 강조하기 위함이다.
그림 3. 이미지와 텍스트 정보를 이용한 산불탐지 학습방법
Fig. 3. Forest Fire Detection using Image and Text Information
YOLOv9-CST 모델에서 산불 후보군을 탐지한 영역을 대상으로 산불인지 아닌지를 판단한다. 이를 위해, 탐지 영역을 입력한다. 이때 입력되는 한 장의 이미지의 인코더와 Fire, Smoke, Fog 등 텍스트 인코더를 통과한다. 입력 이미지(I1)의 차원은 I1∈ R1*dim이 되고, 텍스트 정보는 [T1, T2, T3,...,TN]의 경우는 TN∈ RN*dim이 된다. 그리고 행렬곱을 하면 I1·TN·Transpose∈ R1*dim 차원을 갖으며 각 클래스별로 그림 4와 같은 값을 얻을 수 있다. 식 4와 같이 각 텍스트 클래스에 대한 점수가 임계값을 넘을 시 산불로 판단한다.
\(\begin{align}Wildfire=\left\{\begin{array}{l}1, \text { if } \sum_{N=1}^{n}\left(I_{1} \cdot T_{N}\right) \geq \text { Threshold } \\ 0, \text { if } \sum_{N=1}^{n}\left(I_{1} \cdot T_{N}\right)<\text { Threshold }\end{array}\right.\end{align}\) (4)
그림 4. 이미지와 텍스트에 대한 클래스 별 점수 측정
Fig. 4. Class-specific score for images and text
Ⅳ. 실험 및 결과
AIHub의 연기탐지를 기반으로 모델들을 비교한다. 이 표의 실험은 NVidia T4 GPU에서 수행한다. 제안 방법은 산불 조기 대응을 위해 작은 연기만을 감지하는 것을 목적으로 하므로, 작은 모델만 비교 분석하였다. 우리는 모든 실험에서 합습률 5e-5, 가중치 감쇠 0.2의 아담 최적화를 이용하였다. 우리는 Nvidia H100 PCIe GPU에 32의 배치 크기와 100 에폭시를 이용하여 학습하였다. 사전에 학습된 모델과 성능을 비교하기 위해 COCO 데이터 세트(C), Objects365(V1) 데이터세트(O), Flickr30k(F)를 기반으로 모델을 비교모델을 학습했다. 우리의 제안 모델은 사전 학습없이 진행한다.
표 2는 640x640, 1280x1280, 1920x1920 해상도에 따라 mAP50, mAP75, FPS성능을 비교한다. 성능 비교는 YOLOv9-C[1], RT-DETR-Res50[4], RT-DETR-L[4], YOLO-World-S[2] 방법과 비교하였으며, 각 방법의 전처리는 위와 같이 진행하였다.
표 2. 해상도에 따른 성능 비교
Table 2. Compare performance at resolutions
그림 5와 그림 6과 같이 제안 방법은 640x640, 1280x1280, 1920x1920 해상도에서 mAP50은 최소 14.336 이상, mAP75는 14.938 이상 높은 성능을 보인다. 또한 FPS의 경우 640x640부터 1920x1920까지 제안 방법의 성능을 우수함을 확인할 수 있다.
그림 5. 640x640, 1280x1280, 1920x1920 해상도에 따른 mAP50, mAP75, FPS 성능 비교
Fig. 5. Compare mAP50, mAP75, FPS performance at 640x640, 1280x1280, and 1920x1920 resolutions
Ⅴ. 결론
본 논문은 이미지와 텍스트 정보를 활용한 인공지능 기반 산불 탐지 방법을 제안하였다. VOLOv9-SCT를 통해 산불탐지 후보군을 추출하고, 추출한 후보군을 대상으로 이미지와 장면의 텍스트 정보의 상관관계를 통해 산불을 정의하였다.
제안 방법은 YOLOv9-C, RT-DETR-Res50, RT-DETR-L, YOLO-World-S 방법과 mAP50, mAP75, FPS에 대해 성능을 비교하였으며, 타 방법보다 높은 성능을 가진 것을 확인하였다. 제안 방법은 강원특별자치도에 산불조기감지 시스템의 산불탐지 모델로 실증하였으며, 추후 산림지역 뿐만 아니라 도시지역도 포함할 수 있는 화재탐지 방향으로 고도화할 계획이다.
참고문헌
- C.Y. Wang, I. Yeh, and H. M. Liao, "YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information," Conference on Computer Vision and Pattern Recognition(CVPR), pp.1-14, Feb. 2024. DOI: https://doi.org/10.48550/arXiv.2402.13616
- T. Cheng, L. Song, Y. Ge, W. Liu, X. Wang, and Y. Shan, "YOLO-World: Real-Time Open-Vocabulary Object Detection," Conference on Computer Vision and Pattern Recognition(CVPR), pp.16901-16911, Feb. 2024. DOI: https://doi.org/10.48550/arXiv.2401.17270
- A. Radford, J.W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A. Askell, P. Mishkin, J. Clark, G. Krueger, and I. Sutskever, "Learning Transferable Visual Models From Natural Language Supervision," Conference on Computer Vision and Pattern Recognition(CVPR), pp.1-48, Feb. 2024. DOI: https://doi.org/10.48550/arXiv.2103.00020
- Y. Zhao, W. Lv, S. Xu, J. Wei, G. Wang, Q. Dang, Y. Liu, and J. Chen, "DETRs Beat YOLOs on Real-time Object Detection," Conference on Computer Vision and Pattern Recognition(CVPR), pp.1-14, Apr. 2024. DOI: https://doi.org/10.48550/arXiv.2304.08069
- Jae-Hyun Jun, Min-Jun Kim, Yong-Suk Jang, and Sung-Ho Kim, "Fire Detection Using Multi-Channel Information and Gray Level Co-occurrence Matrix Image Features", Journal of Information Processing Systems(JIPS), Vol.13, No.3, pp.590-598, Jun. 2017 DOI: https://doi.org/10.3745/JIPS.02.0062
- TaeHoon Kim and JongJin Park, "Image Segmentation for Fire Prediction using Deep Learning", The Journal of the Institute of Internet, Broadcasting and Communication(JIIBC), Vol.23, No.1, pp.65-70, Feb. 2023 DOI: https://doi.org/10.7236/JIIBC.2023.23.1.65
- Pyeong-Hwa Lee and Ju-Whan Song, "Forest Fire Object Detection Using Deep Learning-Based Algorithm", Journal of Digital Contents Society(JDCS), Vol.23, No.9, pp.1869-1877, Sep. 2022 DOI: https://doi.org/10.9728/dcs.2022.23.9.1869
- JongHyuk Park, Dohyun Park, Dong-hwan Hyun, You-min Na, and Soo-Hong Lee, "Deep-Learning Based Real-time Fire Detection Using Object Tracking Algorithm", Journal of The Korea Society of Computer and Information(JKSCI), Vol.22, No.1, pp.1-8, Jul. 2022 DOI: https://doi.org/10.9708/jksci.2022.27.01.001