1. 서론
도시의 인구 집중과 무분별한 개발은 대기오염, 열섬현상과 같은 여러 환경 문제들을 유발하며, 자연재해로 인한 피해 상황을 악화시키는 등 인재의 원인이 되고있다. 특히 2022년 8월 중부지방에 내린 기록적인 폭우는 다수의 사상자와 수백억 대 재산 피해를 야기하였고 이때 대부분의 피해는 도시에 집중되었다. 도심 수목은 이러한 도시 문제들의 해결책으로 지목되어 왔으며, 실제로 도시의 온도를 저감하고 탄소 흡수원으로써 도시 자연의 환경개선 기능을 제공하며 홍수 피해를 저감하는 등 중요한 역할을 수행한다(Kim et al., 2016). 따라서 도심 수목에 대해 모니터링하고 관리하는 것은 중요하며, 수목이 도시 환경에 미치는 영향을 파악하기 위해서는 개별목에 대한 정량적인 측정 및 분석이 요구된다(Hwang et al., 2012).
개별수목탐지는 일반적으로 Light Detection and Ranging (LiDAR)로부터 취득한 point cloud의 분석을 통해 수행되어왔다(Park, 2021). 그러나 라이다는 높은 가격대와 한정적인 정보 제공량으로 인해 넓은 영역에 대한 적용이 제한적이다. 최근 항공 측량 기술의 발달로 인해, 항공 이미지를 통한 개별수목탐지 연구가 활발하게 진행되고 있다.
개별수목탐지는 수종이 다양하고 수목밀도가 높은 지역에서 탐지 정확도가 저하되는 문제점이 존재한다(Hwang et al., 2012). 도심 수목의 경우 대부분 탐지에 적합한 조림지에 해당하지만, 조림지도 식재 5년 후부터는 과밀화 현상이 발생하여 과밀 식재지로 변모되기 때문에 도시 환경에서 단일 수목을 감지하는 일은 매우 어렵다(Shim and Lee, 2001; Choi, 2018).
고해상도 항공영상은 비용 효율적이며 높은 공간 해상도로부터 지표면의 모습을 상세히 표현하므로 다양한 수목 개체에 대해 효과적인 탐지가 가능하며 특히 산림의 이질성으로 인해 복잡한 도심 지역에서 효과적이다(Zamboni et al., 2021). 또한 최근 object detection을 위한 딥러닝 기법이 크게 발전한 바 있으며, 다양한 탐지모델 중 YOLOv5는 1-stage object detection 모델로 뛰어난 성능을 발휘하여 object detection에서 유용하다. 따라서 본 연구에서는 0.51 m의 고해상도 항공영상으로부터 개별 수목 탐지가 요구되는 동작구 수목에 대한 AI 학습 데이터셋을 구축하고, 다양한 scale의 YOLOv5 모델 중 성능 테스트를 통한 최적 모델을 채택하여 학습을 통해 도심 수목에 대한 object detection을 수행하였다.
Fig. 1. Online map: (a) study area and (b) study data (Source: National Geographic Information Institute).
2. 연구 지역 및 데이터
1) 연구 지역
연구 지역은 대한민국 서울특별시 동작구 일대에 위치한다. 동작구는 올해 여름 홍수에서 시간당 141.5 mm의 강우가 쏟아져 115년 만에 서울 지역 역대 시간당 최대 강우량을 기록하였으며, 이로 인해 건물 침수 5,209건, 수목전도 350건, 도로 파손 219건등큰 피해가 발생하였다. 이처럼 동작구는 한강과 인접하여 지대가 낮은 까닭에 수재로 인한 피해 상황에 취약하므로(Kang and Lee, 2012) 수목 개체를 탐지하고 관리하는 일이 요구되는 지역이다. 또한, 동작구는 서울 한강 이남 최초의 도시로 구시가지와 신시가지가 공존하여 다양한 도시 수목의 특징을 반영하기에 유리한 조건을 가졌으므로 도심 수목 탐지를 위한 연구 지역으로 선정하였다.
2) 연구 데이터
국토지리정보원은 국가기본도 수정을 목적으로 촬영된 항공 이미지를 국토정보플랫폼을 통해 무료로 배포한다. 본 연구에서는 국토지리정보원에서 제작 및 배포하는 항공영상 중 2016년에 촬영된 세 장의 RGB 영상을 사용하였다(Table 1). 항공영상 중에서 정사보정이 완료된 정사영상 데이터를 사용하였으며, 해상도는 0.51 m이고 영상 사이즈는 4535 × 5641, 4533 × 5639, 4531 × 5639 (pixel)이다.
Table 1. Data specification
3. 연구 방법
Fig. 2는 연구 과정에 대해 나타낸 흐름도이다. 수목감지는 크게 (a) 학습 데이터셋을 제작하는 단계와 (b) YOLOv5 모델로부터 학습 및 성능을 평가하는 단계로 구분할 수 있다. 우선 (a)단계에서는 취득한 항공영상으로부터 512 × 512 (pixel) 크기의 patch 이미지를 생성하고, 육안분석을 통해 수목 객체에 대한 box annotation을 수행하여 AI dataset을 구축한다. (a)단계에서 구축된 512 × 512 patch 이미지 데이터와 라벨 데이터를 각각 Train, Validation, 그리고 Test 데이터로 분할하고 (b) 단계에서 YOLOv5를 위한 학습 데이터로 활용한다. YOLOv5의 scaled model에 대하여 각각 학습시키고 성능 비교를 통해 최적 모델을 선정한 후 해당 모델에 대한 검증 및 테스트를 수행함으로써 성능을 평가한다.
Fig. 2. Data flow.
1) 학습 데이터 제작
수집한 RGB 항공 영상은 image size가 크기 때문에 모델 학습에 직접적으로 활용하기에 어려움이 있다. 따라서 통판 형태의 원본 이미지를 학습에 적합한 512 × 512 (pixel) 크기로 잘라서 patch 이미지 데이터를 생성하였다. 이때 중복률은 25%로 설정하였다. 생성된 patch 데이터에서 개별 수목마다 bounding box를 정의하여 라벨 데이터를 제작하였다. 수목에 대한 박스 어노테이션 기준은 다음과 같다. 먼저 어노테이션 범위는 수목에서 잎에 해당하는 부분으로 정하였다. 따라서 잎이 없는 수목은 어노테이션 대상에서 제외하였고, 육안분석을 통해 그루 단위로 구별이 가능한 수목 개체에 대해서만 어노테이션을 수행하였다. 이때 그림자로 인해 구별이 어려운 수목의 비율이 높은 영상과 수목 객체가 존재하지 않는 영상은 어노테이션 및 학습 과정에서 제외하였다.
Fig. 3는 앞서 제시된 어노테이션 기준에 따라서 수행된 라벨링 결과로써 (a-c)는 원본 정사영상으로부터 생성된 patch image이고, (d-f)는 (a-c)에 대해 박스 어노테이션을 수행한 결과이다. Fig. 3(a)는 가로수의 비율이 높아 전반적으로 수목 밀도가 낮은 특징을 보이며, Fig. 3(b)는 아파트 단지와 학교 근처에 조성된 수목들이 밀집된 형태를 보인다. Fig. 3(c)는 수목 밀도가 적당한 수준으로 가장 일반적인 도심 수목의 모습을 보여준다.
Fig. 3. Annotationed results: (a-c) AI dataset patch images and (d-f) annotated patch images.
512 × 512 patch 이미지 데이터와 어노테이션을 통해 생성된 라벨 데이터는 총 300세트이며, 여기서 훈련 데이터와 테스트 데이터를 8:2의 비율로 구분하였고 훈련 데이터에서 20%에 해당하는 데이터는 검증 데이터로 정의하였다. 따라서 훈련 데이터 192세트, 검증 데이터 48세트, 테스트 데이터 60세트를 사용하여 연구를 진행하였다.
2) YOLOv5
수목 탐지를 위해 컴퓨터 비전 영상 인식 기술인 객체 탐지(object detection)를 사용하였다. 객체 탐지는 영상에서 객체의 클래스를 분류하는 classification과 객체의 위치 정보를 탐색하는 localization이 동시에 적용되는 기술로 탐색 방법에 따라 크게 1-stage detector model과 2-stage detector model로 구분된다. 2-stage detector model은 classification과 localization을 순차적으로 수행하여 처리 속도는 느리지만 정확도가 높은 반면, 1-stage detector model은 classification과 localization을 동시에 수행하여 비교적 빠른 처리 속도를 보이지만 정확도가 낮은 특징이 존재한다. YOLO는 1-stage detector model에 해당하여 2-stage detector model (e.g., Faster R-CNN)과 비교하였을 때 빠른 추론 속도를 보이는 동시에 2-stage detector model과 유사한 높은 정밀도를 나타내어 객체 탐지 분야에서 유용하다(Puliti and Astrup, 2022). 본 연구에서는 YOLO의 다양한 버전 중 정확도 및 속도 측면에서 모두 뛰어난 성능을 발휘하였고 Pytorch로 구현되어 사용자 친화적인 YOLOv5 모델을 통해 도심 개별 수목 탐지를 수행하였다.
Fig. 4는YOLOv5의모델구조를나타낸다.YOLOv5는 backbone으로 Cross Stage Partial network (CSP) DarkNet53을 사용함으로써 이전 모델에 비해 계산 비용 및 추론 시간을 단축시킨 모델이다(Wang et al., 2021). 모델의 Neck은 PA-Net을 사용하여 정보가 단방향으로만 전달되는 Feature Pyramid Network (FPN)의 단점을 해결하였다. 또한 YOLOv5는 model depth multiple 및 layer width multiple에 따라 크기가 다른 다섯 종류의 백본을 갖으며, 이때 다섯 종류의 백본은 각각 다른 크기의 모델 YOLOv5n, YOLOv5s, YOLOv5m, YOLOv5l, YOLOv5x를 구성한다. YOLOv5n에서 YOLOv5x로 갈수록 모델 사이즈가 증가하여 학습 정확도가 향상되지만 속도는 줄어든다. 본 연구에서는 연구 데이터에 가장 적합한 모델을 선정하기 위해 5개의 모델들에 대해 성능을 테스트하였으며 이를 통해 최적의 모델을 채택하여 수목 탐지를 수행하였다.
Fig. 4. YOLOv5 model structure (modified from Xu et al., 2021).
3) Data augmentation
딥러닝 학습 과정에서 훈련 데이터셋이 부족한 경우 이로부터 학습된 모델이 훈련 데이터에 대해 과적합되어 검증 및 테스트셋에 대한 설명력이 떨어지는 문제점이 발생한다(Perez and Wang, 2017). 데이터 확장(data augmentation)은 훈련 데이터셋의 양을 증가시킴으로써 학습 과정에서 발생할 수 있는 과적합 문제를 방지하고 모델의 일반성을 향상시키기 위한 기법이다.
본 연구에서 사용한 훈련 데이터셋은 192개로, 한정된 훈련 데이터로부터 다양한 정보를 추출하여 신뢰도 높은 모델을 도출하기 위해 데이터 확장 기법의 적용이 요구된다. 연구에서 사용한 YOLOv5 모델은 학습 과정에서 훈련 데이터셋에 대해 자동으로 data augmentation을 적용시키는 기능을 포함한다. YOLOv5에서 사용하는 이미지 확장기법은 image space 및 color space augmentation 그리고 mosaic이다. 이중에서 mosaic는 원본 이미지를 포함한 4개의 이미지를 하나의 이미지로 결합하는 기법으로 결합된 이미지에서 객체의 크기가 이전보다 줄어들기 때문에 작은 객체를 감지하는 데 효과적이다(Kaur et al., 2021). 무인 항공기로부터 촬영된 항공 이미지에서 수목은 매우 작은 객체로 분류되므로 YOLOv5의 augmentation 기능을 적절히 활용하여 학습을 수행하였다.
4) 모델 검증 및 성능 평가
도심 수목 탐지 연구에서 학습된 모델의 성능을 평가하기 위한 지표로 precision, recall, F1-score, 그리고 Average Precision (AP)를 사용하였다. precision은 수목이라고 예측한 것들 중에서 실제 수목 객체의 비율, recall은 실제 수목 객체 중에서 수목이라고 예측한 비율, F1-score는 precision과 recall의 조화평균을 의미한다. AP는 threshold 변화에 따른 precision과 recall의 변화 양상을 나타내는 precision-recall curve에서 그래프 하단 넓이에 해당하며 모델의 성능을 다른 분류 모델과 비교하기 위한 정량적 지표로 활용된다.
4. 연구 결과
Table 2는 YOLOv5 모델들에 대한 성능 테스트를 수행한 결과이다. 일반적으로 알려진 바와 같이 YOLOv5x의 성능이 가장 좋았고, 가장 크기가 작은 YOLOv5n 모델과 비교했을 때 mean Average Precision (mAP) 50을 기준으로 약 0.05 정도의 성능 차이를 보였다. 그러나 YOLOv5x 모델은 구조가 복잡하여 성능이 좋은 반면 FLOPs는 다른 모델에 비해 많이 떨어졌다.
Table 2. YOLOv5 performance evaluation
YOLOv5s 모델은 한 단계 아래 모델인 YOLOv5n과 비교하였을 때 mAP50을 기준으로 0.032의 유의미한 성능 향상을 보였고, 가장 정확도가 높은 YOLOv5x 모델과 비교하였을 때는 0.014의 미미한 차이만을 보여 가장 효율적인 모델로 생각된다. 또한, YOLOv5x의 성능이 가장 우수하지만, YOLOv5s 모델과 비교하였을 때 비슷한 성능 수준에 반해 FLOPs는 약 13배 차이를 보이므로 일반적인 사양의 시스템에서는 YOLOv5s를 사용하는 것이 가장 유용할 것으로 판단하였다. 그러나 본 연구에서는 훈련 및 성능 평가를 위해 2대의 NVIDIA RTX3090ti를 사용하였고 해당 시스템에서는 YOLOv5x의 높은 FLOPs로 인한 속도 저하 정도가 크지 않았으므로, 효율적인 모델 대신 가장 높은 성능을 보인 YOLOv5x 모델을 사용하여 도심 수목 탐지를 수행하였다.
1) 정성적 평가
Fig. 5는 Fig. 3에서 구축된 테스트 데이터가 학습 모델에 의해 예측된 결과를 나타낸다. Fig. 3(a-c)와 Fig. 5(a-c)를 각각 육안으로 비교하였을 때, 예측된 결과에서 수목 객체의 수가 크게 증가한 것을 확인할 수 있었다. 이를 수치로 비교할 경우, (a)는 81개에서 99개로 약 22%증가하였으며, (b)는 328개에서 436개로 약 33% 증가하였다. 마지막으로 (c)의 경우에는 154개에서 317개로 증가하여 106%의 높은 증가율을 보였다.
Fig. 5. Predicted results.
탐지된 수목의 증가율이 의미 있는 수치인지 확인하기 위해 Fig. 5(a-c)를 포함한 테스트 데이터셋 60개에 대해 정성적 평가를 수행하였다. Fig. 6은 Fig. 5의 A-C를 각각 확대한 결과이다. Fig. 6과 Fig. 3의 A-C를 비교했을때, Fig. 6(a)는 Ground Truth (GT)에 포함되지 않은 수목객체를 1개 더 감지하였다. Fig. 6(b)는 GT와 비교했을때 1개의 수목을 더 감지하였으나, GT에 해당하는 수목을 전부 감지하지는 못하였다. Fig. 6(c)는 GT보다 7개의 수목 객체를 추가로 감지하였으나, 중복탐지에 해당하는 경우도 존재하였다. 수목의 밀도가 낮은 Fig. 6(a)에서는 학습 모델이 GT에 해당하는 수목을 모두 감지하였고, 어노테이션에서 빠진 수목에 대해서도 추가로 감지하였으므로 증가된 수목의 수가 유의미하였다. 그러나 비교적 밀도가 높은 Fig. 6(b)와 (c)의 경우, GT의 수목을 전부 감지하지 못했을 뿐만 아니라 증가한 수목의 수에 중복 탐지된 수목이 포함됐기 때문에 증가된 탐지개수가 유의미하다고 해석하기 어렵다. 하지만 증가한 수목 객체의 수에 비해 중복 탐지된 객체 수가 훨씬 적은 점을 고려하였을 때, 탐지 개수의 증가는 긍정적으로 생각된다.
Fig. 6. Magnified predicted results.
Fig. 6(a)와 같이 수목밀도가 낮은 지역에서 YOLOv5x 모델은 대부분의 객체에 대해 중복 없이 잘 탐지하였다. 과밀 지역인 B에서도 전반적으로 수목을 잘 탐지하였으나, 중복탐지 또는 미탐지되는 경우가 발생하기도 하였다. 우리나라는 Fig. 6(a)에서 확인할 수 있듯이 건물 지붕이 초록색인 경우가 많다. 또한 지붕 외에도 잔디처럼 초록색 객체가 영상 내 다수 존재하기 때문에 이에 대해 오탐지할 가능성이 높다고 예상하였다. 그러나 60개의 모든 테스트 데이터에 대해 정성평가를 수행한 결과, 수목이 아닌 객체를 수목으로 오탐지 및 오분류한 경우는 1건도 존재하지 않았다.
2) 정량적 평가
훈련 데이터셋으로부터 학습시킨 결과, YOLOv5x 모델의 precision과 recall은 각각 0.713. 0.627이고 F1-score는 0.67로 나타났다. 이로부터 도출된 PR-curve 그래프는 Fig. 7과 같다. 그래프 하단의 넓이에 해당하는 AP값은 Intersection over Union (IoU) 0.5를 기준으로 0.663의 유의미한 수치를 보였다.
Fig. 7. Precision-recall curve.
5. 결론
본 연구는 수목의 이질성 및 복잡성으로 인해 국내에서는 잘 이루어지지 않았던 도심 지역의 개별목에 대해 고해상도 항공영상과 효과적인 object detection 모델인 YOLOv5를 사용하여 보다 효율적인 탐지를 수행하였다. 그 결과 mAP 0.663의 유의미한 결과를 도출하였다.
우리나라 수목을 대상으로 데이터셋을 구축하고 학습에 적용한 결과, 가로수와 같은 수목 밀도가 낮은 지역 이외에도 대부분에 지역에서 탐지가 잘 수행되었다. 그러나 과밀지역에 대해서는 여전히 수목이 중복 및 미탐지 되는 문제가 존재하였으며 이는 어노테이션 과정에서 나무의 형태 및 종류에 대한 고려가 부족했던 까닭으로 여겨진다. 따라서 해당 문제를 해결하기 위해 향후 수형 및 수종을 고려한 구체적인 어노테이션 기준의 설정이 필요해 보인다. 이때, 해상도 0.25 m의 초고해상도 항공영상 및 영상 내 그림자 비율이 낮은 고품질 항공영상을 활용함으로써 신뢰도 높은 라벨 데이터를 제작할 수 있다. 또한 라벨 데이터로 사용된 bounding box는 box 내에 객체가 아닌 요소를 포함하므로 중복탐지의 원인으로 작용할 수 있다. 따라서 bounding polygon을 적용하여 수목별로 명확하게 구분되는 라벨 데이터를 생성하는 과정이 요구된다.
본 연구를 통해 구축된 우리나라 도심 수목에 대한 AI 학습 데이터셋은 앞으로의 국내 도심 수목 탐지 연구에서 유용하게 활용될 것으로 기대된다. 수목 탐지 연구를 통해 도출된 신뢰성 있는 개별 수목탐지 결과는 높이 및 직경 추론을 통해 이산화탄소 흡수량 계산을 위한 자료로 활용되어 도시 환경 문제에 대한 분석 및 정책 수립 과정에 기여할 것으로 기대된다.
사사
본 연구는 대한민국 정부의 재원으로 민군협력진흥원에서 수행하는 민군겸용기술개발사업(과제명: SAR 영상기반 정밀 지상기준점 생성 시스템 개발 사업(’22–’26))의 연구비 지원으로 수행되었습니다(No. 22-CM-EO-02).
References
- Choi, J.W., 2018. A Study on Model Development for the Density Management of Overcrowded Planting Sites and the Planting Design of New Planting Sites-A Case Study of Buffer Green Spaces in the Dongtan New Town, Hwaseong, Journal of the Korean Institute of Landscape Architecture, 46(5): 82-92 (in Korean with English abstract). https://doi.org/10.9715/KILA.2018.46.5.082
- Kang, J.E. and M.J. Lee, 2012. Assessment of flood vulnerability to climate change using fuzzy model and GIS in Seoul, Journal of the Korean Association of Geographic Information Studies, 15(3): 119-136 (in Korean with English abstract). https://doi.org/10.11108/kagis.2012.15.3.119
- Kaur, P., B.S. Khehra, and E.B.S. Mavi, 2021. Data augmentation for object detection: A review, Proc. of 2021 IEEE International Midwest Symposium on Circuits and Systems (MWSCAS), East Lansing, MI, USA, Aug. 9-11, pp. 537-543. https://doi.org/10.1109/MWSCAS47672.2021.9531849
- Kim, H.M., D.G. Lee, and S. Sung, 2016. Effect of urban green spaces and flooded area type on flooding probability, Sustainability, 8(2): 134. https://doi.org/10.3390/su8020134
- Hwang, S.R., M.J. Lee, and I.P. Lee, 2012. Detection of Individual Trees and Estimation of Mean Tree Height using Airborne LIDAR Data, Spatial Information Research, 20(3): 27-38 (in Korean with English abstract). https://doi.org/10.12672/ksis.2012.20.3.027
- Park, M., 2021. Comparison of Accuracy between Analysis Tree Detection in UAV Aerial Image Analysis and Quadrat Method for Estimating the Number of Treesto be Removed in the Environmental Impact Assessment, Journal of Environmental Impact Assessment, 30(3): 155-163 (in Korean with English abstract). https://doi.org/10.14249/eia.2021.30.3.155
- Puliti, S. and R. Astrup, 2022. Automatic detection of snow breakage at single tree level using YOLOv5 applied to UAV imagery, International Journal of Applied Earth Observation and Geoinformation, 112: 102946. https://doi.org/10.1016/j.jag.2022.102946
- Sim, W. K. and D. I. Lee, 2001. An analysis of Status quo on the multi-layer planting at the landscape planting area in apartments and neighborhood parks in Seoul metropolitan area, Journal of the Korean Institute of Landscape Architecture, 29(1): 140-151.
- Wang, J. and L. Perez, 2017. The effectiveness of data augmentation in image classification using deep learning, arXiv preprint arXiv:1712.04621. https://doi.org/10.48550/arXiv.1712.04621
- Wang, T.S., S. Oh, H.S. Lee, J. Jang, and M. Kim, 2021. A Study on the AI Detection Model of Marine Deposition Waste Using YOLOv5, Proc. of Korean Institute of Information and Communication Sciences Conference, Gunsan, Korea, Oct. 28-30, vol. 25, pp. 385-387.
- Weinstein, B.G., S. Marconi, S. Bohlman, A. Zare, and E. White, 2019. Individual tree-crown detection in RGB imagery using semi-supervised deep learning neural networks, Remote Sensing, 11(11): 1309. https://doi.org/10.3390/rs11111309
- Xu, R., H. Lin, K. Lu, L. Cao, and Y. Liu, 2021. A forest fire detection system based on ensemble learning, Forests, 12(2): 217. https://doi.org/10.3390/f12020217
- Zamboni, P., J.M. Junior, J.D.A. Silva, G.T. Miyoshi, E.T. Matsubara, K. Nogueira, and W.N. Goncalves, 2021. Benchmarking anchor-based and anchor-free state-of-the-art deep learning methods for individual tree detection in RGB high-resolution images, Remote Sensing, 13(13): 2482. https://doi.org/10.3390/rs13132482