DOI QR코드

DOI QR Code

앙상블 기반 모델을 이용한 서울시 PM2.5 농도 예측 및 분석

Prediction and Analysis of PM2.5 Concentration in Seoul Using Ensemble-based Model

  • 류민지 (부경대학교 지구환경시스템과학부 공간정보시스템공학전공) ;
  • 손상훈 (부경대학교 지구환경시스템과학부 공간정보시스템공학전공) ;
  • 김진수 (부경대학교 지구환경시스템과학부 공간정보시스템공학전공)
  • Ryu, Minji (Major of Spatial Information Engineering, Division of Earth Environmental System Science, Pukyoung National University) ;
  • Son, Sanghun (Major of Spatial Information Engineering, Division of Earth Environmental System Science, Pukyoung National University) ;
  • Kim, Jinsoo (Major of Spatial Information Engineering, Division of Earth Environmental System Science, Pukyoung National University)
  • 투고 : 2022.11.10
  • 심사 : 2022.11.21
  • 발행 : 2022.12.31

초록

복잡하고 광범위한 원인을 가진 대기오염물질 중 particulate matter (PM)은 입자의 크기에 따라 분류된다. 그 중 PM2.5는 그 크기가 매우 작아 사람이 흡입하면 인간의 호흡기나 심혈관에 질병을 유발할 수 있다. 이러한 위험에 대비하기 위해서는 국가 중심의 관리와 사전에 예방할 수 있는 모니터링 및 예측이 중요하다. 본 연구는 고농도 미세먼지의 발생이 잦은 서울시의 PM2.5를 local data assimilation and prediction system (LDAPS) 기상 관련 인자 15가지와 aerosol optical depth (AOD), 화학인자 4가지를 독립변수로 하여 앙상블 모델 두 가지 random forest (RF)와 extreme gradient boosting (XGB)로 예측하고자 하였다. 예측에 사용된 두 모델의 성능 평가와 인자 중요도 평가를 수행하였으며, 계절별 모델 분석도 수행하였다. 예측 정확도 결과, RF가 R2 = 0.85, XGB가 R2 = 0.91의 높은 예측 정확도를 보이며 XGB가 RF보다 PM2.5 예측에 적합한 모델임을 확인하였다. 계절별 모델 분석 결과, 봄에 농도가 높은 관측 값과 비교하여 예측 수행이 잘 되었다고 할 수 있다. 본 연구는 다양한 인자를 이용하여 서울시의 PM2.5를 예측하였고, 좋은 성능을 보이는 앙상블 기반의 PM2.5 예측 모델을 구축하였다.

Particulate matter(PM) among air pollutants with complex and widespread causes is classified according to particle size. Among them, PM2.5 is very small in size and can cause diseases in the human respiratory tract or cardiovascular system if inhaled by humans. In order to prepare for these risks, state-centered management and preventable monitoring and forecasting are important. This study tried to predict PM2.5 in Seoul, where high concentrations of fine dust occur frequently, using two ensemble models, random forest (RF) and extreme gradient boosting (XGB) using 15 local data assimilation and prediction system (LDAPS) weather-related factors, aerosol optical depth (AOD) and 4 chemical factors as independent variables. Performance evaluation and factor importance evaluation of the two models used for prediction were performed, and seasonal model analysis was also performed. As a result of prediction accuracy, RF showed high prediction accuracy of R2 = 0.85 and XGB R2 = 0.91, and it was confirmed that XGB was a more suitable model for PM2.5 prediction than RF. As a result of the seasonal model analysis, it can be said that the prediction performance was good compared to the observed values with high concentrations in spring. In this study, PM2.5 of Seoul was predicted using various factors, and an ensemble-based PM2.5 prediction model showing good performance was constructed.

키워드

1. 서론

최근 급속한 경제성장에 따른 오염물질의 배출로 인해 복잡하고 광범위한 대기오염 문제가 발생하고 있다. 여러 종류의 대기오염물질에서 particulate matter (PM)은 대기오염의 주 원인 중 하나로 입자의 크기에 따라 분류된다(Choi et al., 2020). 그 중, PM2.5는 입자의 직경이 2.5 μg/m3 미만인 미세먼지의 한 종류로, 자동차 배기가스, 화석연료 연소, 공장제조공정에서 배출되는 대기오염물질인 황산화물, 질소산화물, 암모니아 등에 화학반응을 일으켜 2차 발생물질로 생성되고 온도, 풍속, 기압, 습도 등의 기상 현상과도 밀접한 관련이 있다(Kim and Chang, 2021). PM2.5는 입자의 크기가 매우 작아서 사람이 흡입할 경우 폐포까지 침투할 수 있어 호흡기나 심혈관 질환 등의 발병과 연관이 있다(Choi et al., 2018; Yoo et al., 2020; Azari et al., 2021). 최근 PM2.5에 의한 위험에 대비하기 위해 국가 차원의 관리에 대한 필요성이 대두되고 있으며, 사전에 취약점을 찾는 예측 모니터링이 더욱 중요해지고 있는 시점이다(Shin and Kim, 2015). PM2.5의 관리를 위해 대기 중의 미세먼지 농도는 지속적으로 모니터링 되어야 하며, 이 때 고농도 미세먼지에 대한 정확한 예측은 필수적이다(Chae et al., 2021).

최근 보다 정확한 미세먼지 농도 예측을 위해 다양한 독립변수와 모델을 활용한 연구가 시도되고 있다(Park et al., 2021). Park and Shin (2017)은 국내 PM2.5의 영향요인 분석을 위해 계절적 풍향 요인 등의 요소를 고려해 연구를 수행하였고, 중국에서 불어오는 서풍계열 풍향 비율이 초미세먼지에 영향이 있음을 보고하였다. Song and Park (2022)은 창원국가산업단지를 대상으로 토지 이용 유형과 기온 및 풍속 요인을 고려해 PM2.5의 발생 패턴을 분석하고, 공업지역에서 높은 상관성을 보이고 기온과 풍속이 낮을수록 PM2.5의 농도가 높아지는 결과를 도출하였다. 다양한 독립변수를 적용한 연구를 살펴보면, Lim (2019)은 기온, 강수량, 풍속 등 16가지 기상인자와 carbon monoxide (CO), sulfer oxides (SO2), nitrogen oxides (NO2), ozone (O3) 화학인자로 PM2.5 농도 예측을 수행하였고, Chen et al. (2018a)은 중국 베이징 전역의 PM2.5 농도 예측을 위해 aerosol optical depth (AOD), 4가지 기상인자, 그리고 토지 피복 등의 데이터를 인자로 사용하였다. Choi et al. (2022)은 이상의 4가지 화학인자와 PM10 농도를 독립변수로 한 PM2.5 농도 예측을 수행하였다. 이상과 같이 기상과 화학 인자는 다양한 연구에서 PM2.5 농도 예측을 위해 필수적인 독립변수로 선정되었으며, PM2.5와 높은 상관관계를 가진 풍향, 풍속, 기온, 습도 인자는 가장 중요한 기상인자이다. 또한, 초기 연구사례의 대부분이 기상이나 화학 위주만의 데이터를 사용하였지만, 최근 연구의 흐름을 보면 위성 AOD를 기반으로 예측을 수행하는 연구가 증가하는 추세다(Zhang and Kondragunta, 2021; Chen et al., 2021).

머신러닝 기법을 이용한 PM2.5 농도 예측에 대해 살펴보면, Lee and Lee (2020)는 지상 관측 데이터를 시계열로 전처리하여 boot strap 수를 조정한 random forest (RF)를 활용하여 서울시의 시간당 PM2.5 농도를 예측하는 방법을 제안하였다. Kim (2020)의 연구는 서울시 PM2.5 농도를 대상으로 화학인자와 기상인자를 독립변수로 하여 extreme gradient boosting (XGB)로 예측하였고 여러 개의 기상인자 및 화학인자를 모두 이용했을 때 보다 화학인자만을 적용하였을 때의 XGB의 정확도가 좋은 결과를 보였다. 그 외에, 딥러닝 기반의 모델이 다수 사용되고 있는데 Kim and Chang (2020)은 PM2.5를 예측하는 convolution neural networks, long short-term memory, generative adversarial networks 모델을 구축하고 그 성능을 비교하였다. Shogrkhodaei et al. (2021)은 RF, AdaBoost, 확률적 경사하강법(stochastic gradient descent) 3가지 머신러닝 알고리즘을 사용하여 PM2.5 시공간 모델링을 수행하였고, RF 알고리즘의 모델링 정확도가 가장 좋은 결과임을 보고하였다. 최근, PM2.5 예측 연구 사례들의 대부분이 인공지능 알고리즘을 이용하였으며 그 중 분류나 회귀 모델에서 안정적인 성능을 보이는 RF와 XGB 등의 알고리즘이 많은 연구에서 활용되고 있다.

본 연구는 앙상블 알고리즘의 대표적 모델인 RF와 XGB를 이용하여 PM2.5의 농도를 예측하는 연구를 수행하고자 한다. 독립변수로는 풍향, 풍속, 기온 등의 기상, 위성 AOD, 지상 관측 데이터를 사용하였고 각 인자들의 중요도 평가를 통해 모델의 학습에 독립변수들의 영향력을 파악하고자 한다. 또한 모델의 성능 평가를 위해 계절별 모델의 예측 정확도와 계절별 농도에 대한 분석을 수행하였다.

2. 방법론

1) 연구대상지역

본 연구의 대상지역인 서울시는 고층의 건물이 밀집되어 있고 차량 또한 밀도가 매우 높아 고농도의 미세먼지의 현상이 빈번하게 나타나는데 미세먼지의 잦은 발생은 인간의 건강과 밀접한 관련이 있으므로 정확도가 높은 PM2.5 예측이 필수적이다(Son and Kim, 2021; Kim et al., 2022). 또한, 인구와 경제적 규모 측면에서 국내 지자체 중에서도 상당히 중요한 위치를 차지한 서울시의 미세먼지 농도는 전 세계 주요 도시 중 상당히 높은 수준이므로 PM2.5 예측을 위한 연구 대상 지역으로 선정하였다(Hwang, 2018). 연구 기간은 2017년 1월 1일부터 2019년 12월 31일까지이며, 2017~2019년 기간 동안 서울시에 위치하는 대기오염측정망(air quality monitoring station, AQMS)은 총 40개로 면적 대비 AQMS의 개수가 가장 많다. 다른 지역과 비교하여 관측 데이터가 많은 서울시를 본 연구의 대상지역으로 선정하였다(Fig. 1).

OGCSBN_2022_v38n6_1_1191_f0001.png 이미지

Fig. 1. Study area and 40 AQMS in Seoul.

2) 연구 데이터

연구를 위한 데이터는 총 25개로 종속변수인 PM2.5와 독립변수인 DOY 데이터, AQMS 경위도 좌표, 국지예보모델(local data assimilation and prediction system, LDAPS) 기상 관련 인자, moderate resolution imaging spectroradiometer (MODIS) AOD, 화학 인자로 수집하였다(Table 1). Hourly 기반의 데이터를 제공하는 경우, hourly 데이터를 daily 데이터로 합성하여 구축하였다.

Table 1. Data used for predictors of PM2.5

OGCSBN_2022_v38n6_1_1191_t0001.png 이미지

기상 관련 인자는 기상청의 기상자료개방포털에서 제공하는 수치모델 중 단·중기 예측에 속하는 LDAPS 데이터를 수집하였다. LDAPS는 기상청이 운영하는 수치예측모델로 예측 시간은 총 하루 8회로 00, 06, 12, 18 UTC에는 36시간 예측, 03, 09, 15, 21 UTC에는 초기자료생성을 위한 3시간 예측을 수행하며 한반도와 동아시아영역 일부를 포함하고 있는 데이터이다(Byon et al., 2021). LDAPS는 등압면, 모델면, 단일면 3종류의 데이터가 제공되며, 데이터 형식은 world meteorological organization에서 제시한 GRIB2 형식으로 제공하고 있다. 본 연구에서는 단일면의 데이터를 사용하였으며 대기, 지상, 토양에 대하여 총 78가지의 변수를 포함하였고, 그 중 미세먼지에 예측에 사용할 15가지 기상 관련 인자를 선정하였다(Yu et al., 2016).

AOD는 대기 중 에어로졸에 의한 태양 복사 감쇠를 수치화한 값이다(Chen et al., 2018b; Park et al., 2021). 본연구에 사용된 AOD는 terra and aqua combined multiangle implementation of atmospheric correction (MAIAC) 위성의 MODIS 센서에서 생성된다. MAIAC MODIS는 3가지 종류의 공간해상도와 36개의 채널을 가져 다양한 산출물을 고해상도의 데이터로 제공하고 있으며 MODIS 위성 데이터 중 시정 산출에 필요한 AOD는 Level 2에서 일별로 1 km × 1 km의 공간 해상도로 생산된다(Park et al., 2017). AOD는 PM2.5와 관련이 있는 인자로 미세먼지 예측 연구 중 AOD를 포함하여 예측을 수행하는 연구나 AOD와 미세먼지의 연관성에 대해 분석하는 연구들이 수행되고 있다(Kim et al., 2016; Guo et al., 2017; Xie et al., 2015; Stafoggia et al., 2019). 그러므로 PM2.5 예측에 필수적인 인자라고 판단되어 AOD를 독립변수로 사용하였다. 국내 대기환경보전법에서 대기오염물질은 PM10, PM2.5, CO, SO2, NO2, O3 등을 포함한 총 64종으로 명시하고 있다. PM10과 PM2.5를 비롯한 대기오염 화학물질 데이터 6가지는 한국환경공단의 에어코리아에서 제공하는 AQMS 실측 값 데이터를 수집하였다. AQMS 측정망의 종류는 총 5가지로 도시대기, 국가배경농도, 교외대기, 도로변대기, 항만 측정망이 있다. 본연구에서는 항만 측정망을 제외한 4가지 측정망 데이터를 사용하였다. 그 외에도 미세먼지와 같은 현상은 시간 의존성과 공간 의존성을 모두 가지기 때문에 시공간적 패턴을 모두 고려할 수 있는 적절한 도구를 사용한 분석이 필요하여 YYYYMMDD 형식의 날짜 데이터(DOY)와 서울 AQMS 40개의 경위도 좌표 데이터를 수집하였다(Hwang et al., 2022).

수치 데이터를 제공하는 지상 관측 인자를 제외한 LDAPS와 MODIS AOD의 원본 데이터는 tiff 형식의 raster 형식 파일로 구축하였다(Fig. 2). 두 데이터는 대한민국이 위치한 픽셀의 해당 값을 AQMS 위치 데이터를 기반으로 지상 관측 인자에 join 하여 최종 데이터 셋을 구축하였다. 모든 입력 데이터를 AQMS 지점에 매칭한 후 25개의 인자 중 결측 값이 하나라도 포함되는 날의 데이터는 모두 제거하였고 최종 데이터는 총 15,300개로 구축되었다.

OGCSBN_2022_v38n6_1_1191_f0002.png 이미지

Fig. 2. Raster data for AOD and LDAPS (26 February 2018).

3) PM2.5 예측 알고리듬

(1) Random Forest

RF는 여러 가지의 의사결정트리(decision tree)를 이용하여 최적의 모델을 찾아내는 머신러닝 기법으로 분류 문제와 회귀 문제에 주로 사용된다(Sung et al., 2020). RF는 예측에 효과적인 모델로 bagging을 바탕으로 무작위한 변수 선정의 방식을 이용하며 여러 가지의 트리를 생성한 후 가장 인기 있는 트리에 투표를 하는 방식이다. RF는 대수의 법칙에 따라 과적합 되지 않는다는 장점이 있으며 적절한 무작위성을 주입하면 정확한 분류와 회귀가 가능하다. RF의 회귀 분석 모델에서는 mean squared error (MSE)에 대한 경계를 도출하여 RF의 개별 트리에서 발생하는 오차 감소가 잔차와 개별 트리의 MSE의 상관관계에 따라 다른 결과를 확인하는 방식이다(Breiman, 2001). RF는 쉽게 이해가 가능하며 대용량의 데이터의 계산에서 효율적이므로 바람직한 데이터 마이닝 방법이라고 할 수 있다(Berrocal et al., 2020). 이러한 장점을 기반으로 RF가 본 연구에 사용하기 적합하다고 판단하여 예측 모델에 선정하였다.

(2) XGB

XGB는 gradient boosting machine의 한 종류로 Chen and Guestrin (2016)에 의해 개발된 모델이다. XGB는 여러 개의 분류·회귀나무(classification and regression trees, CART)를 이용해서 오차 값을 줄이며 최적의 트리를 찾는 방식으로 설정 횟수만큼 무작위로 트리를 생성하고 계산을 반복하는데 최종적으로 계산했을 때 점수가 높은 트리들을 조합하여 모델을 생성한다(Sung et al., 2020).

XGB는 여러 머신러닝 및 데이터 마이닝 문제에서 널리 인식되었으며 머신러닝 경쟁사이트인 ‘Kaggle’에서 2015년도 29개의 과제 중 17개의 우승 과제가 문제 해결에 XGB를 사용하였으며, 기존의 인기 있는 기법들보다 10배 이상 빠르게 실행되고 병렬 및 분산 컴퓨팅의 방식을 이용하여 학습 속도를 높여 모델 탐색을 더 빠르게 한다(Chen and Guestrin, 2016). 이와 같이 속도가 빠르고 효율이 좋은 장점을 기반으로 한 XGB를 미세먼지 예측 모델에 사용하였다.

(3) 모델 구축 및 검증

구축된 모델의 훈련과 검증을 위하여 데이터를 train과 test로 분할하였다. 데이터셋은 XGB 모델에서 train_test_split 기능으로 분할하여 RF와 XGB에 동일한 train, test 데이터셋을 적용하였다. 최종적으로 train 12,240개 test 3,060개로 분할된 데이터셋을 이용하여 모델의 훈련과 검증을 수행하였다.

RF 모델의 과적합 방지와 모델의 정확도 향상을 위한 파라미터 최적화 과정에서 k-fold cross validation (K-fold CV) 기법과 grid-search cross validation (Grid-search CV) 기법을 적용하였다. K-fold CV는 데이터를 k개로 분할하고 k개의 모델을 만들어 k-1개의 분할에서 훈련하고 나머지 분할에서 평가하는 방법이다. Grid-Search CV 기법은 사용자가 직접 모델의 하이퍼 파라미터의 값을 리스트로 입력하면 값에 대한 경우의 수마다 예측 성능을 평가하고 비교하며 최적의 파라미터 값을 찾는 과정을 진행하는 방식이다. RF에 5-fold CV와 Grid-search CV를 적용해 RF의 n_estimators에 대한 파라미터 최적화 과정을 거쳐 최종 RF 모델 구축을 수행하였다. XGB 또한 K-fold CV와 Grid-search CV를 적용하였다. XGB는 조정할 수 있는 파라미터의 종류가 매우 다양해서 조정의 범위가 넓었고 본 연구에서는 10-fold CV와 Grid-Search CV 기법을 적용하여 subsample, max_depth, colsample_bytree, learning_rate, nthread, n_estimators, min_child_weight의 하이퍼 파라미터를 선정하여 최종 모델을 구축하였다.

3. 결과 및 토의

1) 모델 성능

최종 구축된 모델의 예측 결과를 확인하기 위해 회귀모델의 평가 지표 중 r-squared score (R2)와 root mean square errors (RMSE), mean absolute errors (MAE)를 이용하여 정확도 산출을 수행하였다. 평가 지표의 수식은 (1), (2), (3)과 같다.

\(\begin{aligned}R^{2}=1-\frac{\sum_{i=1}^{n}\left(Y_{i}-\widehat{Y_{i}}\right)^{2}}{\sum_{i=1}^{n}\left(Y_{i}-\bar{Y}\right)^{2}}\\\end{aligned}\)       (1)

\(\begin{aligned}R M S E=\sqrt{\frac{1}{n} \sum_{i=1}^{n}\left(Y_{i}-\widehat{Y}_{i}\right)^{2}}\\\end{aligned}\)       (2)

\(\begin{aligned}M A E=\frac{1}{n} \sum_{i=1}^{n}\left|Y_{i}-\widehat{Y}_{i}\right|\\\end{aligned}\)       (3)

Fig. 3은 RF와 XGB의 훈련 정확도와 예측 정확도를 비교하기 위해 산점도로 나타낸 결과이며, Table 2는 각 모델의 정확도를 R2, RMSE, MAE 별로 정리한 표다. 수행 결과, 하이퍼 파라미터는 RF의 n_estimators = 500일 때 높은 정확도를 보이며 훈련 정확도가 R2 = 0.98, RMSE = 2.176 μg/m3, MAE = 1.532 μg/m3이고, 예측 정확도가 R2 = 0.85, RMSE = 5.789 μg/m3, MAE = 4.109 μg/m3임을 확인하였다. XGB의 경우, subsample = 0.7 max_depth = 7, colsample_bytree = 7, learning_rate = 0.07, nthread = 4, n_estimators = 500, min_child_weight = 4 일 때 가장 높은 정확도를 보였으며, 훈련 정확도가 R2 = 0.99, RMSE = 1.406 μg/m3, MAE = 1.055 μg/m3이고 예측 정확도가 R2 = 0.91, RMSE = 4.455 μg/m3, MAE = 3.149 μg/m3의 결과를 나타냈다. RF 모델의 성능면에서 Sihag et al. (2019)의 연구는 PM2.5 예측을 위한 RF 등의 모델을 사용하여 입력 파라미터로는 기상 및 화학 등으로 하였고. 모든 모델 중 성능이 가장 좋은 RF는 R2= 0.691, MAE = 30.776 μg/m3, RMSE = 44.695 μg/m3임을 확인하였다. 예측 정확도를 R2로 비교하였을 때 약 0.163의 차이로 본 연구의 RF 모델의 성능이 확연하게 좋은 결과를 나타냈다. XGB의 경우, Peng et al. (2022)은 중국 중부 후난성의 PM2.5 농도 예측을 위해 XGB 모델 등으로 훈련, 검증 및 성능을 평가했고 파라미터 최적화를 통해 XGB로 예측했을 때 예측 정확도는 R2가 0.761임을 확인하였고, 본 연구와 비교했을 때 0.152의 정확도 차이를 보이며 본 연구에 사용된 XGB의 성능이 뛰어남을 알 수 있었다. 본 연구에 사용된 RF와 XGB를 비교하였을 때 XGB가 RF보다 확연히 좋은 결과를 보였다. Joharestani et al. (2019)의 연구에서 PM2.5 예측을 위해 RF와 XGB 등을 사용한 유사한 방식을 구현하였고, RF와 XGB를 비교하였을 때 XGB가 R2 = 0.81, MAE = 9.93 μg/m3, RMSE = 13.58 μg/m3로 가장 좋은 성능의 모델로 선정되었다. Kim et al. (2022)은 RF, XGB, LGB를 사용하여 서울시의 PM2.5, PM10을 예측하고자 하였으며, RF의 예측 정확도는 R2= 0.81, XGB의 예측 정확도는 R2 = 0.83 을 결과를 도출하였으며, RF보다 XGB의 성능이 뛰어난 것을 확인하였다. 선행연구들과 비교하였을 때 본 연구에서 구축된 RF와 XGB 두 모델 모두 좋은 성능을 가졌으며, 그 중 성능이 RF보다 뛰어난 XGB가 PM2.5 예측에 적합한 모델임을 확인하였다. 그 외에도 분류 모델에서도 RF보다 XGB가 좋은 성능을 보이는 결과를 보고한 연구도 수행되고 있다(Ha et al., 2017; Hebert, 2016). RF와 XGB는 다양한 분야의 연구에서 사용되고 있으며, 최근 RF와 XGB를 결합하여 사용한 하이브리드형 모델을 이용한 연구도 수행되고 있다(Lin et al., 2022; Zhang et al., 2018).

OGCSBN_2022_v38n6_1_1191_f0004.png 이미지

Fig. 3. Scatterplot of model performance: (a) RF train, (b) RF test, (c) XGB train, and (d) XGB test.

Table 2. A summary of model performance results

OGCSBN_2022_v38n6_1_1191_t0002.png 이미지

2) 인자 중요도 평가

RF와 XGB의 알고리즘은 독립변수들의 모델 학습에 대한 기여도가 어느 정도인지를 파악하기 위해 “Feature_importance” 기능을 포함하고 있다. 이를 적용하여 PM2.5 농도에 영향을 미치는 독립변수로 선정된 24가지 인자에 대한 인자 중요도 평가를 실시하였다. 공통적으로 높은 기여도를 보인 인자는 CO, AOD_550, AOD_470였으며, 반면 강수량, 기압 등이 낮은 기여도를 나타냈다(Fig. 4). CO의 경우, Park and Ha (2008)의 연구에서 PM2.5와 CO의 상관관계를 피어슨의 상관관계로 분석한 결과, PM2.5와 CO는 p < 0.01 신뢰도 구간에서 유의미한 상관 관계이며 0.520의 상관계수로 높은 상관성을 나타낸다고 보고하였다. AOD의 경우, PM2.5와 높은 상관관계를 보이는 인자로 PM2.5 관련 연구는 AOD 인자가 대부분 포함되어 있으며, 상관관계 또한 높기 때문에 두 모델 모두 높은 기여도를 나타냈다(Zhang et al., 2009). 기여도가 낮은 인자 중 강수량의 경우, AOD 값이 관측된 날은 강수량이 0인 값을 나타냈기 때문에 낮은 기여도를 보였다고 판단된다. 그 외에도 AQMS 경위도 좌표, 지표면 온도 등이 낮은 기여도를 나타냈다.

OGCSBN_2022_v38n6_1_1191_f0005.png 이미지

Fig. 4. Feature importance (a) RF and (b) XGB.

3) 계절별 모델 성능

본 연구는 PM2.5 농도의 발생에서 계절적 패턴을 파악하고 계절별 모델의 성능을 확인하기 위해 예측 값의 평균 농도에 대한 계절별 추세 분석을 수행하였다. Fig. 5는 test 데이터 셋에서 동일한 날에 관측된 AQMS PM2.5 농도의 평균을 계산하여 비교하고 계절별로 나타낸 그래프이다. 전체적인 추세를 보았을 때, 봄은 다른 계절보다 높은 농도 값을 보였고 그 중 가장 농도가 높았던 날의 평균 관측 값은 123.184 μg/m3로 나타났다. RF 평균 예측 값은 95.253 μg/m3, XGB는 101.955 μg/m3로 예측하며 XGB가 peak 값에 대해 비교적 높은 정확도를 보였다. 여름은 사계절 중 농도가 제일 낮은 계절로 가장 농도가 높았던 날의 경우 평균 관측 값은 53.146 μg/m3, RF 예측 값이 41.495 μg/m3, XGB가 44.63 μg/m3으로 미세하게 XGB의 예측 값이 관측 값에 가까웠다. 가을은 대체적으로 추세를 잘 따랐지만, peak 값에 대한 정확도가 낮았다. peak 값인 날의 평균 관측 값은 67.273 μg/m3, RF는 43.433 μg/m3, XGB는 47.97 μg/m3로 XGB가 관측값에 가까웠다. 겨울은 봄 다음으로 높은 농도를 보이는 계절이며, peak 값인 날의 관측 값 평균은 79.967 μg/m3, RF는 72.584 μg/m3, XGB는 75.968 μg/m3였다. 사계절별로 모델의 성능을 분석했을 때, 공통적으로 XGB의 성능이 RF보다 뛰어남을 확인할 수 있었다. 대체적으로 모든 모델은 예측 성능이 좋은 편이나, 과소 추정의 경향을 나타냈다. 이는 peak 값을 보이는 날은 약 123 μg/m3의 농도 값을 보이며 평균 관측값인 약 29 μg/m3의 농도와 비교하여 큰 차이를 보여 peak 값에 대한 과소 추정을 한 것으로 판단된다. 그러므로, 본 연구의 모델은 예측 정확도 면에서는 좋은 결과를 나타냈으나, peak 값에 대한 정확도 개선이 추가적으로 필요한 것으로 판단된다.

OGCSBN_2022_v38n6_1_1191_f0006.png 이미지

Fig. 5. Comparison of observed and predicted values: (a) comparison of spring observations and model predicts, (b) comparison of summer observations and model predicts, (c) comparison of fall observations and model predicts, and (d) comparison of winter observations and model predicts. Values are given as means.

Fig. 6과 Fig. 7은 각 계절별로 관측 값과 예측 값을 비교하기 위해 산점도로 결과를 나타낸 그림이며, Table 4는 계절별 모델의 성능을 비교 정리한 결과이다. RF는 R2 = 0.81–0.94, XGB는 R2 = 0.88–0.97의 정확도를 나타냈다. 두 모델 모두 R2 기준 봄의 정확도가 가장 높았으며 여름의 정확도가 가장 낮았다. 봄은 고농도의 PM2.5 관측 값을 보이며, 여름의 경우 사계절 중 가장 낮은 PM2.5 농도를 나타냈다. 이 때, 주요 인자인 AOD의 값이 봄, 여름에 높아지는 것을 확인할 수 있었다. 봄은 북서계열의 풍향을 통해 황사 등이 영향을 미치며 AOD 값이 높아지며, 여름의 경우, 습도가 높아지며 수분이 많아지므로 AOD의 높은 값이 관측된다고 추정된다(Lee et al., 2010; Xin et al., 2007). 그러므로 실제 관측 농도가 높은 봄에는 높은 AOD의 값이 효과적으로 반영된 것으로 추정되며, 여름의 경우는 실제 PM2.5 농도가 낮은 값을 보이는 반면, AOD의 값이 높게 나타남으로써 낮은 정확도에 영향을 미친 것으로 판단된다.

OGCSBN_2022_v38n6_1_1191_f0007.png 이미지

Fig. 6. RF prediction accuracy as a seasonal scatterplot: (a) Spring RF model performance Scatterplot, (b) Summer RF model performance scatterplot, (c) Fall RF model performance scatterplot, and (d) Winter RF model performance scatterplot.

OGCSBN_2022_v38n6_1_1191_f0007.png 이미지

Fig. 7. XGB prediction accuracy as a seasonal scatterplot: (a) Spring XGB model performance scatterplot, (b) Summer XGB model performance scatterplot, (c) Fall XGB model performance scatterplot, and (d) Winter XGB model performance scatterplot.

Table 4. Seasonal analysis result

OGCSBN_2022_v38n6_1_1191_t0003.png 이미지

PM2.5의 특징 중 하나는 계절에 따라 뚜렷하게 다른 ‘계절성’을 가지는 것이며 가을부터 봄(10월∼5월)까지 초미세먼지 농도가 높은 반면, 여름철(6월∼8월) 농도는 낮은 편이다(Kim and Moon, 2021). 본 연구의 계절별 분석 결과와 비교했을 때 봄의 농도가 가장 높고 여름의 농도가 낮은 유사한 결과를 나타내는 것을 확인하였다. 그러나 단순히 계절적인 특성이나 일별 농도만 파악하기보다는 실시간으로 변화하는 PM2.5에 대한 즉각적인 대응을 위해 daily 단위로 제공되는 데이터를 hourly 단위의 데이터로 대체하여 예측을 수행하는 추가 연구가 필요하다.

4. 결론

본 연구는 앙상블 기법의 알고리즘 중 대표적인 RF와 XGB를 이용해 서울시의 PM2.5 예측을 수행하고자 하였으며, 기상·화학·위성 인자를 입력 데이터로 사용하였다. 기상은 LDAPS 기상 관련 인자 15가지, 위성은 MODIS의 AOD 470 nm, 550 nm 파장대의 데이터를 수집하였고, 화학은 지상에서 측정되는 4가지 화학 인자를 이용하여 데이터 셋을 구축하였다. 본 연구에 이용한 RF와 XGB는 대용량의 데이터에 효율적인 처리가 가능하다는 장점이 있으며 효율적인 계산과 높은 예측 정확도를 위해 두 알고리즘을 사용하였다. 예측 결과 XGB의 예측 정확도가 R2 = 0.91 정도의 높은 예측 정확도를 보였으며, RF는 R2 = 0.85의 결과를 보이며 XGB가 RF보다 PM2.5예측에 적합한 모델임을 확인하였다. 두 모델의 인자 중요도 평가는 각 독립변수가 모델 학습에 어느 정도의 영향을 미치는 지를 확인할 수 있는데 그 결과 CO와 AOD 550 nm, AOD 470 nm가 가장 높은 중요도를 나타냈다. 반면, 강수량, 기압, AQMS 경위도 좌표 등이 낮은 기여도를 보였다. 마지막으로, 계절별 모델 성능 분석을 통해 봄의 PM2.5농도가 높은 편이며, 여름에는 낮은 편임을 확인하였다. 그리고 모델의 성능면에서도 RF보다 XGB의 계절별 예측 정확도가 뛰어난 결과를 나타냈다. 본 연구에서 구축된 두 모델 모두 선행연구와 비교하여 좋은 성능을 가졌으며, 정확한 예측이 가능한 모델을 구축하였다고 판단된다. 그러나 최근 인공지능 모델의 지속적인 발전으로 딥러닝 혹은 하이브리드형 모델을 이용하여 예측을 수행하는 연구가 증가하고 있는 추세다. 추가적인 연구로 딥러닝이나 하이브리드형 모델을 사용하여 본 연구의 모델보다 성능이 뛰어난 모델을 구축할 수 있을 것이다. RF모델의 경우, XGB에 비해 낮은 정확도를 보여 인자의 선별과 모델의 파라미터 최적화 과정 등을 통한 정확도의 개선이 필요하다. 또한, 실시간 모니터링을 위한 일별 농도가 아닌 시간별 농도의 예측이 필요하다. daily 형식의 데이터인 AOD를 hourly의 형식의 데이터로 수집하여, hourly 형식의 데이터를 이용해 연구를 수행할 필요도 있다. 하지만, 본 연구의 모델은 다양한 알고리즘이 개발되고 있는 현 시점에도 충분히 좋은 예측력을 보였기에 모니터링을 위한 예측의 안정성과 정확도를 높이는데 도움이 될 것이라고 판단된다.

사사

본 연구는 산업통상자원부(MOTIE)와 한국에너지기술평가원(KETEP)의 지원을 받아 수행한 연구과제입니다(No. 20171510101960).

참고문헌

  1. Azhari, A., N.D.A. Halim, A.A.A. Mohtar, K. Aiyub, M.T. Latif, and M. Ketzel, 2021. Evaluation and prediction of PM10 and PM2.5 from road source emissions in Kuala Lumpur City Centre, Sustainability, 13(10): 5402. https://doi.org/10.3390/su13105402
  2. Berrocal, V.J., Y. Guan, A. Muyskens, H. Wang, B.J. Reich, J.A. Mulholland, and H.H. Chang, 2020. A comparison of statistical and machine learning methods for creating national daily maps of ambient PM2.5 concentration, Atmospheric Environment, 222: 117130. https://doi.org/10.1016/j.atmosenv.2019.117130
  3. Breiman, L., 2001. Random forests, Machine Learning, 45(1): 5-32. https://doi.org/10.1023/A:1010933404324
  4. Byon, J-Y., S.-O. Hong, Y.-S. Park, and Y.-H. Kim, 2021. Evaluation of the Urban Heat Island Intensity in Seoul Predicted from KMA Local Analysis and Prediction System, Journal of the Korean Earth Science Society, 42(2): 135-148 (in Korean with English abstract). https://doi.org/10.5467/JKESS.2021.42.2.135
  5. Chae, S., J. Shin, S. Kwon, S. Lee, S. Kang, and D. Lee, 2021. PM10 and PM2.5 real-time prediction models using an interpolated convolutional neural network, Scientific Reports, 11(1): 1-9. https://doi.org/10.1038/s41598-021-91253-9
  6. Chen, G., S. Li, L.D. Knibbs, N.A.S. Hamm, W. Cao, T. Li, J. Guo, H. Ren, M. J. Abramson, and Y. Guo, 2018a. A machine learning method to estimate PM2.5 concentrations across China with remote sensing, meteorological and land use information, Science of the Total Environment, 636: 52-60. https://doi.org/10.1016/j.scitotenv.2018.04.251
  7. Chen, G., Y. Li, Y. Zhou, C. Shi, Y. Guo, and Y. Liu, 2021. The comparison of AOD-based and non-AOD prediction models for daily PM2.5 estimation in Guangdong province, China with poor AOD coverage, Environmental Research, 195: 110735. https://doi.org/10.1016/j.envres.2021.110735
  8. Chen, G., Y. Wang, S. Li, W. Cao, H. Ren, L.D. Knibbs, M.J. Abramson, and Y. Guo, 2018b. Spatiotemporal patterns of PM10 concentrations over China during 2005-2016: A satellite-based estimation using the random forests approach, Environmental Pollution, 242: 605-13. https://doi.org/10.1016/j.envpol.2018.07.012
  9. Chen, T. and C. Guestrin, 2016. Xgboost: A scalable tree boosting system, Proc. of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, San Francisco, CA, USA, Aug. 13-17, pp. 785-794. https://doi.org/10.1145/2939672.2939785
  10. Choi, I., W. Lee, B. Eun, J. Heo, K-H. Chang, and J. Oh, 2022. A Study on Prediction of PM2.5 Concentration Using DNN, Journal of Environmental Impact Assessment, 31(2): 83-94 (in Korean with English abstract). https://doi.org/10.14249/eia.2022.31.2.83
  11. Choi, J.K., I.S. Choi, K.K. Cho, and S.H. Lee, 2020. Harmfulness of particulate matter in disease progression, Journal of Life Science, 30(2): 191-201 (in Korean with English abstract). https://doi.org/10.5352/JLS.2020.30.2.191
  12. Choi, S.I, J. An, and Y.M. Jo, 2018. Review of Analysis Principle of Fine Dust, Korean Industrial Chemistry News, 21(2): 16-23 (in Korean with English abstract).
  13. Guo, J., F. Xia, Y. Zhang, H. Liu, J. Li, M. Lou, J. He, Y. Yan, F. Wang, M. Min, and P. Zhai, 2017. Impact of diurnal variability and meteorological factors on the PM2.5-AOD relationship: Implications for PM2.5 remote sensing, Environmental Pollution, 221: 94-104. https://doi.org/10.1016/j.envpol.2016.11.043
  14. Ha, J-E., H.-C. Shin, and Z.-K. Lee, 2017. Korean Text Classification Using Randomforest and XGBoost Focusing on Seoul Metropolitan Civil Complaint Data, The Journal of Bigdata, 2(2): 95-104 (in Korean with English abstract).
  15. Hebert, J., 2016. Predicting rare failure events using classification trees on large scale manufacturing data with complex interactions, Proc. of 2016 IEEE International Conference on Big Data, Washington D.C., USA, Dec. 5-8, pp. 2024-2028. https://doi.org/10.1109/BigData.2016.7840825
  16. Hwang, I.C., 2018. Particulate Matter Management Policy of Seoul: Achievements and Limitations, The Korea Association for Policy Studies, 27(2): 27-51 (in Korean with English abstract).
  17. Hwang, S., T.H. Kim, M. Kim, and J. Choi, 2022. A Study on the Time Series Characteristics of High-concentration Fine Dust Generation by Local Indicator of Temporal Burstiness, Journal of the Korean Geographical Society, 57(1): 97-108 (in Korean with English abstract). https://doi.org/10.22776/kgs.2021.57.1.97
  18. Kim, B-Y., Y.-K. Lim, and J-W. Cha, 2022. Short-term prediction of particulate matter (PM10 and PM2.5) in Seoul, South Korea using tree-based machine learning algorithms, Atmospheric Pollution Research, 13(10): 101547. https://doi.org/10.1016/j.apr.2022.101547
  19. Kim, E. and J. Moon, 2021. Analyzing the Temporal Pattern of Particulate Matter Emission Multipliers: Development of the Quarterly Input-Output Model, Journal of Environmental Policy and Administration, 29(2): 1-29 (in Korean with English abstract). http://dx.doi.org/10.15301/jepa.2021.29.2.1
  20. Kim, H., 2020. The Prediction of PM2.5 in Seoul through XGBoost Ensemble, Journal of The Korean Data Analysis Society, 22(4): 1661-1671 (in Korean with English abstract). https://doi.org/10.37727/jkdas.2020.22.4.1661
  21. Kim, K., D. Lee, K.-Y. Lee, K.-H. Lee, and Y. Noh, 2016. Estimation of surface-level PM2.5 concentration based on MODIS aerosol optical depth over Jeju, Korea, Korean Journal of Remote Sensing, 32(5): 413-421 (in Korean with English abstract). https://doi.org/10.7780/kjrs.2016.32.5.2
  22. Kim, Y. and K. Chang, 2021. Comparison and analysis of prediction performance of fine particulate matter (PM2.5) based on deep learning algorithm, Journal of Convergence for Information Technology, 11(3): 7-13 (in Korean with English abstract). https://doi.org/10.22156/CS4SMB.2021.11.03.007
  23. Lee, D. and S. Lee, 2020. Hourly Prediction of Particulate Matter (PM2.5) Concentration Using Time Series Data and Random Forest, Korea Information Processing Society-Transactions on Software and Data Engineering, 9(4): 129-36 (in Korean with English abstract). https://doi.org/10.3745/KTSDE.2020.9.4.129
  24. Lee, S.-B., C.-H. Kang, D.-S. Jung, H.-J. Ko, H.-B. Kim, Y.-S. Oh, and H.-L. Kang, 2010. Composition and pollution characteristics of TSP, PM2.5 atmospheric aerosols at Gosan site, Jeju Island, Analytical Science and Technology, 23(4): 372-382 (in Korean with English abstract).
  25. Lim, J.-M., 2019. An Estimation Model of Fine Dust Concentration Using Meteorological Environment Data and Machine Learning, Journal of Information Technology Services, 18(1): 173-186 (in Korean with English abstract). https://doi.org/10.9716/KITS.2019.18.1.173
  26. Lin, L., Y. Liang, L. Liu, Y. Zhang, D. Xie, F. Yin, and T. Ashraf, 2022. Estimating PM2.5 Concentrations Using the Machine Learning RF-XGBoost Model in Guanzhong Urban Agglomeration, China, Remote Sensing, 14(20): 5239. https://doi.org/10.3390/rs14205239
  27. Joharestani M. Z., C. Cao, X. Ni, B. Bashir, and S. Talebiesfandarani, 2019. PM2.5 prediction based on random forest, XGBoost, and deep learning using multisource remote sensing data, Atmosphere, 10(7): 373. https://doi.org/10.3390/atmos10070373
  28. Park, D.-U. and K.-C. Ha, 2008. Characteristics of PM10, PM2.5, CO2 and CO monitored in interiors and platforms of subway train in Seoul, Korea, Environment International, 34(5): 629-634. https://doi.org/10.1016/j.envint.2007.12.007
  29. Park, J.-Y., T.-Y. Kwon, and J.-Y. Lee, 2017. Estimation of surface visibility using MODIS AOD, Korean Journal of Remote Sensing, 33(2): 171-187 (in Korean with English abstract). https://doi.org/10.7780/kjrs.2017.33.2.6
  30. Park, S., M. Kim, and J. Im, 2021. Estimation of Ground-level PM10 and PM2.5 Concentrations Using Boosting-based Machine Learning from Satellite and Numerical Weather Prediction Data, Korean Journal of Remote Sensing, 37(2): 321-335 (in Korean with English abstract). https://doi.org/10.7780/kjrs.2021.37.2.11
  31. Park, S. and H. Shin, 2017. Analysis of the Factors Influencing PM2.5 in Korea: Focusing on Seasonal Factors, Journal of Environmental Policy and Administration, 25(1): 227-248 (in Korean with English abstract). https://doi.org/10.15301/jepa.2017.25.1.227
  32. Peng, J., H. Han, Y. Yi, H. Huang, and L. Xie, 2022. Machine learning and deep learning modeling and simulation for predicting PM2.5 concentrations, Chemosphere, 308: 136353. https://doi.org/10.1016/j.chemosphere.2022.136353
  33. Shin, D.-H. and Y.-M. Kim, 2015. The Utilization of Big Data's Disaster Management in Korea, The Journal of the Korea Contents Association, 15(2): 377-392 (in Korean with English abstract). https://doi.org/10.5392/JKCA.2015.15.02.377
  34. Shogrkhodaei, S.Z., S.V. Razavi-Termeh, and A. Fathnia, 2021. Spatio-temporal modeling of PM2.5 risk mapping using three machine learning algorithms, Environmental Pollution, 289: 117859. https://doi.org/10.1016/j.envpol.2021.117859
  35. Sihag, P., V. Kumar, F.R. Afghan, S.M. Pandhiani, and A. Keshavarzi, 2019. Predictive modeling of PM2.5 using soft computing techniques: case study-Faridabad, Haryana, India, Air Quality, Atmosphere & Health, 12(12): 1511-1520. https://doi.org/10.1007/s11869-019-00755-z
  36. Son, S. and J. Kim, 2021. Vulnerability Assessment for Fine Particulate Matter (PM2.5) in the Schools of the Seoul Metropolitan Area, Korea: Part I - Predicting Daily PM2.5 Concentrations, Korean Journal of Remote Sensing, 37(6-2): 1881-1890 (in Korean with English abstract). https://doi.org/10.7780/kjrs.2021.37.6.2.10
  37. Song, B.-G. and K.-H. Park, 2022. Analysis of PM2.5 Pattern Considering Land Use Types and Meteorological Factors - Focused on Changwon National Industrial Complex -, Journal of the Korean Association of Geographic Information Studies, 25(2): 1-17 (in Korean with English abstract). https://doi.org/10.11108/kagis.2022.25.2.001
  38. Stafoggia, M., T. Bellander, S. Bucci, M. Davoli, K. de Hoogh, F. de' Donato, C. Gariazzo, A. Lyapustin, P. Michelozzi, M. Renzi, M. Scortichini, A. Shtein, G. Viegi, I. Kloog, and J. Schwartz, 2019. Estimation of daily PM10 and PM2.5 concentrations in Italy, 2013-2015, using a spatiotemporal land-use random-forest model, Environment International, 124: 170-179. https://doi.org/10.1016/j.envint.2019.01.016
  39. Sung, S.H., S. Kim, and M.H. Ryu, 2020. A Comparative Study on the Performance of Machine Learning Models for the Prediction of Fine Dust: Focusing on Domestic and Overseas Factors, Innovation Studies, 15(4): 339-357 (in Korean with English abstract). https://doi.org/10.46251/INNOS.2020.11.15.4.339
  40. Xie, Y., Y. Wang, K. Zhang, W. Dong, B. Lv, and Y. Bai, 2015. Daily estimation of ground-level PM2.5 concentrations over Beijing using 3 km resolution MODIS AOD, Environmental Science and Technology, 49(20): 12280-12288. https://doi.org/10.1021/acs.est.5b01413
  41. Xin, J., Y. Wang, Z. Li, P. Wang, W.M. Hao, B.L. Nordgren, S. Wang, G. Liu, L. Wang, and T. Wen. 2007. Aerosol optical depth (AOD) and Angstrom exponent of aerosols observed by the Chinese Sun Hazemeter Network from August 2004 to September 2005, Journal of Geophysical Research: Atmospheres, 112(D5). https://doi.org/10.1029/2006JD007075
  42. Yoo, H.-G., J.-W. Hong, J. Hong, S. Sung, E.J. Yoon, J.-H. Park, and J.-H. Lee, 2020. Impact of Meteorological Conditions on the PM2.5 and PM10 concentrations in Seoul, Journal of Climate Change Research, 11(5-2): 521-528 (in Korean with English abstract). https://doi.org/10.15531/ksccr.2020.11.5.521
  43. Yu, M., Y. Lee, and J. Yi, 2016. Flood inflow forecasting on HantanRiver reservoir by using forecasted rainfal, Journal of Korea Water Resources Association, 49(4): 327-333 (in Korean with English abstract). https://doi.org/10.3741/JKWRA.2016.49.4.327
  44. Zhang, D., L. Qian, B. Mao, C. Huang, B. Huang, and Y. Si, 2018. A data-driven design for fault detection of wind turbines using random forests and XGboost, IEEE Access, 6: 21020-21031. https://doi.org/10.1109/ACCESS.2018.2818678
  45. Zhang, H., R.M. Hoff, and J.A. Engel-Cox, 2009. The relation between Moderate Resolution Imaging Spectroradiometer (MODIS) aerosol optical depth and PM2.5 over the United States: a geographical comparison by US Environmental Protection Agency regions, Journal of the Air & Waste Management Association, 59(11): 1358-1369. https://doi.org/10.3155/1047-3289.59.11.1358
  46. Zhang, H. and S. Kondragunta, 2021. Daily and hourly surface PM2.5 estimation from satellite AOD, Earth and Space Science, 8(3): e2020EA001599. https://doi.org/10.1029/2020EA001599