DOI QR코드

DOI QR Code

Comparative Study of Performance of Deep Learning Algorithms in Particulate Matter Concentration Prediction

미세먼지 농도 예측을 위한 딥러닝 알고리즘별 성능 비교

  • Cho, Kyoung-Woo (AI Testing Team, Telecommunications Technology Association) ;
  • Jung, Yong-jin (Department of Electrical, Electronics and Communication Engineering, Korea University of Technology and Education(KOREATECH)) ;
  • Oh, Chang-Heon (Department of Electrical, Electronics and Communication Engineering, Korea University of Technology and Education(KOREATECH))
  • 조경우 (한국정보통신기술협회 AI시험검증팀) ;
  • 정용진 (한국기술교육대학교 전기전자통신공학과) ;
  • 오창헌 (한국기술교육대학교 전기전자통신공학과)
  • Received : 2021.09.07
  • Accepted : 2021.10.26
  • Published : 2021.10.31

Abstract

The growing concerns on the emission of particulate matter has prompted a demand for highly reliable particulate matter forecasting. Currently, several studies on particulate matter prediction use various deep learning algorithms. In this study, we compared the predictive performances of typical neural networks used for particulate matter prediction. We used deep neural network(DNN), recurrent neural network, and long short-term memory algorithms to design an optimal predictive model on the basis of a hyperparameter search. The results of a comparative analysis of the predictive performances of the models indicate that the variation trend of the actual and predicted values generally showed a good performance. In the analysis based on the root mean square error and accuracy, the DNN-based prediction model showed a higher reliability for prediction errors compared with the other prediction models.

미세먼지에 대한 심각성이 사회적으로 대두됨에 따라 대중들은 미세먼지 예보에 대한 정보의 높은 신뢰성을 요구하고 있다. 이에 따라 다양한 신경망 알고리즘을 이용하여 미세먼지 예측을 위한 연구가 활발히 진행되고 있다. 본 논문에서는 미세먼지 예측을 위해 다양한 알고리즘으로 연구되고 있는 신경망 알고리즘들 중 대표적인 알고리즘들의 예측 성능 비교를 진행하였다. 신경망 알고리즘 중 DNN(deep neural network), RNN(recurrent neural network), LSTM(long short-term memory)을 이용하였으며, 하이퍼 파라미터 탐색을 이용하여 최적의 예측 모델을 설계하였다. 각 모델의 예측 성능 비교 분석 결과, 실제 값과 예측 값의 변화 추이는 전반적으로 좋은 성능을 보였다. RMSE와 정확도를 기준으로 한 분석에서는 DNN 예측 모델이 다른 예측 모델에 비해 예측 오차에 대한 안정성을 갖는 것을 확인하였다.

Keywords

Ⅰ. 서론

미세먼지는 눈에 보이지 않을 정도로 입자의 크기가 작은 먼지이다. 이러한 미세먼지는 신체의 방어체계를 무시하여 심혈관, 호흡기, 뇌혈관 질환 등 다양한 영향을 미친다는 연구가 있으며, WHO(World Health Organization) 산하 국제암연구소 IARC(International Agency for Research on Cancer)에서는 1군 발암물질로 지정하여 발표하였다 [1]-[6]. 이러한 미세먼지의 위험성을 인식함에 따라 사회 구성원들의 경제 활동 저하의 문제에 대한 원인으로 분석되고 있다. 미세먼지 발생 원인은 자동차, 공장, 조리 과정 등에서 발생하는 대기오염 물질이다. 특히 석탄, 석유 등 화석 연료를 기반으로하는 산업 활동으로부터 많은 영향을 받고 있다. 이에 따라 많은 사람들이 미세먼지에 대한 관심이 높아지고 있으며, 미리 대비하기 위해 미세먼지에 대한 정보를 요구하고 있다. 한국에서는 대기질 예측 모델인 CMAQ(community multiscale air quality) 모델의 예측 결과와 다양한 수치 모델 결과 등을 종합하여 미세먼지에 대한 예보가 시행되고 있다 [7], [8]. 그러나 기대에 미치지 못하는 정확성으로 대중들은 보다 높은 예보의 정확성을 요구하고 있다.

이에 따라 미세먼지 예측의 정확도를 높이기 위해 다양한 신경망 알고리즘을 이용한 연구들이 진행되고 있다. 신경망 알고리즘 중 DNN 기반의 미세먼지 예측과 관련하여 M. M. Dedovic의 연구에서는 3년간 사라예보 기상 변수 및 미세먼지 농도를 사용하여 1개의 hidden layer로 구성한 DNN 신경망 모델을 통해 예측을 진행하였다. 해당 연구에서는 이전 해의 미세먼지 농도 데이터를 가진 확장된 입력 데이터 셋을 활용하여 미세먼지 농도 예측 성능을 향상시킬 수 있음을 확인하였다 [9]. RNN 기반의 미세먼지 예측과 관련한 Y. B. Lim의 연구에서는 대기오염 물질과 미세먼지 농도 데이터를 순차 데이터로 구성하여 적용한 RNN 모델을 제안하였다. 예측 모델의 입력 데이터의 길이, 최적화 함수, layer 및 node의 갯수 변경을 통해 최적의 예측 성능이 확인되는 파라미터를 설정하였다. 이후 설정된 최적 파라미터를 통해 미세먼지 예측 성능이 향상됨을 입증하였다[10]. LSTM 기반의 미세먼지 예측과 관련한 S. W. Kang의 연구에서는 기상 데이터를 활용하여 LSTM 모델 기반의 미세먼지 예측을 연구하였다. 데이터 정규화를 통해 기상 데이터들의 표현 범위를 일치시켜 사용하였으며, 과거 24시간의 데이터를 이용하여 12시간 후의 미세먼지 농도를 예측하였다. 해당 연구에서는 미세먼지 농도와 관련 있는 기상 인자를 활용하여 데이터 예측 성능을 향상시킬 수 있음을 입증하였다 [11].

본 논문에서는 동일한 데이터를 이용하여 다양한 신경망 알고리즘을 통한 미세먼지 예측 모델을 구축한 후 알고리즘 별 성능 비교 분석을 진행하였다. DNN, RNN, LSTM 알고리즘을 사용하여 미세먼지 농도 예측을 위한 3가지 신경망 모델의 성능 평가를 위해 전체 정확도, AQI(air quality index) 기준의 세부 정확도, RMSE(root mean square error)를 이용하여 진행한다.

Ⅱ. 데이터셋 구성 및 전처리

2-1 데이터 셋 구성

예측 모델 설계 및 실험을 위해 사전 연구의 결과를 기반으로 데이터를 구성하였다. 데이터의 경우 천안시에서 2009년부터 2018년 동안 1시간 간격으로 측정한 데이터 중 표 1과 같이 주요 데이터를 선정하여 수집하였다. 수집된 데이터 중 환경 및 장비에 따라 측정이 되지 않은 데이터들이 존재였으며, 효율적인 학습을 위해 동일 시간의 모든 데이터를 제거하여 구성하였다.

표 1. 주요 데이터 수집

HHHHBI_2021_v25n5_409_t0001.png 이미지

Table. 1. Collected data

수집된 데이터를 이용하여 그림 1과 같이 학습에 사용하기 위한 training set과 학습이 완료된 모델의 평가를 위한 test set으로 구성하였다. 그리고 training set의 일부 데이터를 이용하여 학습된 모델을 검증하기 위한 validation set을 구성하였다.

HHHHBI_2021_v25n5_409_f0001.png 이미지

그림 1. 데이터셋 구조

Fig. 1. Structure of dataset

2-2 데이터 전처리

학습에 사용되는 데이터의 경우 수치형 데이터와 범주형 데이터로 구성되어 있다. 데이터 스케일에 따라 학습 효과에 영향을 줄 수 있으며 이는 예측 모델의 성능 저하의 원인이 될 수 있다. 따라서 수집된 데이터들을 학습에 적합하도록 전처리과정이 필요하다.

풍향의 경우 16방위의 각도 값으로 범주형 데이터에 해당함에 따라 one-hot-encoding을 통해 0과 1로 표현되도록 변환하였다. 나머지 데이터의 경우 각각 다른 스케일을 가지고 있는 수치형 데이터이며, 동일한 스케일로 통일하기 위해 min max scaling을 이용하여 0과 1사이의 값으로 변환하여 적용하였다. 따라서 모든 데이터가 0에서 1사이의 값으로 표현되도록 전처리를 진행하여 데이터를 구성하였다.

Ⅲ. 예측 모델 설계

3-1 DNN 기반 예측 모델 설계

신경망의 layer는 크게 input layer, hidden layer, output layer로 구성되며, hidden layer의 수에 따라 ANN(artificial neural network), DNN으로 구분된다. DNN의 경우 다수의 hidden layer를 포함하고 있으며, 각 layer의 뉴런에 해당하는 노드들을 연결하기 위한 연결선들은 각각의 가중치를 가지고 있다. DNN 알고리즘은 먼저 가중치를 초기화한 후, 최종 output layer의 손실을 줄이는 방향으로 가중치가 갱신하게 된다. 따라서 가중치를 도출하기 위한 함수 설정이 중요하다 [9], [12], [13].

가중치 관련 함수 중 활성화 함수와 최적화 함수는 안정성이 있는 ReLU와 adam을 사용하였다. 예측 모델의 경우, 학습 강도에 따라 다양한 결과를 보이게 되며, 최적의 결과를 도출하기 위해 학습 강도와 관련된 여러 파라미터들의 최적화가 필요하다. 파라미터 최적화를 위해 하이퍼 파라미터 그리드를 사용하였으며 표 2는 상위 3순위에 해당하는 하이퍼 파라미터 탐색 결과이다. 이에 따라 1순위에 해당하는 파라미터를 적용하여 DNN 기반 예측 모델의 설계를 진행하였다.

표 2. 하이퍼 파라미터 탐색 결과

HHHHBI_2021_v25n5_409_t0002.png 이미지

Table. 2. Hyper parameter search result

3-2 RNN 기반 예측 모델 설계

RNN은 순서가 있는 시계열 데이터에 특화된 신경망 알고리즘이다. DNN과 같은 순방향 신경망과는 다르게 내부 노드에서 순환 고리를 통해 입력과 출력 사이 신경망이 재귀하는 구조로 되어 있으며, 내부 계층을 연결하는 가중치의 경우 모두 동일한값을 가지는 구조로 되어있다. RNN의 활성화 함수는 일반적으로 hyperbolic tangent 또는 ReLU 함수를 사용한다 [14], [15].

RNN의 경우에도 DNN과 마찬가지로 예측 모델의 학습을 위해 여러 파라미터들을 이용하여 학습의 강도를 조절하게 된다. DNN과 동일하게 파라미터의 종류에는 여러 종류가 있으며, 순회 학습을 위한 sequence size를 의미하는 timesteps 파라미터가 추가되어 적용된다. Timesteps의 경우 하루를 기준으로 모델에 적용함에 따라 24의 고정된 값으로 설정하였다. 그 외의 주요 파라미터의 경우, 하이퍼 파라미터 탐색을 통해 표 2와 같이 최적의 값을 확인하였다. 도출된 결과에 따라 1순위에 해당하는 파라미터를 적용하여 모델의 설계를 진행하였다.

3-3 LSTM 기반 예측 모델 설계

순환 신경망의 경우 길이가 긴 시계열 데이터의 학습 시 발생하는 기울기 소실의 문제가 발생하게 되며, 모델 학습에 반영됨에 따라 부정확한 결과를 보이게 된다. 이러한 문제를 해결하고자 기존 RNN의 memory cell 구조를 변형하여 기울기 소실에 대한 문제를 보완한 알고리즘이 LSTM이다 [16], [17].

LSTM의 모델 설계에 필요한 파라미터는 RNN과 동일하게 적용됨에 따라 동일한 파라미터에 대한 하이퍼 파라미터 탐색을 진행하였다. 또한 RNN 모델과 동일하게 timesteps를 24로 설정하였으며, 활성화 함수는 ReLU, 최적화 함수는 adam으로 적용하였다. 표 2와 같이 파라미터 별 최적의 값을 도출하였으며, 1순위에 해당하는 파라미터를 적용하여 모델의 설계를 진행하였다.

Ⅳ. 성능 평가

하이퍼 파라미터 탐색을 통해 도출된 최적의 값을 적용하여 각 모델의 설계를 진행하였으며, training set을 이용하여 각 모델의 학습을 진행하였다. 이후 test set을 이용하여 각 모델의 학습 결과인 예측 값을 통해 성능 평가를 진행하였다. 성능 평가의 기준으로 RMSE를 사용하였으며, 세부 예측 정확도 파악을 위해 AQI 지수 별 정확도를 이용하였다.

그림 2는 test set을 이용한 각 모델 별 미세먼지 예측 결과이며, 표 3은 각 모델의 예측 결과에 따른 RMSE와 세부 예측 정확도이다. 그림 2에서 3가지 모델의 예측 값이 실제 값과 전반적으로 비슷한 미세먼지 농도 추세를 보이고 있다.

HHHHBI_2021_v25n5_409_f0002.png 이미지

그림 2. 모델별 미세먼지 농도(PM10) 예측 결과

Fig. 2. PM10 prediction result

표 3. 모델별 예측 성능 비교

HHHHBI_2021_v25n5_409_t0003.png 이미지

Table. 3. Prediction performance comparison

그러나 DNN 모델의 경우, 고농도 예측 시 실제 값보다 다소 낮은 미세먼지 농도 값을 결과로 보여주는 과소 예측의 결과를 보이며, RNN과 LSTM 모델의 경우, 고농도 예측 시 실제 값보다 다소 높은 미세먼지 농도 값을 보여주는 과대 예측의 결과를 보이고 있다.

표 5의 모델 별 예측 성능에서 모델들의 RMSE를 비교하였을 경우, DNN의 RMSE가 8.3459의 값으로 다른 모델보다 좋은 지표를 보여주고 있다. 그러나 전체 정확도의 경우, RNN이 87.58%로 다른 모델과 비교하여 보다 더 높은 정확도를 보여주고 있다.

AQI 지수 기준의 ‘좋음’ 수준 예측 정확도는 RNN 모델이 84.28%로 가장 높은 정확도를 보였으며, ‘보통’의 경우 93.14%로 DNN 모델이 가장 높은 정확도를 보였다. ‘나쁨’의 경우 76.83%로 LSTM의 정확도가 다른 모델에 비해 높았으며, ‘매우 나쁨’의 경우 72.79%로 RNN 모델의 정확도가 다른 모델과 비교하여 보다 더 높은 정확도를 보였다.

RMSE와 전체 정확도를 기준으로 DNN과 RNN을 비교할 경우, RNN이 DNN보다 예측의 정확도는 높으나 예측에 성공하지 못한 샘플들의 오차 범위가 DNN보다 큰 것을 확인할 수 있다. 이러한 경우 DNN이 RNN에 비해 오차 범위에 대해 보다 더 안정적이라 평가할 수 있다.

Ⅴ. 결론

미세먼지 농도를 예측하기 위해 많은 연구에 사용되고 있는 신경망 알고리즘을 이용하여 미세먼지 농도 예측에 적합한 알고리즘 선정을 위해 모델 별 성능 분석 및 평가를 진행하였다. 이를 위해 천안 지역에서 10년 간 측정한 기상 및 대기오염 물질 데이터를 수집하였다. 수집한 데이터는 예측 모델의 학습에 사용하기 위해 training set, validation set, test set으로 구성하였다. 그리고 데이터의 특성이 서로 다를 경우 발생하는 학습 문제를 최소화하기 위해 전처리를 진행하였다. 풍향의 경우 16방위로 표현되는 범주형 데이터임에 따라 one-hot encoding을 통해 0과 1의 벡터형으로 변환하였으며, 그 외의 데이터는 각기 다른 스케일을 min max scaling을 이용하여 수치 표현의 범위를 0부터 1사이 값으로 변환하였다. 예측 모델의 성능 평가를 위해 사용될 신경망 알고리즘은 DNN, RNN, LSTM으로 최적의 예측 성능을 위해 각 알고리즘에 적용되는 파라미터의 최적 값이 필요하다. 이를 위해 하이퍼 파라미터 탐색을 통해 도출된 최적의 값을 적용하여 모델을 설계하였다. 이후 설계된 모델의 학습을 위해 동일한 데이터를 통해 학습 및 성능 평가를 진행하였다.

신경망 알고리즘을 이용하여 구축된 예측 모델들의 성능 비교를 위해 실제 값과 예측 값의 추세 변화를 확인하였다. 그리고 RMSE와 AQI 기준으로 구분하여 세부 예측 정확도를 확인하였다. 각 모델을 통해 도출된 추세 변화의 경우 모델에 따른 큰 차이는 보이지 않았다. 그러나 RMSE와 정확도를 이용한 성능 비교에서는 DNN이 다른 알고리즘보다 낮은 RMSE를 보이며 안정성 있는 예측 값을 보였으며, RNN의 경우 다른 알고리즘보다 안정성은 다소 떨어지나 높은 정확도를 보이는 것으로 확인하였다.

미세먼지 농도 예측에 있어 실제 값과 예측 값의 일치와 불일치에 대한 정확성도 중요하지만 넓은 농도 범위를 감안하였을 경우 오차범위가 적은 DNN 예측 모델이 적합하다 판단된다. 향후, 신경망 알고리즘과 불규칙적인 미세먼지 특성을 효율적으로 판단하기 위한 알고리즘의 연구를 진행할 계획이며, 이를 이용하여 보다 좋은 예측 성능의 모델 구축을 통해 신뢰성이 높은 예측 정보의 활용을 높일 수 있을 것으로 기대한다.

Acknowledgments

This research was supported by Basic Science Research Program through the National Research Foundation of Korea(NRF) funded by the Ministry of Education(NRF-2019R1I1A3A01059038).

This paper was supported by the Education and Research Promotion Program of KOREATECH in 2020.

References

  1. C. A. Pope III, and D. W. Dockery, "Health effects of fine particulate air pollution: line that connect," Journal of the Air & Waste Management Association, Vol. 56, No. 6, pp. 709-742, Jun. 2006. https://doi.org/10.1080/10473289.2006.10464485
  2. A. Valavanidis, K. Fiotakis, and T. Vlachogianni, "Airborne particulate matter and human health: toxicological assessment and importance of size and composition of particles for oxidative damage and carcinogenic mechanisms," Journal of Environmental Science and Health, Part C, Vol. 26, No. 4, pp. 339-362, Sep. 2008. https://doi.org/10.1080/10590500802494538
  3. J. O. Anderson, J. G. Thundiyil, and A. Stolbach, "Clearing the air: a review of the effects of particulate metter air pollution on human health," Journal of Medical Toxicology, Vol. 8, No. 2, pp. 166-175, Dec. 2012. https://doi.org/10.1007/s13181-011-0203-1
  4. K. H. Kim, E. Kabir, and S. Kabir, "A review on the human health impact of airborne particulate matter," Environment international, Vol. 74, pp. 136-143, Jan. 2015. https://doi.org/10.1016/j.envint.2014.10.005
  5. N. J. Hime, G. B. Marks, and C. T. Cowie, "A comparison of the health effects of ambient particulate matter air pollution from five emission sources," International Journal of Environmental Research and Public Health, Vol. 15, No. 6, Jun. 2018.
  6. World Health Organization (WHO), "Health effects of particulate matter: policy implications for countries in eastern europe, caucasus and central asia," Regional Office for Europe, 2013.
  7. K. H. Jeon, J. H. Lee, J. H. Park, H. J. Park, Y. H. Lee, M. S. Jung, H. S. Lee, K. P. Nam, J. S. Myoung, K. C. Choi, and T. H. Kim, "A study of data accuracy improvement for national air quality forecasting(III)," National Institute of Environmental Research, Dec. 2016.
  8. Board of Adit and Inspection (BAI), "Weather forecast and earthquake notification system operation," International THE Board of Audit and Inspection of KOREA, Jul. 2017.
  9. M. M. Dedovic, S. Avdakovic, I. Turkovic, N. Dautbasic, and T. Konjic, "Forecasting PM10 concentrations using neural networks and system for improving air quality," 2016 XI International Symposium on Telecommunications(BIHTEL), pp. 1-6, Oct. 2016.
  10. Y. B. Lim, I. Aliyu, and C. G. Lim, "Air pollution matter prediction using recurrent neural networks with sequential data," Proceedings of the 2019 3rd International Conference on Intelligent Systems, Metaheuristics & Swarm Intelligence, pp. 40-44, Mar. 2019.
  11. S. W. Kang, N. G. Kim, and B. D. Lee, "Fine dust forecast based on recurrent neural networks," 2019 21st International Conference on Advanced Communication Technology (ICACT), pp. 456-459, Feb. 2019
  12. J. B. Ahn, and Y. M. Cha, "A comparison study of corrections using artificial neural network and multiple linear regression for dynamically downscaled winter temperature over south korea," Asia-Pacific Journal of Atmospheric Sciences, Vol. 41, pp. 401-413, Jun. 2005.
  13. J. W. Oh, J. H. Song, K. H. Kim, and S. H. Jung, "Automatic composition using training capability of artificial neural networks and chord progression," Journal of Korea Multimedia Society, Vol. 18, No. 11, pp. 1358-1366, Nov. 2015. https://doi.org/10.9717/KMMS.2015.18.11.1358
  14. W. Yahaya, K. Zaman, and A. Latip, "Prediction of energy consumption using recurrent neural networks (RNN) and nonlinear autoregressive neural network with external input (NARX)," Indonesian Journal of Electrical Engineering and Computer Science, Vol. 17, No. 3, pp. 1215-1223, Mar. 2020. https://doi.org/10.11591/ijeecs.v17.i3.pp1215-1223
  15. S. Y. Yoo, J. C. Lee, J. H. Lee, H. J. Hwang, and S. S. Lee, "A study on time series data filtering of spar platform using recurrent neural network," Journal of the Korean Society of Marine Engineering, Vol. 43, No. 1, pp. 8-17, Jan. 2019.
  16. X. Wang, and H. C. Kim, "Text categorization with improved deep learning methods," Journal of information and communication convergence engineering, Vol. 16, No. 2, pp. 106-113, Jun. 2018. https://doi.org/10.6109/JICCE.2018.16.2.106
  17. C. H. Hwang, H. S. Kim, and H. K. Jung, "Detection and correction method of erroneous data using quantile pattern and LSTM", Journal of information and communication convergence engineering, Vol. 16, No. 4, pp. 242-247, Dec. 2018. https://doi.org/10.6109/JICCE.2018.16.4.242