1. 서론
대기 오염은 세계적으로 점점 더 주목받고 있는 심각한 환경 문제이다. 경제의 급속한 발전과 산업화가 가속화되면서 도기 대기 오염은 더욱 심해지고 있다. 대기 오염의 주요 물질중 하나인 초미세먼지 (PM2.5)는 입자 크기가 작아 독성과 유해물질이 다량 함유돼 있다. 이것은 대기권에 오래 머물뿐 만 아니라 수송 거리가 길어 대기 가시성이 저하되고 생활환경과 신체 건강에 심각한 영향을 미친다[1]. 대기오염 문제를 해결하기 위해서는 오염원에 관련된 연구와 더불어 예보 시스템의 구축이 필수적이다. 미세먼지 예보에 이미 인공신경망의 성능은 입증되어 관련 연구들이 꾸준히 진행되고 있다. 관련 연구로는 MLP를 이용하여 PM10과 PM2.5를 예측한 연구[2] 와 DNN을 이용하여 서울 권역의 미세먼지를 예측한 연구[3-6]가 있다. 인공신경망을 이용한 예보의 경우 온도, 습도 등의 기상데이터와 O3, NO2등의 대기 질 데이터를 사용하여 학습을 진행하여 초미세먼지농도 값을 예측한다. 이때, 데이터의 필드가 다양하고 일관성이 없기 때문에 단일 농도 값을 출력으로 갖는 신경망으로는 빠른 학습이 어렵다고 판단하였다. 또한 PM2.5예보는 하루에 4번 예보를 진행해야하고, 전국 19개의 권역에 대하여 6시간 단위로 10개의 시간대를 예보해야 한다. 때문에 예보모델의 수가 760(4x19x10)개로 학습 및 유지 관리가 매우 복잡하여 예보 현장에 적용하기에는 어려움이 있다.본 논문에서는 앞에서 언급한 두 가지 문제를 해결하기 위해 범주 광역화 모델을 제안하였다.제안된 범주 광역화 모델은 기존 단일 농도 값을 출력으로 갖던 예보를 ‘좋음’, ‘보통’, ‘나쁨’, ‘매우 나쁨’4단계의 범주를 세분화하여 예보 모델의 학습 속도를 개선하였다. 또한 전국 19개의 권역 중 비슷한 지역특성을 지닌 권역끼리 묶어, 6개 광역으로 학습 단위를 광역화함으로서, 예보모델의 수를 감소 시켜 모델의 학습 및 유지 관리를 용이하게 하고 준수한 예보 성능을 도출해냈다.
2. 미세먼지 데이터
2.1 데이터 수집 및 구성
미세먼지는 대기 중에 떠다니며 눈에 보이지 않을 정도로 작은 먼지로 주로 질산염, 암모늄 이온, 황산염 등의 이온 성분과 탄소 화합물, 금속 화합물 등으로 이루어져 있다. 미세먼지는 1급 발암물질로 심혈관, 호흡기, 뇌혈관 질환 등의 건강에 영향을 준다. 이와 같은 영향을 피하기 위하여 AOI(AirQuality Index)를 기준으로 제공하는 ‘좋음’, ‘보통’, ‘나쁨’, ‘매우 나쁨’4단계로 구분된 정보를 확인해오고 있다. 이러한 미세먼지의 농도는 주로 O3, NO2등의 대기오염 물질과 온도, 습도 등의 기상 요소 등 다양한 환경 변수로 부터 영향을 많이 받는다.수많은 대기오염 물질과 기상 요소 중 미세먼지의 농도에 직간접적으로 영향을 미치는 요소에 대해서는 꾸준하게 연구가 진행되어 왔다[7]. 대기질 데이터와 기상 데이터는 한국의 각 19개 지역의 측정소에서 2015년도부터 2019년도까지 5년간 6시간 간격으로 측정 및 예보한 데이터를 사용하였다. 다음 Table1은 한국 측정소 19개 권역에 대한 표이다.
Table 1. 19 Regions.
2.2 입력 데이터
2.2.1 예보 및 측정 데이터
입력데이터로는 각 19개 지역 측정소로부터 14개의 측정 데이터와 16개의 예보 데이터 총 2가지 종류의 데이터를 받아서 사용한다. 측정 데이터와 예보데이터는 각각 대기질 데이터와 기상 데이터로 구성이 되어있다.각 입력 데이터의 구성은 다음 Table 2와 같이 구성되어있다.
Table 2. Observation and Forecast Data.
2.2.2 Julian 데이터 Membership Function
미세먼지는 계절에 따른 풍향이나 장마, 황사 등 영향을 주는 요인이 존재하기 때문에 날짜 데이터 또한 예보에 도움이 된다. 본 논문에서는 미세먼지예보를 위하여 입력데이터에 대기질 데이터와 기상 데이터뿐만 아니라 미세먼지의 시계열 상관도를 고려하여 날짜 데이터를 Membership Function[3]을 통하여 변환하여 입력 데이터에 사용하였다. 12개월의 날짜 가중치를 계산하여 12개의 값으로 출력을 낸다.
2.3 데이터 전처리
미세먼지 예보에 사용되는 입력 데이터는 대기 질 데이터와 기상 데이터, 날짜 데이터가 있다. 그중 날짜 데이터는 총 합이 1이 나오도록 정규화가 이미 이루어진 데이터이지만, 나머지 대기질 데이터와 기상 데이터의 경우는 속성간의 데이터 분포가 전부 다르기 때문에 정규화가 필요하다. 예를 들어 대기 질의 PM10의 속성의 경우 음수 값이 존재할 수 없지만, 기상의 바람의 방향을 나타내는 U, V등의 속성은 음수 값이 존재한다. 또한 기상의 압력은 최솟값이 97000으로 데이터가 매우 높게 분포되어 있기 때문에 정규화 작업이 필요하다. 정규화는 각 속성의 최솟값이 양수 일 경우에는 Min-MaxNormalization 을 진행하여 데이터 분포를 0과 1사이로 분포하고, 속성의 최솟값이 음수일 경우에는 -0.5와 0.5 사이로 분포하도록 전처리를 진행하였다.
\(\begin{cases}x /(\operatorname{Max}+|\operatorname{Min}|) & (\operatorname{Min}<0) \\ (x-\operatorname{Min}) /(\operatorname{Max}-\operatorname{Mn}) & (\operatorname{Min} \geq 0)\end{cases}\) (1)
2.4 미세먼지 데이터 분포 특성
미세먼지 데이터는 상대적으로 건강에 영향이 적은 ‘좋음’, ‘보통’의 저 농도로 분류되는 데이터와 건강에 영향을 끼칠 수 있는 ‘나쁨’, ‘매우 나쁨’의 고농도로 분류되는 데이터가 있다. 아래 Fig.1은 15~ 18년도의 미세먼지 데이터의 등급별 분포이다.Fig. 1에서 볼 수 있듯이 저 농도 데이터는 전체 데이터의 80%, 고 농도 데이터는 전체 데이터의 20% 정도로 분포하고 있다. 이렇듯 고 농도 데이터가 과부족하고 데이터의 분포가 불균형하여 인공신경망을 통하여 학습을 할 때, 학습을 방해하는 요인이 된다[4].
Fig. 1. PM2.5 Data Distribution.
3. 범주 광역화 모델
신경망 예보 모델은 6시간 단위의 PM2.5예보 값을 생성한다. 예보 시간 프레임은 Fig.2와 같이 구성이 되어있다. 여기서 각 T는 6시간 단위로 구성이 되어있다. 15시 예보를 시행하는 모델을 기준으로 T1부터 T5까지는 과거에 해당하는 시간대이고, T6 부터 T15는 미래에 해당하는 시간대이다.이 중 T6 과 T7은 D+0오늘 예보 시간대이고, T8부터 T11은 D+1로 내일 시간대, T12부터 T15는 D+2로 모레 시간대를 나타낸다. 예보를 해야 할 시간대가 T6부터 T15까지 총 10개의 시간대이기 때문에, 각 T별로 총 10개의 신경망 예보 모델을 구성 하였다. 각 T 시간대별로 예보 값을 생성하기 위하여, T5의 측정 데이터와 Ti의 예보 데이터를 입력으로 사용하였다.
Fig. 2. Forecast Time Frame [5].
3.1 회귀 모델
기존의 회귀 모델의 네트워크 구조는 Fig. 3과 Table3과 같다. 입력층은 2장에서 기재한 기상 데이터와 대기질 데이터, 날짜 데이터들로 총 42개의 입력을 가진다. 출력층의 노드는 1개이며 PM2.5의 수치 값을 목표로 학습한다. 하지만 이 모델은 고 농도 데이터 불균형으로 인하여 1개의 출력층이 저 농도에 치우쳐져 학습을 진행하는 경향이 있다.이와 같은 문제를 해결하기 위하여 다음 장의 범주 모델을 개발하였다.
Fig. 3. Network structure.
Table 3. Regression Model structure.
3.2 범주 모델
미세먼지의 경우 나쁨, 매우 나쁨 지수에 해당하는 고 농도 데이터보다 좋음, 보통의 지수에 해당하는 저 농도 데이터가 훨씬 많아 데이터 불균형을 이루고 있다. 위와 같은 문제 때문에 출력이 1개의 농도값으로 나오는 회귀 모델은 학습을 진행할 때, 전체적인 농도 값이 저 농도 쪽으로 치우쳐져 학습이 이루어지는 경향이 있어 학습에 어려움이 있다. 또한 다양한 입력 패턴을 단지 하나의 농도 값으로 출력하게 되면 학습 속도가 저하될 수밖에 없다. 이와 같은 문제를 해결하기 위해 범주 모델을 개발하였다. 네트워크 구조는 Table4와 같다. 회귀 모델과 비교했을 때, 출력층은 Class분류를 위하여 Softmax 활성화 함수를 채택하였고, 은닉 층은 Relu활성화 함수를 사용하였다.입력층은 회귀 모델과 동일하게 기상 데이터와 예보데이터, 날짜데이터 총 42개 인자를 사용하였다. 출력층은 ‘좋음’, ‘보통’, ‘나쁨’, ‘매우 나쁨’4 개의 범주를 세분화 하여 학습하기 위하여 각각 5구간으로 나누어 총 20(4*5)개의 출력을 가지고, 출력층의 목표 값은 초미세먼지의 농도 값을 One-hot Encoding기법을 사용하여 세분화한 20개의 범주 중에 해당하는 범주의 값은 1, 나머지 범주는 0으로 지정하였다. 이때, ‘좋음’, ‘보통’, ‘나쁨’, ‘매우 나쁨’ 4개의 범주를 그대로 사용하지 않고 세분화를 하는 이유는 세분화를 하지 않고 4개의 범주로만 나누게 되면 전혀 다른 특성을 갖는 패턴도 같은 범주에 속하게 되어 학습속도를 저하시킬 수 있기 때문이다. 세분화된 20개의 범주는 Fig.4와 같다.
Table 4. Categorical Model structure.
Fig. 4. 20 Sections of Categorical.
3.3 범주 광역화 모델
범주 모델에서 회귀 모델에 비해 학습 속도 면에서 향상된 결과를 보였다. 하지만 예보를 진행할 때 예보모델의 수가 너무 많아 관리 및 수행하기에 어려움이 있다. 전국 19개 권역에 대하여 T6부터 T15까지 10개의 모델이 있고, 하루에 03시, 09시, 15시, 21 시 총 4번 예보를 진행해야 한다. 즉 권역 수(19)* 예보시간(10)*예보시행횟수(4)=760개의 예보모델을 관리하여야 한다.이와 같은 문제를 완화하고자 지역 특징이 유사한 인접한 권역끼리 하나로 묶어서 학습하는 모델인 범주 광역화 모델을 개발하였다. 전국 19개의 권역 중 비슷한 지역특성을 지닌 권역끼리 묶어 6개의 광역으로 학습 단위를 광역화함으로서, 예보모델의 수를 감소 시켜 모델의 학습 및 유지관리를 용이하게 하였다.6개 광역으로 광역화를 시킨 권역은 앞의 Table1과 같이 6개 광역으로 지정하였다. 광역화를 진행하여 학습을 하게 되면 전국 19개 권역을 6개 그룹으로 묶기 때문에 예보모델이 광역 수(6) *예보시간(10)*예보시행횟수(4)=240개로 약 1/3 배정도로 줄어든다. 범주 광역화 모델의 네트워크 구조는 Table4로 3.2의 범주 모델과 동일하다. 아래 Fig.는 광역화를 진행하지 않은 모델(Fig.5(a))와 광역화를 진행한 모델(Fig.5(b))의 차이를 수도권(5권역)에 대하여 보인다. 광역화를 진행하지 않은 모델의 경우, 각 권역마다 학습을 진행하여 예보모델이 권역마다 존재하여 5개가 존재한다. 하지만 광역화를 진행한 모델은 5개의 권역을 묶어 광역화하여 학습을 진행하였기 때문에 1개의 예보모델만이 존재한다.
Fig. 5. Difference to Wide Area. (a) Original Model and (b) Wide Area Model.
4. 실 험
4.1 실험 환경
본 연구에서 개발한 예보모델과 평가 프로그램은 Window10기반의 Python3.6을 사용하여 구현했으며, 분석 프로그램은 visualc++2010을 사용하여 구현하였다. 실험에 사용한 데이터는 2015년 01월 01일부터 2019년 12월 31일까지의 19개 권역 6시간 평균 데이터로 예보대상 물질은 PM2.5다.이 중 학습에 2015년 01월 01일부터 2018년 12월 31일까지 사용하고, 평가에는 2019년 01월 01일부터 2019년 12월 31 일까지의 데이터를 사용하였다. 제안된 모델의 성능평가를 위하여 기존의 회귀와 범주, 범주 광역화 총 3가지의 모델을 비교하였다.
4.2 결과
4.2.1 Cost그래프
아래 결과는 회귀, 범주, 범주 광역화 총 3가지 예보모델에 대한 Cost그래프이다.주황점선으로 표시된 지점은 Best Case가 나오는 시점을 표시한 것이다. Best Case는 전체 Epoch에 대해 평가 데이터의 성능을 평가하였을 때, 각 모델에서의 성능이 가장 우수한 지점을 뜻한다.
위 Fig.6(a)의 회귀 모델의 경우 Best Case인 경우가 Epoch6700번째로 선정이 되었는데, Fig.6(b)와 Fig.6(c)의 두 모델은 BestCase인 경우가 Epoch 30번째 이내로 선정이 되었다.회귀 모델보다 범주 모델을 결합한 모델의 수렴 속도가 223배 더 빠른 모습을 볼 수 있다. 이때, 범주 모델이 결합된 두 모델의 경우 Best Case이후에도 Cost가 감소하는 모습을 볼 수 있다.이는 범주 모델의 목표 값이 One-hot Encoding기법으로 이루어져 있어 네트워크가 평가데이터를 평가하기에 충분히 학습이 진행이 되었음에도 불구하고, 목표 값에 해당하는 범주의 출력 값을 1, 해당하지 않는 범주의 출력 값을 0으로 하면서 학습 데이터를 과하게 학습하는 과적합(over fitting) 문제가 일어난다. 따라서 Epoch가 진행될수록 Cost는 감소하지만, 평가데이터의 평가 결과가 저하되는 현상이 발생하므로 이를 피하기 위하여 조기 종료하였다.
Fig. 6. Cost Graph. (a) Regression Model, (b) Categorical Model, and (c) Categorical Wide Area Model.
4.2.2 실험 결과
아래 Fig.7은 회귀, 범주, 범주 광역화 총 3가지 예보모델의 지수적중률(Accuracy), 감지확률(POD: Probability of Detection), 오경보율(FAR : False AlarmRate)을 수도권지역에 대하여 비교한 것이다. 지수적중률은 모든 지수 구간의 적중률을 평가하고, 감지확률은 고 농도의 감지정도를 평가하고, 오경보율은 고 농도 예보의 정확성을 나타내는 지표이다[4].
Fig. 7. Prediction Result. (a) Accuracy, (b) POD, and (c) FAR.
위 예보 결과를 보면, 권역별 예보일별 차이는 존재하지만, 회귀 모델에 비해 범주 모델을 접목한 두 모델이 D+1, D+2의 지수적중률, 오경보율에서 우수하고, 감지확률은 회귀 모델이 더 우수하다. 하지만회귀 모델의 상대적으로 높은 오경보율을 고려한다면 단순히 감지확률이 높은 것만으로 좋은 성능을 가진다고 평가하기 어렵다. 또한 범주 모델과 범주 광역화 모델의 성능을 비교하면 범주 광역화 모델이 지수적중률과 감지확률에서 우수하고, 오경보율은 범주 모델이 더 우수하다. 하지만 두 모델의 성능차가 크지 않으며, 범주 광역화 모델은 광역화를 진행하여 모델의 수를 1/3로 감소시켜 학습 및 유지 관리를 용이하게 하였기 때문에 유사한 성능을 보인다면 범주 광역화 모델이 예보에 더 유리하다.
5. 결론
본 논문에서는 PM2.5미세먼지 예보모델의 학습속도 향상 및 과도한 수의 예보모델의 학습 및 유지관리를 개선하기 위하여 기존의 모델을 범주화 및 광역화하였다. 예보를 단일 농도 값으로 출력하는 기존의 회귀 모델에 비해 예보 결과를 범주로 출력하는 범주 모델은 다양한 특성을 갖는 패턴들을 각각 다른 부류로 나누어 학습을 진행할 수 있기 때문에, Best case에 수렴하는 속도가 223배 더 빠른 모습을 보였다. 또한 기존 19개 권역의 학습단위를 6개 광역으로 광역화하여 학습을 진행하여 관리, 수행해야하는 예보모델의 수를 760(19×10×4)개에서 240(6×10×4)개로 약 1/3로 감소시키면서 많은 예보모델 관리의 어려움을 완화시켰다. 성능 또한 기존 회귀 모델에 비해 좋은 결과를 보여주었고, 같은 범주 기법을 사용한 범주 모델과 범주 광역화 모델의 예보 성능을 비교하여도 범주 광역화 모델이 오경보율 부분에서는 조금 저조하였지만, 지수적중률과 감지확률에서 향상되었다. 기존과 비슷하거나 더 우수한 예보성능을 보인다면 학습 및 유지 관리 면에서 볼 때, 비슷한 지역 특성을 지닌 권역끼리 광역화한 범주 광역화 모델로 예보 하는 것이 훨씬 유리하다.
References
- A.S. Jang, "Impact of Particulate Matter on Health," Journal of Korean Medical Association, Vol. 57, No. 9, pp. 763-768, 2015. https://doi.org/10.5124/jkma.2014.57.9.763
- G. Grivas and A. Chaloulakou, "Artificial Neural Network Models for Prediction of PM10 Hourly Concentrations, in The Greater Area of Athens, Greece," Atmospheric Environment, Vol. 40, pp. 1216-1229, 2006. https://doi.org/10.1016/j.atmosenv.2005.10.036
- S.H. Yu, Y.T. Jeon, and H.Y. Kwon, "Improvement of PM10 Forecasting Perfor- mance using Membership Function and DNN," Journal of Korea Multimedia Society, Vol. 22, No. 9, pp. 1069-1079, 2019. https://doi.org/10.9717/KMMS.2019.22.9.1069
- Y.T. Jeon, S.H. Yu, and H.Y. Kwon, "Improvement of PM Forecasting Performance by Outlier Data Removing," Journal of Korea Multimedia Society, Vol. 23, No. 6, pp. 747-755, 2020. https://doi.org/10.9717/KMMS.2020.23.6.747
- S. Yu and Y. Jeon, "Improvement of PM10 Forecasting Performance Using DNN and Secondary Data," Journal of Korea Multimedia Society, Vol. 22, No. 10, pp. 1187-1198, 2019. https://doi.org/10.9717/KMMS.2019.22.10.1187
- S. Yu, "Development of PM10 Forecasting Model for Seoul Based on DNN Using East Asian Wide Area Data," Journal of Korea Multimedia Society, Vol. 22, No. 11, pp. 130-1312, 2019.
- J. Kim, D. Choi, Y. Koo, J. Lee, and H. Park, "Analysis of Domestic and Foreign Contributions using DDM in CMAQ during Particulate Matter Episode Period of February 2014 in Seoul," Journal of Korean Society for Atmospheric Environment, Vol. 32, No. 1, pp. 82-99, 2016. https://doi.org/10.5572/KOSAE.2016.32.1.082
- A.B. Chelani, D.G. Gajghate, and M.Z. Hasan, "Prediction of Ambient PM10 and Toxic Metals Using Artificial Neural Networks," Journal of the Air and Waste Management Association, Vol. 52, Issue 7, pp. 805-810, 2002. https://doi.org/10.1080/10473289.2002.10470827
- S. Li, G. Xie, J. Ren, L. Guo, Y. Yang, and X. Xu, "Urban PM2.5 concentration Prediction via Attention-Based CNN-LSTM," Applied Sciences, Vol. 10, No. 6, 1953, 2020. https://doi.org/10.3390/app10061953
- G. Lee, S.W. Park, J. Her, H.S. Kim, J.D. Chai, S.H. Yu, et al., "Development of DNN based Classification-type Forecasting Model for Improving Fine Dust Forecasting Performance and Learning Speed," 2020 Fall Conference of KISM, pp. 126, 2020.