1. 서 론
현대사회에 진입하면서 급속한 산업화, 도시화로 인해 대기오염이 심화되고 있다. 계속 악화되는 대기오염문제에 대해 이를 개선하기 위한 노력의 일환으로 대기오염 물질을 발생시키는 배출원에 대해 제재를 가하는 정책이 적용되고 있다. 이러한 정책이 실효를 거두기 위해서는 주요 배출원이 발생시킨 배출량을 정확히 추정하는 연구가 반드시 선행되어야 한다.
이러한 필요에 의해 최근에는 인공위성자료 및 측정 자료가 주어졌을 때 배출량을 추정하는 방법인 역모델링 방법이 활발히 개발, 적용되고 있다. 역모델링은 화학 수송모델링을 이용하여 배출량의 함수로 모델농도를 계산하고, 계산된 모델농도와 측정 자료의 차이를 최소화하는 방법이다[1].
이와 관련된 기존의 연구로는 역모델링 기법을 이용하여 악취의 종류를 분류하고, 해당 배출원을 분석하고[2,3], 미세먼지의 농도를 추정하고[4], 매립지의 메탄배출량을 산정[5]하는 연구 등이 있다.
앞의 연구에서 사용한 기법은 pseudo inverse와 non-negative least square(이하 NNLS로 표기)등이다. pseudo inverse는 측정값과 전달함수가 주어졌을 때, 간단한 계산에 의해 배출량을 추정할 수 있는 기법으로, 작은 오차를 포함하는 배출량을 산정할 수 있다. 그러나 이 방법에 의해 산정된 배출량에는 음수가 존재한다. 현실적으로 배출량이 음수가 되는 경우는 존재할 수 없으므로 음의 배출량이 계산된다는 점이 이 방법의 한계이다. 이를 보완한 NNLS 역시 측정값과 전달함수가 주어졌을 때, 배출량을 추정하는데 이용할 수 있는 기법이다. 이 방법은 계산과정에서 음수가 나오지 않도록 제한하기 때문에 pseudo inverse가 갖는 한계를 해결할 수 있지만, 단지, 오차를 최소로 하는데 목적을 두고 계산하기 때문에 비현실적인 배출량이 나오는 경우가 존재한다. 이러한 한계를 개선하기 위해 적용할 수 있는 기법으로는 Bayesian Approach(이하 BA로 표기)가 있다.
BA는 주어진 모델농도와 측정 자료의 오차를 최소화하기 위한 방법으로, 베이스 정리(Bayes' theorem)에 의하여 표현되는 비용함수를 최소화 하는 방식으로 배출량을 추정하게 된다. 이와 관련된 기존의 연구는 유럽지역의 PM10에 대한 자료동화[6], 동아시아 전역의 황사를 분석한 경우[7]등이 있다.
그러나, BA를 이용하여 배출량을 추정할 때, BA의 파라메타를 어떻게 결정하느냐는 성능에 큰 영향을 미친다. 기존의 연구에서는 이러한 파라메타를 경험치로 고정시켜 배출량을 추정하였다. 이 방법은 주어진 데이터들의 변화폭이 큰 경우에는 적절하지 않다. 주어진 다양한 데이터에 대해 정확하게 배출량을 추정 할 수 있도록 하려면 민감도 분석을 거쳐 해당 데이터에 적합한 파라메타를 결정하는 것이 바람직하다. 이에 본 논문에서는 BA를 적용하여 동아시아 지역의 PM10 배출량을 추정하되, 정확한 추정을 위하여 사전에 민감도 분석을 통해 최적의 파라메타 값을 계산하여 적용하였다. 이러한 연구과정을 다음과 같이 전개하고자 한다. 다음에 이어지는 2장에서는 기존의 배출량 추정 방법들에 대해 기술하고, 3장에서는 BA 파라메타에 대한 민감도 분석 방법에 대해 설명하고, 4장에서는 실험결과를 보이고, 5장에서는 결론을 맺는다.
2. 이 론
2.1 배출량 추정 모델의 정의
배출량 추정 모델은 목표 오염물질의 관측값과 화학수송모델링에 의한 전달함수, 배출원의 관계를 표현한 모델이다. 이것은 결국 각 관측값에 대해 관여한 배출원별 배출량 X를 추정하는 문제로 볼 수 있고, 식(1)∼식(4)와 같이 표현할 수 있다.
(Y : 관측치, H(x) : 화학수송모델에의한 배출원별기여도 X : 배출원별배출량)
또한, (1)에서 표현된 각각의 요소는 (2)-(4)와 같이 정의 할 수 있다.
(yi : i번째관측치, i : 관측지점, n : 관측지점갯수)
(hij : i번 관측치에 대한j번 배출원의 기여도, n : 관측수, m: 배출원수)
(xi : i번째 배출원의 배출량, m 배출원수)
2.2 Pseudo inverse를 이용한 배출량 추정
배출량 추정문제는 식(1)에서 표현한 바와 같이 관측치 Y에 대해 H(x)를 적합시키는 X를 추정하는 문제로 볼 수 있다. 이것은 아래의 과정 식(5)를 통해 해결할 수 있고, 이 방법을 pseudo inverse라 한다.
그러나, 이렇게 pseudo inverse를 이용하여 배출량을 계산하게 되면 음의 배출량이 나오는 경우가 존재한다. 실세계에서 음의 배출량은 존재할 수 없으므로, 계산된 값 중 음수 값에 대해서는 적절한 처리를 해주어야 한다. 이 같은 문제를 해결하기 위한 NNLS는 배출량 추정 시 음수가 나오면 양수로 보정 처리하는 과정이 포함된 방법이다.
2.3 NNLS를 이용한 배출량 추정
NNLS도 관측치 Y에 배출량 X를 근사시키는 방법이라는 점에서는 pseudo inverse와 동일하나, 중간 과정에서 음수가 계산될 때 이를 양수로 전환하는 규칙이 포함된 방법이다[8]. 따라서, NNLS를 이용한 배출량 추정 방법은 pseudo inverse 방법의 한계를 개선할 수 있다. 그러나, 인위적으로 음수를 제한하고, 최소의 오차를 목표로 배출량을 추정하기 때문에 특정 배출원에 과도하게 편중되거나 0으로 근사시키는 등의 비현실적인 배출량이 계산되는 경우가 다수 존재하는 한계를 갖는다.
2.4 Bayesian approach
BA를 배출량 추정에 사용할 경우 배출량 x와 관측값 y의 관계를 전달함수 K에 의해 식(6)와 같이 표현할 수 있다. 여기서 ε는 측정 오차이다[9].
식(6)에 오차 ϵa에 해당하는 사전 제약(a priori constraint)을 갖는 배출량 xa를 적용하고, 베이스 정리(Bayes' theorem)에 의해 표현된 사후 배출량 xa을 추정하기 위한 방법을 식(7)과 같이 정의할 수 있다[10].
식(7)에서 R은 관측 오차 공분산이고, B는 xa에 대한 배경장 오차 공분산이다. 여기서 관측이란 측정소에서 실측한 값이고, 배경장이란 수치예보 모델에 의해 계산된 초기추정을 의미한다. 이 식에 따라 배출량을 추정할 경우 확률적으로 최적의 값을 얻을 수 있다. 그러나, 사후 배출량 는 BA의 두 파라메타 R과 B의 값에 매우 민감하다. 따라서 두 값의 초기 설정은 매우 중요하지만, 참 값을 유도할 수 없어 경험적 설정에 의존한다. 본 연구에서는 이 같은 문제를 해결하기 위해 다양한 데이터에 효율적으로 적용할 수 있도록 민감도 분석 과정을 거쳐 가장 적절한 값으로 결정하고자 한다.
3. 제안한 방법
3.1 배경장 오차 B와 관측오차 R
배출량 추정문제에서 각 배출원들이 발생시키는 배출량들 사이에는 상관관계가 없고, 각 관측소에서 관측한 값들 사이에도 상관관계가 없으므로, B와 R은 각각 다음과 같이 정의될 수 있다.
식(8)과 식(9)에서 εb는 배경장 모델과 참값 xt의 차이로서, 배경장 오차를 의미하고, ε0는 관측 값과 관측 참값 yt의 차이로서 관측오차를 의미하며, i,j는 행렬의 크기이다.
3.2 민감도 분석에 의한 파라메타 추정
BA를 이용하여 배출량을 추정할 때, 주요 파라메타인 배경장 오차 B와 관측오차 R을 어떻게 결정하느냐에 따라 결과에 큰 영향을 미친다. 기존 연구에서는 관측치 y와 사전 배출량 xa의 변화와 무관하게 경험치에 의해 B와 R을 고정시켜 배출량을 추정하였다. 하지만, 이런 방법은 데이터간의 변화폭이 크다면, 정확한 배출량을 추정하는데 문제가 생긴다. 따라서, 본 논문에서는 자동화된 방법으로 민감도 분석을 수행하여 해당 데이터에 가장 적합한 B와 R값을 탐색하였다.
R은 관측 오차이므로 관측치 y의 0%에서 20%까지의 범위에서 민감도 분석을 수행하였고, B는 배경장 오차이므로 사전 배출량 xa의 0%에서 200%까지의 범위에서 민감도 분석을 수행하였다.
민감도 분석은 R과 B를 주어진 범위 내에서 값을 변화시키며 두 가지 기준에 만족하는 값으로 결정하였다.
두 가지 기준은 모델 오차와 추정된 사후 배출량의 정확도이다. 모델 오차는 관측값 y와 전달함수 K에 의한 사후 배출량 사이의 차이를 의미하며, 배출량의 정확도는 사전 배출량을 현실적으로 가능한 배출량의 크기라 가정하고, 사전 배출량과 추정된 사후 배출량을 비교하여 판단하였다.
민감도 분석 결과 배경장 오차 B는 사전 배출량의 60%이하로 결정할 경우 모델 오차가 급증하였는데, 이는 배경장 오차는 적어도 사전 배출량의 60%를 초과해야 하고, 이 이상의 안정적인 구간에서 결정되어야 하는 것을 의미한다.
관측 오차 R은 0%에 가까울수록 작은 오차 값을 가졌다. 그러나, 관측 오차가 0%라는 것은 현실적으로 불가능할 뿐만 아니라, 사전 배출량과의 비교 시 지나치게 비현실적인 배출량을 추정해내는 결과를 보였다. 따라서, 관측 오차 R은 관측치의 10% 이상으로 결정하는 것이 모델 오차와 사후 배출량의 정확성 측면에서 모두 좋은 결과를 보였다. 이러한 실험 결과들은 이어지는 4장에서 기술하였다.
4. 실험 결과 및 고찰
4.1 실험데이터
실험에 사용된 데이터는 동아시아 16개 권역의 초기 배출량과 25개 측정소의 관측치, 화학수송모델에 의해 결정된 전달함수이고, 대상 대기 오염 물질은 PM10이다. 데이터의 관측 기간은 2008년 1월과 8월이다.
권역은 아시아 7개 지역, 국내 8개 지역, 이외 기타 1개 지역으로 총 16개 권역으로 구분하였다. 측정소는 아시아 17개 측정소, 국내는 서울, 경기북부, 경기남부, 인천, 강원, 충청, 경상, 전라 등 각 8개 지역으로 총 25개의 측정소의 도시 대기망 측정망 평균값을 이용하였다. 각 16개의 권역과 25개의 측정소에 대하여 Fig. 1에 나타내었다.
Fig. 1.Area division and measurement network location.
4.2 방법별 배출량 추정 결과
Pseudo inverse, NNLS, BA를 이용하여 배출량을 추정한 결과를 Table 1과 Fig. 2∼Fig. 7에 나타내었다. Table 1에는 2008년 1월(case 1)과 2008년 8월(case2) 데이터를 각 방법들을 사용하여 배출량을 추정한 결과 발생된 오차를 기술하였다. 오차는 식(10)에 의해 산출되었다. 식(10)에서 y는 관측치이고, K는 전달함수이며, x는 사후 배출량이다.
Table 1.RMSE by method
Fig. 2.Posteriori emissions by pseudo inverse.
Fig. 3.Observation and Observation by pseudo inverse.
Fig. 4.Posteriori emissions by NNLS.
Fig. 5.Observation and Observation by NNLS.
Fig. 6.Posteriori emissions by BA.
Fig. 7.Observation and Observation by BA.
Table 1에서 Priori는 사전 배출량을 나타내고, Pseudo는 pseudo inverse를 의미하고, 나머지 두 가지 방식은 각각 NNLS와 BA이다. Priori는 주어진 사전 배출량으로 가장 오차가 크므로 역모델링 방식에 의해 정확한 배출량을 추정할 필요가 있다. pseudo inverse는 가장 오차가 작지만, 음의 배출량을 산출한다. 이것은 Fig. 2와 Fig. 3에 나타내었다. Fig. 2 에서 x축은 16개의 권역을 나타내고, y축은 각 배출원이 생성시킨 배출량을 의미한다. 범례에서 priori emissions는 사전 배출량을 의미하고, posteriori emissions는 pseudo inverse에 의해 추정된 사후 배출량을 의미한다. Fig. 4와 Fig. 6도 마찬가지로 기술하였다.
Fig. 2에서 원으로 표시된 것은 음의 배출량이 산정된 지점이다. Fig. 3은 주어진 관측치와 pseudo inverse에 의해 계산된 관측치를 나타낸 것이다. Fig. 3에서 x축은 25개의 측정소를 나타내고, y축은 관측치를 의미한다. 범례에서 observations는 주어진 관측치를 나타내고, posteriori emissions는 pseudo inverse에 의해 계산된 관측치이다. Fig. 5와 Fig. 7도 모두 마찬가지로 기술하였다.
Fig. 4와 Fig. 5에는 NNLS에 의한 결과를 기술하였다. NNLS는 음의 배출량이 산출되는 문제를 해결했으나, 비현실적인 배출량이 계산되는 경우가 있다. Fig. 4에서 원으로 표시된 지점은 이러한 문제를 나타낸다. 사전 배출량을 현실적으로 가능한 배출량으로 생각할 수 있는데, NNLS로 배출량을 추정한 경우, 작게는 2배에서 크게는 10배 이상의 차이를 보이는 경우가 있었다.
Fig. 6과 Fig. 7에는 BA에 의한 결과를 기술하였다. BA에 의한 배출량 추정 시 pseudo inverse와 NNLS의 문제점을 해결할 수 있고, 현실적으로 가능한 범위의 배출량을 작은 오차로 추정할 수 있다. 단, 좋은 결과를 얻기 위해서는 BA의 파라메타를 적절하게 결정하는 것이 중요하다. Fig. 6과 7에는 민감도 분석을 통해 얻어진 파라메타 값을 적용하였다. 적용된 파라메타 값은 배경장 오차 B 100%, 측정오차 R 10%이다.
4.3 민감도 분석 결과
Fig. 8에는 BA의 두 파라메타에 대해 민감도 분석을 수행한 결과를 나타내었다. Fig. 8에서 x축은 측정오차 공분산 R이고, y축은 배경장 오차 공분산 B이며, Z축은 식(10)의 방법으로 계산한 오차를 나타내었다. B는 사전 배출량의 1%∼200%, R은 관측치의 0%∼20%까지 변화시키면서 민감도 분석을 수행하였다.
Fig. 8.Sensitivity analysis with R, B.
적절한 B와 R을 결정하는 기준 중 한 가지는 작은 오차를 가지도록 하는 것이다. Fig. 8에 각 케이스별로 가장 작은 오차를 갖는 부분을 화살표로 표기하였다. case 1에서는 B가 200%, R이 0%일 경우, case 2에서는 B가 80%, R이 0%일 경우 가장 오차가 작았다. 하지만, 단지 최소의 오차를 기준으로 파라메타 값을 결정하는 것은 비현실적인 배출량을 추정하는 문제가 생긴다. 이러한 경우를 Fig. 9에 나타내었다.
Fig. 9.Emissions by R B of the error to a minimum.
Fig. 9는 최소의 오차를 가지는 값으로 B와 R을 결정하여 배출량을 추정한 결과를 보인 것이다. 여기서 원으로 표기된 부분을 살펴보면, 사전 배출량보다 많게는 5배 이상의 배출량을 추정하는 것을 볼 수 있다. 이것은 현실적이지 못한 배출량을 추정한 결과이다. 따라서, 단지 최소의 오차만을 기준으로 파라메타를 결정하는 것은 옳지 못하고, 배출량의 정확도도 함께 고려하여야 한다. 이와 같은 이유로 값을 변화시켜 가며, 오차와 배출량의 정확도를 함께 고려했을 때, B는 100%, R은 10% 전후의 값을 가질 때 안정된 구간을 형성한다. 이러한 구간을 Fig. 8에 타원으로 표기하였다.
만일 B를 60%이하로 결정할 경우 오차가 급작스럽게 증가하는 것을 볼 수 있다. 적어도 B값은 사전배출량의 60%를 넘어야 하며, 100% 전후부터는 안정적인 구간을 형성하는 것을 볼 수 있다. R의 경우는 값의 변화에 큰 영향 없이 비슷한 오차 값을 가지다가, 5%이하부터 오차가 감소하며 0에 가까울 때 최소의 오차 값을 갖는 것을 볼 수 있다. 그러나, Fig. 9에서 보였듯이 측정 오차 R이 0%에 가까운 값을 갖는 것은 배출량 추정에 문제가 있고, 비현실적이다. 따라서, R값도 안정된 구간을 형성하는 10%내외로 결정하여야 한다.
민감도 분석 결과, B와 R의 변화에 따른 모델오차가 큰 변화가 없는 평원(flat area)이 있고, 이 영역에 서 모델오차는 안정적인 결과를 갖는다. 따라서, 최적의 B와 R은 이 영역에서 결정되어야 하며, 최소의 모델 오차와 현실적으로 가능한 배출량 사이에서 결정한 값은 B는 100%, R은 10%로 이 값을 적용한 결과는 앞선 Fig. 6에서 보였다. 오차와 배출량의 정확도를 기준으로 파라메타를 결정한 결과인 Fig. 6과 단지 최소의 오차를 갖는 값으로 파라메타를 결정한 결과인 Fig. 9를 비교해 보면, 그 차이는 명확하다. Fig. 9에서 원으로 표시한 case1의 5권역, 16권역, case2의 1권역과 16권역은 배출량을 잘못 추정한 경우이다. Fig. 6의 같은 위치를 보면 문제가 개선된 점을 확인할 수 있다.
5. 결 론
본 논문에서는 정확한 배출량을 추정하기 위하여 역모델링의 주요 파라메타인 배경장 오차 B와 측정오차 R에 대한 민감도 분석을 수행하였다.
모델 오차와 추정된 배출량의 정확도를 기준으로 민감도 분석을 수행한 결과 B는 100%, R은 10%가 가장 적절한 값으로 판단되었다. 이렇게 결정된 파라메타로 배출량을 추정한 결과, 기존의 pseudo inverse, NNLS와 경험적 판단에 의존하여 BA의 파라메타를 결정한 경우보다 우수한 결과를 보였다.
향후 과제로는 민감도 분석을 진행하는 과정에 좀더 체계화된 최적화(Optimization) 기법 등을 도입하여 분석의 효율을 높이고자 한다.
References
- Y.S. Koo, Air Pollution Emissions Data Evaluation Technology using Satellite Data and Inverse Model, E211-41001-0012-0, 2013.
- S.H. Yu, S.J. Park, Y.S. Koo, and H.Y. Kwon, “Odor Classification and Source Analysis using Pseudo Inverse," Journal of Korea Multimedia Society, Vol. 13, No. 8, pp. 1117-1182, 2010.
- S.H. Yu, “Odor Classification and Sources Analysis using K-mean Clustering Algorithm and Non-negative Least Square," Journal of Korean Society of Odor Research and Engineering, Vol. 12, No. 4, pp. 169-180, 2013. https://doi.org/10.11161/jkosore.2013.12.4.169
- S.H. Yu and H.Y. Kwon, “Air Pollutants Tracing Model using Perceptron Neural Network and Non-negativ Least Square," Journal of Korea Multimedia Society, Vol. 16, No. 12, pp. 1465-1473, 2013. https://doi.org/10.9717/kmms.2013.16.12.1465
- Y.S. Koo, H.Y. Kwon, E.S. Son, H.J. Jin, B.W. Jung, and G.S. Heo, “A Review of the Estimation Methodology of Methane Emission in a Landfill using Inverse Modeling Technique,” Journal of Korean Society of Odor Research and Engineering, Vol. 12. No. 3, pp. 111-123, 2013. https://doi.org/10.11161/jkosore.2013.12.3.111
- M. Tombette, V. Mallet, and B. Sportisse, “PM10 Data Assimilation Over Europe with the Optimal Interpolation Method," Atmospheric Chemistry and Physics, Vol. 9, No. 1, pp. 57-70, 2009. https://doi.org/10.5194/acp-9-57-2009
- B.Y. Ku and R.J. Park, “Inverse Modeling Analysis of Soil Dust Sources Over East Asia,” Atmosheric Environment, Vol. 45, No. 32, pp. 1352-2310, 2004.
- C.L. Lawson and R.J. Hanson, Solving Least Squares Problems, Prentice-Hall Publishers, New Jersey, 1974.
- Eugenia Kalnay, Atmospheric Modeling Data Assimilation and Predictability, Sigmapress, Seoul, 2001.
- C.D. Rodgers, Inverse Methods for Atmospheric Sounding: Theory and Practice, World Scientific Publishers, N.J., 2000.
Cited by
- 대기질 예보의 성능 향상을 위한 커널 삼중대각 희소행렬을 이용한 고속 자료동화 vol.20, pp.2, 2015, https://doi.org/10.9717/kmms.2017.20.2.363
- CUDA를 이용한 실시간 대기질 예보 자료동화 vol.17, pp.2, 2015, https://doi.org/10.7236/jiibc.2017.17.2.271
- DNN과 2차 데이터를 이용한 PM10 예보 성능 개선 vol.22, pp.10, 2015, https://doi.org/10.9717/kmms.2019.22.10.1187
- 신경망의 계층 연관성 전파를 이용한 DNN 예보모델의 입력인자 분석 vol.24, pp.8, 2015, https://doi.org/10.9717/kmms.2021.24.8.1122