DOI QR코드

DOI QR Code

Analysis of Input Factors of DNN Forecasting Model Using Layer-wise Relevance Propagation of Neural Network

신경망의 계층 연관성 전파를 이용한 DNN 예보모델의 입력인자 분석

  • Yu, SukHyun (Dept. of Information, Electrical & Electronic Eng., Anyang University)
  • Received : 2021.08.10
  • Accepted : 2021.08.18
  • Published : 2021.08.30

Abstract

PM2.5 concentration in Seoul could be predicted by deep neural network model. In this paper, the contribution of input factors to the model's prediction results is analyzed using the LRP(Layer-wise Relevance Propagation) technique. LRP analysis is performed by dividing the input data by time and PM concentration, respectively. As a result of the analysis by time, the contribution of the measurement factors is high in the forecast for the day, and those of the forecast factors are high in the forecast for the tomorrow and the day after tomorrow. In the case of the PM concentration analysis, the contribution of the weather factors is high in the low-concentration pattern, and that of the air quality factors is high in the high-concentration pattern. In addition, the date and the temperature factors contribute significantly regardless of time and concentration.

Keywords

1. 서론

미세먼지는 국민들의 건강과 삶의 질에 직, 간접적으로 영향을 미치는 대기오염 물질로 이미 전문가그룹뿐 아니라 일반 국민들에게도 중요 관심의 대상이 되었다. 이에 2014년 2월부터 전국적으로 미세먼지 예보제를 시행하고 있고, 관련 연구가 다양하게 이루어지고 있다[1-7].

미세먼지 예보 연구는 CMAQ(The Community Multiscale Air Quality) 등과 같은 화학수송 모델을 기반으로 하는 수치모델 중심의 예보와 최근 들어 급속히 발전하고 있는 인공지능 기법을 활용한 예보로 대표된다. 수치모델을 이용한 예보는 배출량 및 기상 자료 등의 입력 자료가 갖는 불확실성과 수치 모델 자체가 복잡한 대기현상을 완전하게 반영하지 못하는 근본적인 한계를 가지고 있다[8]. 이러한 문제를 개선하고자 다양한 머신러닝 기법 및 DNN(Deep Neural Network), CNN(Convolution Neural Net- work), RNN(Recurrent Neural Network), LSTM(Long Short-Term Memeory) 등의 인공신경망을 활용한 예보모델이 연구되고 있다[9-19]. 그 결과, 예보모델 및 데이터별 편차는 존재하나 평균적으로 수도권 예보의 경우 예보적중률 80%, 감지확률 70% 정도의 성능을 보이고 있다[8].

예보모델 성능 평가의 가장 중요한 지표는 예보적중률이고, 이런 기준에서 볼 때 인공신경망을 이용한 예보모델은 높은 성과를 달성했다고 판단된다. 하지만, 블랙박스와 같이 의사결정 과정을 설명하기 어려운 인공신경망의 특성상 이를 기반으로 한 모델은 예보 결과에 대한 근거를 제시하기가 어렵다. 예보의 신뢰도 확보와 성능 향상, 유지보수를 위해서는 예보모델의 의사결정 과정과 도출된 결과에 대한 설명이 필요하다.

이러한 필요성에 의해서 최근 들어 설명 가능한 인공지능이라는 의미의 XAI(Explainable Artificial Intelligence)[20-21] 연구가 활성화되고 있다. XAI 는 블랙박스로 여겨졌던 인공신경망의 의사결정 과정을 사람이 이해할 수 있는 수준으로 분해하는 기술로 대표적인 기법으로는 피처 중요도(Feature Impor- tance) 및 필터 시각화(Filter Visualization)[22], LRP(Layer-wise Relevance Propagation)을 들 수 있다[23].

피처 중요도는 입력 데이터의 피처가 모델의 결과에 얼마나 큰 영향을 미치는지 분석하는 기법으로 특정 피처의 값을 임의의 값으로 치환했을 때 원 데이터보다 에러가 얼마나 더 커지는지 측정하는 방법으로 수행된다. 만일 특정 피처의 값을 변형했을 때 결과가 크게 달라졌다면 해당 모델은 이 피처에 대한의존도가 높고, 이 피처는 높은 중요도를 가진다고 판단할 수 있다.

필터 시각화는 학습이 완료된 신경망 모델에 데이터를 입력했을 때 각 은닉 계층이 입력 데이터에 대해 어떻게 반응하는지 시각적으로 나타낼 수 있는 방법으로 기존에 보여지지 않았던 딥러닝 모델의 은닉계층에 대한 관찰을 가능하게 한다.

LRP는 딥러닝 모델의 결과를 역추적해서 입력 데이터에 대한 히트맵을 출력하는 방법으로 해당 모델이 입력 데이터의 어느 부분에 주목하는지 확인할 수 있다. 이 과정을 통해서 그동안 블랙박스로 여겨졌던 딥러닝 모델을 해석할 수 있다.

본 연구에서는 이러한 여러 가지 XAI 기법 중에서 예보모델의 미세먼지 예측 결과에 대한 입력 인자의 기여도를 분석하고 시각적으로 표현하기 위해서 LRP 를 이용했다. 피처 중요도는 입력 인자의 중요도를 파악할 수는 있으나 입력 데이터 전체에 대해 히트맵으로 밀집하여 표현하기 어렵고, 필터 시각화 기법은 신경망을 순방향으로 진행시키며 모델의 은닉층을 관찰할 수는 있으나 시각화를 위해 은닉층을 2차원 행렬로 고정해야 하는 제약과 해석에 주관성이 개입될 여지가 있다.

이에 비해 LRP는 출력층부터 역방향으로 모델을 탐지하며 입력층에 이르기까지 분해하고, relevance 를 전파하는 방법으로 수행되기 때문에 결과에 대한 입력 인자의 기여도를 객관적으로 파악할 수 있고, 히트맵으로 시각화할 수 있다.

미세먼지 예보에 있어서 모델에 적합한 입력 인자를 선택하는 것은 예보 성능에 직접적인 영향을 미치기 때문에 중요한 문제이다. 이와 관련된 연구는 타겟인 미세먼지와 입력 인자들 간의 상관 분석을 이용한 사례가 주를 이룬다. 미국환경청의 예보지침서[24] 에 의하면 지역별 차이는 존재하지만, PM2.5와 상관관계가 높은 인자들은 500 mb 기압에서 고도, 전날의 PM2.5 최대농도, 850 mb 기압에서의 온도, 습도이다. 관련 국내 연구로는 서울 지역을 대상으로 PM2.5 와 기상인자 및 대기질 인자들 간의 상관관계를 분석한 사례가 있다[25-26]. 이 연구들에서 PM2.5 상관도가 높은 대기질 인자는 NO2, CO, SO2, 예보 PM2.5 등이고, 기상 인자는 지상과 고층의 온도, 압력, 상대습도, U, V 등이다. 그 밖에 CMAQ 모델링과 민감도 분석을 이용하여 입력 인자의 중요도를 분석한 연구 [27]에서는 기온과 바람에 대해 민감도 분석을 수행했는데, 풍속이 민감도가 높은 인자로 판단하였다.

본 연구에서는 LRP 수행 결과를 토대로 입력 인자의 중요도를 분석했는데, 그 결과 NO2, SO2, 예보 PM2.5, 지상 및 고층의 압력, 온도, 기압 등이 기존의 연구 결과와 유사하게 중요도가 높은 인자로 파악되었다. 하지만 농도 및 시간별로 패턴을 세분화해서 분석한 인자 중요도는 상이했다. 당일은 측정인자, 내일과 모레는 예보인자의 중요도가 높아지고, 저농도에서는 기상인자, 고농도에서는 대기질 인자의 중요도가 높아졌으며, 온도와 날짜는 패턴에 무관하게 높은 중요도를 보였다. 이러한 결과를 설명하기 위해서 연구 내용을 다음과 같은 순서로 기술하고자 한다. 이어지는 2장에는 입력 인자와 제안한 DNN 예보모델을 소개하고, 3장에는 LRP의 개념과 DNN 예보모델에 대한 적용 방법을 설명하며, 4장에는 실험 결과를 제시하고, 5장에서 결론을 맺는다.

2. 입력 인자와 DNN 예보모델

2.1 입력인자

본 연구에서는 대기질 및 기상 측정 데이터와 예보 데이터, 날짜 데이터를 예보모델의 입력 데이터로 사용했으며, 대기질 및 기상 데이터는 ㈜애니텍의 AI 데이터베이스의 자료를 이용했다.

입력 데이터들을 측정, 예보, 날짜 데이터로 분류하여 Table 1에 기술했다. 측정 데이터들은 예보 권역에 속하는 관측소들의 6시간 평균 값을 사용했고, 예보 데이터들은 CMAQ(The Community Multi scale Air Quality), WRF(Weather Research and Forecasting Model) 등의 수치모델 결과를 이용했으며 역시 6시간 평균 값을 사용했다. 날짜 데이터는 시간의 연속성 및 미세먼지의 계절적 특성이 나타나도록 선행연구에서 제안한 Julian membership func- tion[28]을 사용하여 12개의 인자로 표현했다. 각 월을 나타내는 12개의 인자 중 해당 날짜에 해당하는 월(Month)과 인접한 월(Adjacent_Month)의 인자만 활성화되고 나머지 10개의 인자는 0으로 할당된다. 예를 들어 주어진 날짜가 4월 20일이라면 Julian membership function에 의해서 계산된 인접 월(Adjacent_Month)은 5월이므로 월의 값(Month_ value)는 0.8, 인접 월의 값(Adjacent_Month_value) 은 0.2가 되어 날짜를 나타내는 12개 인자는 0, 0, 0, 0.8, 0.2, 0, 0, 0, 0, 0, 0, 0가 된다. 이 인자들의 의미는 주어진 날짜(4월 20일)가 4월에 해당되는 날짜이지만, 5월에 인접해있는 날짜이므로, 4월에 해당하는 4번째 인자는 0.8, 5월에 해당하는 5번째 인자는 0.2 로 설정하여 날짜의 연속성 및 미세먼지의 계절적 추이를 표현한 것이다.

Table 1. Input Data.

MTMDCW_2021_v24n8_1122_t0001.png 이미지

MTMDCW_2021_v24n8_1122_f0001.png 이미지

Fig. 1. Julian membership function[28].

2.2 DNN 예보모델

제안한 DNN 예보모델은 Table 1에 기술한 데이터를 입력으로 하여 당일(D+0), 내일(D+1), 모레(D+2)의 PM2.5 농도를 6시간 단위(T)로 예측한다. 15 시에 예보를 시행하는 모델이기 때문에 T1∼T15의 구간 중 T1∼T5는 과거에 해당하고, T6∼T15가 예보 구간으로 T6∼T7은 당일(D+0), T8∼T11은 내일(D+1), T12∼T15는 모레(D+2)를 의미한다.

Table 2. Time frame of 15 hour forecast model.

MTMDCW_2021_v24n8_1122_t0002.png 이미지

제안한 모델은 한 번 예보 시, 예보 시점(15시)으로부터 향후 60시간 동안의 예보 값을 6시간 단위(T) 로 10개 생성한다. 이를 위해 동일한 구조를 갖는 10 개의 네트워크를 구성하고, 측정 및 예보 자료를 입력하여 학습한다. 네트워크는 총 6개의 레이어와 출력층으로 이루어져 있으며 활성화 함수는 relu를 사용하되, 출력층은 sigmoid를 사용했다. 아래의 Table 3에 제안한 모델의 네트워크 구조 및 학습 파라메터를 기술했다.

Table 3. Network parameter of proposed DNN model.

MTMDCW_2021_v24n8_1122_t0003.png 이미지

3. LRP를 이용한 예보결과 분석

3.1 LRP 개요

LRP(Layer-wise Relevance Propagation)는 XAI(Explainable Artificial Intelligence) 기법 중 하나로 계층별 relevance를 탑-다운 방식으로 출력층에서 입력층으로 재분배하는 방법이다. 이러한 과정을 통해서 딥러닝 모델이 입력 데이터를 어떻게 바라보는지 파악할 수 있고, 입력 데이터에 대한 히트맵(heat-map)을 출력할 수 있다. 히트맵은 딥러닝 모델이 어느 입력 인자를 주목하는지 표시할 수 있기 때문에 출력 결과에 대한 각 입력 인자의 기여도를 직관적으로 파악할 수 있다.

아래 그림에서 딥러닝 모델은 입력 이미지를 고양이로 분류하는데, LRP는 그런 결과를 도출한 근거를 relevance를 전파하는 방식으로 설명한다. Rele- vance의 전파는 출력층에서 은닉층을 거처 최종적으로 입력층으로 역전파하는데, 그 결과 입력 이미지에서 고양이 얼굴의 얼룩 무늬에 해당하는 픽셀이 높은 relevance를 갖는 것을 확인할 수 있다. 이것은 딥러닝 모델이 입력 이미지를 고양이로 분류하는데 얼룩무늬 얼굴 영역에 주목했음을 의미한다.

MTMDCW_2021_v24n8_1122_f0002.png 이미지

Fig. 2. Concept of LRP[23].

LRP는 분해(Decomposition)와 relevance 전파(Relevance Propagation)의 2가지 주요한 과정을 통해서 진행된다. 분해는 딥러닝 모델에 입력된 각 피처들이 결과에 얼마나 영향을 미치는지 해체하는 방법이다. 예를 들어, 분해를 수행하면 어떤 이미지의 특정 픽셀이 결과에 대해 도움이 되는지 방해가 되는지 알 수 있다. Relevance 전파는 분해 과정을 마친 은닉층의 뉴런들이 결과에 어떤 기여를 하는지 rele- vance를 계산하고, 이 relevance를 다시 다음 은닉층으로 전파하고, 최종적으로는 입력층까지 전파하는 과정을 의미한다. Relevance 전파의 첫 번째 과정은 다음의 수식에 나타낸 바와 같이 출력 결과 값 f(x) 를 relevance로 하고, 출력층 바로 아래의 은닉층으로 전파하는 것이다.

\(f(x)=\sum_{d=1}^{Y} R_{d i}\)       (1)

위의 수식에서 f(x)는 x를 입력으로 받아 나온 결과 값으로 출력층의 relevance이다. V는 은닉층 벡터를 의미하고, d는 은닉층 벡터의 한 원소이며, Rd는 한 원소에 대한 relevance이다. 궁극적으로는 입력층 벡터의 각 원소에 대한 relevance를 계산해야 하기때문에 출력층에서 은닉층으로, 은닉층에서 하단의 은닉층으로 relevance를 전파하고, 이러한 동작은 입력층까지 이루어져야 한다. 이러한 일련의 과정을 아래의 수식에 나타냈다. 수식에서 \(R_{d \in l}^{(l)}\)은 은닉 l층 벡터의 한 원소 대한 relevance이고, 전파 과정을 통해서 최종적으로 입력층의 relevance \(R_{d}^{(1)}\)을 계산할 수 있다.

\(f(x)=\cdots=\sum_{d \in l+1} R_{d}^{(l+1)}=\sum_{d \in l} R_{d}^{(l)}=\cdots=\sum_{d \in 1} R_{d}^{(1)}\)       (2)

출력층에서 은닉층을 통과하여 입력층까지 이르는 relevance 전파 과정은 아래 그림과 같이 입력층, 1개의 은닉층, 출력층의 간단한 구조로 구성된 네트워크를 예를 들면 효과적으로 설명할 수 있다.

왼쪽 그림은 신경망이 데이터 x를 입력으로 받아 결과 f(x)를 예측하는 과정을 설명한 것으로 w는 가중치를 의미한다. 오른쪽 그림은 결과 f(x)에서 시작해서 각 계층별로 relevance를 전파하는 과정을 나타낸 것으로 예를 들어 \(R_{1 \leftarrow 4}^{(1,2)}\)는 은닉층(2)의 뉴런 4가입력층(1)의 뉴런 1이 보존되도록 기여한 비중을 나타낸 것이다. R은 가중치 w와는 다르게 비율이기 때문에 모든 계층에서 양의 값을 갖고, 계층간의 총합도 일치한다. 이를 보존 특성(conservation prop- erty)[23]라고 하며 아래의 수식과 같이 정의할 수 있다.

\(R_{j}=\sum_{k} \frac{Z_{j k}}{\sum_{j} Z_{j}} R_{k}\)       (3)

위의 수식에서 Rj는 j뉴런에 대한 relevance이고, j뉴런과 k뉴런은 연결되어 있으며 Zjk는 k뉴런이 보존되도록 j뉴런이 기여한 비중을 나타낸다. 이러한 보존 특성에 의해 각 계층별 relevance는 다음 수식과 같이 정의할 수 있다.

\(f(x)=R_{7}^{(3)}=R_{4}^{(2)}+R_{5}^{(2)}+R_{6}^{(2)}=R_{1}^{(1)}+R_{2}^{(1)}+R_{3}^{(1)}\)       (4)

수식 (4)에 나타낸대로 계층별 relevance의 총합은 같고, 이를 일반화시키면 아래와 같이 표현할 수 있다. 예를 들어, i가 Fig. 3(b)에서 2번 뉴런인 경우 \(R_{2}^{(1)}\)\(R_{(2 \leftarrow 4)}^{(1,2)}+R_{(2 \leftarrow 5)}^{(1,2)}+R_{(2 \leftarrow 6)}^{(1,2)}\)과 같이 계산된다.

MTMDCW_2021_v24n8_1122_f0003.png 이미지

Fig. 3. Process of decomposing LRP by layer in neural network prediction results[29]. (a) Neural network prediction process for input data and (b) Process of LRP.

\(R_{i}^{(l)}=\sum R_{\mathrm{i} \leftarrow \mathrm{k}}^{(l, l+1)}\)       (5)

이제 구체적으로 각 계층별 뉴런들의 relevance를 구하고, 이 값을 아래의 계층으로 전파하면 된다. 이를 위해서 먼저 출력층의 relevance를 구해야 하는데, Fig. 3에 제시한 신경망의 경우 출력 결과인 f(x) = a7이 출력층의 뉴런 7의 relevance이기 때문에 아래의 수식 (6)과 같이 전개할 수 있고, 이를 통해 은닉층의 뉴런들(4∼6)의 relevance를 구할 수 있다. 이것은 신경망의 결과를 각각의 활성함수와 가중치 합으로 정규화해서 은닉층의 relevance를 계산한 것으로 이렇게 하면 모든 계층의 relevance의 합이 일치하기 때문에 보존법칙을 정확히 구현할 수 있다.

\(\begin{aligned} &f(x)=a_{7}=R_{7}^{(3)}=R_{7}^{(3)} \times \frac{f(x)}{f(x)}=\frac{w_{47} a_{4}+w_{57} a_{5}+w_{67} a_{6}}{w_{47} a_{4}+w_{57} a_{5}+w_{67} a_{6}}\\ &=R_{7}^{(3)} \times \frac{w_{47} a_{4}}{w_{47} a_{4}+w_{57} a_{5}+w_{67} x_{6}}+R_{7}^{(3)} \times \frac{w_{57} a_{5}}{w_{47} a_{4}+w_{57} a_{5}+w_{67} a_{6}}\\ &+R_{7}^{(3)} \times \frac{w_{67 x} a_{6}}{w_{47} a_{4}+w_{57} a_{5}+w_{67} a_{6}}\\ &=R_{7}^{(3)} \times \frac{w_{47} a_{4}}{\sum_{i=4}^{6} w_{i 7} a_{i}}+R_{7}^{(3)} \times \frac{w_{57} a_{5}}{\sum_{i=4}^{6} w_{i 7} a_{i}}+R_{7}^{(3)} \times \frac{w_{67} a_{6}}{\sum} \end{aligned}\)       (6)

마찬가지 방법으로 은닉층 뉴런 4의 relevance \(R_{4}^{(2)}\)는 입력층으로 전파할 수 있다. 뉴런 4는 입력층의 뉴런 1, 뉴런 2와 연결되어 있기 때문에 아래의 수식과 같이 값을 전파한다.

\(R_{4}^{(2)}=R_{4}^{(2)} \times \frac{a_{1} w_{14}}{\sum_{i=1}^{2} a_{i} w_{i 4}}+R_{4}^{(2)} \times \frac{a_{2} w_{24}}{\sum_{i=1}^{2} a_{i} w_{i 4}}\)       (7)

같은 원리로 아래층의 뉴런은 상위 계층에서 연결된 모든 뉴런으로부터 relevance를 전달받고, 이를 수식으로 일반화하면 수식 (8)과 같이 표현할 수 있다. 수식에서 j는 상위 계층의 뉴런이고, i는 j와 연결된 하위 계층의 뉴런이다.

\(R_{\mathrm{i}}=\sum_{j} \frac{a_{i} w_{i j}^{+}}{\sum_{i} a_{i} w_{i j}^{+}} R_{j}\)       (8)

이와 같은 relevance 전파 방법을 제안한 DNN 예보 모델에 적용하면 예측 결과에 대한 입력 인자들의 기여도를 분석할 수 있다.

3.2 DNN 예보모델에 대한 LRP의 적용

본 연구에서는 PM2.5 농도를 예측하기 위해 Fig. 4와 같이 입력층과 4개의 은닉층, 출력층으로 이루어진 DNN 예보모델을 사용했다.

MTMDCW_2021_v24n8_1122_f0004.png 이미지

Fig. 4. Architecture of DNN Forecasting model.

이 예보모델의 결과인 PM2.5 예보농도에 대한 입력 인자들의 기여도를 분석하기 위해서 아래와 같이 tensorflow로 구현한 LRP 함수를 적용했다.

LRP 함수는 relevance를 계산하고자 하는 계층의 활성화 노드들인 act와 현재 계층과 위의 계층을 연결해주는 가중치 벡터 w, 상위 계층의 relevance와 바이어스 b를 입력으로 받아 현재 계층의 relevance 를 계산하고 리턴한다. z는 수식 (8)에서 분모에 해당하고, 정규화(normalization)를 위해 활성화 뉴런들과 가중치의 곱을 합산한 결과이다. a는 수식(8)의 분자에 해당하는 값으로 각 뉴런의 활성화 값과 가중치의 곱이다. c는 상위계층의 relevance를 각 뉴런에게 전파하는 과정이고, 이것을 z로 나누면 각 뉴런의 relevance를 구할 수 있다. 계산된 현재 계층의 rele- vance는 cur_relevance에 저장되고 함수의 결과로리턴된다.

Fig. 4에 나타낸 DNN 예보모델의 경우 미세먼지예보 값인 predict가 출력층의 relevance가 되고 이것을 R5로 정의할 수 있다. R5는 4개의 은닉층을 거쳐 최종적으로 입력층에 전파되고, 입력 인자별로 예보 결과에 미친 기여도를 분석할 수 있게 된다. 아래의 Fig. 6에서 이러한 LRP 수행 과정 중 첫 단계인 출력층의 relevance인 R5를 은닉층 4로 전파하여 R4를 구하는 과정을 설명하고 있다.

MTMDCW_2021_v24n8_1122_f0006.png 이미지

Fig. 6. Process of calculate R4 by LRP function.

R5의 전파는 Fig. 5에 제시한 LRP 함수에 의해 수행되는데, 함수의 입력 파라메터로는 은닉층 4의 활성 뉴런들인 act, 은닉층 4와 출력층을 연결하는가 중치 w, 상위 계층인 출력층의 relevance인 R5와 바이어스 b가 있다. LRP 함수의 핵심 과정은 상위계층의 relevance를 연결된 아래 계층의 뉴런들 에게 전파하는데 있다. 이것은 act와 w의 곱의 합으로 정규화하고 그 비율대로 은닉층 4의 8개의 뉴런에 게 전파하는 방식으로 구현된다. 이때 바이어스도 은닉층 4에 존재하는 8개 뉴런에게 균등하게 분할하여 전파된다. 그 결과 은닉층 4의 relevance인 cur_rele- vance를 구하게 되고 이 값이 R4이다. 아래의 계층에도 이와 동일한 방법으로 relevance가 전파되고 최종적으로 입력층의 relevance인 LRP_out(R0)를 구할 수 있는데 이것이 LRP 적용의 목적인 결과에 대한 입력인 자의 기여도이다.

MTMDCW_2021_v24n8_1122_f0005.png 이미지

Fig. 5. LRP function.

4. 실험 및 결과

4.1 DNN 예보 결과

본 연구에서는 PM2.5의 단기 예보(3일 예보)를 위해서 DNN 예보모델을 개발했다. 예보 대상 지역은 서울이고, 학습 기간은 2015년 1월 1일∼2019년 12월 31일, 평가 기간은 2020년 1월 1일∼2020년 12월 31 일이다. 다음의 표와 그래프들에 서울 권역의 PM2.5 예보 결과를 기술했다.

Table 4의 첫 행에 표기한 DNN은 제안한 예보모델이고, CASE04는 화학수송모델인 CMAQ을 사용한 수치모델로 예보모델의 성능 평가 시에 사용되는 비교모델이다. 두 번째 행의 각 필드는 예보 결과에 대한 평가지표[30]로 전체 평가 데이터에 대한 적중률을 나타내는 예보적중률(ACC: Accuracy), 고농도데이터의 적중률을 의미하는 감지확률(POD: Probability of Dectection), 저농도일을 고농도일로 잘못 예보한 비율인 오경보율(FAR: False Alarm Rate)을나타냈다. 첫 번째 열에 표기한 Day는 예보일로 D+0 는 당일, D+1은 내일, D+2는 모레를 의미한다.

Table 4. PM2.5 forecast results in Seoul area.

MTMDCW_2021_v24n8_1122_t0004.png 이미지

제안한 DNN 예보모델의 ACC와 FAR은 CASE04 보다 우수하나, POD는 다소 떨어진다. 하지만 CASE 04가 58%∼66% 정도로 높은 FAR을 가짐을 고려할 때, 88%∼90%의 높은 POD는 과대 모의한 결과로 분석된다. 오히려, 27%∼33%의 FAR 내에서 74%∼ 80%의 POD를 보이는 제안한 모델의 성능이 더 우수하다고 평가할 수 있다.

Fig. 7은 서울 권역 예보 결과에 대한 산포도로 (a) 는 제안한 모델(위)과 CASE04(아래)의 D+0일의 예보 결과이고, (b)는 D+1, (c)는 D+2의 예보결과이다.

MTMDCW_2021_v24n8_1122_f0007.png 이미지

Fig. 7. Scatter of PM2.5 forecast results in Seoul area. (a) D+0, (b) D+1, and (c) D+2.

4.2 LRP를 이용한 DNN 예보 결과 분석

제안한 DNN 예보 모델의 예측 값에 대한 입력 인자들의 기여도를 분석하기 위해서 입력 데이터를 년도(2019, 2020)별, 시간(T)별, 농도(저농도, 고농도)별로 구분하여 LRP를 적용하고, 그 결과를 토대로 인자 중요도를 분석했다.

4.2.1 년도별 분석

년도 종속적인 패턴 특성을 분석하기 위해 데이터를 2019년과 2020년으로 나누고, 각 예보일(D+0, D+1, D+2)의 시작 구간인 T06, T08, T12에 대한 LRP를 구하여 이를 히트맵으로 나타냈다. 히트맵에서 x축은 DNN 예보모델의 42개의 입력 인자들이고, y축은 입력 데이터의 번호이다. 즉, 히트맵 상의 한 행은 한 개의 입력 데이터를 의미하며 입력 데이터를 구성하는 각 인자의 relevance를 범례에 제시한 색상으로 나타낸 것이다. x축의 42개 인자들 중 ‘O’로 시작하는 것은 측정 인자이고, ‘F’로 시작하는 것은 예보 인자이다.

MTMDCW_2021_v24n8_1122_f0008.png 이미지

Fig. 8. LRP results by year (T06). (a) 2019(T06) and (b) 2020(T06)

MTMDCW_2021_v24n8_1122_f0009.png 이미지

Fig. 9. LRP results by year (T08). (a) 2019(T08) and (b) 2020(T08).

MTMDCW_2021_v24n8_1122_f0010.png 이미지

Fig. 10. LRP results by year (T12). (a) 2019(T12) and (b) 2020(T12).

결과를 보면 모든 년도(2019, 2020), 모든 시간 구간(T06, T08, T12) 공통으로 날짜 인자인 Julian day(J1∼J12)가 높은 relevance를 가짐을 알 수 있다. 이것은 년도 및 시간과 무관하게 모든 입력 데이터에 대해 날짜가 높은 기여도를 가짐을 의미하는 것으로 미세먼지가 계절적 특성이 명확하고, 날짜는 이러한 계절적 특성을 가장 잘 나타내는 인자임을 나타내는 결과이다.

년도별 특징을 분석하기 위해 2019년과 2020년의 히트맵을 비교해보면 년도 종속적인 특징은 보여지지 않았다. 그에 반해 시간 구간별(T06, T08, T12) 특징은 확인할 수 있는데, 당일 예보에 해당하는 T06 에서는 예보인자에 비해 측정인자가 상대적으로 높은 relevance를 가지고, 내일 및 모레 예보에 해당하는 T08과 T12에서는 예보 인자들의 relevance가 높아짐을 확인할 수 있다. 이것은 현 시점에서 멀어질수록 측정 인자들의 신뢰도가 떨어지고 대신에 예보 인자들의 기여도가 높아지는 현상으로 분석된다.

4.2.2 농도별 분석

농도에 따른 특성을 분석하기 위해서 입력 데이터를 PM2.5 측정값을 기준으로 저농도(OBS_PM2.5 <= 35)와 고농도(OBS_PM2.5 > 35)로 분류하고 각각 LRP를 적용했다. 아래의 Fig. 11∼Fig. 13에 각 년 도별 시간별로 저농도와 고농도로 분류된 데이터에 대한 히트맵을 나타냈다.

MTMDCW_2021_v24n8_1122_f0011.png 이미지

Fig. 11. LRP results by concentration (T06). (a) Low concentration(2019_T06), (b) High concentration(2019_T06), (c) Low concentration(2020_T06), (d) High concentration(2020_T06).

MTMDCW_2021_v24n8_1122_f0012.png 이미지

Fig. 12. LRP results by concentration (T08). (a) Low concentration(2019_T08), (b) High concentration(2019_T08), (c) Low concentration(2020_T08), (d) High concentration(2020_T08).

MTMDCW_2021_v24n8_1122_f0013.png 이미지

Fig. 13. LRP results by concentration (T12). (a) Low concentration(2019_T12), (b) High concentration(2019_T12), (c) Low concentration(2020_T12), (d) High concentration(2020_T12).

결과를 보면 모든 농도 공통으로 Julian day가 높은 relevance를 가짐을 알 수 있다. 이것은 년도별 분석의 결과와 일치하는 것으로 농도 및 시간과 무관하게 계절적 특성이 가장 명확하게 표현된 날짜 인자가 예보 결과에 대해 높은 기여도를 가짐을 의미한다.

농도별 LRP 분석의 결과를 세분화하여 시간(T) 과 농도(저농도, 고농도) 차이에 따른 인자들의 relevance 변화에 초점을 맞추어 분석해보면 다음과 같다.

당일(T06)의 저농도 패턴은 O_TA(측정 온도) 가높은 relevance를 가지고, 고농도 패턴은 O_PM2.5(측정 PM2.5), F_PM2.5(예보 PM2.5)가 높은 relevance를 가진다.

내일(T08)의 저농도 패턴은 T06과 동일하게 O_ TA가 높은 relevance를 가지고 추가적으로 O_PA(측정 기압), F_850TA(850hpa의 예보온도)의 rele- vance가 T06보다 높아졌다. 고농도 패턴은 O_PA, 대기질 측정 인자들, F_PM2.5, J1∼J3들의 relevance 도 높아졌다. 내일 예보에 해당하는 T08에서는 전반적으로 예보 인자들의 기여도가 높아졌는데, 이것은 년도 별 분석에서 확인한 바와 같이 예보 시점이 현재에서 멀어질수록 측정 인자보다는 예보 인자가 예보 결과에 더 영향을 미치는 것으로 파악된다. 또한 고농도 패턴에서 J1∼J3의 relevance가 더 크게 나타나는 이유는 1월∼3월 기간에 강한 고농도 패턴이 많이 분포되기 때문으로 분석된다.

T12도 대체로 T08과 비슷한 결과를 보이는데, 다른 점은 T06과 T08에서는 낮았던 F_RH(예보 상대습도)의 relevance가 높아진다는 점이다.

농도별 분석의 결과를 종합해보면 저농도 패턴에서는 대체로 대기질 인자보다는 O_TA, F_850TA 등의 기상인자들의 relevance가 높고, 고농도 패턴에서는 O_PM2.5, F_PM2.5 등의 대기질 인자들이 더 높은 relevance를 가짐을 알 수 있다. 이것은 저농도 예보에서는 대기질 인자보다 기상 인자가 예보에 미치는 영향이 크고, 고농도 예보에서는 고농도 미세먼지가 발생하는 경우 동반 상승하는 대기질의 농도로 인해 대기 질 인자가 더 큰 영향을 미치기 때문이라 판단된다.

4.2.3 인자 중요도 분석

앞 절에서 기술한 LRP 분석 결과를 토대로 2019년도의 T06, T08, T12 데이터를 대상으로 인자 중요도를 분석했다. 먼저 해당 데이터를 저농도(OBS_PM2.5 <= 35)와 고농도(OBS_PM2.5 > 35)로 나누고 인자별 LRP 평균을 구했고, 동일 데이터에 대해 상관도를 구한 결과와 비교했다. Fig. 14에 시간별, 농도별 인자 중요도를 나타냈다.

MTMDCW_2021_v24n8_1122_f0014.png 이미지

Fig. 14. LRP mean and correlation by input factor. (a) LRP mean(T06), (b) Correlation(T06), (c) LRP mean(T08), (d) Correlation(T08), (e) LRP mean(T12), and (f) Correlation(T12).

아래의 Table 5에는 LRP와 상관도에 의해 분석된 상위 5개의 중요한 인자를 기술했다. 먼저 LRP 분석 결과를 시간별, 농도별로 나누어서 인자 중요도를 파악해 보면 다음과 같다.

Table 5. Analysis of important factor.

MTMDCW_2021_v24n8_1122_t0005.png 이미지

농도에 무관하게 시간별 공통의 중요 인자는 T06 의 경우 O_TA, F_PA, O_NO2이고, T08은 F_PA, F_850TA, O_PA, T12는 F_RH, F_850TA, F_850- 925TA, F_850-925TA, O_NO2이다. 이 결과를 종합해보면 당일 예보(T06)에서는 측정 인자의 중요도가 높고, 내일(T08)과 모레 예보(T12)에서는 점차 예보인 자의 중요도가 높아짐을 알 수 있다. 시간별 공통의 중요 인자들은 음영을 주어 나타냈다(Table 5).

시간에 무관하게 농도별 공통의 중요 인자는 저농도의 경우 O_TA, F_850TA, F_PA, NO2로 특징은 대부분 기상 인자들이 대기질 인자보다 중요도가 높다는 것이고, 특히 온도 인자들(O_TA, F_850TA, F_925-850TA)이 저농도 예보에 있어서 중요한 인자로 판단된다. 고농도의 경우 F_PM2.5, O_NO2, F_ PA, F_850TA가 공통의 중요 인자이고, 저농도에 비해서 대기질 인자들(F_PM2.5, O_PM2.5, O_PM10, O_NO2)의 중요도가 높아졌으며 고농도 예보에 있어서도 온도인자는 중요도가 높은 인자로 분석된다. 농도별로 공통의 중요 인자들은 굵은 이탤릭체로 나타냈다(Table 5).

다음으로 상관도 분석 결과를 보면, 시간과 농도에 상관없이 미세먼지 관련 인자들인 O_PM2.5, O_ PM10, F_PM2.5이 가장 높은 상관도를 보였고, NO2 CO, SO2 등의 대기질 인자들의 상관도가 다음으로 높았다. 기상인자 중에는 U, V 관련 인자들의 상관도가 높았는데 이것은 상관도 분석을 통해 인자 중요도를 분석한 기존 연구[25-27]와도 일치하는 내용이다.

LRP와 상관도 분석 결과를 상호 비교해보면 기본적으로 상관도 분석을 통해 중요도가 높게 판단된 인자들은 LRP 분석에서도 거의 비슷하게 높은 중요도를 가진다. 하지만, 상관도 분석이 시간별, 농도별인 자의 중요도를 명확히 구분짓지 못하고 거의 유사한 결과를 보이는 반면, LRP를 통한 중요도 분석 결과는 시간별, 농도별 특징이 좀 더 세분화되어 구분된다.

이것은 여러 패턴의 특징이 혼합되어 분류가 어려운 데이터가 다수 존재하는 미세먼지 예보 문제에 있어서 LRP의 적용이 효과적임을 시사한다. 이러한 연구 결과를 기존의 예보모델에 반영한다면 예보 성능 향상을 기대할 수 있다.

5. 결론

본 논문에서는 DNN 예보모델을 개발하여 서울권역의 PM2.5 예보를 수행했고, 결과에 대한 입력 인자들의 기여도를 분석하기 위해서 제안한 예보모델에 LRP(Layer-wise Relevance Propagation) 기법을 적용했다.

시간 및 농도별 인자 중요도를 분석하기 위해서 데이터를 당일, 내일, 모레와 저농도, 고농도로 구분하고 LRP를 수행했다. 시간별 분석 결과는 당일 예보의 경우 측정 인자들의 기여도가 높고, 내일과 모레 예보에서는 예보 인자들의 기여도가 높아졌다. 농도별 분석 결과는 저농도의 경우 기상인자들이 기여도가 높고, 고농도의 경우 대기질 인자들의 기여도가 높아졌으며 시간 및 농도와 무관하게 날짜 인자인 Julian day와 온도 인자들이 높은 기여도를 가졌다.

향후 계획으로는 LRP 분석 결과인 패턴별 인자 중요도를 이용하여 예측이 어려운 모호한 패턴들을 효과적으로 분류하고, 이를 통해 예보 모델의 성능을 향상시키고자 한다.

References

  1. C. Bae, B. Kim, H. Kim, C. Yoo, and S. Kim, "Long-Range Transport Influence on Key Chemical Components of PM2.5 in The Seoul Metropolitan Area, South Korea, During The Years 2012-2016," Atmosphere, Vol. 11, Issue 1, No. 48, 2020.
  2. D. Lee, J. Choi, J. Myoung, O. Kim, J. Park, H. Shin, et al, "Analysis of a Severe PM2.5 Episode in The Seoul Metropolitan Area in South Korea from 27 February to 7 March 2019: Focused on Estimation of Domestic and Foreign Contribution," Atmosphere, Vol. 10, Issue 12, No. 756, 2019.
  3. H. Kim, E. Kim, C. Bae, J. Cho, B. Kim, and S. Kim, "Regional Contributions to Particulate Matter Concentration in The Seoul Metropolitan Area, South Korea: Seasonal Variation and Sensitivity to Meteorology and Emissions Inventory," Atmospheric Chemistry and Physiscs, Vol. 17, Issue 17, pp. 10315-10332, 2017. https://doi.org/10.5194/acp-17-10315-2017
  4. S. Kwon, W. Jeong, D. Park, K. Kim, and K. Cho, "A Multivariate Study for Characterizing Particulate Matter(PM10, PM2.5 and PM1) in Seoul Metropolitan Subway Stations, Korea," Journal of Hazardous Materials, Vol. 297, pp. 295-303, 2015. https://doi.org/10.1016/j.jhazmat.2015.05.015
  5. S. Lee, C. Ho, Y. Lee, H. Choi, and C. Song, "Influence of Transboundary Air Pollutants for China on The High PM10 Episode in Seoul, Korea for The Period October 16-20, 2008," Atmospheric Environment, Vol. 77, pp. 430-439, 2013. https://doi.org/10.1016/j.atmosenv.2013.05.006
  6. Y. Koo, S. Kim, J. Cho, and Y. Jang, "Perfomance Evaluation of The Updated Air Quality Forecasting System for Seoul Prediction PM10," Atmospheric Environment, Vol. 58, pp. 56-69, 2012. https://doi.org/10.1016/j.atmosenv.2012.02.004
  7. S. Lee, C. Ho, and Y. Choi, "High-PM10 Concentration Episodes in Seoul, Korea: Background Sources and Related Meteorological Conditions," Atmospheric Environment, Vol. 45, Issue 39, pp. 7240-7247, 2011. https://doi.org/10.1016/j.atmosenv.2011.08.071
  8. NIER, A Study of Construction of Air Quality Forecasting System Using Artificial Intelligence(I), 11-1480523-0003221-01: NIER-SP 2017-148, 2017.
  9. G. Yang, H. Lee, and G. Lee, "A Hybrid Deep Learning Model to Forecast Particulate Matter Concentration Levels in Seoul, South Korea," Atmosphere, Vol. 11, Issue 4, No. 348, 2020.
  10. T. Xayasouk, H. Lee, and G. Lee, "Air Pollution Prediction Using Long Short-Term Memory (LSTM) and Deep Autoencoder (DAE) Models," Sustainablility, Vol 12, Issue 6, No. 2570, 2020.
  11. S. Yu and Y. Jeon, "Improvement of PM10 Forecasting Performance Using DNN and Secondary Data," Journal of Korea Multimedia Society, Vol. 22, No. 10, pp. 1187-1198, 2019.
  12. S. Yu, "Development of PM10 Forecasting Model for Seoul Based on DNN Using East Asian Wide Area Data," Journal of Korea Multimedia Society, Vol. 22, No. 11, pp. 1300-1312, 2019.
  13. S. Park, M. Kim, M. Kim, H. Namgung, K. Kim, K. Cho, et al, "Predicting PM10 Concentration in Seoul Metropolitan Subway Stations Using Artificial Neural Network (ANN)," Journal of Hazardous Materials, Vol. 341, pp. 75-82, 2018. https://doi.org/10.1016/j.jhazmat.2017.07.050
  14. B.S. Freeman, G. Taylor, B. Gharabaghi, and J. The, "Forecasting Air Quality Time Series Using Deep Learning," Journal of the Air & Waste Management Association, Vol. 68, No. 8, pp. 866-886, 2018. https://doi.org/10.1080/10962247.2018.1459956
  15. F. Biancofiore, M. Busilacchio, M. Verdecchia, B. Tomassetti, E. Aruffo, et al, "Recursive Neural Network Model for Analysis and Forecast of PM10 and PM2.5," Atmospheric Pollution Research, Vol. 8, Issue. 4, pp. 652-659, 2017. https://doi.org/10.1016/j.apr.2016.12.014
  16. W. Lu, W. Wang, X. Wang, S. Yan, and J.C. Lam, "Potential Assessment of A Neural Network Model with PCA/RBF Approach for Forecasting Pollutant Trends in Mong Kok Urban Air, Hong Kong," Environmental Research, Vol. 96, No. 1, pp. 79-87, 2004. https://doi.org/10.1016/j.envres.2003.11.003
  17. J. Fan, Q. Li, J. Hou, X. Feng, H. Karimian, and S. Lin, "A Spatiotemporal Prediction Framework for Air Pollution Based on Deep RNN," Proceeding of ISPRS Annals of the Photogrammetry, Remote Sensing and Spatial Information Sciences, Volume IV-4/W2, 2017 2nd International Symposium on Spatiotemporal Computing, pp. 15-22, 2017.
  18. S. Yu, Y. Koo, and H. Kwon, "Inverse Model Parameter Estimation Based on Sensitivity Analysis for Improvement of PM10 Forecasting," Journal of Korea Multimedia Society, Vol. 18, No. 7, pp. 886-894, 2015. https://doi.org/10.9717/kmms.2015.18.7.886
  19. H. Bae, S. Yu, and H. Kwon, "Fast Data Assimilation Using Kernel Tridiagonal Sparse Matrix for Performance Improvement of Air Quality Forecasting," Journal of Korea Multimedia Society, Vol. 20, No. 2, pp. 363-370, 2017. https://doi.org/10.9717/kmms.2017.20.2.363
  20. E.H. Shortliffe and B.G. Buchanan, "A Model of Inexact Reasoining in Medicine," Mathematical Biosicences, Vol. 23, Issues 3-4, pp. 351-379, 1975. https://doi.org/10.1016/0025-5564(75)90047-4
  21. M.V. Lent, W. Fisher, and M. Mancuso, "An Explainable Artificial Intelligence System for Small-Unit Tactical Behavior," Proceedings of the 16th Conference on Innovative Applications of Artificial Intelligence, pp. 900-907, 2004.
  22. M.D. Zeiler and R. Fergus, "Visualizing and Understanding Convolution Networks," Proceeding of 13th European Conference on Computer Vision, pp. 818-833, 2014.
  23. G. Montavon, S. Lapuschkin, A. Binder, W. Samek, and K.R. Muller, "Explaining Nonlinear Classification Decisions with Deep Taylor Decomposition," Pattern Recognition, Vol. 65. pp. 211-222, 2017. https://doi.org/10.1016/j.patcog.2016.11.008
  24. U.S. EPA, Guidelines for developing an air quality (Ozone and PM2.5) forecasting program, EPA-456/R-03-002, 2003.
  25. Y. Koo, H. Yun, H. Kwon, and S. Yu, "A Development of PM10 Forecasting System," Journal of Korean Society for Atmospheric Environment, Vol. 26, No. 6, pp. 666-682, 2010. https://doi.org/10.5572/KOSAE.2010.26.6.666
  26. NIER, A Development of Short-term Prediction Tool for PM10 and PM2.5 Concentrations using Artificial Intelligence (I), 11-1480523-0003767-01: NIER-SP2018-289, 2019.
  27. Y. Jo, H. Lee, L. Chang, and C. Kim, "Sensitivity Study of the Initial Meteorological Fields on the PM10 Concentration Prediction Using CMAQ Modeling," Journal of Korean Society for Atmospheric Environment, Vol. 33, No. 6, pp. 554-569, 2017. https://doi.org/10.5572/KOSAE.2017.33.6.554
  28. S. Yu, Y. Jeon, and H. Kwon, "Improvement of PM10 Forecasting Performance Using Membership Function and DNN," Journal of Korea Multimedia Society, Vol. 22, No. 9, pp. 1069-1079, 2019. https://doi.org/10.9717/KMMS.2019.22.9.1069
  29. J. An, XAI, Explainable Artifical Intelligence, Dissect Artificial Intelligence, Wikibooks publishers, Paju-si, Gyeonggi-do, 2020.
  30. U.S. EPA, Guidance on the Use of Models and Other Analyses for Demonstrating Attainment of Air Quality Goals for Ozone, PM2.5, and Regional Haze, EPA-454/B-07-002, 2007.