DOI QR코드

DOI QR Code

A Study on Heavy Rainfall Guidance Realized with the Aid of Neuro-Fuzzy and SVR Algorithm Using AWS Data

AWS자료 기반 SVR과 뉴로-퍼지 알고리즘 구현 호우주의보 가이던스 연구

  • Kim, Hyun-Myung (Dept. of Electrical Engineering, The University of Suwon, Korea & Korea and National Institution of Meteorological Research) ;
  • Oh, Sung-Kwun (Dept. of Electrical Engineering, The University of Suwon) ;
  • Kim, Yong-Hyuk (Dept. of Computer Science, Kwangwoon University) ;
  • Lee, Yong-Hee (Korea and National Institution of Meteorological Research)
  • Received : 2013.11.26
  • Accepted : 2014.02.27
  • Published : 2014.04.01

Abstract

In this study, we introduce design methodology to develop a guidance for issuing heavy rainfall warning by using both RBFNNs(Radial basis function neural networks) and SVR(Support vector regression) model, and then carry out the comparative studies between two pattern classifiers. Individual classifiers are designed as architecture realized with the aid of optimization and pre-processing algorithm. Because the predictive performance of the existing heavy rainfall forecast system is commonly affected from diverse processing techniques of meteorological data, under-sampling method as the pre-processing method of input data is used, and also data discretization and feature extraction method for SVR and FCM clustering and PSO method for RBFNNs are exploited respectively. The observed data, AWS(Automatic weather wtation), supplied from KMA(korea meteorological administration), is used for training and testing of the proposed classifiers. The proposed classifiers offer the related information to issue a heavy rain warning in advance before 1 to 3 hours by using the selected meteorological data and the cumulated precipitation amount accumulated for 1 to 12 hours from AWS data. For performance evaluation of each classifier, ETS(Equitable Threat Score) method is used as standard verification method for predictive ability. Through the comparative studies of two classifiers, neuro-fuzzy method is effectively used for improved performance and to show stable predictive result of guidance to issue heavy rainfall warning.

Keywords

1. 서 론

최근 전세계적으로 지구온난화, 엘리뇨 등의 환경변화로 인해 호우, 폭설, 폭염, 혹한 등의 이상기상 현상이 발생하고 있다. 특히 20세기 후반에 들어서 우리나라뿐만 아니라 세계적으로 파키스탄, 호주, 중국 , 대만 등의 아시아 지역에 호우로 인한 홍수 피해 등의 막대한 인명 및 재산 피해를 입고 있다. 우리나라에서도 호우로 인해 피해가 빈번해지고 있고, 실제로 2010년 9월 21일 추석 당일 260mm에 달하는 기습 폭우로 서울, 인천 등 주요도로 등이 침수되었고, 2011년 7월 28-29일에도 서울지방을 중심으로 104년만의 최악의 물폭탄(2일 총 강우량 550mm 이상인 강수)경향은 계속 증가하고 빈번해지고 있다.

이러한 이상기후 변화 속에서 많은 예측 모델이 연구되어지고 있고, 본 논문에서도 그에 관련한 이상기후, 특히 호우에 대한 예측하는 모델에 대해 연구하고자 한다. 호우에 대한 예측은 장기간 전에 예측하기 힘들기 때문에 초단기, 즉 1~6시간 후의 예측을 수행하며, 본 논문에서는 3시간 후까지의 예측을 수행한다. 기상데이터 자체는 방대하고 호우 예측에 대한 불필요한 요소들이 있을 수 있다. 이러한 기상데이터들 중 호우 예측에 대한 연관성을 찾아내고 정확한 결과를 얻기 위해 훈련 및 테스트 자료를 구성하여 학습을 수행한다. 기상데이터의 각 인자는 다른 성격(예, 다른 범위 혹은이산성, 연속성 등)을 가지고 있으므로, 이를 일괄적으로 수정하는 작업도 필요하다. 호우상황의 샘플이 극단적으로 적은 상황을 고려하여 훈련 자료 생성시 효과적인 샘플링 방법이 고안되어야 한다. 기상 데이터의 초기 포맷을 지점별로 재구성하여 호우예측을 수행한다. 또한 기상데이터중 호우에 대한 데이터는 연속적인 특징을 지니기 때문에 누적강수를 사용하여 1-12시간의 누적치를 사용한다. 호우주의보 예측을 위한 모델은 평가방법에 입각한 RBFNNs와 SVR에 의해 설계된다. 제안된 모델의 구조는 각 모델의 특성에 맞게 설계되어진다.

본 논문은 다음과 같은 구성으로 이루어져 있다. 먼저 2장에서는 자료의 구성과 전처리 방법에 대해 설명하면서 사용한 데이터의 특성과 앞선 전처리 방법의 설명을 설명하고, 3장에서는 제안한 모델과 이에 대한 최적화 방법에 대해 고안하고자 한다. 4장에서는 호우 예측을 수행하여 결과에 대한 설명과 비교를 한다. 5장에서는 앞선 실험결과에 따른 결론에 대해 기술한다. 본 연구에서는 한반도 호우사례를 AWS 지점별로 분석하여 각 지점별 호우 특징을 묘사하는 호우에 대한 개념의 모델을 개발하는 것을 목적으로 한다. SVR과 pRBFNNs 모델을 사용하여 호우를 예측한 결과를 비교하고, 이를 통해 현재 기상청 현업으로 구동되고 있는 호우특보 가이던스에 적용할 수 있는 모델을 제안하여 뉴로-퍼지 모델의 예측 성능을 확인한다.

 

2. 자료 구성과 전처리

호우를 예측하기 위해 기상청에서 사용하는 자료로는 AWS, KLAPS, RADAR 자료 등, 여러 가지가 있다. 이중에서 실제 관측지점에서 측정기기를 사용하여 자료를 구성하는 AWS 자료를 다루어 예측 모델을 만들고자 한다. 또한 호우주의보 및 호우특보에 대해 발령하는 건에 관련하여 1년의 기간 안에서 매우 제한적이다. 다시 말하면, 1년 동안에 비가 오는 일수가 오지 않는 날이 0.001%정도의 비율을 차지한다. 호우가 아닌 일수를 학습에 사용하는 불필요한 작업을 제하고자, 자료의 전처리를 수행하여 양을 축소하여 모델학습을 수행한다. 이러한 전처리 과정을 언더샘플링 방법이라고 한다. 언더샘플링 방법을 통해서 데이터를 훈련하는데 있어서 시간을 줄여줄 뿐만 아니라 불필요한 데이터를 줄여주는 역할을 수행하여 학습에서의 오버-피팅이 일어나는 부분을 방지할 수 있다.

2.1 AWS 관측자료

한반도 호우주의보를 위한 가이던스의 개발을 위해 본 연구에서는 2007~2012년까지의 6년간의 AWS 자료[1]를 사용하여 모델을 구현하였다. AWS는 한반도의 지점마다 자동센서에 의해 관측이 수행되는 관측소로, 집중호우와 같은 국지적인 기상현상 등의 작은 공간 규모에서 발생하는 기상현상을 관측하기 어려운 이유로, 무인 자동기상관측소를 각 지역마다 조밀하게 설치하여 사용되는 자료이다. 또한 산악지역이나 해양에서는 유인기상관측소를 설치하기 어렵기 때문에 무인 자동기상관측소를 이용한다. AWS 설치지점은 전국 962개 지점이 존재하고 풍향, 풍속, 기압, 기온, 운저고도, 습도, 강수량 등을 자동으로 측정할 수 있는 장점을 지닌다. AWS 자료는 매분, 매 지점마다 정보를 얻게 되는데, 본 논문에서는 일부를 발췌하여 매 시간 정보를 사용하였다. 이 데이터는 한 시간마다의 파일을 생성하여 훈련 및 예측을 수행하였다.

호우주의보 예측 모델을 설계하기에 앞서 먼저 AWS 관측자료의 품질이 보장되어야 하므로, AWS 데이터의 에러데이터에 대해서 가공 및 처리하여 가급적 많은 에러를 포함한 관측자료를 제거한다. 여기서 호우주의보 조건은 6시간 동안 누적강수량이 70mm 이상이거나 12시간동안의 누적 강우량이 110mm 이상인 사례로 정의하였다. 호우특보에 대한 기상청 기준은 다음과 같다.

표 1특보의 발표 기준 Table 1 Announcement Standard of Special Weather Report

본 연구에서는 모델의 훈련과 테스트를 위한 AWS 관측자료를 “stn_list”에 기재되어 있는 지점 정보를 사용한다. 훈련은 2007-2010년 데이터를 사용하고 테스트는 2011-2012년 데이터를 사용하여 평가한다. AWS 기상자료 입력인자로는 1:일자, 2:풍향, 3:풍속, 4:풍속(남북), 5:풍속(동서), 6:기온, 7:습도, 8:기압, 9:MSLP, 10:강수감지, 11~22:(1시간 ~ 12시간) 누적 강수량이 포함된다. AWS 관측 자료를 사용하여 각 지점별 및 시간대별로 1~3시간 후의 강수를 예측하기 위해 모델을 제안하여 강수를 예측하고, 강수에 따른 호우특보가이던스를 제공하여 예상지점을 알리기 위한 시뮬레이션 실시한다.

2.2 언더샘플링 방법

언더샘플링은 균형이 심한 자료에서 적중률을 높이기 위한 기술 중 하나이다. 여기서 불균형이란 경보가 필요하지 않은 경우가 필요한 경우보다 훨씬 많은 것을 의미한다. 언더샘플링은 훈련데이터에서 흔한 데이터의 비율을 낮춰서 샘플링 하는 방법이다. 훈련 자료의 언더샘플링 방법은 두가지가 있다. 향후 h(1~3)시간 동안의 강수량 중 9.2mm/h이상이 포함된 경우는 모두 훈련 자료로 사용하고, 그렇지 않은 경우자료를 훈련자료로 선정한 자료의 수만큼 무작위로 추출하여 사용한다. 언더샘플링을 함으로써 학습속도를 획기적으로 개선하고 필요한 경우에 대해 적중률을 높이는 효과가 있다.

 

3. 제안 모델 및 최적화 방법

본 장에서는, AWS 자료를 이용하여 호우를 예측하기 위한 SVR과 RBFNNs 모델에 대해서 설명한다. 본 논문에서는 2가지 모델을 사용하여 예측을 수행하여 비교한다. 첫번째 모델인 SVR은 SVMs(Support vector machines)의 회귀 방법을 위해 고안된 방법으로, 기존 Hong 등의 연구에서 강수예측을 위해 이미 응용된 바 있다[5,6,7]. 실험대상은 우리나라 지역이 아닌 타이완 북부지역의 태풍기간 동안의 강수량 수치를 예측하였다. 이애 한국지점에 SVR 모델을 이용한 강수예측을 수행하고자 사용하였다. 기존 SVR 모델 사용의 응용을 위해 구간화, 사전인자추출 등의 기법을 사용하여 모델을 개선하였다. 기계학습의 여러 가지 연구의 비교를 통한 예측도 이루어져 왔다[8]. 이에 사용하는 다른 모델로 다항식 기반 RBF 신경회로망[12,13,14]사용하고, 최적화를 위해 FCM 클러스터링 방법[9] 및 최적화 방법에 사용된 입자군집화알고리즘(Particle Swarm Optimization : PSO)[10,11]의 적용방법에 대해 설명한다.

3.1 제안한 SVR(Support Vector Regression)

SVM(Support Vector Machine)은 일종의 지도학습 방법이다. 자료들을 분리하는 초평면 중에서 자료들과 가장 거리가 먼 초평면을 탐색한다. 보통의 분류기가 정확도를 확대화하는데 반해 SVM은 여백을 최대화하여 일반화 능력을 키운다. Fig. 1은 검은 점과 흰 점을 분류하는 문제에 대한 SVM의 예시를 나타낸 것이다. H3은 제대로 분류하지 못하는 반면 H2와 H1은 모든 점을 제대로 분류하고 있다.

그림 1SVM의 분류문제의 예 Fig. 1 Example of Support vector machine for classification problem

본 논문에서는 원래 분류 문제에만 적용되던 SVM을 1996년에 회귀 문제를 풀 수 있도록 제안된 SVR을 사용하였다. SVR의 일반적인 함수는 다음 식과 같다.

사용한 SVR의 커널은 RBF 커널을 사용하여 회귀를 수행하였고, 커널의 수식은 다음과 같다.

가급적 모든 예제가 일정한 범위 ε 안에 들어오도록 밴드를 만든다. Fig. 2는 SVR의 선형회귀(a)와 비선형 회귀(b)를 나타낸 것이다.

그림 2SVR 모델의 예 Fig. 2 Example of Support vector regression model

3.1.1 사전인자추출

SVR에서는 강수를 예측하기 위해 사용한 훈련데이터에서 모델 예측에 중요한 기상인자를 선택하여 사용하여 사전인자추출을 수행하여 데이터 예측성능을 향상시켰다. 사전인자추출에 사용한 필터로는 mRMR(minimum-Redundancy Maximum-Relevance) 기준을 사용하였고 그 식은 다음과 같다.

mRMR의 장점은 비선형 상관관계를 활용한다는 것, 인자간 중복 정보량을 활용한다는 것, 그리고 파라미터를 설정할 필요가 없다는 것이다. 반면에 단점은 인자 간 중복 정보량 계산에 클래스 정보를 미활용 한다는 것이다.

3.1.2 기상인자 구간화

구간화의 목적은 연속적 데이터를 이산적 데이터로 변환하는 것이다. 미리 정해진 값들을 클래스로 구분하여 분류를 수행하여 구간을 나눈다. 예를 들어 본 연구에서는 9.2mm/h 미만의 강수는 A, 9.2mm/h 이상의 강수는 B로 분류하여 나누어준다. 구간화 방법은 초기 구간수 및 초기 구간 너비를 훈련 샘플이 초기 구간에 가급적 균등하게 분포하도록 너비를 설정하고, 구간 경계면을 조절하여 클래스-인자간 상호정보량(CAMI; class-attribute mutual information)이 커지는 쪽으로 구간의 경계면을 이동시킨다.

3.2 제안한 RBFNNs(Radial Basis Function Neural Networks)

먼저 일반적인 RBF 신경회로망은 일반적으로 3개의 층 (입력층, 은닉층, 출력층)을 가진 신경회로망으로써 n차원의 입력 벡터 x=[x1, x2, …,xn]T는 은닉층을 통해 비선형식으 로 변환되고, 은닉층을 통해 얻어진 활성 레벨들은 출력층에 위치한 뉴런에 의해서 최종적으로 선형 형태로 변환된다.

RBF 신경회로망은 빠른 학습시간과 일반화(generality) 능력 그리고 단순화(simplicity) 능력이 다른 알고리즘과 비교해서 우수한 성능을 보이고, 데이터를 분류하는 작업과 비선형 시스템의 모델링 등에 사용된다. 일반적으로 널리 사용되어지는 방사형 기저함수 형태는 식 (4)과 같이 가우시안 형태로 표현되어진다.

여기서 xj는 j번째 입력 데이터, vij은 j번째 입력의 i(i=1, ..., k)번째 RBF의 중심, σi는 i번째 은닉층 노드에서 RBF의 활성화 영역을 결정하는 분포상수이며 일반적으로 은닉층을 구성하는 모든 노드들은 ‘1’의 값을 가진다. 네트워크의 출력 y(x)는 각각의 활성화 레벨의 선형 조합으로써 다음 식 (5)과 같이 계산된다.

은닉층에서의 개발이 결정적인 RBF 신경회로망 설계에 있어서 중요한 특징으로 부각된다. 그 이유는 (a) 은닉층의 형태와 수는 기본적인 설계의 초점이 되고, (b) 입력공간에서의 은닉층의 분포는 네트워크의 기능에서 중요한 관련이 있으며, (c) 각각의 은닉층에서의 파라미터의 최적화는 본질적으로 가장 중요하다. 기존의 논문들에서는 이와 같은 중요한 설계 이슈들에 대해 다루기 위해 여러 가지 방법들이 시도되어지고 있다. 즉, RBF 노드 상호간의 연결가중치와 노드 중심 및 폭과 같은 파라미터 변경 등이 연구되었으며, 입력 데이터 중에서 임의로 중심 선택법 등이 사용되어졌다. 또한 은닉층의 형태가 결정되어진 후, 출력층에서 신경들의 가중치에 대한 최적화가 직접적으로 이루어진 논문들도 있다.

제안한 RBFNNs에서는 그림 3과 같이 조건부에 기존의 가우시안 함수가 아닌 FCM 클러스터링 방법을 사용하였다. FCM 알고리즘은 각 클러스터에 데이터의 소속정도를 퍼지집합으로 출력하는 방사형의 형태를 가지고 있어 활성함수로써 사용하기에 적합하여 가우시안 함수의 역할을 대체하여 사용할 수 있었다. 결론부에서는 Table 2와 같이 일차선형, 2차선형, 변형된 2차 선형을 사용한다. 규칙 후반부 다항식의 계수를 동정하기 위한 후반부 파라미터 동정은 최소자승법(Least Square Equation: LSE)을 사용하였다. LSE는 오차 제곱의 합이 최소가 되도록 계수를 추정하여 주고, 전역 모델의 학습을 한 번에 구하여 내어 오류역전파 알고리즘을 사용할 때와 달리 학습시간을 최소화 할 수 있는 특징을 가진다.

그림 3제안한 RBFNNs Fig. 3 Proposed Radial Basis Function Neural Networks

여기서, y(x)는 주어진 실제 출력 데이터이고 ŷ(x)는 모델의 출력 데이터를 의미한다.

표 2결론부의 다항식 타입 Table 2 'Polynomial type of consequence part

3.2.1 멤버쉽 함수로써의 FCM Clustering Algorithm

클러스터링 방법이란 데이터의 분류를 위해 사용되는 알고리즘으로 데이터의 패턴, 속성, 형태 등의 기준을 통해 비슷한 데이터끼리 분류하여 개체의 소속집단을 정의해 주는 것이다. 본 논문에서는 데이터들간의 거리를 기준으로 근접한 정도를 측정하고, 이를 바탕으로 데이터들을 특성별로 분석하여 클러스터를 기준으로 특성을 판별하는 Fuzzy C-Means clustering(FCM) 방법을 사용하여 규칙의 중심점 및 분포상수를 구한다.

FCM 클러스터링 방법은 n개의 벡터 xi (i=1,...,n) 집합을 c개의 클러스터로 분할하고, 각 클러스터의 목적함수가 최소가 되는 중심값을 찾는 방법이다. FCM과 K-Means 클러스터링 방법의 중요한 차이점은 FCM클러스터링 방법은 0과 1사이의 소속감 정도를 가지고, 주어진 데이터들을 몇 개의 클러스터로 나눌 수 있는지를 판별하기 위한 퍼지 분할을 사용한다는 점이다. 즉 퍼지분할을 적응하기 위해서, 소속함수 U는 0과 1사이의 값을 가진 요소들로 나타낸다. 그러나 데이터 집합에 대한 소속감 정도 U의 합은 항상 1이다. U라 표시되는 partition matrix를 구하기 위한 FCM 학습데이터 분류 방법은 다음과 같다.

[단계 1] 클러스터의 개수 c(2⩽c⩽n)을 정하고 퍼지화계수 m(1<m<∞)을 선택한다. 초기 partition matrix U(r)을 초기화 한다. 알고리즘 반복 횟수를 r(r=0, 1, ...)로 표시한다.

여기서 uij는 소속행렬의 파라미터.

[단계 2] 식 (7)~(10)를 이용하여 FCM 클러스터 중심 vi(i=1, 2, ..., c)을 계산한다. FCM 클러스터링에 대한 목적함수는 다음과 같은 형태를 가지고 있다.

여기서, uik는 0과 1사이의 소속을 나타내는 정도의 값으로 i번째 클러스터에 속해져 있는 xk의 k번째 데이터의 소속정도를 나타낸다. vi는 i번째 클러스 터 중심 벡터이다. m은 partition matrix의 애매함 의 정도에 대한 영향을 나타내는 퍼지화 계수이다. 이 값은 m∈[1, ∞]와 같은 범위를 가지고 있다. 식 (7)의 목적함수를 최소화하기 위해서 먼저 vi와 uik와 관련된 식의 목적함수를 다음과 같이 분화시 켜야 한다.

식 (7)에서 주어진 목적함수를 만족하기 위하여 식 (8)과 식 (9)에 의해서 구해진 값들을 이용하여 각각의 클러스터 중심과 데이터와의 거리를 식 (10)에 주어진 다양한 거리 계산식을 통해 새로운 소속 행렬을 생성한다.

▪ Euclidean distance :

[단계 3] 다음과 같이 새로운 소속행렬 U(r+1)을 계산한다.

[단계 4] 다음 식(12)을 계산해서 만일 ⊿>ε 이면 r=r+1로 정하고 [단계 2]로 가서 다시 알고리즘을 반복 수행하고 그렇지 않고 ⊿≤ε이면 알고리즘을 종료한다. 여기서, ε는 임계값이다.

3.2.2 입자 군집 최적화(PSO) 알고리즘에 의한 RBFNNs 모델 최적화

본 절에서는 제안한 퍼지 모델의 성능 향상에 주요한 역할을 하는 중요 파라미터(클러스터의 수(즉, 제안된 모델의 규칙의 수), FCM 클러스터링 방법에서의 클러스터 중심점과 분포상수 그리고 규칙 후반부 다항식의 형태)를 최적화하기 위하여 접목된 입자 군집 최적화(Particle Swarm Optimization: PSO) 알고리즘에 대하여 기술한다.

PSO는 자연선택의 진화 메커니즘이 아닌 새떼와 물고기떼와 같은 생체군집의 사회적 행동약식을 바탕으로 하고 있다. PSO 역시 군집기반 알고리즘으로 병렬처리 특징을 가지며, 군집과 개체는 Swarm과 Particle로 표현된다. PSO의 각 Particle의 최적의 해를 얻기 위해 다차원 탐색공간을 날아다니며, 그들 자신과 이들 이웃의 경험에 대한 정보를 이용하여 최적의 위치로 이동해 간다. PSO는 이론의 간결성, 구현의 용이성, 연산의 효율성과 같은 특징을 보인다. 짧은 계산시간 안에 최적의 해를 생성 할 수 있고, 다른 확률적방법보다 안정적인 수렴특징을 나타낸다.

PSO는 연산자와 아래 알고리즘으로 최적의 해를 찾아낸다. 알고리즘 순서는 다음과 같다.

[단계 1] Initialization - n개의 particle을 탐색 공간 내에서 랜덤하게 생성한다. 이 초기 particle들은 ‘pbest’로 설정하고 이들이 초기 swarm을 구성한다. 각 particle의 각 velocity(이동속도)를 [-Vmax Vmin]내에서 랜덤하게 생성한다. 초기 particle중 최적의 적합도를 갖는 particle을 ‘gbest’로 선정한다.

[단계 2] Inertia weight & velocity updating - 식 (13)에 의해 관정하중 값을 계산하고, 식 (14)에 의해 j번째 particle velocity를 계산한다. 제한조건[Vmax Vmin]을 확인한다.

[단계 3] Position updating - 다음 식 (15)에 의해 particle의 위치 정보를 조절된다.

그림 4RBFNNs의 최적화 과정 Fig. 4 Optimization progress of Radial Basis Function Neural Networks

[단계 4] Individual & global best updating - 새로운 particle들의 적합도를 계산한다. 이전 ‘pbest’와 비교되며 ‘pbest’를 재설정한다. 최적의 위치정보를 갖는 ‘pbest’를 ‘gbest’로 재설정한다.

[단계 5] Stopping criteria - 종료 조건을 만족하면 탐색과정을 종료하고, 그렇지 않으면 [단계 2]부터 반복한다.

[단계 6] Optimal parameter - 최종적으로 생성된 ‘gbest’는 최적의 위치정보를 갖는다.

 

4. 실험 방법 및 평가

본 논문에서의 실험 방법은 같은 형태를 가진 AWS 데이터를 2007-2012년을 훈련 데이터와 테스트 데이터로 동일하게 나누고, 앞에서 설명한 언더샘플링 방식을 이용하여 데이터를 축소하여 학습시간을 줄인다. 2007-2010년의 데이터를 훈련데이터로, 2011-2012년 데이터를 테스트데이터로 실험을 수행하였다. 수행하는 지점은 서울 지점 중 주요 지점에 대해 57개에 대해 평가하였다. SVR 방법은 각 지점별 학습과 예측을 수행하지만, RBFNNs를 이용한 방법에서는 PSO 최적화를 서울중심을 기준으로 수행하여 전 지점에 대한 최적 파라미터를 선택한다. 선택된 파라미터를 사용하여 각 지점의 학습 및 테스트를 수행하여 성능을 평가한다.

강수 평가를 위해 사용한 ETS(강수예측능력)는 기상 이벤트에 적합한 강수예측능력 측정방법이다. 이 방법은 예측치의 적중 여부와 관측치의 적중 여부를 4가지 유형으로 분류하여 예측 성능을 계산한다. 호우주의보의 기준인 6시간 누적강수량이 70mm를 기준으로 regression한 값의 적중여부를 분류기의 판단기준으로 놓고, 처음 호우주의보가 발생한 지점을 찾는 이벤트를 성능평가에 사용하였다. 관측치의 적중여부 4가지는 표 2와 같이 나타낼 수 있고 ETS 계산식은 다음과 같다.

표 3예보를 위한 관측 및 예측의 기준 Table 3 Criteria of prediction and observation for forecating

계산식을 통해 얻어진 ETS 결과값 중에서 괜찮은 데이터 출력을 보인 AWS 한 지점을 기준으로 평가하여 각 모델의 성능을 비교하고, 정량적인 6시간 누적 강수량의 정도가 70mm/h를 기준으로 호우특보를 판단하여 계산하고 계산결과를 통해 분류를 수행한다.

Table 4의 ETS 부분의 호우주의 기준은 모델별 테스트 지점들의 성능도출시 호우주의보의 기준에 따른 성능을 57개 지점의 전체 평균에 대해 나타내었다. 57개 지점의 ETS 평균으로 나타내 표현한 것은 각 지점별로 표현하는 것 보다 더 눈으로 확인하기 쉽기 때문에 사용하였다. 각 모델에서 연속된 시간에서의 호우주의보를 발령하기 위한 처음 시작점을 찾는 것을 기준으로 ETS 성능을 나타내었다. 현재 ETS 값이 좋지 않은 것은 호우주의보가 발생한 시간이 2년 동안의 많지 않은 테스트 데이터를 사용하였고, 몇몇 지점의 사용한 관측인자의 값이 제대로 관측되지 않아 missing 된 자료가 발생됨으로 인하여 전체적인 평균의 성능이 좋지 않았지만 발생안한 몇 지점 외의 예측에는 좋은 결과를 보였다.

표 4서울 주요 지점에 대한 평균 성능 Table 4 Performance of the mean on major site in Seoul

기존 RBFNNs 모델을 사용할 때는 자료를 전체 기간에 대해 불필요한(다수의 비강수) 데이터를 포함하고 있어 최적화를 통한 학습을 수행하는데 시간이 오래 걸리고 예측모델을 구성하는 데에도 소요시간이 많이 걸리는 단점이 있었지만, 현업 모델을 구성하는데 SVR 모델링에서 사용되었던 언더샘플링을 통해 학습 데이터를 강수와 비강수의 비율을 적절하게 재구성하여 사용함으로 모델 구성 시간 및 예측 성능에 대해 개선할 수 있었다.

현재 SVR 모델을 가이던스의 분류기는 Fig. 5와 같이 각지점별 표출이 실시간으로 현업에서 수행되고 있고, 향후 개선된 예측 성능을 가지는 모델을 개발하는 것을 목표로 연구되어지고 있다. 서울 57개 지점에 대하여 SVR과 RBFNNs 모델의 비교 예측성능 결과를 보면 RBFNNs 모델의 성능이 SVR에 비해 안정적으로 예측하고 있음을 확인 할 수 있었다.

그림 5SVR의 실시간 호우 주의보 가이던스 표현 예 Fig. 5 Example of expression of realtime rainfall warning guidance by using SVR

 

5. 결 론

본 연구는 모델의 호우주의보 예측시 강수량을 기준으로 예측하고, 그에 따른 특보의 발령 여부를 판별할 수 있는 분류기를 구축하여 현재 시점으로부터 3시간까지의 예측을 수행하는 가이던스 모델에 비교 연구이다. 각 AWS 지점의 관측 데이터를 분석하여 향후 3시간까지의 호우특보 가이던스를 SVR과 RBFNNs 모델을 사용하였다. 결과값이 크게 좋은 결과를 보이지는 않았지만, 기존 현업에서 사용되고 있는 SVR 모델에 비해 RBFNNs 모델을 사용한 예측성능이 나은 결과를 보였다. 다량의 데이터에 대하여 처리하는 방법을 제시하여 사이즈가 큰 데이터를 처리하는 연구를 수행할 수 있었고, 동일한 자료를 활용하여 각 모델의 성능을 비교하므로 인해 각 모델의 예측 성능에 대하여 비교할 수 있었다. 현업에서는 SVR을 통한 호우특보 가이던스는 6시간까지 AWS 전체 지점에 대한 모델을 구성하여 실시간으로 수행되고 있지만, 본 연구에서는 RBFNNs을 가이던스에 사용하기 위한 모델의 예측 성능을 비교하기 위해 전체 지점이 아닌 서울의 일부 지점에 대해서만 비교하였다. 본 연구의 결과를 바탕으로 RBFNNs 모델을 사용하여 전국 AWS지점에 대해 6시간 예측 모델을 구성하여 SVR 모델과의 성능 비교를 통하여, 호우특보 가이던스의 예측 성능 향상을 위한 연구가 수행될 수 있을 것으로 기대한다.

References

  1. Korea Meteorological Administration, http://www.kma.go.kr
  2. J. H. Seo and Y. H. Kim, "A survey on rainfall forecast algorithms based on machine learning technique", In Proceedings of KIIS Fall Conference, vol. 21, no 2, pp. 218-l221, 2011.
  3. Y.-H. Kim, W. Kim, K. Min, and Y. Yoon. "Probabilistic context prediction using time-inferred multiple pattern networks", Annual ACM Symposium on Applied Computing, pp. 1015-1019. 2010.
  4. J. H. Seo and Y. H. Kim, "Genetic feature selection for very short-term heavy rainfall prediction," In Proceedings of International Conference on Convergence and Hybrid Information Technology - Lecture Notes in Computer Science 7425, pp. 312-2322, 2012.
  5. J. LEE, J. Kim, J.H. Lee, "Parameter Evaluation to Classify Heavy Rain using SVMs," ISIS, 2011.
  6. L. Ingsrisawang, S, Ingsriswang, S. Somchit, P. Aungsuratana, and W. Khantiyanan, "Machine learning techniques for short-term rain forecasting system in the northeastern part of Thailand", In Proceedings of World Academy of Science, Engineering and Technology, 31, 248-253. 2008.
  7. W. C. Hong, "Rainfall forecasting by technological machine learning models." Appl Math Comput, 200(1), 41-57. 2008. https://doi.org/10.1016/j.amc.2007.10.046
  8. E. Toth, A. Brath, and A. Montanari, "Comparison of short-term rainfall prediction models for real-time flood forecasting." Journal of Hydrology, 29, 132-147. 2000.
  9. A. Staiano. J. Tagliaferri, W. Pedrycz, "Improving RBF networks performance in regression tasks by means of a supervised fuzzy clustering Automatic structure and parameter", Neurocomputing, Vol. 69, pp. 1570-1581, 2006. https://doi.org/10.1016/j.neucom.2005.06.014
  10. J. Kennedy and R. Everhart, "Particle Swarm Optimization," Proc. of IEEE International Conference on Neural Networks," Vol. 4, pp. 1942-1948, 1995.
  11. K. E. Parsopoulos and M. N. Vrahatis, "On the Computation of All Global Minimizer Through Particle Swarm Optimization," IEEE Trans. Evolutionary Compuation Vol. 8, No. 3, pp. 211-224, 2004. https://doi.org/10.1109/TEVC.2004.826076
  12. S. K. Oh, W. D. Kim, W. Pedrycz, and B. J. Park, "Polynomial-based Radial Basis Function Neural Networks (P-RBF NNs) Realized with the Aid of Particle Swarm Optimization," Fuzzy Sets and Systems, Vol. 163, No. 1, pp. 54-77, 2011. https://doi.org/10.1016/j.fss.2010.08.007
  13. W. Shen, X. Guo, C. Wu, D. Wu, Forecasting stock indices using radial basis function neural networks optimized by artificial fish swarm algorithm, Knowledge-Based Syst. 24 (3) 378-85. 2011. https://doi.org/10.1016/j.knosys.2010.11.001
  14. Hsieh, W. W. "Nonlinear principal component analysis by neural networks." Tellus, 53A, 599-15. 2001