DOI QR코드

DOI QR Code

Design of Optimized Pattern Classifier for Discrimination of Precipitation and Non-precipitation Event

강수 및 비 강수 사례 판별을 위한 최적화된 패턴 분류기 설계

  • Song, Chan-Seok (Dept. of Electrical Engineering, The University of Suwon) ;
  • Kim, Hyun-Ki (Dept. of Electrical Engineering, The University of Suwon) ;
  • Oh, Sung-Kwun (Dept. of Electrical Engineering, The University of Suwon)
  • Received : 2014.11.05
  • Accepted : 2015.08.21
  • Published : 2015.09.01

Abstract

In this paper, pattern classifier is designed to classify precipitation and non-precipitation events from weather radar data. The proposed classifier is based on Fuzzy Neural Network(FNN) and consists of three FNNs which operate in parallel. In the proposed network, the connection weights of the consequent part of fuzzy rules are expressed as two polynomial types such as constant or linear polynomial function, and their coefficients are learned by using Least Square Estimation(LSE). In addition, parametric as well as structural factors of the proposed classifier are optimized through Differential Evolution(DE) algorithm. After event classification between precipitation and non-precipitation echo, non-precipitation event is to get rid of all echo, while precipitation event including non-precipitation echo is to get rid of non-precipitation echo by classifier that is also based on Fuzzy Neural Network. Weather radar data obtained from meteorological office is to analysis and discuss performance of the proposed event and echo patter classifier, result of echo pattern classifier compare to QC(Quality Control) data obtained from meteorological office.

Keywords

1. 서 론

인류가 시작 되는 시점과 현재까지 이를러 날씨는 많은 부분에 있어서 방대한 영향력을 미친다. 이러한 영향력이 큰 날씨를 먼저 알아내려는 인류의 노력과 관심은 계속 되었으며 지금까지도 끊이지 않게 발전해 왔다. 현재 인류는 여러 분야와 최첨단 장비와 기술력을 통하여 기상예보에 엄청난 발전을 이뤄 냈으나, 오랜 연구와 최첨단 탐사 장비를 보유한 현재에서도 악천 기상이나 갑작스런 기상재해에 노출 될 경우 막대한 인명 피해 및 재산 피해를 일으키고 있는 실정이며, 우리는 이런 재해에 대하여 확실하고 신뢰성 있는 예보를 통해 방안책 마련에 신경을 기울이며 대비를 할 필요가 있다. 그 예의 대표적인 장비로 기상 레이더(Weather radar)를 꼽아 낼 수 있다. 기상레이더는 안테나에서 전자기파를 발생하여 강수입자 등에 부딪혀 산란·반사 등을 통해 수신되는 전력을 이진수(binary)형태로 나타내어 관찰자의 상대적인 위치를 나타내는 탐사장비이다. 기상레이더로 획득한 UF데이터는 강수입자를 나타내는 강수에코(Precipitation echo)와 기상학적으로 의미 없이 관측되는 비 강수 에코(Non-precipitation echo)들의 혼재로 인하여 강수에코만의 상대적 위치 및 정확한 데이터를 알아내기가 곤란하며 기상예보를 하는데 불편함과 혼란을 주고 있다. 이러한 사항으로 본 논문에서는 현업에서 사용하고 있는 UF 데이터를 통하여 강수에코와 비 강수에코가 복잡하게 섞여있는 데이터를 최적화된 뉴로 퍼지 신경 회로망 알고리즘 (Neuro-Fuzzy Algorithm)을 통하여 효과적으로 분류하는 방안을 제안하려 한다. UF데이터에서 획득한 반사도 값을 나타내는 DZ값을 전 처리를 통하여 SDZ, VGZ, SPN, FR등의 소속변수를 구하여 이를 통하여 비가 오는 강수 사례, 비가 오지 않는 비 강수사례를 제안하는 최적화된 뉴로 퍼지 알고리즘을 통하여 사례 분류과정을 거쳐서, 강수 사례일 경우에만 에코 패턴 분류기를 통하여 섞여있는 강수에코와 비 강수 에코를 분류를 통해 정확한 강수에코를 나타내고 패턴 분류율과 이미지를 통하여 나타낸다. 만약 비 강수 사례로 판단될 경우, 기상학적으로 의미 없는 에코들의 정보이므로 제거하도록 한다. 또한 다양한 비 강수 사례들로 실험을 하여 보다 더 정확한 성능을 나타내고자 하며, 사용한 UF 레이더 데이터는 오성산 레이더 사이트(site)에서 관측 되었던 데이터 이다. 2장에서는 UF 데이터의 구조 및 자료 형태 그리고 각 소속 인자들의 특성 등을 파악하며 특성 분석을 통해 얻어진 분류 기준을 명시하고 데이터들의 구축 및 전 처리 과정을 설명하며, 4장에서는 패턴 분류 및 사례 분류를 위한 지능형 알고리즘인 뉴로-퍼지 신경회로망(FNN)에 대한 설명으로 연결 가중치는 상수항(Constant) 및 일차식(Linear), 이차식(Quadratic)과 같은 3가지 다항식 형태로 확장해 후반부 구조 동정을 수행하여 다음과 같은 다항식 형태로 연결가중치를 상용함에 따라 퍼지 규칙과 같은 언어적 관점에서의 해석을 가능하게 하였다. 후반부 파라미터 동정은 최소자승법(Least square estimation)을 통하여 파라미터 값들을 설정하는 지능형 신경회로망 알고리즘을 통하여 패턴 분류를 실행 하도록 한다. 4장에서는 실험에 대한 전체적인 개요 와 최적화된 FNN기반 사례 분류기 및 패턴 분류기의 사용한 파라미터 값들을 나타내며 사례 분류를 마친 실험결과의 분류 성능과 사례 분류의 성공여부를 보여주며 분류된 사례를 패턴분류기를 통하여 강수에코와 비 강수 에코의 패턴 분류 및 성능 그리고 분류한 이미지와 현업에 사용하고 있는 QC데이터를 통하여 비교하여 실험에 대한 결과 고찰을 하며 마지막으로 5장에서는 실험에 대한 결론을 나타내려 한다.

 

2. 기상데이터 구축 및 전 처리 과정

본 장에서는 기상청에서 현재 사용하고 있는 레이더를 통하여 얻어낸 UF 데이터를 통해 사례 분류 및 에코 분류를 하기위한 소속변수 결정과 도출 과정 그리고 각 소속변수들의 특성 분석을 나타내려 한다.

2.1 UF 데이터의 구조

UF(Universal Format) 레이더 데이터는 전국 약 11 개 소에 위치한 레이더 사이트를 비롯하여 국제 협력을 통해 중국 동해안 5개소, 일본의 3개소 기상 레이더 사이트로 부터 획득해낸 데이터로써, Radar(Radio Detection And Ranging)는 안테나에서 대기 중으로 전자기파를 방출 하여 비나 눈, 구름 등에 반사되어 되돌아오는 신호를 분석해 관찰자로부터 강수구름의 상대적인 위치 및 강우 강도를 측정하여 나타내는 장비이다. 관측된 자료는 비의 강도에 따라 대응하는 색으로 표시하여 나타낼 수 있다. 우리나라의 국토 대부분이 산지가 많은 지형으로 낮은 고도에 기상 레이더가 위치하면 전파가 산 혹은 높은 빌딩에 차폐 되어 정확한 강수입자들의 관측에 방해됨으로 대부분이 높은 산지에 위치하고 있으며, 안테나가 360도 수평 회전하며 고도 각 1°부터 15°까지 순차적으로 관측하여 10분마다 이진수(binary)형태로 저장한다. 저장되는 데이터의 볼륨(Volume)은 필터링 전의 반사도 값(Uncorrected Reflectivity : DZ), 필터링 후의 반사도 값(CZ : Corrected Reflectivity)과 필터링 후의 시선속도(VR : Radial Velocity), 필터링 후의 스펙트럼 폭(SW: Spectrum Width)이 존재한다. 다음 그림 1에 UF 데이터의 구조를 도식화 하였다. 오성산 레이더 사이트에서 획득한 UF 데이터에 저장되는 CZ, DZ, SW, VR은 각각의 1°부터 15°까지의 고도 각 내에 0°부터 360°까지의 레이더의 방위각이 존재하며, 250m의 반경크기인 957개의 반경으로 되어 있다. 레이더 사이트 마다 각각의 제원은 다를수도 있으나, 총 344520개의 DZ값을 가질 수 있으며 저장 되는 반사도 값은 dBZ(decibel Z)의 단위로 반사도 다음 식 (1)로부터 dBZ 값을 구해 낼 수 있다.

그림 1UF 데이터의 구조 Fig. 1 Structure of UF data

1mm6/m3의 비율 값을 로그 대수로 나타낸 값인데, 단위 부피 1m3안의 직경 1mm인 물방울이 한 개 있으면 0[dBZ], 100개 있으면 20[dBZ], 1000개 있으면 30[dBZ]가 된다. 여기서 Z는 레이더 방정식을 이용하여 다음과 같이 식 (2)로 계산될 수 있다.

각 기호들의 의미 하는 값은 는 평균 반사전력(Watt), Pt는 최대 송신출력(Watt), G는 안테나 이득(무차원)이며, λ는 레이더파장(m), 𝜽3dB는 안테나 빔 출력 반사치 폭(radian), 𝛾는 펄스 지속시간(sec), K는 복소 굴절율이며, Z는 레이더 반사도 인자 이다.

필터링 후의 반사도 값을 저장하는 CZ는 비 강수 에코 종류 중 하나인 지형에코를 어느 정도 지워 주기도 하며, 일부 레이더로부터 찍힌 의미 없는 비 강수에코를 지워주기는 하지만 완벽히 지워지지는 않는다. 마찬가지로 필터링 된 후의 데이터인 VR, SW 또한 지형에코의 대한 정보가 지워져 비 강수 에코에 대한 데이터가 없기 때문에 정확히 분류를 할 수가 없다. 따라서 필터링 되기 전의 모든 반사도 값이 기록된 DZ를 입력 데이터로 채택하여 전 처리 과정을 거쳐 입력변수를 구성하도록 하였다.

2.2 UF데이터를 통한 입력변수 추출

본 절에서는 UF 데이터를 통하여 입력변수를 추출 하는 과정에 대해서 기술하도록 한다. 기상청에서 사용하고 있는 UF 데이터를 토대로 입력변수를 추출을 해내는데, DZ를 비롯하여 CZ는 보통 -20∼80[dBZ] 값 사이로 측정이 되며 131072[dBZ]의 아무 가치 없는 값(Null)으로 관측되기도 한다. 이 값은 해당 방위각(Ray), 반경(bin)의 반사도 값이 존재 하지 않음을 나타낸다. CZ 와 DZ는 성격이 유사하여 CZ를 이용하여 이미지 참조 혹은 최종적으로 결과와의 비교만을 하는데 사용 하였다. UF 데이터의 DZ값으로 가공 과정을 거친 입력변수는 SDZ, VGZ, SPN, FR 총 4가지로 나타 낼 수 있다.

반사도의 표준편차(Standard Deviation of reflectivity: SDZ)는 주어진 고도각상으로 반사도의 산포도를 계산하는 입력변수로써 고도각(Sweep) 0.5°의 (Ray,Bin)의 좌표에 생성되는 DZ 값으로 계산하며, 다음 식 (3)과 같이 나타낸다.

i는 레이더의 방위각(Ray)를 j는 각 레이더의 반경(Bin)을 의미한다. n=10으로 한 개의 좌표를 중심으로 잡아 기존 연구에서는 반경(Bin)을 기준으로 전후 5개의 대한 반사도의 표준 편차를 계산하여 각 좌표 사이의 크기가 250m이므로 Bin의 2500m에 대한 표준편차 값으로 나타낼 수 있으나, 본 연구에서는 이웃하는 반사도 값으로 중심이 된 한 좌표(Ray,Bin)으로 반경 250m의 SDZ를 계산을 하였다.

또 다른 입력 변수 VGZ(Vertical Gradient of reflectivity) 반사도의 연직 기울기는 두 개의 Sweep의 반사도 값의 차이를 고도각(Sweep)간의 각도 차로 나눈 것으로 식 (4)와 같이 계산한다.

여기서 θ는 각 Sweep의 각을 의미하고, i는 Ray, j는 Bin, k는 Sweep을 의미한다. 식 (4)에서 나타낸 바와 같이 주어진 (i,j,k)에서의 반사도 자료를 그 보다 높은 고도 각에 해당하는 (i,j,k+1)에서의 반사도 자료와의 차이를 구하게 되는데 본 논문에서 두 Sweep을 0.5°와 1.5°로 지정하여 두 Sweep간의 차이를 1°로 한다. 그 이유는 Sweep 차가 1°를 초과하게 되면 이상전파 (AP)에코, 바다(Sea-Clutter)에코나 청천(Clear)에코 등 비 강수에코가 사라지는 장점이 있지만 강수에코의 정보도 유실되어 강수에코에 대해서 상관성이 떨어지는 단점이 있으며, 1°미만 일 경우 반사도의 연직 기울기가 과도하게 높아지며 비 강수 에코가 상당수 존재한다. 이러한 이유로 강수에코 정보가 손실되지 않고, 비 강수 에코 또한 어느 정도 제거되는 1°차이를 설정하여 강수 에코와 비강수 에코의 상관성을 고려하였다.

SPIN change(SPN)은 해당된 방위각, 반경의 생성되는 DZ값을 통해 전후의 변곡점의 수를 계산하며, 계산된 변곡점 개수를 백분율로 나타낸 것이다. 변곡점은 Ray, Bin의 반사도와 이웃한 (Bin을 중심으로 전후) 사이의 반사도 차이가 설정한 임계값(threshold)보다 작아야하고 부호가 반대일 경우에만 1로 카운트하고 아니면 0으로 카운트하는 조건을 따른다. 카운트 되는 조건을 식 (5)로 표현한다.

이렇게 정의된 값을 아래의 식 (6)과 같이 주어진 영역에 대해서 백분율로 계산한 것이 SPN이며, 기존 연구에서와 같이 임계값을 4dBZ로 설정하였다.

입력변수의 빈도수(FR: Frequency of reflectivity)는 각각의 입력변수 값의 개수를 카운트 하여 나타낸다. 반사도 DZ는 위 설명에서 나타낸 바와 같이 약 –20[dBZ] 에서 80[dBZ]까지 있는데 60[dBZ]까지 0.5[dBZ] 간격으로 설정 하였으며, 반사도의 표준 편차 SDZ 또한 0~60[dBZ]까지 0.5[dBZ] 단위로 빈도수를 파악 하였다. VGZ 연직기울기 경우 0∼60[dBZ/deg] 범위의 0.5[dBZ/deg] 단위로 빈도수를 카운트한다[1-3].

2.3 입력변수들의 특성 분석

본 논문에서는 이전 절에서 설명한 입력변수들을 이용해 특성분석을 파악하여 사례분류를 위한 오성산 레이더의 강수에코와 비강수 에코의 대한 도수 분포를 분석하여 나타내었다. 강수에코와 비 강수에코의 대한 DZ의 빈도수 분포는 30∼60[dBZ]의 이상의 범위에서 두 에코 간의 구분이 잘 나타났다. 강수에코와 비 강수에코의 DZ의 빈도수에서 수적 차이가 확연히 드러나며, DZ의 빈도수는 사례별로 다르다는 가변성이 존재한다. 일반적으로 DZ 빈도수의 분포는 강수 에코일 경우, 사례마다 DZ값의 개수가 시시각각 다른 반면에 비 강수 에코의 경우 대부분 비슷한 개수로 유지되는 것을 보이며, DZ값이 30∼40[dBZ]의 범위에서 확연히 나타난다. DZ의 특성분석 그래프는 그림 2(a)에 나타낸다.

그림 2강수에코와 비 강수에코의 빈도수 그래프 Fig. 2 Frequency graph of PRE and NPRE

다음변수인 SDZ의 빈도수에 대한 특성은 DZ을 동일한 범위인 30∼60[dBZ]의 범위의 반사도 값들의 표준편차 값을 구한 경우로써, 얻어지는 값의 SDZ[dBZ]의 범위 또한 사례별로 달라지지만, 표준편차의 빈도수 개수의 밀집정도가 확연히 드러난다. 반사도의 표준편차의 범위는 0.5∼60[dBZ]이며, 강수에코와 비 강수 에코의 표준편차의 도수분포는 약 0.5∼35[dBZ] 사이에 뚜렷히 나타난다. 강수에코의 경우 반사도의 표준편차 값의 범위가 비 강수 에코보다 좁은걸 볼 수 있으며, 비 강수에코의 경우 반사도의 값은 표준편차의 폭이 크게 나타난다. 강수에코와 비 강수 에코의 SDZ 빈도수 그래프는 그림 2(b)에 나타내었다.

반사도의 연직경도를 살펴보면, 강수에코와 비 강수에코의 연직경도 분포는 강수에코의 경우 0.5∼45.5(dBZ/deg) 사이에 분포하고 있으며, 비 강수에코의 경우 빈도수의 개수가 미비하다가 20∼60[dBZ/deg] 구간에 두드러지게 나타나는 형태를 보인다. 이는 입력변수 VGZ의 경우 가장 강수와 비 강수사례의 구분점이 되는 기준이기도 하다. 또한 VGZ의 빈도수는 테스트 사례들에 대하여 보통 비슷한 빈도수를 보이기 때문에 사례 분류에 사용할 입력변수로 용이하다. 반사도의 연직경도 계산은 레이더의 관측 고도각에 영향을 받으므로, 레이더 사이트의 설치된 고도각에 따라 다르며, 레이더 사이트의 관측고도각 측정 스케쥴이 사이트 내규에 따라 달라지므로 반사도의 연직경도는 레이더 사이트마다 확연히 다르게 나타날 수 있다. 강수에코와 비강수 에코의 VGZ의 빈도수 그래프를 그림 2(c)에 나타내었다.

반사도 값의 변곡점의 개수를 백분율한 SPIN change(SPN)은 마찬가지로 반사도 값 30[dBZ} 이상의 반사도 값으로만 하여 백분율을 구해본 결과 강수에코는 약 22%로 구성되며, 비 강수 에코 또한 약 22% 내외에 존재 하고 있다. 이는 단순히 빈도수의 크기차이 만으로는 사례별로 다른 크기이기 때문에, 사례 분류의 입력변수로 사용하지는 않았다. SPN은 특성분석 그래프는 그림2(d)와 같다.

2.4 입력변수를 이용한 데이터 구성

학습데이터와 테스트 데이터의 구성은 DZ, CZ, SW, VR 중에서 DZ를 이용하여 구성 하였다. 입력변수들의 이전장의 특성 분석을 기반으로 사례 분류기 및 패턴 분류기의 각각 데이터를 구축한다. 사례 분류기 데이터의 입력변수(DZ, DZ_FR, SDZ, SDZ_FR, VGZ, VGZ_FR)로 구성하여 DZ 경우 30∼60[dBZ] 범위의 0.5 단위로 구성하며 SDZ의 경우 0.5∼30[dBZ] 범위까지 0.5 단위의 간격 이며 VGZ는 0.5∼25[dBZ/deg]까지 0.5단위로 구성 한다. 사례분류 경우 SPN은 데이터는 사례 분류시에 두드러지는 특성분석을 보이지 않음에 따라 제외하게 된다. 에코 패턴 분류기의 데이터는 1개의 고도각에 대한 방위각과 반경 총 344520개의 반사도 값(dBZ)과 반사도(DZ)로부터 추가적으로 얻어지는 입력변수(SDZ, VGZ, SPN, DZ_FR)로 데이터로 구성한다.

 

3. 퍼지 뉴럴 네트워크(FNN)의 구조와 학습 방법

3장에서는 강수사례와 비 강수 사례의 분류하기 위한 퍼지 뉴럴 네트워크 기반 사례 분류기의 구조 및 에코 패턴 분류기의 구조를 설명한다. 제안된 뉴로퍼지 네트워크의 구조는 비선형적인 데이터들 간의 상호간의 연관성을 찾아 결합된 입력공간의 분할로부터 각 입력변수들의 퍼지 규칙의 적합도를 구하며, 입력신호와 연결 가중치의 곱으로 표현하여 각 규칙을 생성하게 된다. 본 장에서는 전반부의 규칙에 대해 Min-Max 연산을 통한 적합도를 구하는 과정과, 후반부에 선택된 후반부 파라미터 구조와 파라미터 계수를 구하는 최소 자승법에 대해 설명하며, 사례 분류기와 에코 패턴 분류기의 구조에 대한 차이점을 설명 하도록 한다.

그림 3에서 입력변수는 각 멤버쉽 함수를 거쳐 적합도μj가 구해지며 후반부의 출력 Cyrj와 곱해 r번째 출력의 j번째 규칙의 출력 frj를 생성한다. 최종 출력 값 는 출력 규칙들을 대수적으로 합해지며 식 (7)로써 표현하며 다음과 같다.

그림 3제안된 퍼지 뉴럴 네트워크 사례 분류기의 구조 Fig. 3 Structure of the proposed event classifier based on FNNs

제안된 퍼지뉴럴 네트워크 구조의 언어적인 규칙을 표현한 수식과 후반부 다항식의 구조는 각각 식 (8)과 식 (9)로 나타내었다.

여기서 Rrj는 r번째 출력의 j번째 퍼지 규칙을 나타내며, Akj는 멤버쉽 함수이며 j는 멤버쉽 함수의 수이다. 는 후반부 상수이며, 퍼지 규칙내의 연결 가중치를 나타낸다. 전반부 멤버쉽 함수는 이웃하는 멤버쉽 함수와 보수적인 관계를 가진 멤버쉽 함수를 사용하며, 따라서 r번째 출력의 j번째 규칙에 대한 결과는 식 (10)과 같다.

제안된 퍼지 뉴럴 네트워크 구조에서 각 층의 연산과정은 다음과 같다.

[Step 1] : 입력층 각 입력은 퍼지 입력 공간에서 분할된 멤버쉽 함수로 출력된다.

[Step 2] : 입력에 대한 적합도 계산 멤버쉽 함수는 보수적 관계를 갖는 삼각형 멤버쉽 함수로, 각 입력에 멤버쉽 함수로 멤버쉽 값을 구한다.

[Step 3] : 각 규칙의 적합도 계산 각 노드는 입력되는 변수들의 곱으로 상호 결합된 퍼지 공간을 형성하고 각 규칙의 적합도를 계산한다.

[Step 4] 정규화된 적합도 계산 각 규칙의 적합도가 구해지면 정규화 된 적합도를 계산한다.

[Step 5] 각 규칙의 출력 4층에서 구해진 적합도는 후반부 출력과 곱해져 출력층의 입력이 된다.

[Step 6] 최종 출력 최종 출력은 각 규칙의 출력과 출력층의 연결가중치의 가중합에 의해 구해진다.

본 논문에서는 후반부의 파라미터 계수를 동정하기 위한 최소 자승법을 사용하였다. 퍼지 추론 시스템에서 주로 학습 알고리즘으로 많이 사용하는 대표적인 알고리즘 중 하나인 최소자승법(Least Square Estimation)은 각 규칙에 파라미터를 동시적으로 구하는 전역 학습 방법이다. 전역 학습 방법인 만큼 퍼지 규칙수가 많아지거나, 입력이 많은 경우에 파라미터 동정을 할 파라미터의 계수들의 개수가 증가함에 따라 연산 시간이 오래 걸리는 단점이 있지만, 본 논문에서는 독립적으로 구성된 2 입력변수의 사례 분류기의 구조로 구성되어 있어, 퍼지 규칙수와 입력이 많지 않다는 점으로써 LSE를 사용하는데 적합하다. 3개의 독립적인 퍼지 뉴럴 네트워크 신경회로망은 각 소속변수와 소속변수의 빈도수 두 가지를 입력변수로 하여 구성하게 되며, 위에 설명한 FNN의 구조를 거쳐 각 소속변수를 토대로 한 사례 분류율을 나타낸다. 각각의 입력변수를 가지는 신경회로망의 결과로 얻어진 사례 분류율은 각 신경회로망의 분류율의 총 합의 평균으로 나타내어 임계 값 보다 높을 경우 강수 사례로 판단하며 임계 값보다 낮게 될 경우 비강수로 판단하게 된다. 이런 독립적이며 병렬적인 신경회로망의 구조로써 개별적인 사례 분류율을 취합해 고려하므로 최종적인 사례 결과물은 한 개의 분류기 성능의 치우치지 않는다는 장점이 있다. 또한 퍼지 추론의 논리구조와 신경회로망의 학습기능을 결합한 알고리즘으로써 네트워크 전체구조가 퍼지 규칙으로 구성되 있으며 후반부의 다항식 구조는 상수(Constant), 선형(Linear), 변형된 2차식(Modified quadratic)의 형식으로 되어 있으며 정성적 표현이 가능하며, 불확실한 정도의 대한 강인성이 크다는 장점이 있다[4, 5].

3.2 퍼지 뉴럴 네트워크(FNN) 기반 에코 패턴 분류기의 구성 및 시스템 과정

본 절에서는 앞서 설명한 사례 분류를 거친 사례를 토대로 에코 분류를 수행하는 에코 패턴 분류기의 구조와 최종적으로 에코패턴 분류 시스템 과정에 대하여 설명한다. 제안하는 에코 패턴 분류기의 구조는 이전 절에서 설명한 강수사례와 비 강수사례를 분류하는 사례분류기와 같이 입력변수를 통하여 Min-Max 연산을 통하여 적합도를 구하며, 적합도를 얻어내어 정규화 하는 과정이 동일하다. 또한 후반부 파라미터 구조와 후반부 파라미터의 계수를 최소 자승법(LSE)를 통하여 파라미터 계수를 추론하는 과정도 동일하다. 이처럼 연산과정의 차이는 없지만 독립적인 입력변수를 통한 병렬적인 구조를 이루는 사례 패턴 분류기와는 달리 반면에, 본 논문에서 에코패턴 분류기의 구조는 제안한 사례 분류기와 구조는 비슷하나 입력변수의 개별적인 형태로 이루어지지않고 DZ, SDZ, VGZ, FR 등의 소속변수가 하나의 신경 회로망의 입력변수로 수행 된다는 점의 차이가 있다. 제안하는 최종적인 에코 패턴 분류를 하기위하여 사례 분류 과정을 거치게 되는데, 이러한 분류기의 구조와 데이터 구성에 차이점을 두는 점은 에코패턴 분류의 경우 입력변수(DZ, SDZ, VGZ, SPN, FR)들의 상호 관계를 고려하여 최종적인 에코결과를 얻어 내기 위함이다. 에코패턴 분류의 독립적인 구조를 구성한다면, 강수사례로 판단한 사례의 경우에도 강수에코와 비 강수 에코의 존재함에 따라 입력변수의 독립적인 구성으로는 에코 분류의 성능이 저하되므로, 입력변수의 통합적인 구성으로 분류를 하며, 에코 패턴 분류기의 구조는 아래 그림과 같다.

그림 4퍼지 뉴럴 네트워크 기반 에코패턴 분류기의 구조 Fig. 4 Structure of echo pattern classifier based on FNNs

사례 분류 시에 강수 사례로 판단된 사례는 강수사례 임에도 불구하고 강수에코와 비 강수에코의 혼재로 인하여 정확한 강수 에코의 위치와 강수강도를 파악하기 어려움으로 에코 패턴 분류를 통하여 정형화된 강수에코를 나타내야 한다. 반면에 비 강수 사례로 판단 될 경우 레이더 데이터의 찍힌 반사도 값들은 기상학적으로 의미 없는 비 강수 에코이기 때문에 에코 패턴 분류의 관계없이 모든 비 강수에코들을 제거한다[7-10].

 

4. 최적화된 퍼지 뉴럴 네트워크 기반 사례 분류기의 설계

4.1 차분진화 알고리즘(Differential Evolution)

차분진화 알고리즘은 Price와 Storn에 의하여 벡터 차분 (vector differential)을 사용하여 Chebychev 다항 곡선의 내삽문제(polynomial fitting problem)을 해결 하는 과정 중에 개발 되었다. 차분진화 알고리즘의 장점은 조기 수렴이 가능한 점으로 빠른 연산속도를 가지고 있다. 차분 진화 알고리즘은 통계적 임의 탐색법인 유전 알고리즘(genetic algorithm : GA)와 유사한 알고리즘으로써, 초기 개체군을 이루는 개체의 교배(Crossover), 돌연변이(Mutation), 선택(Selection) 과정을 거쳐 적합도(Fitness)가 개선되는 과정을 거쳐 우수한 성능을 지닌 개체들을 추출해 낸다는 공통점이 있지만, GA알고리즘의 경우 개체들의 표현을 유전형인 0,1로 바꾸는 코딩이 필요한 반면에 차분진화 알고리즘은 코딩 과정이 필요 없을 뿐만 아니라 유전알고리즘의 단점인 복잡한 구조와 연산대신 개체를 간단하고 합리적인 구조의 벡터방식으로 표현하기 때문에 이 벡터들의 산술적 연산을 통한 새로운 개체를 생성한다는 이점이 있다. 차분진화의 실행 단계를 정리하면 다음과 같이 나타낸다.

[Step 1] : 초기 집단 구성(random 값으로 μ개의 개체를 초기화. 각 개체는 n개의 목적변수로 구성. t = 0)

[Step 2] : 집단내의 모든 개체의 목적함수(func) 평가

[Step 3] : 모든 개체 (i=1, ⋯ ,μ) 에 대하여 차분 변화를 위한 개체 ar1, ar2와 ar3를 선택하여 교배용 벡터를 만들고 이를 교배 대상 벡터와 교배함

[Step 4] : 모든 개체의 목적함수 (func)평가

[Step 5] : 종료조건을 확인하고 종료 조건이 만족되지 않으면 t = t_1로 하고 Step 3으로 복귀.

그림 5차분진화의 절차 Fig. 5 Procedure of Differential evolution

4.2 최적화된 퍼지 뉴럴 네트워크 기반 사례 분류기의 설계

본 절에서는 퍼지 뉴럴 네트워크를 통해 강수사례 와 비 강수사례의 분류과정의 수행에 있어서 보다 좋은 성능의 분류과정을 해내기 위하여 파라미터 최적화 과정을 수행한다. 본 논문에서는 차분진화 알고리즘을 사용하여 사례 분류기의 전반부 과정에서 파라미터 동정에 사용할 최적화된 파라미터 값들을 최적화 하며 수행단계는 다음과 같다.

[Step 1] 각각의 FNN은 각 입력변수로 구성 : 2개의 입력변수로 구성된 3개의 사례 분류기들은 각 입력변수로 구성된다.

표 1최적화되는 전반부 파라미터 Table 1 Optimized premise parameters

[Step 2] 차분 진화 알고리즘으로 FNN 사례 분류기의 전반부 파라미터 최적화 수행 : 퍼지 뉴럴 네트워크(FNN)의 전반부 파라미터 최소값, 최대값을 최적화하며 탐색 범위는 다음과 같다.

표 2최적화되는 전반부 파라미터의 탐색범위 Table 2 Search ranges of optimized premise parameters

[Step 3] 퍼지 뉴럴 네트워크 기반 사레분류기를 이용하여 학습, 검증 및 테스트 데이터의 인식성능을 평가하며 인식성능 및 목적함수는 다음식을 이용하여 산출 한다.

[Step 4] [Step2]의 범위 내의 파라미터 값을 반복하여 최적화된 파라미터 값을 탐색하며, [Step3]를 통해 인식성능을 반복적으로 확인한다.

그림 6전반부파라미터 최적화 과정 Fig. 6 Optimization procedure of premise parameters.

 

5. 실험 및 결과 고찰

5.1 실험의 전체 개요

본 논문에서는 최종적인 에코분류를 하기위하여 사례 분류와 에코 분류의 두 가지 분류를 시행하게 된다. 반사도의 값이 30dBZ이상의 경우에 뚜렷하게 나타나므로, 30dBZ 이상의 반사도 값을 가지고 있는 좌표들로 각 입력변수의 값들을 구한다. 각 입력변수들의 독립적인 신경회로망을 통하여 사례 분류율을 구하며, 타 신경회로망과 취합해 평균을 구하여 본 실험에서 설정한 임계 값 0.5이상일 경우 강수사례로 판단, 그렇지 않을 경우 비강수 사례로 판단하여 사례 분류를 마친다. 강수 사례와 비 강수 사례를 분류해내는 과정을 먼저 수행 한 뒤, 에코분류를 하기 위하여 입력변수 DZ, SDZ, VGZ, SPN, DZ_FR을 추출 하여 3 입력 (DZ, SDZ, FR)의 변수와 4 입력(DZ, SDZ, VGZ, FR)의 변수로 4 입력 퍼지 뉴럴 네트워크 에코 분류기의 과정도 추가적으로 실험하게 된다.

그림 7사례 분류 및 에코 패턴 분류의 과정 Fig. 7 Process of event and echo pattern classification

최종적으로 에코 분류 과정을 마친 사례는 강수에코의 위치와 강수의 강도를 나타내는 이미지를 형성하여 기존의 기상청에서 사용하고 있는 QC 데이터와 필터링 된 CZ 패턴 분류율을 비교하여 백분율로 나타내었다.

5.2 실험 파라미터 설정

제안된 최적화된 사례분류기의 성능을 확인하기 위하여 강수사례와 비 강수 사례를 각 10분 단위의 UF 기상레이더 자료들을 20개씩 선정하여 사례 분류 테스트하였다. 사례 분류된 자료들을 에코패턴 분류를 통하여 패턴 분류를 시행하며, 표 3은 실험에 사용한 최적화된 사례분류기의 입력변수와 데이터의 파라미터 값을 나타내었다. 표 4에 전반부 파라미터 동정을 하기위해 사용한 차분진화 알고리즘의 설정 파라미터 값들을 나타내었다.

표 3FNN기반 사례분류기의 파라미터 Table 3 Parameters of event classifier based on FNN

표 4최적화 파라미터의 설정 및 파라미터의 탐색범위 Table 4 Setting of initial optimization parameters and search range of parameters

5.3 사례분류기의 학습 데이터

제안한 사례 분류기의 학습데이터를 구성하기 위하여 총 830개의 사례로 구성하였다. 사례는 총 830사례 중 강수 사례 419개, 비 강수사례 411개 사례로 구성된다. 사례분류기는 각각 독립적이며 병렬적인 구조로 구성되어 있기 때문에, 학습데이터는 각각 다르다. 입력변수의 범위 또한 다르기 때문에 행의 수는 다르지만, 열의 수는 소속변수, 소속변수의 빈도수 그리고 패턴으로 총 3열로 구성된 점은 동일하다. 강수사례와 비 강수 사례는 4월부터 10월 사이의 오성산 사이트 UF데이터로 구성하였다. 학습 데이터의 구성은 그림 8과 같다.

그림 8사례 분류 학습데이터의 구성 Fig. 8 Composition of event classification training data

5.4 사례분류기의 성능 및 결과

제안한 사례분류기의 성능 및 결과를 알아보기 위하여 강수사례와 비 강수사례 각각 20개씩 적용하여 사용 하였으며, 연속된 시간이 아닌 사례들로 하였다. 비 강수 사례 테스트의 경우비 강수 에코의 종류인 지형에코, 이상 전파 에코, 파랑 에코, 청천에코로 각각 사례 5개씩 총 20개의 사례로 구성하였다. 본 실험에 적용한 사례분류기의 성능 및 결과를 강수와 비 강수 경우 각각 표로 구성해 나타냈다. 사례 분류기의 강수사례 및 비 강수사례 실험결과의 일부를 각각 표 5와 표 6로 나타내었다.

표 5강수사례 실험결과 Table 5 Experimental results in case of precipitation events

표 6비 강수사례 실험결과 Table 6 Experimental results in case of non-precipitation events

5.5 에코 패턴분류기의 학습데이터

제안한 에코 패턴분류기는 사례 분류기를 거쳐 강수사례로 판단된 사례의 경우에만 에코 패턴 분류를 하게 된다. 에코 패턴분류의 학습데이터는 강수 사례(대류셀, 층운형 대류성 강우밴드)와 비 강수 사례(청천에코, 지형에코, 파랑에코, 이상전파 에코)의 총 18개 사례들 중 Null 값을 제외하여 1,582,999개로 구성 되어있다. 강수사례에 존재하여 관측된 에코들은 강수 에코와 비 강수에코 모두 찍혀 있어 정확한 학습이 어려우므로, 강수 사례는 CZ의 반사도 값을 사용하였으며, 비 강수 사례는 DZ의 반사도값을 사용하였다. 경우 에코 패턴 분류기의 입력변수는 DZ, SDZ, VGZ, SPN, DZ_FR이며 강수에코의 패턴은 1이며, 비 강수에코의 패턴은 0이다.

5.6 분류과정을 거친 에코 패턴 분류 및 결과

그림 9의 비강수 사례인 Clear 에코의 경우 (a)DZ의 경우 별도의 필터링 과정이 없어 에코지도 한 가운데 찍혀진 지형에코와 Clear에코가 혼재 되어 있으며, Clear에코의 반사도 값과 분포된 형태 역시 약한 강수 형태와 매우 흡사하다. (b)CZ의 경우 일부지형에코가 삭제되었지만 여전히 Clear 에코의 많은 부분이 존재함을 보이며, (c)QC의 경우 대부분의 Clear 에코가 사라지긴 하였으나 미세한 량의 Clear 에코가 남아 있음을 확인 할수 있었으며, 패턴 분류기를 거친 (d)의 경우 이미 사례 분류기에서 비 강수 사례로 판단하였음에 따라 UF 데이터의 찍힌 반사도 값은 비 강수 에코로 판단하여 모든 비 강수 에코는 지워짐에 따라 불필요한 반사도 값이 지워짐을 볼 수 있다.

표 7※TE: 0인 경우는 비강수사례로 분류되어 모든 에코분류 패턴이 0

표 8강수에코 패턴 분류율 Table 8 Classification rates of precipitation echo pattern

그림 9청천에코 지도 (2012년 07월 08일 08시 30분) Fig. 9 Clear echo maps (08:30 on 08 July. 2012)

강수사례로 판단된 대류형 강수사례 2012년 4월 10일 11시 30분∼12시 30분의 오성산 레이더 데이터 7개 사례를 테스트하였다. 패턴 분류의 성능을 나타내기 위하여 성능 분류율의 기준은 CZ와 제안 패턴 분류기의 에코패턴의 판단여부가 전체 에코패턴 개수의 비율로 나타내었다. 그림 10의 (a) DZ의 경우에 에코지도 한 가운데 약 30dBZ 이상의 반사도 값을 가지고 있는 지형에코가 관측이 되는 걸 볼 수 있으며, (b) CZ 경우의 일부 필터링 되기 때문에 삭제 되는 것을 볼 수 있다. (c) QC의 경우 CZ 경우보다 더 많은 영역의 약 0dBZ∼ 10dBZ 사이의 약한 강수가 지워 지는 경우를 볼 수 있는데, 본 논문에서 제안한 퍼지 뉴럴 네트워크 기반 패턴 분류기를 통하여 분류한 (d)의 경우 QC의 경우보다 약한 강수를 살리는데 효과적인 결과를 볼 수 있다.

그림 10강수 에코 지도 (2012년 04월 10일 11시 30분) Fig. 10 Precipitation echo maps (07:00 on 10 April. 2012)

 

6. 결 론

각각의 소속변수 DZ, DZ_FR, SDZ, SDZ_FR, VGZ, VGZ_FR을 추출 하며 이 6가지 소속변수를 통해 학습데이터를 구축하여 사례 분류기를 선행 한뒤, 선행된 사례를 통해 비 강수 사례일 경우 불필요한 비 강수에코 이므로 제거 하는과정을 거치며 강수사례 일 경우 강수에코와 비 강수 에코를 분류하기 위한 에코분류기를 통해 최종 적인 에코 분류를 수행하였다. 이러한 시스템의 구성은 기상학적으로 의미 없는 비 강수 에코와 강수 에코의 패턴 분류과정을 비 강수 사례 일 경우 생략함에 따라 불필요한 절차를 생략함에 따라 보다 빠른 에코 패턴 분류와 더 정확한 패턴 분류의 효과를 기대한다. 또한 약한 강수와 Clear에코의 사례 경우 특성 분석이 비슷한 경우를 많이 보이지만, 비 강수 에코인 Clear에코의 판단을 선행함에 따라 패턴 분류율의 효율을 더 높이며 이로써 더 정확한 예보를 야기 할 수 있음을 보였다. 2012년 오성산 레이더 데이터에서 추출한 강수 사례 419개와 비강수 사례 411개로 사례 분류를 위한 학습데이터 구축을 하기 때문에 기존의 패턴 분류의 강수사례의 유형인 대류 셀, 층운형, 대류성 강우밴드, 태풍 등의 강수사례와 비 강수 사례인 지형에코, 청천에코, 파랑에코, 이상전파 에코 등의 약 10개 정도의 사례를 패턴 분류의 학습데이터로 구성하여 좁은 정보량을 가지고 있었다고 한다면, 월등히 많은 사례의 데이터를 학습데이터로 구성한다는 장점 또한 있어, 학습데이터의 신뢰성 또한 증가할 것으로 보인다.