Estimation of Optimal Training Period for the Deep-Learning LSTM Model to Forecast CMIP5-based Streamflow

Chun, Beom-Seok;Lee, Tae-Hwa;Kim, Sang-Woo;Lim, Kyoung-Jae;Jung, Young-Hun;Do, Jong-Won;Shin, Yong-Chul;

doi:10.5389/KSAE.2022.64.1.039

Journal of The Korean Society of Agricultural Engineers (한국농공학회논문집)

Volume 64 Issue 1
/
Pages.39-50
/
2022
/
1738-3692(pISSN)
/
2093-7709(eISSN)

The Korean Society of Agricultural Engineers (한국농공학회)

DOI QR Code

Estimation of Optimal Training Period for the Deep-Learning LSTM Model to Forecast CMIP5-based Streamflow

CMIP5 기반 하천유량 예측을 위한 딥러닝 LSTM 모형의 최적 학습기간 산정

Chun, Beom-Seok (Department of Agricultural Civil Engineering, Kyungpook National University) ;
Lee, Tae-Hwa (Department of Agricultural Civil Engineering, Kyungpook National University) ;
Kim, Sang-Woo (Department of Agricultural Civil Engineering, Kyungpook National University) ;
Lim, Kyoung-Jae (Department of Rural Construction Engineering, Kangwon National University) ;
Jung, Young-Hun (Department of Advanced Science and Technology Convergence, Kyungpook National University) ;
Do, Jong-Won (Integrated Water Management Supporting Department, Rural Research Institute, Korea Rural Community Corporation) ;
Shin, Yong-Chul (Department of Agricultural Civil Engineering, Kyungpook National University)

Received : 2021.08.24
Accepted : 2021.12.16
Published : 2022.01.31

https://doi.org/10.5389/KSAE.2022.64.1.039 Citation PDF KSCI HTML

Download PDF

⟨ Previous Next ⟩

Abstract

In this study, we suggested the optimal training period for predicting the streamflow using the LSTM (Long Short-Term Memory) model based on the deep learning and CMIP5 (The fifth phase of the Couple Model Intercomparison Project) future climate scenarios. To validate the model performance of LSTM, the Jinan-gun (Seongsan-ri) site was selected in this study. We comfirmed that the LSTM-based streamflow was highly comparable to the measurements during the calibration (2000 to 2002/2014 to 2015) and validation (2003 to 2005/2016 to 2017) periods. Additionally, we compared the LSTM-based streamflow to the SWAT-based output during the calibration (2000~2015) and validation (2016~2019) periods. The results supported that the LSTM model also performed well in simulating streamflow during the long-term period, although small uncertainties exist. Then the SWAT-based daily streamflow was forecasted using the CMIP5 climate scenario forcing data in 2011~2100. We tested and determined the optimal training period for the LSTM model by comparing the LSTM-/SWAT-based streamflow with various scenarios. Note that the SWAT-based streamflow values were assumed as the observation because of no measurements in future (2011~2100). Our results showed that the LSTM-based streamflow was similar to the SWAT-based streamflow when the training data over the 30 years were used. These findings indicated that training periods more than 30 years were required to obtain LSTM-based reliable streamflow forecasts using climate change scenarios.

Keywords

Ⅰ. 서론

최근 지구온난화 등의 영향으로 기온이 증가하고 집중호우 등의 이상 기후가 빈번하게 발생하고 있다. 홍수나 가뭄 등의 물 관련 재해를 방지하기 위해선 유출량 등의 수문 현상을 모의하고 이를 분석해야 할 필요가 있다. 수문 현상을 분석하는 방법 중 가장 널리 사용되고 있는 방법은 수문분석 모형을 이용하는 것이며, 물리적 수문모형을 이용한 다양한 수문 분야 연구가 진행되고 있다. 이러한 물리적 기반의 수문모형 이외에도, 최근에는 기계학습을 이용하여 수리⋅수문 현상을 모의하고 분석하는 방법이 많이 사용되고 있다. 특히 인공신경망은 비선형적인 관계에 있는 자료를 분석하고 모의하는 데에 뛰어난 성능을 보이며, 이를 이용한 다양한 수리⋅수문 관련 연구가 진행되고 있다. Tran and Song (2017)은 딥러닝 기법을 이용하여 홍수피해를 방지하기 위한 침수 수위를 예측하였으며, Mahsa and Lee (2018)는 인공신경망의 다양한 최적화 알고리즘별로 남강댐 일 유출량을 산정하였다. He et al.(2019)은 VMD (Variational Mode Decomposition)와 DNN(Deep Neural Network)을 결합한 VMD-DNN 모형을 이용하여 중국의 Jing river 일 유량을 산정하였으며, Hussain et al.(2020)은 1D-CNN (One-Dimensional Convolutional Neural Network) 모형과 ELM (Extreme Learning Machine)을 이용하여 Pakistan의 Gilgit River의 일, 주, 월별 유량을 예측하였다. Xiang and Demir (2020)는 NRM (Neural Runoff Model)을 이용하여 Iowa 주 유역의 유출량을 산정하였다.

인공신경망 기법의 하나인 순환신경망 (Recurrent Neural Network, RNN)은 이전 학습 자료의 정보가 다음 학습에 영향을 주기 때문에 시계열 자료를 학습하는 데에 큰 장점이 있다. 이러한 특성은 시계열의 영향을 크게 받는 지표유출량 등의 수리⋅수문 현상을 모의하고 예측하는 데에 매우 효과적이다. 최근에는 RNN 기법이 가지는 문제점을 해소한 LSTM (Long Short-Term Memory) 모형을 이용하여, 시계열 관계에 있는 수리⋅수문 현상을 모의하는 연구가 진행되고 있다. Hu et al. (2018)은 ANN 및 LSTM 모형을 이용하여 Fen River의 유량을 예측하였으며, LSTM 모형이 ANN 모형보다 예측성능이 뛰어난 것으로 나타났다. Le et al. (2019)은 LSTM 모형과 상류 유량 자료만을 이용하여 Vietnam의 Red River 하류 지점의 유량을 예측하였다. Kratzert et al. (2019)은 LSTM 모형과 CAMELS (Catchment Attributes and Meteorology for Large-Sample Studies) 자료를 이용하여 미계측 유역의 유량을 예측하였으며, SAC-SMA (Sacramento Soil Moisture Accounting) 모형과 NWM (NOAA National Water Model reanalysis)의 예측 결과와 비교하여 그 성능을 평가하였다. Kim et al. (2020)은 LSTM 모형과 SWMM (Storm Water Management Model) 유출 모의 결과를 이용하여 침수면적을 산정하였고, Liu et al. (2020)은 EMD (Empirical Mode Decomposition) 알고리즘과 LSTM 모형을 결합한 En-De-LSTM (Encoder Decoder Long Short-Term Memory) 구조를 제시하여 Yangtze river를 대상으로 모형의 성능을 평가하였다. 특히 LSTM 모형의 경우 물리적 수문모형과 비교 가능할 정도로 모의 성능이 우수한 것으로 나타났다 (Jung et al., 2018; Lee et al., 2018; Ayzel et al., 2020; Kratzert et al., 2021).

그러나 LSTM 모형은 모의값이 실제값에 근사하도록 훈련시키기 위해서는 충분한 학습 자료가 요구된다. Xiang et al. (2020)은 LSTM seq2seq 기반 유량 예측 모형의 성능을 검증하기 위하여 2012∼2017년 3개의 USGS (U.S. Geological Survey) 관측소에서의 유량, 강수, 증발산량 및 수위 자료를 수집하였다. Gao et al. (2020)은 LSTM과 GRU의 유량 예측성능을 비교하기 위하여 2000∼2014년의 시간별 유량 및 강우 자료를 수집하였다.

LSTM 모형은 학습 자료로 사용되는 자료 크기에 따라 모형의 모의 성능에 차이가 발생한다. 이러한 학습 자료의 크기에 따른 모의 성능을 평가하고, 최적의 학습 기간을 제시하는 것은 수리⋅수문 분야에서 LSTM 모형의 효과적인 활용을 위하여 매우 중요하다. 따라서 학습 기간의 크기에 따른 LSTM 모형의 모의 성능을 평가한 다양한 연구가 진행되고 있다. Boulmaiz et al. (2019)은 LSTM 강우 유출 모형에서 학습 데이터 크기의 영향을 분석하기 위하여 1980∼2014년의 기상자료를 수집하였으며, 학습 구간의 크기를 다르게 하여 LSTM 모형의 모의 성능을 평가하였다. Fu et al. (2020)은 LSTM 모형으로 Malaysia Peninsula의 Kelantan river의 유량 예측성능을 평가하였으며, 학습 기간, 학습 기간과 예측 기간 사이의 간격 및 예측 기간을 다르게 하여 최적 조건을 제시하였다. 기존 연구들은 대부분 과거 이용 가능한 관측자료를 이용하여 유량을 예측하였으며, LSTM 모형의 적용성 및 미계측 유역의 예측성능 평가가 대부분 이루어졌다. 그러나 현재까지 측정된 국내 실측자료의 기간은 지역에 따라 길어도 20∼40년 정도이며, CMIP5 (The fifth phase of the Couple Model Intercomparison Project) 미래기후시나리오 기상자료는 2100년까지의 장기간 자료를 제공한다. 따라서 100년 가까이 제공하는 미래기후시나리오 기반 하천유량 예측을 위해서는, LSTM 모형의 학습 자료로 사용하기 위한 충분한 기간의 실측자료가 확보되어야 한다. 그러나 현재까지 LSTM 모형 기반의 하천유량 모의시 학습 기간이 모의 성능에 미치는 최적 학습기간에 관한 연구는 미흡한 실정이다.

본 연구에서는 용담댐 소유역의 상류 지점을 대상으로 LSTM 모형의 모의성능을 평가하고, 미래기후변화시나리오(CMIP5)와 LSTM 모형을 연계하여 신뢰성 있는 미래의 하천 유량 예측을 위한 최적 학습 기간을 제시하였다. 연구목적은 1) LSTM 모형의 일별 하천유량 모의성능 평가 및 2) CMIP5 미래기후시나리오를 이용한 최적학습기간 산정이다.

Ⅱ. 연구 방법

본 연구에서는 일별 유량 산정을 위하여 딥러닝 기반의 LSTM 모형 성능을 검증하고, 이후 기후변화시나리오에 적용하여 최적의 선행 학습 기간을 제시하였다. LSTM 모형의 일별 유량 모의 성능을 평가하기 위하여, 시험유역을 대상으로 실측 유량과 LSTM 모형 기반 모의값을 비교 및 검증 (상관성 및 불확실성)하였다. 또한, 전 세계적으로 많이 사용하고 있는 SWAT (Soil Water Assessment Tool, J. G. Arnold et al., 1993) 모형을 SWAT-CUP (SWAT Calibration and Uncertainty Program, K. C. Abbaspour, 2013)과 연계하여 모의값을 실측값과 보정 및 검증하였으며, 이후 LSTM 모형 성능과 비교하여 LSTM의 모의 성능을 평가하였다. LSTM 모의 성능 평가 결과를 바탕으로 기후변화시나리오의 미래 기상자료 (2011∼2100)를 SWAT 모형에 입력자료로 활용하여 모의 유량을 산정하였으며, SWAT 기반의 모의 유량을 기반으로 LSTM 모형을 학습 및 최적의 학습 기간을 제시하였다.

1. RNN-LSTM

RNN (Recurrent Neural Network)은 인공신경망 기법의 하나며, 시계열의 자료를 분석하고 모의하는 데에 큰 장점이 있다 (Zhang and Man, 1998; Hüsken and Stagge, 2003; Doğan et al., 2007; Samantaray and Sahoo, 2020). 인공신경망은 인간의 뇌가 정보를 학습하고 분석하는 방법을 모사한 기계학습 기법으로, 인간의 뉴런에 해당하는 노드로 구성되어 있다. 일반적으로 인공신경망은 입력층 (Input layer), 은닉층 (Hidden layer) 및 출력층 (Output layer)의 구조로 구성되어 있으며, 은닉층이 2개 이상인 경우를 심층신경망 (Deep Neural Network, DNN)이라고 말한다. Fig. 1은 DNN과 RNN의 구조 차이를 나타내고 있다.

NGHHCI_2022_v64n1_39_f0001.png 이미지

Fig. 1 The different structures between DNN (a) and RNN (b)

DNN은 자료를 학습할 때 이전 학습 자료에 대한 정보를 활용하지 않는다. 그러나 RNN의 경우, 학습에 사용된 이전 자료에 대한 가중치를 다음 자료의 학습에 반영하여 가중치를 산정한다. 이러한 특성 덕분에, RNN은 시계열 데이터를 처리하고 학습하는 데에 강점이 있다. 그러나 RNN은 학습 자료의 수가 많아지고 은닉층의 개수가 커지게 되는 경우 오차 경사의 기울기 소실 문제가 발생하며, 입력층에 가까운 은닉층의 학습 정보를 기억하지 못해 학습에 사용할 수 없다는 단점이 있다. Hochreiter and Schmidhuber (1997)는 RNN의 오차 기울기 소실 및 장기간의 자료를 학습하면서 발생하는 문제 등을 해결하기 위하여 LSTM의 개념을 제시하였다 (Fig. 2).

NGHHCI_2022_v64n1_39_f0002.png 이미지

Fig. 2 The basic structure of LSTM model (Bui et al., 2021)

LSTM은 현재 자료의 상태를 기준으로 현재 자료의 업데이트 여부를 판단하는 셀 (Cell, C_t)이라는 개념을 기존 RNN 구조에 추가한 것이다. LSTM의 데이터 학습은 3개의 게이트를 통해 이루어지며, 각각 망각, 입력 및 출력 게이트로 구성되어 있다. 망각 게이트는 이전 학습의 정보를 유지 또는 제거 여부를 결정한다. 이전 셀의 출력값인 Y_t-1와 현재 입력자료인 X_t를 시그모이드 활성 함수에 적용하여 결과값을 출력한다. 출력된 결과값과 과거 셀 상태인 C_t-1을 곱하여 학습 정보 유지를 결정하게 된다. 망각 게이트 (f_t)는 공식 (1)과 같다. 입력 게이트는 2가지 과정으로 구성되어 있으며, 입력 게이트 (i_t)로 받은 정보로 어떤 정보를 업데이트할 것인가와 셀 상태를 업데이트하기 위한 후보 셀 (\(\begin{aligned}\widetilde{C}_{t}\end{aligned}\))을 제시하여 현재 셀 상태를 업데이트하는 과정으로 구분된다. 입력 게이트의 각 인자의 계산공식은 공식 (2∼3)과 같다 (Hochreiter and Schimidhuber, 1997).

f_t = σ(W_f⦁ [Y_t-1,X_t] + b_f (1)

i_t = σ(W_f⦁ [Y_t-1,X_t] + b_i (2)

\(\begin{aligned}\widetilde{C}_{t}=\sigma\left(W_{C} \cdot\left[Y_{t-1}, X_{t}\right]+b_{C}\right)\end{aligned}\) (3)

입력 게이트의 각 인자가 계산되면 과거 셀 상태 (C_t-1)와 망각 게이트 (f_t), 입력 게이트 (i_t)와 후보 셀 (\(\begin{aligned}\widetilde{C}_{t}\end{aligned}\))을 이용하여 공식 (4)와 같이 현재 셀 상태 (C_t)을 제시한다 (Hochreiter and Schimidhuber, 1997).

\(\begin{aligned}C_{t}=f_{t} \cdot C_{t-1}+i_{t} \cdot \widetilde{C}_{t}\\\end{aligned}\) (4)

출력 게이트 (o_t)는 현재 셀 상태의 어느 부분을 출력하고자 하는지 결정한다. 그리고 현재 셀 상태 (C_t)를 Hyperbolic tangent 함수에 적용한 값과 출력 게이트 값을 곱하여 현재 시점에서의 상태 (Y_t)를 업데이트한다. 출력 게이트 (o_t)는 공식 (5)와 같다 (Hochreiter and Schimidhuber, 1997).

o_t = σ(W₀⦁ [Y_t-1,X_t] + b_o) (5)

본 연구에서 설계한 LSTM 모형의 은닉층 개수는 100개이며, optimizer는 RMSProp (Hinton et al., 2012)을 사용하였다. 활성 함수 (Activation function)는 Leaky ReLu (Maas et al., 2013)를 이용하였고, 한번에 학습하는 자료의 길이는 30일로 설정하였다. 학습 모형의 learning rate는 0.001로 설정하였으며, 학습 모형의 과적합 (overfitting)은 입력 자료의 정규화(normalization)를 통하여 최소화하였다.

2. SWAT 모형

SWAT 모형은 미국 농무성 (United States Department of Agriculture, USDA)의 농업연구소에서 개발한 유역 단위 준분포형 장기 강우 유출 모형이다 (J. A. Arnold, 1993). SWAT 모형은 토양, 토지이용, DEM, 기상 등의 입력자료들을 활용하여 미계측 지역에 대한 수문 현상을 모의한다. 이러한 SWAT 모형을 이용하여 유출량, 증발산량 및 토양수분 등 다양한 수문 현상을 모의하고 분석하는 연구가 진행되고 있다(Kannan et al., 2007; Shin et al., 2007; Shin et al., 2007; Li et al., 2010; Zhang et al., 2012; Uniyal et al., 2017; Jimeno-Sáez et al., 2018; Zhihua et al., 2020).

3. 연구 유역선정 및 설계

본 연구에서는 전라북도 용담댐 소유역에 위치하는 진안군 유역을 선정하였으며, 유량측정지점은 진안군 성산리 지점에 위치하고 있다. 기상자료는 2000∼2019년의 종관기상관측의 장수 기상관측소의 기상자료 (최저기온, 최대기온, 강수량, 평균 풍속, 평균 상대습도 및 일사량)를 수집하여 사용하였다. SWAT 모형의 구동을 위하여 정밀토양도 (흙토람), 토지이용도 (환경부) 및 DEM (Digital Elevation Model, 국토부) 자료를 수집하였으며, 시험유역은 Fig. 3과 같다. 미래기후변화시나리오 자료는 CMIP5의 RCP 4.5 시나리오를 선정하였다.

NGHHCI_2022_v64n1_39_f0003.png 이미지

Fig. 3 The study area

2000∼2005년 및 2014∼2017년 기간동안의 실측 하천유량을 이용하여 LSTM 모형을 학습 (training) 및 평가 (assessment)하였다. 2006∼2013년 동안의 실측 하천유량은 결측되어 연구에서 제외하였다. 각 연구기간별로 학습 (2000∼2002년 및 2014∼2015년) 및 평가 (2003∼2005년 및 2016∼2017년) 기간을 구분하여 LSTM 모형의 모의 성능을 평가하였다. 또한 전 세계적으로 검증된 SWAT 모형과 LSTM 모형의 모의값을 비교하여 LSTM 모형의 모의성능을 평가하였다. SWAT 모형은 SWAT-CUP을 이용하여 보정하였다. LSTM 모형의 장기 학습 성능을 평가하기 위하여 2000∼2019년 SWAT 일별 유량을 실측 유량으로 가정하여 학습 자료로 사용하였다. 학습(2000∼2015년) 및 평가 (2016∼2019년) 기간으로 구분하여 모의값과 실측값을 비교하였으며, LSTM 모형의 장기간 유량 모의성능을 평가하였다. 미래의 신뢰성 있는 하천유량 예측을 위하여, CMIP5 미래기후변화시나리오와 LSTM 모형을 연계하여 최적의 학습기간을 제시하였다. 이용 가능한 미래의 실측 하천유량이 존재하지 않기 때문에, CMIP5 미래기후변화시나리오를 SWAT 모형의 입력자료로 활용하여 CMIP5(2011∼2100) 기반 모의 일별 유량을 산정하였으며, 산정된 모의 유량을 미래의 하천유량으로 가정하여 LSTM 모형의 학습 및 검증 자료로 사용하였다. 최적의 학습기간 평가를 위한 다양한 시나리오를 선정하였으며, Table 1과 같다. 최적의 학습 기간 평가를 위하여 2011∼2100년까지의 기간을 10년 단위로 구분하여 학습 (training) 기간이 10년 단위로 증가할 경우 평가 (assessment)값의 불확실성이 어느 정도 발생하는지 분석하였다. 또한 예측기간을 40년으로 고정하여 학습기간(10, 20, 30, 40 및 50년)에 따른 LSTM 모형의 모의성능을 추가적으로 분석하였다 (Table 2).

Table 1 Various scenarios to determine the optimal training period

NGHHCI_2022_v64n1_39_t0001.png 이미지

Table 2 Various scenarios which set up the assessment periods to 40 years

NGHHCI_2022_v64n1_39_t0002.png 이미지

모의값과 실측값의 적합도는 Pearson 상관계수 (Pearson’s coefficient, R; Pearson, 1895) 및 불확실성 (Root Mean Square Error, RMSE)을 이용하여 평가하였으며, 공식 (6∼7)과 같다.

\(\begin{aligned}R=\frac{\sum_{n=1}^{N}\left(f_{n}^{\text {pred }}-\bar{f}_{n}^{\text {pred }}\right)\left(f_{n}^{\text {real }}-\bar{f}_{n}^{\text {real }}\right)}{\sqrt{\sum_{n=1}^{N}\left(f_{n}^{\text {pred }}-\bar{f}_{n}^{\text {pred }}\right)^{2} \sum_{n=1}^{N}\left(f_{n}^{\text {real }}-\bar{f}_{n}^{\text {real }}\right)^{2}}}\end{aligned}\) (6)

\(\begin{aligned}R M S E=\sqrt{\frac{\sum_{n=1}^{N}\left(f_{n}^{\text {real }}-f_{n}^{\text {pred }}\right)^{2}}{N}}\end{aligned}\) (7)

여기서, \(\begin{aligned}f_{n}^{\text {pred}}\end{aligned}\)는 산정된 모의 유량 (m³ s^-1), \(\begin{aligned}f_{n}^{\text {pred}}\end{aligned}\)는 실제 유량 (m³ s^-1), \(\begin{aligned} \bar f_{n}^{\text {pred }}\end{aligned}\)는 산정된 모의 유량의 평균 (m³ s^-1), \(\begin{aligned} \bar f_{n}^{\text {real }}\end{aligned}\)는 실제 유량의 평균 (m³ s^-1), N은 입력자료의 총 개수이다

Ⅲ. 결과 및 고찰

1. 딥러닝 LSTM 모형의 일유량 산정 성능 평가

딥러닝 기반 LSTM 모형의 모의 성능 평가를 위하여 시험 유역을 대상으로 SWAT/LSTM 모형 기반의 모의값을 실측값과 비교⋅검증하였다. 연구기간은 하천유량이 관측된 2000∼2005년 및 2014∼2017년을 선정하였다. Fig. 4는 2000∼2005년 실측 하천유량과 SWAT 및 LSTM 모형 기반 모의유량을 비교한 결과를 나타낸다. 2000∼2005년의 경우 SWAT 모형 및 LSTM 모형 기반 모의 유량과 실측 유량의 상관성은 보정/검증이 각각 0.791/0.659 및 0.990/0.619 그리고 불확실성은10.419/13.090 및 2.536/17.434로 나타나 모의값이 실측 유량과 유사하게 나타났다. 전체적으로 검증 기간의 모의값이 보정기간과 비교하여 상관성 및 RMSE가 다소 낮아지는 경향을 보였다. Fig. 5는 2014∼2017년 실측 하천유량과 SWAT 및 LSTM 모형의 모의유량 비교를 나타낸다. SWAT 및 LSTM 모형의 모의 유량과 실측 유량의 상관성은 보정/검증이 각각 0.741/0.815 및 0.999/0.615 그리고 불확실성은 3.897/3.324 및 0.240/4.123으로 나타났다. SWAT 모형의 모의값은 보정 및 검증 기간의 상관성 및 RMSE가 상당히 유사하게 나타났으나, LSTM 모형의 경우 검증기간의 상관성과 RMSE가 다소 낮게 나타났다. 특히 LSTM 모형의 보정기간의 모의결과 (R: 0.999 및 RMSE: 0.240)와 비교하여, 검증기간의 상관성 및 RMSE가 상대적으로 낮은 결과를 보였다. 이는 LSTM 모형이 보정기간의 과적합 되는 경향이 다소 발생하는 것으로 판단되었다. 전체적으로 LSTM 및 SWAT 모형의 모의값이 실측값과 유사한 것으로 나타났다. 그러나 LSTM 모형은 보정기간에 과적합되는 문제가 발생하였으며, SWAT 모형의 경우 보정 및 검증 기간동안에 실측값과 비교하여 과소 산정되는 경향이 발생하였다. 비록 LSTM 및 SWAT 모형의 구조적 특성으로 인한 불확실성이 다소 발생하였으나, LSTM 모형이 전 세계적으로 검증된 SWAT 모형과 유사한 정도의 모의성능을 보이는 것으로 판단되었다. SWAT 모형의 경우 모형 구동을 위해서는 다양한 기상 및 지표특성 자료를 수집하여 입력 자료의 구축이 필요하지만, LSTM 모형의 경우 기상자료와 실측 하천유량 자료만을 가지고 하천유량을 모의할 수 있는 장점이 있다. 따라서 향후 LSTM 모형의 과적합 되는 경향에 관한 추가적인 연구가 필요한 것으로 판단되었다.

NGHHCI_2022_v64n1_39_f0004.png 이미지

Fig. 4 The comparison of measured and SWAT-/LSTM-based streamflow; calibration in 2000∼2002, validation in 2003∼2005

NGHHCI_2022_v64n1_39_f0005.png 이미지

Fig. 5 The comparison of measured and SWAT-/LSTM-based streamflow; calibration in 2014∼2015, validation in 2016∼2017

2. LSTM 모형 장기 유량 예측 성능 평가

LSTM 모형의 검증 결과를 바탕으로, 2000∼2019년 SWAT 일별 유량을 이용하여 LSTM 모형의 장기간 일별 유량 예측 성능을 평가하였다. Fig. 6은 2000∼2019년 SWAT 일별 유량과 LSTM 모형의 유량 산정 결과를 나타낸다. 모의 결과 학습 기간의 경우 SWAT 기반 유량과 비교하여 LSTM 모형 기반 유량의 상관성은 0.998, 불확실성은 0.766으로 나타나 SWAT 기반 유량과 매우 일치하는 것으로 나타났다. 검증 기간의 경우 SWAT 기반 유량과 LSTM 모형 기반 유량의 상관성은 0.901, 불확실성은 4.009로 나타났다. 검증 기간은 학습 기간과 비교하여 다소 상관성이 감소하고 불확실성이 커졌으나, 학습 기간 및 검증 기간을 모두 고려하였을 때 LSTM 모형 기반 유량이 SWAT 기반 모의 유량과 매우 유사하게 나타났다. 본 연구결과를 기반으로 LSTM 모형이 장기적인 하천유량 모의시에도 SWAT 모형과 유사한 모의 성능을 보이는 것으로 판단되었다.

NGHHCI_2022_v64n1_39_f0006.png 이미지

Fig. 6 The LSTM model performance; (a) the scatter plot during the training period(2000∼2015), (b) the scatter plot during the assessment period(2016∼2019), and (c) the comparison of LSTM-/SWAT-based streamflow during the training and assessment periods

3. 미래기후시나리오 기반 최적 학습 기간 제시

미래기후시나리오 기반 유량 예측 시 최적의 학습 기간 제시를 위하여, 2011년부터 2100년까지의 CMIP5 미래기후시나리오의 기상자료와 SWAT 모형을 이용하여 장기간의 모의 유량을 산정하였다. 100년 정도의 실측 유량은 현재까지 이용 가능한 자료가 없으므로, 본 연구에서는 산정된 모의 유량을 실측값으로 가정하여 LSTM 모형을 이용하여 최적의 학습 기간을 제시하였다. 학습 기간별 시나리오 (I∼VIII)에 따른 LSTM 모형의 학습 (Fig. 7) 및 검증 (Fig. 8) 결과를 분석한 결과, 상관성이 0.996 이상 및 불확실성이 2.037 이하로 나타났다. 전체적으로 LSTM 모형 기반 유량이 SWAT 기반 유량과 매우 유사하게 나타났으며, 학습 기간의 LSTM 모형이 각 시나리오별 입력 자료를 잘 학습한 것으로 나타났다. 그러나 검증 구간의 경우 학습 기간별 시나리오에 따라 미래 유량을 예측한 결과가 SWAT 유량과 비교하여 불확실성이 발생하였다. 학습 기간이 10∼20년인 경우 SWAT 기반 유량과 LSTM 모형 기반 유량과의 상관성이 0.396/0.545 및 불확실성이 53.240/31.530으로 상당히 높게 나타났다. 전체 시나리오에서 일별 유량 산정시 검증 기간에서 LSTM 모의값이 SWAT 기반 유량과 비교하여 다소 과소산정되는 것으로 나타났다. LSTM의 경우 통계적 모형이기 때문에 실제 현장에서 발생하는 극한 강우 사상 발생 시 모의 성능에서 제약이 있는 것으로 판단되었다 (Cioffi et al., 2016; Li et al., 2021).

NGHHCI_2022_v64n1_39_f0007.png 이미지

Fig. 7 The training results of LSTM model with the training period scenarios; (a-h) Scenario I∼VIII

NGHHCI_2022_v64n1_39_f0008.png 이미지

Fig. 8 The prediction results of LSTM model with the training period scenarios; (a-h) Scenario I∼VIII

Fig. 9는 학습 기간별 시나리오 기반 LSTM 모형 기반 유량과 SWAT 기반 유량과의 상관성 및 불확실성을 나타낸다. 학습 기간이 10∼20년인 경우에 SWAT 기반 유량과 LSTM 모형 기반 유량과의 상관성은 0.396/0.545 및 불확실성은 53.240/31.530으로 낮게 나타났으나, 30년인 경우 상관성이 0.841 이상 및 불확실성이 12.349 이하로 상관성 및 RMSE가 크게 향상되었다.

NGHHCI_2022_v64n1_39_f0009.png 이미지

Fig. 9 The changes of correlation and uncertainties by comparing the LSTM-/SWAT-based streamflow; (a) Correlation, (b) Uncertainty

Fig. 10은 학습 기간 (10, 20, 30, 40 및 50년)에 따라 예측기간 (40년)의 LSTM 모형의 모의성능 (R 및 RMSE)을 나타낸다. 학습 기간이 10년 및 20년일 때는 모의유량과 실측유량의 상관성이 0.555∼0.584 및 불확실성이 20.564∼29.773으로 모의 성능이 다소 낮게 나타났다. 그러나 학습 기간이 30년, 40년 및 50년인 경우 상관성은 0.841∼0.910 및 불확실성은 10.351∼13.393으로 모의성능이 향상 되는 것으로 나타났다. 따라서 딥러닝 기반의 LSTM 모형을 이용한 장기간의 미래기후시나리오 기반 장기간의 일별 유량을 모의 시 신뢰성 있는 미래 예측을 위해서는 최소 30년 이상의 학습 기간이 필요한 것으로 판단된다. 본 연구는 CMIP5 기후변화시나리오를 이용하여 최적의 학습기간을 제시하였으나, 최근 제공되고 있는 CMIP6 자료를 사용할 경우 추가적인 연구가 필요할 것으로 판단된다.

NGHHCI_2022_v64n1_39_f0010.png 이미지

Fig. 10 The changes of correlation and uncertainties by comparing the LSTM-/SWAT-based streamflow using the 40 year-fixed assessment period scenarios; (a) Correlation, (b) Uncertainty

Ⅳ. 결론

본 연구에서는 딥러닝 기반 LSTM 모형의 일별 하천유량 모의성능을 평가하고 CMIP5 미래기후시나리오와 LSTM 모형을 연계하여 미래의 하천유량산정을 위한 최적 학습 기간을 제시하였다. 시험유역은 전라북도 용담댐 유역의 진안군 유역을 선정하였으며, LSTM 모형의 일별 유량 산정 성능을 평가하기 위하여 2000∼2005년 및 2014∼2017년 실제 일별 유량과 SWAT/LSTM 모형 기반 모의유량을 비교 및 검증하였다. 2000∼2005년의 SWAT 및 LSTM 모형 기반 모의유량과 실측 유량의 상관성 (R)은 보정/검증 구간이 0.791/0.659 및 0.990/0.619로 나타났으며, RMSE는 10.419/13.090 및 2.536/17.434로 나타났다. 2014∼2017년의 경우 SWAT 및 LSTM 모형 기반 모의유량과 실측 유량의 상관성 (R)은 보정/검증 구간이 각각 0.741/0.815 및 0.999/0.615으로 나타났으며, RMSE는 3.897/3.324 및 0.240/4.123으로 나타났다. 전체적으로 LSTM 모형과 SWAT 모형 기반 모의값이 실측값과 유사하게 나타났다. 그러나 LSTM 모형은 보정기간에 과적합 문제가 발생하였으며, SWAT 모형의 경우 보정 및 검증 기간에서 실측값과 비교하여 과소 산정되는 경향이 발생하였다. LSTM 및 SWAT 모형의 모의값 모두에서 불확실성이 다소 발생하였으나, LSTM 모형이 전 세계적으로 검증된 SWAT 모형과 유사한 모의 성능을 보이는 것으로 나타났다. LSTM 모형의 장기간 학습 성능을 평가하기 위하여 2000∼2019년의 실제 기상자료를 이용하여 SWAT 기반 모의 유량을 산정하였다. 학습 구간 (2000∼2015년) 및 검증 구간 (2016∼2019년)을 설정하고, SWAT 모의 유량을 실측값으로 가정하여 LSTM 모형의 일별 유량 예측성능을 평가하였다. 학습 기간의 경우 SWAT 유량과 LSTM 모형 기반 유량의 상관성 (R)은 0.998 및 RMSE는 0.766으로 나타났으며, 검증 기간의 경우 상관성(R)이 0.901 및 RMSE는 4.009로 LSTM 모형 기반 유량이 장기간의 SWAT 모형과 유사한 모의성능을 보였다. SWAT 모형의 경우 하천유량 산정시 다양한 기상 및 지표특성 자료가 우선적으로 구축되어야 하지만, LSTM 모형의 경우 실측 하천유량과 기상자료만을 가지고 하천유량을 모의 할 수 있기 때문에 향후 LSTM 모형의 활용 가능성이 높을 것으로 판단되었다. 다만 LSTM 모형의 과적합 문제를 개선하기 위한 추가적인 연구가 필요할 것으로 판단되었다.

LSTM 모형의 성능 검증 결과를 바탕으로, 2011년부터 2100년까지의 CMIP5 미래기후시나리오 기상자료를 이용하여 일별 유량을 산정하였다. 학습 기간별 시나리오를 이용하여 보정 및 검증 결과를 비교하였으며, 검증 결과 학습 자료가 30년 이상일 때 SWAT 기반 유량과 LSTM 모형 기반 유량의 상관성이 0.841∼0.916, 불확실성이 8.163∼12.349로 나타나 LSTM 모형 기반 유량이 SWAT 기반 유량을 잘 반영하는 것으로 나타났다. 그러나 학습 기간이 10∼20년일 때는 LSTM 모형의 예측값의 불확실성이 높게 나타났다. 이는 예측 기간을 40년으로 고정하여 학습 기간을 조절하였을 때에도 학습 기간을 30년 이상 설정하였을 경우, 모의유량과 실측유량의 상관성 및 RMSE 값이 크게 향상되었다. 딥러닝 기반의 LSTM 모형과 미래기후시나리오를 연계하여 미래 장기간의 일별 유량을 모의할 경우 신뢰성 있는 미래 예측을 위해서는 최소 30년 이상의 학습 기간이 필요한 것으로 판단된다. 다만 수문모형의 자료를 학습 자료로 활용하여 다소 성능이 과대 산정 (유량의 실측오차, 딥러닝 기법의 구조적 결함, 기상자료의 불확실성 등)될 수 있는 한계가 존재한다. 특히 SWAT 모의값을 실측유량으로 가정하여 LSTM 모형을 평가한 경우 실측 오차가 배제되어 모의 성능이 다소 과대산정될 수 있으며, 추후 장기간의 실측 유량을 확보하여 추가적인 연구가 필요한 것으로 판단된다.

감사의 글

본 연구는 환경부 “표토보전관리기술개발사업; 2019002820002”으로 지원받은 과제임.

References

Abbaspour, K. C., 2013. Swat-cup 2012. SWAT calibration and uncertainty program-A user manual.
Arnold, J. G., P. M. Allen, and G. Bernhardt, 1993. A comprehensive surface-groundwater flow model. Journal of Hydrology 142(1-4): 47-69. doi:10.1016/0022-1694(93)90004-S.
Ayzel, G., L. Kurochkina, E. Kazakov, and S. Zhuravlev, 2020. Streamflow prediction in ungauged basins: benchmarking the efficiency of deep learning. In E3S Web of Conferences (Vol. 163, p. 01001). EDP Sciences. doi:10.1051/e3sconf/202016301001.
Boulmaiz, T., M. Guermoui, and H. Boutaghane, 2020. Impact of training data size on the LSTM performances for rainfall-runoff modeling. Modeling Earth Systems and Environment 6: 2153-2164. doi:10.1007/s40808-020-00830-w.
Bui, V., N. T. Le, V. H. Nguyen, J. Kim, and Y. M. Jang, 2021. Multi-behavior with bottleneck features LSTM for load forecasting in building energy management system. Electronics 10(9): 1026. https://doi.org/10.3390/electronics10091026
Cioffi, F., F. Conticello, U. Lall, L. Marotta, and V. Telesca, 2017. Large scale climate and rainfall seasonality in a Mediterranean Area: Insights from a non-homogeneous Markov model applied to the Agro-Pontino plain. Hydrological Processes 31(3): 668-686. doi:10.1002/hyp.11061.
Dogan, S. Isik, T. Toluk, and M. Sandalci, 2007 Daily streamflow forecasting using artificial neural networks. In International Congress on River Basin Management (pp. 22-24).
Fu, M., T. Fan, Z. A. Ding, S. Q. Salih, N. Al-Ansari, and Z. M. Yaseen, 2020. Deep learning data-intelligence model based on adjusted forecasting window scale: Application in daily streamflow simulation. IEEE Access 8: 32632-32651. doi:10.1109/ACCESS.2020.2974406.
Gao, S., Y. Huang, S. Zhang, J. Han, G. Wang, M. Zhang, and Q. Lin, 2020. Short-term runoff prediction with GRU and LSTM networks without requiring time step optimization during sample generation. Journal of Hydrology 589: 125188. doi:10.1016/j.jhydrol.2020.125188.
He, X., J. Luo, G. Zuo, and J. Xie, 2019. Daily runoff forecasting using a hybrid model based on variational mode decomposition and deep neural networks. Water Resources Management 33(4): 1571-1590. doi:10.1007/s11269-019-2183-x.
Hinton, G., N. Srivastava, and K. Swersky, 2012. Neural networks for machine learning lecture 6a overview of mini-batch gradient descent. Cited on, 14(8): 2.
Hochreiter, S., and J. Schmidhuber, 1997. Long short-term memory. Neural Computation 9(8): 1735-1780. doi:10.1162/neco.1997.9.8.1735.
Hu, C., Q. Wu, H. Li, S. Jian, N. Li, and Z. Lou, 2018. Deep learning with a long short-term memory networks approach for rainfall-runoff simulation. Water 10(11): 1543. doi:10.3390/w10111543.
Hussain, D., T. Hussain,, A. A. Khan,, S. A. A. Naqvi, and A. Jamil, 2020. A deep learning approach for hydrological time-series prediction: A case study of Gilgit river basin. Earth Science Informatics 13(3): 915-927. doi:10.1007/s12145-020-00477-2.
Husken, M., and P. Stagge, 2003. Recurrent neural networks for time series classification. Neurocomputing 50: 223-235. doi:10.1016/S0925-2312(01)00706-8.
Jimeno-Saez, P., J. Senent-Aparicio, J. Perez-Sanchez, and D. Pulido-Velazquez, 2018. A comparison of SWAT and ANN models for daily runoff simulation in different climatic zones of peninsular Spain. Water 10(2): 192. doi:10.3390/w10020192.
Jung, S., H. Cho, J. Kim, and G. Lee, 2018. Prediction of water level in a tidal river using a deep-learning based LSTM model. Journal of Korea Water Resources Association 51(12): 1207-1216 (in Korean). doi:10.3741/JKWRA.2018. 51.12.1207.
Kannan, N., S. M. White, F. Worrall, and M. J. Whelan, 2007. Sensitivity analysis and identification of the best evapotranspiration and runoff options for hydrological modelling in SWAT-2000. Journal of Hydrology 332(3-4): 456-466. doi:10.1016/j.jhydrol.2006.08.001.
Kim, H. I., K. Y. Han, and J. Y. Lee, 2020. Prediction of Urban Flood Extent by LSTM Model and Logistic Regression. KSCE Journal of Civil and Environmental Engineering Research 40(3): 273-283 (in Korean). doi:10.12652/Ksce.2020.40.3.0273.
Kratzert, F., D. Klotz, M. Herrnegger, A. K. Sampson, S. Hochreiter, and G. S. Nearing, 2019. Toward improved predictions in ungauged basins: Exploiting the power of machine learning. Water Resources Research 55(12): 11344-11354. doi:10.1029/2019WR026065.
Kratzert, F., D. Klotz, S. Hochreiter, and G. S. Nearing, 2021. A note on leveraging synergy in multiple meteorological data sets with deep learning for rainfall-runoff modeling. Hydrology and Earth System Sciences 25(5): 2685-2703. doi:10.5194/hess-25-2685-2021.
Le, X. H., H. V. Ho, and G. Lee, 2019. River streamflow prediction using a deep neural network: a case study on the Red River, Vietnam. Korean Journal of Agricultural Science 46(4): 843-856. doi:10.7744/kjoas.20190068.
Lee, G., S. Jung, and D. Lee, 2018. Comparison of physics-based and data-driven models for streamflow simulation of the Mekong river. Journal of Korea Water Resources Association 51(6): 503-514 (in Korean). doi:10.3741/JKWRA.2018.51.6.503.
Li, M., Z. Ma, and J. Du, 2010. Regional soil moisture simulation for Shaanxi Province using SWAT model validation and trend analysis. Science China Earth Sciences 53(4): 575-590. doi:10.1007/s11430-010-0031-1.
Li, W., A. Kiaghadi, and C. Dawson, 2021. High temporal resolution rainfall-runoff modeling using long-short-term-memory (LSTM) networks. Neural Computing and Applications 33: 1261-1278. doi:10.1007/s11430-010-0031-1.
Liu, D., W. Jiang, L. Mu, and S. Wang, 2020. Streamflow prediction using deep learning neural network: Case study of Yangtze river. IEEE Access 8: 90069-90086. doi:10.1109/ACCESS.2020.2993874.
Maas, A. L., A. Y. Hannun, and A. Y. Ng, 2013. Rectifier nonlinearities improve neural network acoustic models. In Proc. icml (Vol. 30, No. 1, p. 3).
Mahsa, M., and T. Lee, 2018. Comparison of optimization algorithms in deep learning-based neural networks for hydrological forecasting: Case study of nam river daily runoff. Journal of the Korean Society of Hazard Mitigation 18(6): 377-384 (in Korean). doi:10.9798/KOSHAM.2018.18.6.377.
Pearson, K., 1895. Correlation coefficient. In Royal Society Proceedings (Vol. 58, p. 214).
Samantaray, S., and A. Sahoo, 2020. Appraisal of runoff through BPNN, RNN, and RBFN in Tentulikhunti watershed: A case study. In Frontiers in Intelligent Computing: Theory and Applications (pp. 258-267). Springer, Singapore. doi:10.1007/978-981-13-9920-6_26.
Shin, Y. C., K. J. Lim, K. S. Kim, and J. D. Choi, 2007. Analysis of watershed runoff and sediment characteristics due to spatio-temporal change in land uses using SWAT model. KCID Journal 14(1): 50-56 (in Korean).
Shin, Y. C., M. H. Shin, W. K. Kim, K. J. Lim, and J. D. Choi, 2007. Estimation of streamflow discharges using Kajiyama equation and SWAT Model. KCID Journal 14(1): 41-49 (in Korean).
Tran, Q. K., and S. K. Song, 2017. Water level forecasting based on deep learning: A use case of Trinity River-Texas-The United States. Journal of KIISE 44(6): 607-612 (in Korean). doi:10.5626/JOK.2017.44.6.607.
Uniyal, B., J. Dietrich, C. Vasilakos, and O. Tzoraki, 2017. Evaluation of SWAT simulated soil moisture at catchment scale by field measurements and Landsat derived indices. Agricultural Water Management 193: 55-70. doi:10.1016/j.agwat.2017.08.002.
Xiang, Z., and I. Demir, 2020. Distributed long-term hourly streamflow predictions using deep learning-A case study for State of Iowa. Environmental Modelling & Software 131: 104761. doi:10.1016/j.envsoft.2020.104761.
Xiang, Z., J. Yan, and I. Demir, 2020. A rainfall-runoff model with LSTM-based sequence-to-sequence learning. Water Resources Research 56(1): e2019WR025326. doi:10.1029/2019WR025326.
Zhang, A., C. Zhang, G. Fu, B. Wang, Z. Bao, and H. Zheng 2012. Assessments of impacts of climate change and human activities on runoff with SWAT for the Huifa River Basin, Northeast China. Water Resources Management 26(8): 2199-2217. doi:10.1007/s11269-012-0010-8.
Zhang, and K. F. Man, 1998. Time series prediction using RNN in multi-dimension embedding phase space. In Proc. 1998 IEEE International Conference on Systems, Man, and Cybernetics (Vol. 2, pp. 1868-1873). IEEE. doi:10.1109/ICSMC.1998.728168.
Zhihua, L. V., J. Zuo, and D. Rodriguez, 2020. Predicting of runoff using an optimized SWAT-ANN: A case study. Journal of Hydrology: Regional Studies 29: 100688. doi:10.1016/j.ejrh.2020.100688.

Journal of The Korean Society of Agricultural Engineers (한국농공학회논문집)

Estimation of Optimal Training Period for the Deep-Learning LSTM Model to Forecast CMIP5-based Streamflow

CMIP5 기반 하천유량 예측을 위한 딥러닝 LSTM 모형의 최적 학습기간 산정

Abstract

Keywords

Ⅰ. 서론

Ⅱ. 연구 방법

1. RNN-LSTM

2. SWAT 모형

3. 연구 유역선정 및 설계

Ⅲ. 결과 및 고찰

1. 딥러닝 LSTM 모형의 일유량 산정 성능 평가

2. LSTM 모형 장기 유량 예측 성능 평가

3. 미래기후시나리오 기반 최적 학습 기간 제시

Ⅳ. 결론

감사의 글

References

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)