1. 서론
해양은 대기보다 더 큰 열 함량을 가지고 열 수송 역할을 하여 대규모 남북 순환에 의해 전 지구 규모로 기후에 영향을 끼친다. 해수면 온도는 기상현상에서 주요한 요인이며 해수면 온도 변화는 해양의 순환과 생태계기능 및 역할에 큰 변화를 초래한다(Bader and Latif,2003; Stockdale et al., 2006). 수온 급변은 해양 생물 서식환경 악화, 해양산성화에 따른 수중 생태환경 변화, 어종의 변화와 출현 감소 등을 초래한다. 또한 해수면 온도 상승은 바닷물을 팽창하여 해수면 상승 가속화의 원인이 되어 해안범람으로 인한 인명피해로 이어질 수 있다(Aral and Guan, 2016; Kumar et al., 2021). 따라서 해수면 온도는 지구시스템에서 중요한 요인이다.
최근 한반도 연근해 지구온난화로 인한 해수면 온도 변화로 인해 겨울철(12~2월)에는 저수온 현상(Lowwater temperature, LWT)이 집중되고 여름철(7~9월)에는 고수온 현상(High water temperature, HWT)이 집중되어 해양생태계와 수산업 피해를 지속적으로 발생시키고 있다(Lee et al., 2008; Nowicki et al., 2012). 저수온현상은 수온하강으로 생리·대사 저하, 영양 결핍, 질병저항성 저하 등을 야기하여 고 수온성 어류(참돔, 돌돔,농어 등)의 대량 폐사를 일으킨다. 고수온 현상은 수온상승으로 용존산소 변화로 인해 저수온성 어류(조피볼락, 넙치 등)의 대량 폐사 발생을 야기한다(Lee et al., 2018).해수면 온도 변화로 인한 피해를 예방하기 위해 국립수산과학원에서는 저수온과 고수온 특보제를 운영하고있다. 저수온 특보제는 주의보(수온 4°C 도달 및 전일대비 3°C 하강 또는 평년 대비 2°C 하강), 관심(주의보발령 예측 7일 전후), 경보(수온 4°C 이하 3일 이상 지속)로 발령된다. 고수온 특보제는 주의보(수온 28°C도달), 관심(주의보 발령 약 7일 전), 경보(주의보 3일 이상 지속)로 발령된다. 저수온 현상은 양식어가에 2017년 77.9억원, 2018년 103.4억원, 2021년 8억원, 2022년 0.7억원의 피해액을 발생시켰다(MOF, 2022). 고수온 현상은 2016년 이후부터 매년 약 22일 이상 고수온 현상이 지속되며,2016년 183.6억원, 2017년 78.8억원, 2018년 604.6억원,2019년 9.7억원, 2021년 196.9억의 피해액을 발생시켰다(MOF, 2021). 해양수산부에서는 이상 수온 피해를 최소화하기 위해 지방자치단체, 국립수산과학원과 함께 예방 중심적 대응체계를 확립하고 실시간 수온 관측망을 운영하여 관측하는 등 수온 변화로 인한 피해를 대비하고 있다.
딥러닝 알고리즘을 이용한 해수면 온도 예측 연구들은 다양하게 연구되어 왔다. Zhang et al. (2017) 연구에서는 중국 연해 장단기 해수면 온도 예측을 위해 SupportVector Machine과 Long Short-Term Memory (LSTM) 모델로 1~3일 해수면 온도 예측 실험을 진행하였고, 실험결과 LSTM 모델의 성능이 우수함을 증명하였다. Kim etal. (2020)는 전라남도 고흥에서 여수 연안의 해수면 온도예측과 고수온 탐지 실험을 통해 해수면 온도 예측모델 트레이닝에서 해수면 온도 데이터와 기상 데이터를 함께 트레이닝 하는 것이 해수면 온도 데이터만 사용하여 예측모델보다 정확도가 향상된다고 제안하였다. Jung etal. (2020) 연구에서는 LSTM과 Convolutional LSTM을 이용하여 한반도 남해 지역의 해수면 온도 예측과 고수온을 탐지하는 실험을 통해 LSTM보다 ConvolutionalLSTM의 성능이 우수함을 증명하였다. Choi et al. (2021)연구에서는 LSTM을 이용하여 남해안 지역의 한 픽셀에 대해 1~7일 해수면 온도 예측과 고수온 탐지 실험을 진행하였고, 단기간 예측이 장기간 예측 모델보다 성능이 우수함을 증명하였다. Ko et al. (2021)에 의하면 LSTM모델을 활용하여 이어도 기지의 해수면 온도 예측 실험을 통해 해수면 온도만 활용한 모델보다 기상 데이터를 함께 활용한 모델이 우수함을 증명하였다.
기존 연구 대부분 LSTM 모델을 활용하여 일부 지역에 대한 해수면 온도 예측 연구들이 수행되었지만 한반도 근해 전체에 대한 해수면 온도 예측하는 연구는 없었다. 따라서 본 연구는 LSTM 기법을 활용하여 한반도 근해 해수면 온도를 예측하고 저수온과 고수온과 같은 이상 수온 탐지로 해양 경제 피해를 예방하는 방법론을 제안한다. 연구 지역은 일부 픽셀에 대한 해수면 온도 예측하는 사전연구들을 확장시켜 한반도 근해의 해수면 온도를 예측하였다. 연구데이터는 데이터 결측이 없는 동시간대 해수면 온도를 감시하기 위해 위성 데이터 재분석 자료를 이용하였다. 연구방법으로는 사전 연구들을 참고하여 해수면 온도의 시계열 흐름 특징을 고려해 딥러닝 알고리즘 중 시계열 예측에 특화된 LSTM 알고리즘을 이용하였다. 해수면 온도를 예측하고 이상 수온 현상을 탐지하여 해수면 온도 예측 정확도와 이상 수온 발생지역의 공간적 분포를 분석하였다.
2. 데이터
1) 연구 지역
본 연구에서 연구 지역은 국립수산과학원의 저수온과 고수온 특보 발령 해역도를 참고하여 한반도 근해위도 33–38.75°N와 경도 124.5–130.25°E로 지정하였다(Fig. 1). 해수면 온도 흐름과 이상 수온 현상이 발생하는 지역을 파악하기 위해 한반도 근해를 연구지역으로 선정하였다. 해수면 온도 데이터는 foundation SST를 사용하는데 이는 태양의 일일 주기(diurnal variation)로 인한 변동이 없는 해수면 온도 자료이다(Donlon et al., 2007). 연구기간은 2000년부터 2021년까지 지정하였으며, 매 정오 시간이 해수면 온도가 하루 중에 가장 높다고 가정하여 정오 시간의 해수면 온도 데이터를 사용하였다.
Fig. 1. Study area
Table 1. Description of data from the European Centre for Medium-Range Weather Forecasts (ECMWF) for use in this study
LSTM 기법을 활용하여 해수면 온도 예측 모델을 생성하기 위해서는 예측 모델 훈련과정에서 10년치 데이터 누락이 없는 해수면 온도 자료가 필요하다. 따라서 1979년부터 현재까지 데이터를 제공해주는 유럽중기예보센터(European Centre for Medium-Range WeatherForecasts, ECMWF)의 ‘ERA5 hourly data on single levelsfrom 1979 to present’ 데이터셋을 사용하였다. ERA5는1시간 간격의 해상도를 가지며 공간해상도는 0.25°×0.25°를 가진다. 데이터는 기후 데이터 저장소(ClimateData Store, CDS) 웹 인터페이스(https://cds.climate.copernicus.eu/cdsapp#!/dataset/reanalysis-era5-singlelevels)를 통해 다운로드하거나, CDS API 서비스를 통해 다운로드 할 수 있다.
2) 이상 수온 현상
국립수산과학원에서는 고수온과 저수온 특보 발령기준을 28°C와 4°C로 지정하였다. 연구 지역에 대해 2017년부터 2021년까지의 고수온(HWT)과 저수온(LWT)현상을 분석하였으며 카운트한 결과는 Fig. 2와 같다. 고수온 현상은 주로 남해안 지역에서 지속적으로 발생하였으며, 2018년의 경우 서해안까지 확대되었고 2021년의 경우 동해안까지 확대되었다. 저수온 현상은 주로 서해안 지역에서 나타나는 것을 확인할 수 있다.
Fig. 2. (a) is the number of occurrences of high water temperature (HWT) and (b) is the low water temperature (LWT) near the Korean Peninsula from 2017 to 2021.
3) 연구 데이터 분석
해수면 온도 데이터는 계절적 특징과 시계열 흐름 특징을 가지고 있다. 본 연구에서는 이상 수온의 분류 기준은 국립수산과학원 저수온과 고수온 특보를 바탕으로 설정하였으며, 저수온의 경우 4°C 이하와 평년대비2°C 이상 낮아지는 경우를 기준으로 지정하였고, 고수온은 28°C 이상과 평년대비 2°C 이상 증가하는 경우를 기준으로 지정하였다. Fig. 3(a)는 연구 지역 중에서 고수온 현상이 자주 발생하는 여수와 거제 사이에 위치한 남해안 지역 Target 1 (34.5°N 128.25°E)이고, Target 2(37.0°N 126.0°E)는 저수온 현상이 자주 발생하는 가로림만 근처 서해안 지역이다. Fig. 3(b)는 Target 1 지역에 대한 연구기간 2000년부터 2021년까지의 해수면 온도 추이를 시계열로 분석한 결과 고수온 기준인 28°C 이상 해수면 온도가 증가하는 것을 확인할 수 있었으며, 최근 5년 사이에 고수온 현상이 지속적으로 발생하는 경향을 보이는 것을 확인할 수 있었다
Fig. 3. (a) is the two targets (34.5°N 128.25°E and 37.0°N 126.0°E) in the study area, (b) and (c) are SST time series graphs for Target 1 and Target 2 (red line of (b) and (c) means 28°C and 4°C).
Fig. 3(c)는 Target 2 지역에 대한 연구 기간의 해수면 온도이고 저수온 기준인 4°C 이하로 해수면 온도가 하강하는 것을 확인할 수 있다. 또한 이 기간 동안 해상 지역에서는 2007년을 제외하고는 매 해 저수온 현상이 발생하고 있는 것을 확인할 수 있다. Target 1과 2 모두 매년 비슷한 온도 흐름을 가지는 것을 확인할 수 있다. 따라서 본 연구는 해수면 온도 데이터 시계열 흐름을 고려하여 연구방법으로 딥러닝 기반 시계열 데이터 예측에 특화된 LSTM 알고리즘을 활용하였다
3. 연구방법
1) 연구 흐름도
해수면 온도 예측과 이상 수온 탐지를 위한 연구 흐름도는 Fig. 4와 같으며, 예측 모델 트레이닝, 예측 모델테스트, 이상 수온 탐지로 구성된다. 예측 모델 트레이닝 단계에서는 m일 이후 연구 지역의 해수면 온도를 예측하는 모델을 생성한다. 이때 연구 지역의 2000년부터 2020년까지 해수면 온도를 사용하여 각 픽셀마다 해수면 온도 예측 모델을 생성하였다. 이는 각 픽셀 지역의 수온 특성을 고려하여 예측 정확도를 높이기 위한 구조이다. 연구 지역 전체 픽셀 수는 육지를 제외한 374개이므로 예측 모델 수 또한 374개로 구성된다.
Fig. 4. Study flow chart.
생성된 예측 모델에 테스트 데이터를 입력하여 해수면 온도를 예측하고 예측한 해수면 온도가 이상 수온인지 탐지하고, 해수면 온도 예측 정확도와 이상 수온 분류 정확도 평가를 진행하였다. 해수면 온도 예측 정확도 평가는 결정계수(Coefficient of determination, R2), 평균제곱근 편차(Root Mean Squared Error, RMSE), 평균 절대 백분율 오차(Mean Absolute Percentage Error, MAPE)를 사용하였다. 이상 수온 분류 정확도 평가는 모델의 분류 성능 평가에 사용되는 수신자 조작 특성 공간분석(Receiver Operating Characteristic Space, ROC )과 F1 Score로 이상 수온 분류 성능평가를 진행하였다.
2) LSTM
Recurrent Neural Network (RNN)은 연속적인 시계열(time-series) 데이터 처리에 적합한 모델로 알려져 있다(Cai and Liu, 2016; Graves et al., 2009; Zhao et al., 2019). 입력층, 은닉층, 출력층으로 구성되어 있으며 입출력 데이터로 반복 학습하는 순환구조이다. RNN은 시간이 길어질수록 과거 데이터에 대한 기억이 소실되어 미래의 데이터에 반영 되지 않는 기울기 소실(Vanishing Gradient)문제가 있다(Bengio et al., 1994). 이러한 RNN의 장기의존성(Long-Term Dependency) 문제를 해결하기 위해 Hochreiter and Schmidhuber (1997)는 LSTM 네트워크를 제안하였다. 네트워크 은닉층에 forget gate, input gate, output gate를 추가하여 시간이 오래된 정보도 기억하여 RNN의 장기 의존성 문제를 해결한 네트워크 구조이다. Fig. 5는 RNN과 LSTM 구조이다.
Fig. 5. (a) RNN and (b) LSTM structure
LSTM 구조에는 장기간 동안 기억되는 cell state(C)와 단기간 동안 기억되는 hidden state(h)가 있으며, 다음 단계에 입력될 cell state(Ct)와 hidden state(ht)를 업데이트해서 기억할 정보와 잊어버릴 정보 계산하는 구조이다. 현재 입력 값(xt)과 이전 hidden state(ht–1)를 sigmoid 함수(σ)를 이용하여 forget gate에서는 잊어버릴 정보를 결정하고 input gate에서는 기억할 정보를 결정한다. 여기서 W와 t는 각 게이트의 가중치와 편향값이다. 동시에 입력값(xt)과 이전 hidden state(ht–1)를 tanh 함수를 통해 새로운 vector(\(\widetilde{C}_{t}\))를 만들고, forget gate와 input gate의 값들을 더하여 새로운 cell state(Ct)로 업데이트한다. forgetgate, input gate의 수식은 다음과 같다.
\(f_{t}=\sigma\left(W_{f} \cdot\left[h_{t-1}, x_{t}\right]+b_{f}\right)\) (1)
\(i_{t}=\sigma\left(W_{i} \cdot\left[h_{t-1}, x_{t}\right]+b_{i}\right)\) (2)
\(\widetilde{C}_{t}=\tanh \left(W_{c} \cdot\left[h_{t-1}, x_{t}\right]+b_{c}\right)\) (3)
\(C_{t}=f_{t} \times C_{t-1}+i_{t} \times \widetilde{C}_{t}\) (4)
마지막 단계인 output gate는 다음 단계에 입력될 hidden state(ht)를 결정하며 수식은 다음과 같다.
\(o_{t}=\sigma\left(W_{o} \cdot\left[h_{t-1}, x_{t}\right]+b_{o}\right.\) (5)
\(h_{t}=o_{t} \times \tanh \left(C_{t}\right)\) (6)
3) 예측 모델 트레이닝
각 픽셀마다 m일 이후 해수면 온도를 예측하는 예측 모델을 생성한다. 예측모델 트레이닝과 테스트에 사용되는 데이터는 각 픽셀에서 2000년부터 2020년까지는 트레이닝 데이터로 사용하고 2021년은 테스트 데이터로 사용했다. 트레이닝 데이터 셋 X를 수식으로 표현하면 아래와 같다. 여기서 n은 2000년부터 2020년까지의 날짜(days)의 전체 날짜 수(7,672 = 365×21 years)를 의미한다.
\(X=x_{1}, x_{2}, x_{3}, \ldots, x_{n}\) (7)
LSTM 모델을 최적화하기 위해서 손실 함수는 평균절대오차(Mean absolute error)로 결정하였고, 최적화 알고리즘은 Adaptive Moment Estimation (Adam) Optimizer를 사용하였다. 하이퍼파라미터 Epoch Size, Batch Size, Window Size, Learning rate는 사전 연구들을 참고하고 경험적 실험을 통해 결정하였다. 남해안 지역의 한 픽셀(34.5°N 128.25°E)에 대해 2021년 4일 예측 실험을Epoch size (50, 100, 150), Batch size (32, 64, 128), Windowsize (5, 15, 30), Learning rate (0.1, 0.01, 0.0001)에 대해 진행하였고, RMSE 값이 가장 낮고 한 픽셀의 모델 훈련시간이 1분 이하였던 Epoch Size 100, Batch Size 64, WindowSize 15, Learning rate 0.01로 하이퍼파라미터를 선정하였다. 아래 수식은 Input data set을 나타낸 수식으로 t는 Input data set의 기준일(standard date)을 의미한다.
\(X_{t}=x_{x-14}, x_{x-13}, x_{x-12}, \ldots, x_{t}(15 \leq t \leq n)\) (8)
LSTM 모델의 Input data shape은 (Data size, Windowsize, Features)이며 Output data shape은 (Data size)이다.따라서 본 연구의 ‘m일 이후 해수면 온도 예측 모델’ 트레이닝의 Input data shape Xt는 (7,672, 15, 1)이고 Outputdata shape Ht+m은 (7,672)이며, Fig. 6와 같이 다대일(manyto-one) 구조로 되어있다.
Fig. 6. Structure of the many-to-one LSTM model.
Fig. 7은 ‘2일 이후 해수면 온도 예측 모델’ 트레이닝 과정의 1 step을 보여준다. 2일 예측모델 트레이닝 과정에서 2018년 8월 22일의 해수면 온도를 예측하기 위해서 Input data set (Xt = xt–14, xt–13, …, xt–1, xt)은 2018년 8월 5일부터 20일까지이고, Output data set (Ht+2)은 8월 22일이 된다. Input data set으로 예측한 값과 Output data set을 비교는 과정을 반복하는 트레이닝 과정을 거쳐 m일이후 해수면 온도 예측 모델을 생성한다.
Fig. 7. Part of the 2-day SST prediction model training.
4) 예측 모델 테스트
m일 이후 해수면 온도 예측 모델은 연구 지역의 각 픽셀마다 기준일부터 15일 이전 데이터(Xt = xt–14, xt–13, …,xt–1, xt)를 입력하면 기준일에서 m일 이후 해수면 온도(Ht+m)를 예측하는 구조이다. 모델 테스트 과정은 첫 번째,육지를 제외한 연구 지역 모든 픽셀의 예측 모델에 Inputdata set (\(X_{t}^{(0,0)}, X_{t}^{(0,1)}, \ldots, X_{t}^{(23,22)}, X_{t}^{(23,23)}\))을 입력하여 Outputdata set (\(H_{t+m}^{(0,0)}, H_{t+m}^{(0,1)}, \ldots, H_{t+m}^{(23,22)}, H_{t+m}^{(23,23)}\))을 예측한다. 두번째로 예측한 해수면 온도 데이터를 매핑(mapping)하여 한반도 근해 해수면 온도 지도를 생성한다. 모델 테스트 과정은 Fig. 8과 같다.
Fig. 8. Testing processes for the SST prediction model.
5) 정확도 평가
본 연구의 예측모델 정확도 평가를 위해 ECMWF 해수면 온도(\(S S T^{o b s} \operatorname{map}_{t+m}\))와 예측한 해수면 온도(\(S S T^{e s t} \operatorname{map}_{t+m}\))를 사용하여 예측 모델의 해수면 온도 예측 정확도 평가와 이상 수온 탐지 분류 평가를 진행하였다. 고수온 예측 결과의 정확도를 평가하기 위해 2021년 7월부터 9월(Jul., Aug., Sep.; JAS)까지 90일을 고수온 테스트 기간으로, 저수온 예측 결과의 정확도를 평가하기 위해 2021년 1월부터 3월(Jan., Feb., Mar.; JFM)까지 90일을 저수온 테스트 기간으로 각각 선정하였다. 수식은 다음과 같으며 이때 t는 기준일이고 m은 예측 기간을 의미한다. 한 픽셀의 ECMWF 해수면 온도는 \(S S T^{o b s} p x l_{t+m}\)이고, 예측한 해수면 온도는 \(S S T^{e s t} p x l_{t+m} ; H_{t+m}\)이다. 여기서 \(S S T^{o b s} p x l s_{t+m}\)는 한 픽셀에 대한 90일간 ECMWF의 해수면 온도이고, \(S S T^{e s t} p x l s_{t+m}\)는 한 픽셀에 대한 90일간의 예측한 해수면 온도 리스트이다. \(S S T^{o b s} \operatorname{map}_{t+m}\)는 연구지역에서 ECMWF의 90일간 모든 픽셀의 해수면 온도이고 \(S S T_{-}^{\text {est }} \operatorname{map}_{t+m}\)는 연구지역에서 예측 모델로 예측한 90일간의 모든 픽셀의 해수면 온도이다(예측모델의 개수=374).
\(S S T^{o b s} p x l_{t+m}=\sum_{i=1}^{90} S S T^{o b s} p x l_{t+m}^{i}\) (9)
\(S S T^{e s t} p x l s_{t+m}=\sum_{i=1}^{90} S S T^{e s t} p x l_{t+m}^{i}\) (10)
\(S S T^{o b s} \operatorname{map}_{t+m}=\sum_{i=1}^{374} S S T^{o b s} p x l s_{t+m}^{i}\) (11)
\(S S T^{\text {est }} \operatorname{map}_{t+m}=\sum_{i=1}^{374} S S T^{\text {est }} p x l s_{t+m}^{i}\) (12)
예측 모델의 여름철과 겨울철 해수면 온도 예측 정확도 평가를 위해 회귀 모델 평가 지표들을 아래의 식과같이 사용하였다.
\(R_{\text {map }}^{2}=1-\frac{\sum_{i}^{n}\left(S S T^{o b s} p x l_{t+m}^{i}-S S T^{e s t} p x l_{t+m}^{i}\right)^{2}}{\sum_{i}^{n}\left(S S T^{o b s} p x l_{t+m}^{i}-\overline{S S T^{o b s} p x l s_{t+m}}\right)^{2}}\) (13)
\(\overline{S S T_{\text {obs }}^{p x l s_{t+m}}}=\frac{1}{n} \sum_{i}^{n} S S T^{o b s} p x l_{l+m}^{i}\) (14)
\(R M S E_{\text {map }}=\sqrt{\frac{\sum_{i}^{n}\left(S S T^{o b s} p x l_{l+m}^{i}-S S T^{e s t} p x l_{t+m}^{i}\right)^{2}}{n}}\) (15)
\(M A P E_{m a p}=\frac{100 \%}{n} \sum_{i}^{n}\left|\frac{S S T^{o b s} p x l_{i+m}^{i}-S S T^{e s t} p x l_{t+m}^{i}}{S S T^{o b s} p x l_{i+m}^{i}}\right|\) (16)
이때 n은 34,034(=374×90)으로 \(S S T^{o b s} \operatorname{map}_{t+m}\)와 \(S S T^{e s t} \operatorname{map}_{t+m}\)의 총 픽셀 수(374개)와 여름철(JAS) 또는 겨울철(JFM)의 날짜 수(90일)의 곱이다. \(R_{\text {map }}^{2}\)는 실제 값과 예측 값 사이 상관관계 정도를 나타내는 지표로 0과 1 사이의 값을 가지며 1에 가까울수록 상관관계가 높음을 알 수 있다. \(R M S E_{\text {map }}\)는 실제 값과 예측 값 차이를 나타내는 직관적인 지표이다. \(R M S E_{\text {map }}\)는 과소추정 혹은 과대추정인지 파악하기 힘든 단점이 있기 때문에 이러한 단점을 고려하여 오차를 비율(%)로 표현하는 \(MAPS_{\text {map }}\)지표를 함께 사용하였다.
이상 수온 탐지 분류 평가는 혼동 행렬(ConfusionMatrix), F1 Score와 ROC 공간 분석을 이용하여 정확도를 측정하였다. 이상 수온의 기준에 도달하면 저수온(LWT) 혹은 고수온(HWT)로 판단하는 알고리즘으로 구성하였다. 혼동 행렬은 TP, TN, FP, FN으로 분류되며 Fig. 9와 같다. 여기서 T=True, F=False, P=Positive, N=Negative를 의미하고, TP, TN, FP, FN은 True Positive,True Negative, False Positive, False Negative이다. TP는 실제 값과 예측모델 모두 이상 수온으로 분류한 것이며, TN은 실제 값과 예측모델 모두 정상수온으로 분류한 것이다. FP는 실제 값은 정상수온이지만 예측 값이 이상 수온으로 예측한 경우이고, FN은 실제 값은 이상 수온이지만 예측 값이 정상수온으로 예측한 경우를 의미한다.
Fig. 9. Confusion Matrix.
ROC 공간 분석은 True Positive Rate (TPR)과 False Positive Rate (FPR) 두 가지를 y와 x축으로 놓은 그래프이다. ROC 공간 분석은 좌측 상단에 가까울수록(TPR이 크고 FPR이 작은) 모델이 이상 수온을 잘 분류함을 보여주며 공식은 아래와 같다.
\(T P R=\frac{T P}{T P+F N}\) (17)
\(F P R=\frac{F P}{F P+T N}\) (18)
F1 Score는 정밀도(Precision)와 재현도(Recall)의 조화평균으로 구하며, F1 Score 값이 클수록 이상 수온 분류성능이 우수함을 나타낸다. 정밀도, 재현도, F1 Score의 공식은 아래와 같다.
\(\text { Precision }=\frac{T P}{T P+F P}\) \(\) (19)
\(\operatorname{Recall}(T P R)=\frac{T P}{T P+F N}\) (20)
\(F 1 \text { Score }=2 * \frac{\text { Precision } * \text { Recall }}{\text { Precision }+\text { Recall }}\) (21)
4. 연구 결과
1) 2021년 1일과 7일 예측 모델 결과
트레이닝 과정을 통해 생성된 1일과 7일 예측 모델로 고수온과 저수온 현상이 발생하는 지역의 2021년 해수면 온도를 예측하였다. Fig. 10은 앞의 2.3장 연구 데이터 분석에서 분석한 두 지역에 대해 예측한 결과이다.Fig. 10(a)와 (b)는 고수온 현상이 발생하는 지역(34.5°N128.25°E)의 1일과 7일 예측 모델 결과로 red line은 고수온 특보 발령 기준은 28°C를 의미하며, 예측 모델이 해수면 온도와 고수온 현상을 잘 예측함을 보여준다.Fig. 10(c)와 (d)는 저수온 현상이 발생하는 지역(37.0°N126.0°E)을 1일과 7일 예측 모델로 2021년 해수면 온도를 예측한 결과이고 blue line은 저수온 특보 발령 기준인 4°C를 의미한다. 4°C 이하의 저수온 현상도 잘 예측하였음을 보여준다. 두 지역 모두 1일 예측 모델보다 7일 예측 모델의 정확도가 낮아졌으나, R2는 1에 가깝고 RMSE와 MAPE가 0에 가까운 결과를 보여 예측 모델이 잘 동작함을 알 수 있었다.
Fig. 10. 1- (EST-1) and 7-day (EST-7) estimated SST for the (a)-(b) are High water temperature phenomena occurrence pixel (34.5°N 128.25°E) and (c)-(d) are Low water temperature phenomena occurrence pixel (37.0°N 126.0°E) in 2021.
2) 여름철 해수면 온도와 고수온 현상 예측
여름철에 대한 예측 모델 해수면 온도와 고수온 현상예측 정확도 평가를 진행하였다. 고수온 현상은 여름철 7월 말에서 8월 초에 빈번하게 발생하기 때문에 최근 고수온 현상이 발생한 2021년 7월부터 9월까지 해수면 온도를 1~7일 예측 모델로 예측하고, ECMWF 해수면 온도와의 차이를 비교하였다. 또한 예측 모델이 고수온 현상이 발생할 지역을 정확하게 예측했는지 정확도 평가를 진행하였다. 해수면 온도 예측 정확도 평가지표는 R2, RMSE, MAPE를 사용하였으며, 결과는 Table 2와 Fig. 11에 나와있다. 연구 결과에서 예측 기간이 길어지면서 예측 정확도는 낮아졌다. Fig. 12는 2021년 여름철(JAS) 1일과 7일 예측 모델로 예측한 해수면 온도의 RMSE와 MAPE 공간적 분포 결과이다. 1일 예측 결과에서는RMSE 0.1187°C이고 MAPE는 0.3522%였고, 7일 예측 결과의 RMSE는 0.6485°C이고 MAPE는 2.2247%로 나타났다. 오차 범위가 높아진 이유는 예측 기간이 길어지면서 예측 모델이 해수면 온도를 과소추정하기 때문으로 추정된다. 또한 예측 기간이 6일 이상부터 정확도가 낮아지는데 향후 연구에서 Kim et al. (2020)을 참고하여 입력데이터에 해수면 온도에 영향을 주는 바람, 기압 자료 추가하여 정확도 향상 연구를 추후 진행할 계획이다.
Table 2. R2 , RMSE, and MAPE accuracy evaluations for summer (JAS) 2021 SST predicted by the 1- to 7-day prediction models
Fig. 11. R2 , RMSE, and MAPE results for summer (JAS) 2021.
Fig. 12. RMSE and MAPE spatial distribution results for summer (JAS) 2021 predicted by the 1- and 7-day prediction models.
예측한 해수면 온도를 고수온 특보 발령 기준에 따라 해수면 온도가 28°C 이상일 경우와 평년 대비 2°C 이상 상승하는 경우 두 가지를 고수온으로 판단하는 알고리즘을 적용하여 2021년 8월 5일에 대한 고수온 예측 정확도 평가를 진행하였다. 1~7일 예측 모델의 고수온(HWT) 예측 정확도 평가는 F1 Score, TPR과 FPR를 사용하였으며 결과는 Table 3과 Fig. 13에 나와있다. 고수온(HWT)과 정상 수온(Normal)을 정확하게 예측한 비율이 잘못 예측(FP, FN) 비율보다 높았으나, 예측 기간이 길어질수록 예측 모델이 해수면 온도를 과소추정하기 때문에 FN이 비율이 높아졌다. Fig. 14는 1일과 7일 예측 모델의 고수온 예측 정확도를 공간적 분석한 그림이다. 7일 예측 모델이 1일 예측 모델에 비해 FN의 비율이 높아져 F1 Score가 낮아지는 것을 확인할 수 있다. 하지만 1일 예측의 경우 2021년 8월 5일 국립수산과학원의 고수온 특보 발령 해역도의 동해, 남해 내만과 연안, 서해(천수만~장산도), 흑산도 그리고 제주도 연안을 탐지하여 예측 모델의 고수온 예측이 잘 동작함을 알 수 있었다(NIFS, 2021a).
Fig. 13. F1 Score and ROC space results for August 5, 2021 predicted by the 1- to 7-day prediction models.
Fig. 14. High water temperature prediction map for August 5, 2021, created using 1- and 7-day prediction models
Table 3. F1Score, TPR, andFPRvalues for HWT estimates for August 5, 2021, using 1- to 7-day prediction models
3) 겨울철 해수면 온도와 저수온 현상 예측
본 연구의 예측 모델의 겨울철 해수면 온도와 저수온 현상 예측 정확도 평가를 진행하였다. 저수온 현상은 주로 1월과 2월에 발생하기 때문에 2021년 1월부터 3월까지의 한반도 근해 해수면 온도 현상을 예측하고, R2, RMSE, MAPE를 사용하여 정확도 평가를 하였다. Table4와 Fig. 15는 겨울철 해수면 온도 예측 정확도 평가 결과이다. 연구 결과 R2는 0.9로 1에 가까운 결과를 보여주었고, RMSE는 0.06–0.37°C로 0에 가까운 결과를 보여주었다. 그리고 MAPE는 0.6–4% 결과를 보여주었다. R2,RMSE, MAPE 결과 보았을 때 여름철 예측 정확도(R2=0.87–0.99, RMSE=0.12–0.65°C, MAPE=0.35–2.2%)가 유사한 결과를 보여주었다. 여름철 실험 결과와 유사하게 겨울철도 예측 기간이 길어지면서 정확도는 낮아지는 것을 확인할 수 있었다. 한편 MAPE 계산 특성상 실제값이 0에 가까울수록 오차의 영향력이 커지기 때문에 해수면 온도가 0~1 사이인 겨울철의 MAPE 값이 여름철에 비해 크게 나타났지만, RMSE 결과 여름철과 겨울철의 결과 값 차이는 크게 나타나지 않았다. Fig. 16은 1일과 7일 예측 모델로 예측한 2021년 겨울철(JFM)에 대한 RMSE와 MAPE 공간 분포 결과이다. 예측 기간이 증가하면서 전반적으로 오류가 높아졌고 특히 서해 연안의 오차가 크게 발생하는 것을 확인할 수 있었다. 겨울철 저수온 현상 발생을 예측하기 위해 저수온 특보 발령 기준에 따라 해수면 온도가 4°C 이하일 경우와 평년 대비 2°C 이상 하강하는 경우 저수온으로 판단하는 알고리즘을 적용하였다. 1~7일 예측 모델의 저수온(LWT) 정확도 평가는 F1 Score와 ROC space를 진행하였으며 결과는 Table 5와 Fig. 17과 같다. 저수온(LWT)과 정상 수온(Normal)을 정확하게 예측한 비율이 잘못 예측(FP, FN) 비율보다 높았다. 예측 기간이 길어지면서 예측 모델이 해수면 온도를 과소 추정하여 FN 비율이 증가하면서 F1 Score가 낮아지는 것을 확인할 수 있었다. 2021년 2월 19일 국립수산과학원의 저수온 특보발령 해역도에서는 서해 연안과 남해안의 득량만, 가막만, 사천만에서 저수온 주의보가 발령되었다(NIFS,2021b). 예측 모델 결과에서는 서해 연안의 저수온 현상 예측은 할 수 있었으나 남해안 부근의 저수온 현상은 예측하지 못했는데, 이는 본 연구에서 사용하는 ECMWF의 해수면 온도와 국립수산과학원 속보의 해수면 온도의 측정 지점이 일치하지 않는 한계점이 있기 때문에 저수온 현상을 탐지하지 못한 것으로 보인다. 또한, 2021년 이전까지 서해안 중심으로 저수온 현상이 발견되었으나, 남해안에 2021년 저수온이 신규 발령되었기 때문에 예측 모델의 저수온 탐지 훈련이 이전에 되지 않은 점도 한계점으로 생각된다.
Table 4. R2, RMSE, and MAPE values for SST estimates for February 19, 2021, using 1-to 7-day prediction models
Fig. 15. R2, RMSE, and MAPE results for winter (JFM) 2021
Fig. 16. RMSE and MAPE spatial distribution results for winter (JFM) 2021 predicted by the 1- and 7-day prediction models.
Fig. 17. F1 Score and ROC space results for February 19, 2021.
Fig. 18. Low water temperature prediction map for February 19, 2021, created using 1-, and 7-day prediction models.
5. 토의 및 결론
여름철과 겨울철에 한반도 근해의 고수온 및 저수온과 관련한 시계열 분석을 수행한 결과 남해안에서는 최근 5년 동안 고수온 현상이 지속적으로 발생하고 있는 추세인 반면, 서해안에서는 저수온 현상이 주로 발생하고 있었다. 특히 저수온과 관련한 해당 연구 지역에서는 지난 10년간 2007년을 제외하고는 매해 저수온 현상이 발생하는 것을 확인할 수 있었다. 따라서 본 연구에서는 한반도 근해 이상 수온으로 인한 해양생태계와 해양 경제적 피해를 예방하기 위해 한반도 근해 해수면 온도와 이상 수온을 예측하는 방법론을 제시하였다. 해수면 온도 데이터의 시계열 흐름 특징을 고려해 LSTM 알고리즘을 활용하였고, 한반도 근해의 동시간대 해수면온도 데이터를 사용하기 위해 ECMWF의 ERA5 해수면온도 데이터를 사용하였다. 연구 지역에서 각 해역의 해수면 온도 변화 특성을 고려하여 픽셀 단위로 1~7일 이후 해수면 온도를 예측하는 예측 모델을 생성하였다.
해수면 온도와 이상 수온(고수온/저수온)의 예측 정확도 평가를 위해 여름철과 겨울철 예측 평가를 진행하였다. 예측 기간이 길어지면서 예측 모델의 예측 정확도는 낮아졌으나 1일 예측 모델의 여름철 실험 결과 R2=0.996, RMSE=0.119°C, MAPE=0.352%이었고, 겨울철 실험 결과 R2=1.0, RMSE=0.063°C, MAPE=0.646%이었다. 여름철 고수온 현상 예측 결과, 국립수산과학원의이상 수온 특보 발령도의 지역과 예측 모델의 이상 수온 예측 지역은 유사하였다. 1~4일 예측 모델의 F1 Score는 0.8 이상으로 이상 수온 예측이 잘 동작하였으나, 5일 이상부터 0.8 이하로 낮아지는 이유는 해수면 온도가 과소 추정되면서 이상 수온 예측 성능이 낮아진 것으로 판단된다. 이러한 점은 향후 연구에서 해수면 온도에 영향을 주는 기압, 풍속, 강수량과 같은 요인들을 입력 자료에 추가하면 예측 정확도가 향상될 수 있을 것으로 보인다(Kim et al., 2020; Ko et al., 2021). 한편, 성능평가 결과 중 연안지역에서의 정확도가 대양에 비해 상대적으로 부정확한 측면이 있었다. 이는 모델 기반의 자료인ECMFW 자료가 연안보다는 대양에 특화된 자료이기 때문인 것으로 판단된다. 향후 연구에서는 부이자료와 같은 현장자료를 활용하여 이와 같은 문제점을 해결하기 위한 방안을 고안할 계획이다.
이번 연구에서는 예측 모델을 각 픽셀마다 생성하였는데 추후에는 연구기간 동안 연구 지역의 모든 픽셀의해수면 온도를 한 번에 훈련시킨 후에 예측 모델 하나로 연구 지역 전체를 예측한다면 훈련되는 데이터 범위도 넓어지기 때문에 예측 정확도 향상과 예측모델 생성 시간 단축을 기대할 수 있을 것으로 생각된다. 또한, LSTM기법만 활용하여 해수면 온도 예측 모델을 생성하였는데 향후에는 시계열 데이터 예측에 특화된 Transformer와 convolutional LSTM 기법을 활용한 한반도 해수면 온도 예측 연구를 진행하여 한반도 근해 해수면 온도 예측에 특화된 알고리즘 연구를 진행할 예정이다(Jung et al.,2020; Lim et al., 2021). 본 연구에서 제안하는 한반도 근해LSTM 기반 해수면 온도 예측 모델을 통해 해수면 온도와 이상 수온을 예측하는 방법론으로 이상 수온으로 인한 해양 경제적 피해 예방에 기여할 수 있을 것이며, 지속적인 해수면 온도 예측 연구로 이상 수온으로 인한 피해를 예방할 수 있는 연구가 필요하다고 사료된다.
References
- Aral, M.M. and J. Guan, 2016. Global sea surface temperature and sea level rise estimation with optimal historical time lag data, Water, 8(11): 519. https://doi.org/10.3390/w8110519
- Bader, J. and M. Latif, 2003. The impact of decadalscale Indian Ocean sea surface temperature anomalies on Sahelian rainfall and the North Atlantic Oscillation, Geophysical Research Letters, 30(22). https://doi.org/10.1029/2003GL018426
- Bengio, Y., P. Simard, and P. Frasconi, 1994. Learning long-term dependencies with gradient descent is difficult, IEEE Transactions on Neural Networks, 5(2): 157-166. https://doi.org/10.1109/72.279181
- Cai, M. and J. Liu, 2016. Maxout neurons for deep convolutional and LSTM neural networks in speech recognition, Speech Communication, 77: 53-64. https://doi.org/10.1016/j.specom.2015.12.003
- Choi, H.M., M.K. Kim, and H. Yang, 2021. Abnormally high water temperature prediction using LSTM deep learning model, Journal of Intelligent & Fuzzy Systems, 40(4): 8013-8020. https://doi.org/10.3233/JIFS-189623
- Lee, D.C., K.M. Won, M.A. Park, H.S. Choi, and S.H. Jung, 2018. An Analysis of Mass Mortalities in Aquaculture Fish Farms on the Southern Coast in Korea, Ocean Policy Research, 33(1): 1-16. https://doi.org/10.35372/kmiopr.2018.33.1.001
- Donlon, C., I. Robinson, K.S. Casey, J. Vazquez-Cuervo, E. Armstrong, O. Arino, C. Gentemann, D. May, P. LeBorgne, J. Piolle, I. Barton, H. Beggs, D.J.S. Poulter, C.J. Merchant, A. Bingham, S. Heinz, A. Harris, G. Wick, B. Emery, P. Minnett, R. Evans, D. Llewellyn-Jones, C. Mutlow, R.W. Reynolds, H. Kawamura, and N. Rayner, 2007. The Global Ocean Data Assimilation Experiment High-Resolution Sea Surface Temperature Pilot Project, Bulletin of the American Meteorological Society, 88(8): 1197-1214. https://doi.org/10.1175/BAMS-88-8-1197
- Graves, A., M. Liwicki, S. Fernandez, R. Bertolami, H. Bunke, and J. Schmidhuber, 2009. A Novel Connectionist System for Unconstrained Handwriting Recognition, IEEE Transactions on Pattern Analysis and Machine Intelligence, 31(5): 855-868. https://doi.org/10.1109/TPAMI.2008.137
- Hochreiter, S. and J. Schmidhuber, 1997. Long Short-Term Memory, Neural Computation, 9(8): 1735-1780. https://doi.org/10.1162/neco.1997.9.8.1735
- Jung, S., Y.J. Kim, S. Park, and J. Im, 2020. Prediction of Sea Surface Temperature and Detection of Ocean Heat Wave in the South Sea of Korea Using Time-series Deep-learning Approaches, Korean Journal of Remote Sensing, 36(5-3): 1077-1093. https://doi.org/10.7780/kjrs.2020.36.5.3.7
- Kim, M., H. Yang, and J. Kim, 2020. Sea Surface Temperature and High Water Temperature Occurrence Prediction Using a Long Short-Term Memory Model, Remote Sensing, 12(21): 3654. https://doi.org/10.3390/rs12213654
- Ko, K.S., Y.W. Kim, S.H. Byeon, and S.J. Lee, 2021. LSTM Based Prediction of Ocean Mixed Layer Temperature Using Meteorological Data, Korean Journal of Remote Sensing, 37(3): 603-614. https://doi.org/10.7780/kjrs.2021.37.3.19
- Kumar, P. and D. Sardana, 2021. Regional Sea Level Changes in the Indian Shelf Sea and Its Association with SST Anomalies, Regional Studies in Marine Science, 47: 101992. https://doi.org/10.1016/j.rsma.2021.101992
- Lee, D.Y., S.Y. Moon, S.O. Lee, H.Y. Yang, H.J. Lee, and M.S. Lee, 2008. Septic Shock Due to Vibrio Alginolyticus in a Cirrhotic Patient: The First Case in Korea, Yonsei Medical Journal, 49(2): 329-332. https://doi.org/10.3349/ymj.2008.49.2.329
- Lim, B., S.O. Arik, N. Loeff, and T. Pfister, 2021. Temporal fusion transformers for interpretable multi-horizon time series forecasting, International Journal of Forecasting, 37(4): 1748-1764. https://doi.org/10.1016/j.ijforecast.2021.03.012
- MOF (Ministry of Oceans and Fisheries), 2021. The Ministry of Oceans and Fisheries Promotes the Restoration of Fish Damaged by High Temperatures This Year, https://www.mof.go.kr/synap/view.do?fn=MOF_ARTICLE_43595_2021102917ccadc9fe780&fd=202204, Accessed on Jun. 14, 2022.
- MOF (Ministry of Oceans and Fisheries), 2022. Removal of Low Water Temperature Warning in the West and South Seas, https://www.mof.go.kr/synap/view.do?fn=MOF_ARTICLE_45266_2022031117f7684d420760&fd=202204, Accessed on Jun. 14, 2022.
- NIFS (National Institute of Fisheries Science), 2021a. Low Water Temperature Newsflash, https://www.nifs.go.kr/distantwater/skin/doc.html?fn=20210219140424420_0.pdf&rs=/distantwater/preview/seastate/, Accessed on Jun. 14, 2022.
- NIFS (National Institute of Fisheries Science), 2021b. High Water Temperature Newsflash, https://www.nifs.go.kr/distantwater/skin/doc.html?fn=20210805144745707_0.pdf&rs=/distantwater/preview/seastate/, Accessed on Jun. 14, 2022.
- Nowicki, J.P., G.M. Miller, and P.L. Munday, 2012. Interactive Effects of Elevated Temperature and CO2 on Foraging Behavior of Juvenile Coral Reef Fish, Journal of Experimental Marine Biology and Ecology, 412: 46-51. https://doi.org/10.1016/j.jembe.2011.10.020
- Stockdale, T.N., M.A. Balmaseda, and A. Vidard, 2006. Tropical Atlantic SST Prediction with Coupled Ocean-Atmosphere GCMs, Journal of Climate, 19(23): 6047-6061. https://doi.org/10.1175/JCLI3947.1
- Zhang, Q., H. Wang, J. Dong, G. Zhong, and X. Sun, 2017. Prediction of Sea Surface Temperature Using Long Short-Term Memory, IEEE Geoscience and Remote Sensing Letters, 14(10): 1745-1749. https://doi.org/10.1109/LGRS.2017.2733548
- Zhao, J., X. Mao, and L. Chen, 2019. Speech Emotion Recognition Using Deep 1D & 2D CNN LSTM Networks, Biomedical Signal Processing and Control, 47: 312-323. https://doi.org/10.1016/j.bspc.2018.08.035