• 제목/요약/키워드: 기울기 소실 문제

검색결과 7건 처리시간 0.02초

파라메트릭 활성함수를 이용한 기울기 소실 문제의 완화 (Alleviation of Vanishing Gradient Problem Using Parametric Activation Functions)

  • 고영민;고선우
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권10호
    • /
    • pp.407-420
    • /
    • 2021
  • 심층신경망은 다양한 문제를 해결하는데 널리 사용되고 있다. 하지만 은닉층이 깊은 심층신경망을 학습하는 동안 빈번히 발생하는 기울기 소실 또는 폭주 문제는 심층신경망 학습의 큰 걸림돌이 되고 있다. 본 연구에서는 기울기 소실이 발생하는 원인 중 비선형활성함수에 의해 발생할 수 있는 기울기 소실 문제를 완화하기 위해 파라메트릭 활성함수를 제안한다. 제안된 파라메트릭 활성함수는 입력 데이터의 특성에 따라 활성함수의 크기 및 위치를 변환시킬 수 있는 파라미터를 적용하여 얻을 수 있으며 역전파과정을 통해 활성함수의 미분 크기에 제한이 없는 손실함수를 최소화되도록 학습시킬 수 있다. 은닉층 수가 10개인 XOR문제와 은닉층 수가 8개인 MNIST 분류문제를 통하여 기존 비선형활성함수와 파라메트릭활성함수의 성능을 비교하였고 제안한 파라메트릭 활성함수가 기울기 소실 완화에 우월한 성능을 가짐을 확인하였다.

Causal temporal convolutional neural network를 이용한 변동성 지수 예측 (Forecasting volatility index by temporal convolutional neural network)

  • 신지원;신동완
    • 응용통계연구
    • /
    • 제36권2호
    • /
    • pp.129-139
    • /
    • 2023
  • 변동성의 예측은 자산의 리스크에 대비하는 데에 중요한 역할을 하기때문에 필수적이다. 인공지능을 통하여 이러한 복잡한 특성을 지닌 변동성 예측을 시도하였는데 기존 시계열 예측에 적합하다 알려진 LSTM (1997)과 GRU (2014)은 기울기 소실로 인한 문제, 방대한 연산량의 문제, 그로 인한 메모리양의 문제 등이 존재하였다. 변동성 데이터는 비정상성(non-stationarity)과 정상성(stationarity)을 모두 가지고 있는 특성이 있으며, 자산 가격 하방 쇼크에 더 큰 폭으로 상승하는 비대칭성과 상당한 장기 기억성, 시장에 큰 사건이 발생할 때 기존의 값들에 비해 이상치라 할 수 있을 정도의 예측할 수 없는 큰 값이 발생하는 특성들이 존재한다. 이렇게 여러 가지 복잡한 특성들은 하나의 모형으로 구조화되기 어려워서 전통적인 방식의 모형으로는 변동성에 대한 예측력을 높이기 어려운 면이 있다. 이러한 문제를 해결하기 위해 1D CNN의 발전된 형태인 causal TCN (causal temporal convolutional network) 모형을 변동성 예측에 적용하고, 예측력을 최대화 할 수 있는 TCN 구조를 설계하고자 하였다. S&P 500, DJIA, Nasdaq 지수에 해당하는 변동성 지수 VIX, VXD, and VXN, 에 대하여 예측력 비교를 하였으며, TCN 모형이 RNN 계열의 모형보다도 전반적으로 예측력이 높음을 확인하였다.

딥러닝 기반 거리 영상의 Semantic Segmentation을 위한 Atrous Residual U-Net (Atrous Residual U-Net for Semantic Segmentation in Street Scenes based on Deep Learning)

  • 신석용;이상훈;한현호
    • 융합정보논문지
    • /
    • 제11권10호
    • /
    • pp.45-52
    • /
    • 2021
  • 본 논문에서는 U-Net 기반의 semantic segmentation 방법에서 정확도를 개선하기 위한 Atrous Residual U-Net (AR-UNet)을 제안하였다. U-Net은 의료 영상 분석, 자율주행 자동차, 원격 감지 영상 등의 분야에서 주로 사용된다. 기존 U-Net은 인코더 부분에서 컨볼루션 계층 수가 적어 추출되는 특징이 부족하다. 추출된 특징은 객체의 범주를 분류하는 데 필수적이며, 부족할 경우 분할 정확도를 저하시키는 문제를 초래한다. 따라서 이 문제를 개선하기 위해 인코더에 residual learning과 ASPP를 활용한 AR-UNet을 제안하였다. Residual learning은 특징 추출 능력을 개선하고, 연속적인 컨볼루션으로 발생하는 특징 손실과 기울기 소실 문제 방지에 효과적이다. 또한 ASPP는 특징맵의 해상도를 줄이지 않고 추가적인 특징 추출이 가능하다. 실험은 Cityscapes 데이터셋으로 AR-UNet의 효과를 검증하였다. 실험 결과는 AR-UNet이 기존 U-Net과 비교하여 향상된 분할 결과를 보였다. 이를 통해 AR-UNet은 정확도가 중요한 여러 응용 분야의 발전에 기여할 수 있다.

주의 집중 기법을 활용한 객체 검출 모델 (Object Detection Model Using Attention Mechanism)

  • 김근식;배정수;차의영
    • 한국정보통신학회논문지
    • /
    • 제24권12호
    • /
    • pp.1581-1587
    • /
    • 2020
  • 기계 학습 분야에 합성 곱 신경망이 대두되면서 이미지 처리 문제를 해결하는 모델은 비약적인 발전을 맞이했다. 하지만 그만큼 요구되는 컴퓨팅 자원 또한 상승하여 일반적인 환경에서 이를 학습해보기는 쉽지 않은 일이다. 주의 집중 기법은 본래 순환 신경망의 기울기 소실 문제를 방지하기 위해 제안된 기법이지만, 이는 합성 곱 신경망의 학습에도 유리한 방향으로 활용될 수 있다. 본 논문에서는 합성 곱 신경망에 주의 집중 기법을 적용하고, 이때의 학습 시간과 성능 차이 비교를 통해 제안하는 방법의 우수성을 입증한다. 제안하는 모델은 YOLO를 기반으로 한 객체 검출에서 주의 집중 기법을 적용하지 않은 모델에 비해 학습 시간, 성능 모두 우수한 것으로 나타났으며, 특히 학습 시간을 현저히 낮출 수 있음을 실험적으로 증명하였다. 또한, 이를 통해 일반 사용자의 기계 학습에 대한 접근성 증대가 기대된다.

딥러닝 기반의 Semantic Segmentation을 위한 Residual U-Net에 관한 연구 (A Study on Residual U-Net for Semantic Segmentation based on Deep Learning)

  • 신석용;이상훈;한현호
    • 디지털융복합연구
    • /
    • 제19권6호
    • /
    • pp.251-258
    • /
    • 2021
  • 본 논문에서는 U-Net 기반의 semantic segmentation 방법에서 정확도를 향상시키기 위해 residual learning을 활용한 인코더-디코더 구조의 모델을 제안하였다. U-Net은 딥러닝 기반의 semantic segmentation 방법이며 자율주행 자동차, 의료 영상 분석과 같은 응용 분야에서 주로 사용된다. 기존 U-Net은 인코더의 얕은 구조로 인해 특징 압축 과정에서 손실이 발생한다. 특징 손실은 객체의 클래스 분류에 필요한 context 정보 부족을 초래하고 segmentation 정확도를 감소시키는 문제가 있다. 이를 개선하기 위해 제안하는 방법은 기존 U-Net에 특징 손실과 기울기 소실 문제를 방지하는데 효과적인 residual learning을 활용한 인코더를 통해 context 정보를 효율적으로 추출하였다. 또한, 인코더에서 down-sampling 연산을 줄여 특징맵에 포함된 공간 정보의 손실을 개선하였다. 제안하는 방법은 Cityscapes 데이터셋 실험에서 기존 U-Net 방법에 비해 segmentation 결과가 약 12% 향상되었다.

스킵연결이 적용된 오토인코더 모델의 클러스터링 성능 분석 (Clustering Performance Analysis of Autoencoder with Skip Connection)

  • 조인수;강윤희;최동빈;박용범
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제9권12호
    • /
    • pp.403-410
    • /
    • 2020
  • 오토인코더의 데이터 복원(Output result) 기능을 이용한 노이즈 제거 및 초해상도와 같은 연구가 진행되는 가운데 오토인코더의 차원 축소 기능을 이용한 클러스터링의 성능 향상에 대한 연구도 활발히 진행되고 있다. 오토인코더를 이용한 클러스터링 기능과 데이터 복원 기능은 모두 동일한 학습을 통해 성능을 향상시킨다는 공통점이 있다. 본 논문은 이런 특징을 토대로, 데이터 복원 성능이 뛰어나도록 설계된 오토인코더 모델이 클러스터링 성능 또한 뛰어난지 알아보기 위한 실험을 진행했다. 데이터 복원 성능이 뛰어난 오토인코더를 설계하기 위해서 스킵연결(Skip connection) 기법을 사용했다. 스킵연결 기법은 기울기 소실(Vanishing gradient)현상을 해소해주고 모델의 학습 효율을 높인다는 장점을 가지고 있을 뿐만 아니라, 데이터 복원 시 손실된 정보를 보완해 줌으로써 데이터 복원 성능을 높이는 효과도 가지고 있다. 스킵연결이 적용된 오토인코더 모델과 적용되지 않은 모델의 데이터 복원 성능과 클러스터링 성능을 그래프와 시각적 추출물을 통해 결과를 비교해 보니, 데이터 복원 성능은 올랐지만 클러스터링 성능은 떨어지는 결과를 확인했다. 이 결과는 오토인코더와 같은 신경망 모델이 출력된 결과 성능이 좋다고 해서 각 레이어들이 데이터의 특징을 모두 잘 학습했다고 확신할 수 없음을 알려준다. 마지막으로 클러스터링의 성능을 좌우하는 잠재변수(latent code)와 스킵연결의 관계를 분석하여 실험 결과의 원인에 대해 파악하였고, 파악한 결과를 통해 잠재변수와 스킵연결의 특징정보를 이용해 클러스터링의 성능저하 현상을 보완할 수 있다는 사실을 보였다. 이 연구는 한자 유니코드 문제를 클러스터링 기법을 이용해 해결하고자 클러스터링 성능 향상을 위한 선행연구이다.

시계열 자료의 예측을 위한 자료 기반 신경망 모델에 관한 연구: 한강대교 수위예측 적용 (A Study on the Data Driven Neural Network Model for the Prediction of Time Series Data: Application of Water Surface Elevation Forecasting in Hangang River Bridge)

  • 유형주;이승오;최서혜;박문형
    • 한국방재안전학회논문집
    • /
    • 제12권2호
    • /
    • pp.73-82
    • /
    • 2019
  • 최근 이상기후로 인한 집중호우에 따른 하천변 사회기반시설의 침수피해가 증가하고 있으며, 침수 가능성 여부에 대한 신속한 예 경보가 필요한 실정이다. 일반적인 홍수 예 경보는 하천수위를 이용하고 있으며, 수치모형을 이용하여 하천수위를 예측하는 연구가 대부분이었다. 그러나 수치모형을 이용한 하천수위 예측은 결과가 정확한 반면 수치모의 시간이 오래 소요된다는 한계점이 있어 최근에는 인공신경망 등을 적용한 자료기반의 수위예측 모형이 많이 이용되고 있다. 하지만 기존의 인공신경망을 활용한 수위예측 연구는 시간적 매개변수를 고려하지 못하였다는 한계점이 존재한다. 본 연구에서는 시간적 매개변수(Time delay= 2시간)를 고려한 NARX 신경망 모형을 사용하여 한강대교의 수위를 예측하였다. 또한 NARX 모형의 적합성을 판단하기 위하여 인공신경망(ANN) 모형과, 순환신경망(RNN)모형의 결과와 비교하였다. 2009년에서 2018년까지 10년간의 수문자료를 이용하여 70%를 학습시키고 검정과 평가에 15%를 사용하여 2018년의 한강대교 3시간 후 수위를 예측한 결과 평균제곱근오차(RMSE)의 경우 ANN, RNN, NARX model이 각각 0.20 m, 0.11 m, 0.09 m, 평균절대오차(MAE)의 경우, 각각 0.12 m, 0.06 m, 0.05 m, 첨두수위 오차(Peak Error)는 각각 1.56 m, 0.55 m, 0.10 m로 나타났다. 연구 대상지역에 대한 시간적 매개변수를 고려한 예측 결과의 오차분석을 통하여 NARX 신경망 모형을 사용하는 것이 수위예측 모형 구축이 가장 적합한 것으로 나타났다. 이는 NARX 신경망 모형이 과거의 입력자료를 고려함으로써 시계열 자료의 변동 추세도 학습 할 수 있으며, 또한 모형 내 활성함수를 쌍곡선탄젠트(Hyperbolic tangent) 및 Rectified Linear Unit(ReLU) 함수를 사용하여 고수위 예측 시에도 정확한 예측 값을 도출할 수 있기 때문이다. 그러나 NARX 신경망 모형은 시퀀스 길이가 길어짐에 따라 기울기 소실문제(Vanishing gradient)가 발생하는 한계점이 있어 향후에는 이를 보완한 LSTM(Long Short Term Model)모형을 이용하여 수위예측의 정확도를 검토하고자 한다.