• 제목/요약/키워드: LSTM-RNN

검색결과 205건 처리시간 0.019초

딥러닝 시계열 알고리즘 적용한 기업부도예측모형 유용성 검증 (Corporate Default Prediction Model Using Deep Learning Time Series Algorithm, RNN and LSTM)

  • 차성재;강정석
    • 지능정보연구
    • /
    • 제24권4호
    • /
    • pp.1-32
    • /
    • 2018
  • 본 연구는 경제적으로 국내에 큰 영향을 주었던 글로벌 금융위기를 기반으로 총 10년의 연간 기업데이터를 이용한다. 먼저 시대 변화 흐름에 일관성있는 부도 모형을 구축하는 것을 목표로 금융위기 이전(2000~2006년)의 데이터를 학습한다. 이후 매개 변수 튜닝을 통해 금융위기 기간이 포함(2007~2008년)된 유효성 검증 데이터가 학습데이터의 결과와 비슷한 양상을 보이고, 우수한 예측력을 가지도록 조정한다. 이후 학습 및 유효성 검증 데이터를 통합(2000~2008년)하여 유효성 검증 때와 같은 매개변수를 적용하여 모형을 재구축하고, 결과적으로 최종 학습된 모형을 기반으로 시험 데이터(2009년) 결과를 바탕으로 딥러닝 시계열 알고리즘 기반의 기업부도예측 모형이 유용함을 검증한다. 부도에 대한 정의는 Lee(2015) 연구와 동일하게 기업의 상장폐지 사유들 중 실적이 부진했던 경우를 부도로 선정한다. 독립변수의 경우, 기존 선행연구에서 이용되었던 재무비율 변수를 비롯한 기타 재무정보를 포함한다. 이후 최적의 변수군을 선별하는 방식으로 다변량 판별분석, 로짓 모형, 그리고 Lasso 회귀분석 모형을 이용한다. 기업부도예측 모형 방법론으로는 Altman(1968)이 제시했던 다중판별분석 모형, Ohlson(1980)이 제시한 로짓모형, 그리고 비시계열 기계학습 기반 부도예측모형과 딥러닝 시계열 알고리즘을 이용한다. 기업 데이터의 경우, '비선형적인 변수들', 변수들의 '다중 공선성 문제', 그리고 '데이터 수 부족'이란 한계점이 존재한다. 이에 로짓 모형은 '비선형성'을, Lasso 회귀분석 모형은 '다중 공선성 문제'를 해결하고, 가변적인 데이터 생성 방식을 이용하는 딥러닝 시계열 알고리즘을 접목함으로서 데이터 수가 부족한 점을 보완하여 연구를 진행한다. 현 정부를 비롯한 해외 정부에서는 4차 산업혁명을 통해 국가 및 사회의 시스템, 일상생활 전반을 아우르기 위해 힘쓰고 있다. 즉, 현재는 다양한 산업에 이르러 빅데이터를 이용한 딥러닝 연구가 활발히 진행되고 있지만, 금융 산업을 위한 연구분야는 아직도 미비하다. 따라서 이 연구는 기업 부도에 관하여 딥러닝 시계열 알고리즘 분석을 진행한 초기 논문으로서, 금융 데이터와 딥러닝 시계열 알고리즘을 접목한 연구를 시작하는 비 전공자에게 비교분석 자료로 쓰이기를 바란다.

순환 심층 신경망 모델을 이용한 전용회선 트래픽 예측 (Leased Line Traffic Prediction Using a Recurrent Deep Neural Network Model)

  • 이인규;송미화
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권10호
    • /
    • pp.391-398
    • /
    • 2021
  • 전용회선은 데이터 전송에 있어서 연결된 두 지역을 독점적으로 사용하는 구조이기 때문에 안정된 품질수준과 보안성이 확보되어 교환회선의 급격한 증가에도 불구하고 기업 내부에서는 지속적으로 많이 사용하는 회선 방식이다. 하지만 비용이 상대적으로 고가이기 때문에 기업 내 네트워크 운영자의 중요한 역할 중의 하나는 네트워크 전용회선의 자원을 적절히 배치하고 활용하여 최적의 상태를 유지하는 것이 중요한 요소이다. 즉, 비즈니스 서비스 요구 사항을 적절히 지원하기 위해서는 데이터 전송 관점에서 전용회선의 대역폭 자원에 대한 적절한 관리가 필수적이며 전용회선 사용량을 적절히 예측하고 관리하는 것이 핵심 요소가 된다. 이에 본 연구에서는 기업 네트워크에서 사용하는 전용회선의 실제 사용률 데이터를 기반으로 다양한 예측 모형을 적용하고 성능을 평가하였다. 일반적으로 통계적인 방법으로 많이 사용하는 평활화 기법 및 ARIMA 모형과 요즘 많은 연구가 되고 있는 인공신경망에 기반한 딥러닝의 대표적인 모형들을 적용하여 각각의 예측에 대한 성능을 측정하고 비교하였다. 또한, 실험결과에 기초하여 전용회선 자원의 효과적인 운영 관점에서 각 모형이 예측에 대하여 좋은 성능을 내기 위하여 고려해야 할 사항을 제안하였다.

미등록 어휘에 대한 선택적 복사를 적용한 문서 자동요약 (Automatic Text Summarization based on Selective Copy mechanism against for Addressing OOV)

  • 이태석;선충녕;정영임;강승식
    • 스마트미디어저널
    • /
    • 제8권2호
    • /
    • pp.58-65
    • /
    • 2019
  • 문서 자동 요약은 주어진 문서로부터 주요 내용을 추출하거나 생성하는 방식으로 축약하는 작업을 말한다. 최근 연구에서는 대량의 문서를 딥러닝 기법을 적용하여 요약문 자체를 생성하는 방식으로 발전하고 있다. 생성 요약은 미리 생성된 위드 임베딩 정보를 사용하는데, 전문 용어와 같이 저빈도 핵심 어휘는 입베딩 된 사전에 없는 문제가 발생한다. 인코딩-디코딩 신경망 모델의 문서 자동 요약에서 미등록 어휘의 출현은 요약 성능 저하의 요인이다. 이를 해결하기 위해 본 논문에서는 요약 대상 문서에서 새로 출현한 단어를 복사하여 요약문을 생성하는 방법을 사용한다. 기존의 연구와는 달리 정확한 포인팅 정보와 선택적 복사 지시 정보를 명시적으로 제공하는 방법으로 제안하였다. 학습 데이터는 논문의 초록과 제목을 대상 문서와 정답 요약으로 사용하였다. 제안한 인코딩-디코딩 기반 모델을 통해서 자동 생성 요약을 수행한 결과 단어 제현 기반의 ROUGE-1이 47.01로 나타났으며, 또한 어순 기반의 ROUGE-L이 29.55로 향상되었다.

비주석 재귀신경망 앙상블 모델을 기반으로 한 조위관측소 해수위의 준실시간 이상값 탐지 (A Non-annotated Recurrent Neural Network Ensemble-based Model for Near-real Time Detection of Erroneous Sea Level Anomaly in Coastal Tide Gauge Observation)

  • 이은주;김영택;김송학;주호정;박재훈
    • 한국해양학회지:바다
    • /
    • 제26권4호
    • /
    • pp.307-326
    • /
    • 2021
  • 상시 관측되는 조위관측소 해수위 자료는 결측값과 오측값을 포함하고 있으며, 그 중 오측 값은 이상값으로 분류되는 전처리 대상이다. 이러한 오측을 제거하기 위해 대표적으로 3𝜎 (three standard deviations) 규칙이 적용되어왔으나, 기상이변 등에 의한 극값이 존재하거나 3𝜎 범위 안에서도 오측이 존재하는 해수위 자료에는 그 적용이 어렵다. 본 연구에서 설계된 모델은 오측에 대한 사전 정보가 필요하지 않은 비주석 학습으로 구성되며, 재귀신경망과 앙상블 기법을 이용함으로써 실시간으로 수집되는 해수위 자료가 오측일 가능성을 발생한지 20분 이내로 제시한다. 검증이 완료된 모델은 평시 및 기상이변시의 정상값과 오측값을 잘 분리하며, 학습이 이뤄지지 않은 연도의 해수위 자료에서도 이상값 탐지가 가능함을 확인하였다. 본 연구의 관측 이상치 탐지 알고리즘은 조위관측소 해수위에 국한되지 않고 다양한 해양 및 대기자료의 이상치 탐지 인공신경망 모델에 확장 적용할 수 있다.

국가별 행정체계 특성을 반영한 인공지능 활용 해외 주소데이터 품질검증 기법 (Overseas Address Data Quality Verification Technique using Artificial Intelligence Reflecting the Characteristics of Administrative System)

  • 김진실;이경희;조완섭
    • 한국빅데이터학회지
    • /
    • 제7권2호
    • /
    • pp.1-9
    • /
    • 2022
  • 글로벌 시대에 들어서면서 수입식품 안전관리에 대한 중요성이 증가하고 있다. 해외 식품업체 주소정보는 수입식품 안전관리를 위한 핵심 정보로써 식품위해 발생시 신속한 대처와 사후관리를 위해 반드시 검증되어야 한다. 그러나 각국의 주소체계가 다른 관계로 하나의 검증시스템이 모든 국가의 주소를 검증할 수는 없다. 또한, 주소검증은 사용하는 분야에 따라 검정목적이 상이할 수 있다. 본 논문에서는 주어진 해외 식품업체 주소로부터 해당 국가의 행정구역 레벨로 분류하는 문제를 다룬다. 수입식품 안전관리를 정확하고 효율적으로 하기 위하여 수입식품제조업체 주소를 해당 국가의 행정구역 수준으로 정확하게 매칭하는 것이 필요하다. 수입식품이 생산·제조되는 위치와 식품제조에 영향을 줄 수 있는 환경정보, 재난재해 정보를 결합함으로써 선제적 수입식품 안전관리가 가능하다. 그러나, 일부 국가에서는 주소를 표기할 때 행정구역 레벨명을 생략하여 작성하고 있으며, 동일한 지명이 여러 행정구역 레벨에서 중복되는 경우가 있어 주소로부터 행정구역 레벨을 정확히 분류하는 일은 쉽지 않다. 본 연구에서는 이러한 경우에 적합한 딥러닝 기반 행정구역 레벨 분류 모델을 제안하고, 실제 해외 식품회사 주소 데이터에 대하여 검증한다. 구체적으로 다중 레이블 분류 모델에서 멱집합(Label Powerset)을 이용해 훈련하는 방식을 사용한다. 제안된 기법의 검증을 위해 식약처에 등록된 에콰도르 및 베트남에 있는 해외 제조업소 주소에 대하여 정확도를 검증하였으며, 기존의 분류 모델보다 정확도가 각각 28.1% 및 13% 정도 향상되었다.