• 제목/요약/키워드: 최적회귀모형

검색결과 228건 처리시간 0.032초

딥러닝 시계열 알고리즘 적용한 기업부도예측모형 유용성 검증 (Corporate Default Prediction Model Using Deep Learning Time Series Algorithm, RNN and LSTM)

  • 차성재;강정석
    • 지능정보연구
    • /
    • 제24권4호
    • /
    • pp.1-32
    • /
    • 2018
  • 본 연구는 경제적으로 국내에 큰 영향을 주었던 글로벌 금융위기를 기반으로 총 10년의 연간 기업데이터를 이용한다. 먼저 시대 변화 흐름에 일관성있는 부도 모형을 구축하는 것을 목표로 금융위기 이전(2000~2006년)의 데이터를 학습한다. 이후 매개 변수 튜닝을 통해 금융위기 기간이 포함(2007~2008년)된 유효성 검증 데이터가 학습데이터의 결과와 비슷한 양상을 보이고, 우수한 예측력을 가지도록 조정한다. 이후 학습 및 유효성 검증 데이터를 통합(2000~2008년)하여 유효성 검증 때와 같은 매개변수를 적용하여 모형을 재구축하고, 결과적으로 최종 학습된 모형을 기반으로 시험 데이터(2009년) 결과를 바탕으로 딥러닝 시계열 알고리즘 기반의 기업부도예측 모형이 유용함을 검증한다. 부도에 대한 정의는 Lee(2015) 연구와 동일하게 기업의 상장폐지 사유들 중 실적이 부진했던 경우를 부도로 선정한다. 독립변수의 경우, 기존 선행연구에서 이용되었던 재무비율 변수를 비롯한 기타 재무정보를 포함한다. 이후 최적의 변수군을 선별하는 방식으로 다변량 판별분석, 로짓 모형, 그리고 Lasso 회귀분석 모형을 이용한다. 기업부도예측 모형 방법론으로는 Altman(1968)이 제시했던 다중판별분석 모형, Ohlson(1980)이 제시한 로짓모형, 그리고 비시계열 기계학습 기반 부도예측모형과 딥러닝 시계열 알고리즘을 이용한다. 기업 데이터의 경우, '비선형적인 변수들', 변수들의 '다중 공선성 문제', 그리고 '데이터 수 부족'이란 한계점이 존재한다. 이에 로짓 모형은 '비선형성'을, Lasso 회귀분석 모형은 '다중 공선성 문제'를 해결하고, 가변적인 데이터 생성 방식을 이용하는 딥러닝 시계열 알고리즘을 접목함으로서 데이터 수가 부족한 점을 보완하여 연구를 진행한다. 현 정부를 비롯한 해외 정부에서는 4차 산업혁명을 통해 국가 및 사회의 시스템, 일상생활 전반을 아우르기 위해 힘쓰고 있다. 즉, 현재는 다양한 산업에 이르러 빅데이터를 이용한 딥러닝 연구가 활발히 진행되고 있지만, 금융 산업을 위한 연구분야는 아직도 미비하다. 따라서 이 연구는 기업 부도에 관하여 딥러닝 시계열 알고리즘 분석을 진행한 초기 논문으로서, 금융 데이터와 딥러닝 시계열 알고리즘을 접목한 연구를 시작하는 비 전공자에게 비교분석 자료로 쓰이기를 바란다.

분광 다양성을 고려한 초분광 영상 기반 부유사 농도 계측 기법 개발 (Development of Suspended Sediment Concentration Measurement Technique Based on Hyperspectral Imagery with Optical Variability)

  • 권시윤;서일원
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2021년도 학술발표회
    • /
    • pp.116-116
    • /
    • 2021
  • 자연 하천에서의 부유사 농도 계측은 주로 재래식 채집방식을 활용한 직접계측 방식에 의존하여 비용과 시간이 많이 소요되며 점 계측 방식으로 고해상도의 시공간 자료를 측정하기엔 한계가 존재한다. 이러한 한계점을 극복하기 위해 최근 위성영상과 드론을 활용하여 촬영된 다분광 혹은 초분광 영상을 통해 고해상도의 부유사 농도 시공간분포를 측정하는 기법에 대한 연구가 활발히 진행되고 있다. 하지만, 다른 하천 물리량 계측에 비해 부유사 계측 연구는 하천에 따라 부유사가 비균질적으로 분포하여 원격탐사를 통해 정확하고 전역적인 농도 분포를 재현하기는 어려운 실정이다. 이러한 부유사의 비균질성은 부유사의 입도분포, 광물특성, 침강성 등이 하천에서 다양하게 분포하기 때문이며 이로 인해 부유사는 지역별로 다양한 분광특성을 가지게 된다. 따라서, 본 연구에서는 이러한 영향을 고려한 전역적인 부유사 농도 예측 모형을 개발하기 위해 실내 실험을 통해 부유사 특성별 고유 분광 라이브러리를 구축하고 실규모 수로에서 다양한 부유사 조건에 대한 초분광 스펙트럼과 부유사 농도를 측정하는 실험을 수행하였다. 실제 부유사 농도는 광학 기반 센서인 LISST-200X와 샘플링을 통한 실험실 분석을 통해 계측되었으며, 초분광 스펙트럼 자료는 초분광 카메라를 통해 촬영한 영상에서 부유사 계측 지점에 대한 픽셀의 스펙트럼을 추출하여 구축하였다. 이렇게 생성된 자료들의 분광 다양성을 주성분 분석(Principle Component Analysis; PCA)를 통해 분석하였으며, 부유사의 입도 분포, 부유사 종류, 수온 등과의 상관관계를 통해 분광 특성과 가장 상관관계가 높은 물리적 인자를 규명하였다. 더불어 구축된 자료를 바탕으로 기계학습 기반 주요 특징 선택 알고리즘인 재귀적 특징 제거법 (Recursive Feature Elimination)과 기계학습기반 회귀 모형인 Support Vector Regression을 결합하여 초분광 영상 기반 부유사 농도 예측 모형을 개발하였으며, 이 결과를 원격탐사 계측 연구에서 일반적으로 사용되어 오던 최적 밴드비 분석 (Optimal Band Ratio Analysis; OBRA) 방법으로 도출된 회귀식과 비교하였다. 그 결과, 기존의 OBRA 기반 방법은 비선형성을 증가시켜도 좁은 영역의 파장대만을 고려하는 한계점으로 인해 부유사의 다양한 분광 특성을 반영하지 못하였으며, 본 연구에서 제시한 기계학습 기반 예측 모형은 420 nm~1000 nm에 걸쳐 폭 넓은 파장대를 고려함과 동시에 높은 정확도를 산출하였다. 최종적으로 개발된 모형을 적용해 다양한 유사 조건에 대한 부유사 시공간 분포를 매핑한 결과, 시공간적으로 고해상도의 부유사 농도 분포를 산출하는 것으로 밝혀졌다.

  • PDF

유전 알고리듬과 반응표면을 이용한 천음속 익형의 최적설계 (Optimization of Transonic Airfoil Using GA Based on Neural Network and Multiple Regression Model)

  • 김윤식;김종헌;이종수
    • 대한기계학회논문집A
    • /
    • 제26권12호
    • /
    • pp.2556-2564
    • /
    • 2002
  • The design of airfoil had practiced by repeat tests in its first stage, though an airfoil has as been designed based on simulations according to techniques of computational fluid dynamics. Here, using of traditional optimization is unsuitable because a state of flux is hypersensitive to the shape of airfoil. Therefore the paper optimized the shape of airfoil in transonic region using a genetic algorithm (GA). Response surfaces are based on back propagation neural network (BPN) and regression model. Training data of BPN and regression model were obtained by computational fluid dynamic analysis using CFD-ACE, and each analysis has been designed by design of experiments.

KALMAN FILTER기법을 이용한 실업자 수의 소지역 추정 (Small Area Estimation of Unemplyoment Using Kalman Filter Method)

  • 양영춘;이상은;신민웅
    • 응용통계연구
    • /
    • 제16권2호
    • /
    • pp.239-246
    • /
    • 2003
  • 소지역에서 직접(direct) 시계열추정을 할 수 있다면, 소지역들 추정에서 최적선형 불편 예측량(BLUP)을 일반화 시킬 수 있다. 특히 조사에서 얻어지는 관측 값의 오차가 시간상으로 상관관계가 있다면 Kalman Filter(KF)기법이 사용 될 수 있다. 이 연구는 예측 값을 활용한 소지역의 실업자 수 추정에서 표본으로 추출되지 않은, 즉 관측되지 않은 값의 예측모형에 KF기법을 적용하였다. 이는 경제활동인구수를 이용하여 현 시점의 소지역 실업자 수를 예측함수(BLUP)를 통해 추정하게 된다. 그리고 이를 단순 회귀분석 추정치와 비교하였다.

신경망 모형의 초기가중치 최적화 방법에 관한 연구

  • 조용준;이용구
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2003년도 춘계 학술발표회 논문집
    • /
    • pp.19-24
    • /
    • 2003
  • 신경망은 적용 다양성과 제약조건의 최소성, 강력한 예측성, 범용성, 근사성 등 많은 장점을 지니고 있으나 초기 가중치의 할당에 따라 모델 생성의 Performance와 예측의 결과가 달라지게 되는 단점을 지니고 있다. 이런 신경망의 초기 가중치에 따른 단점을 보안하기 위해 통계적 알고리즘의 접목을 통해 Hybrid된 신경망 보완 알고리즘을 제시하고자 하였다. 논문을 위한 기본 가정으로 신경망의 가장 기본인 SLP 알고리즘을 바탕으로 활성함수에 가장 일반적으로 사용되는 Sigmoid 활성함수를 이용하였을 때, 초기 가중치로 기존의 임의 난수 생성 방식이 아닌 통계적 로지스틱 회귀분석의 계수값(mle)을 제시하여 이를 초기치로 사용한 경우와 그렇지 않은 경우의 예측 정확성과 수렴의 Performance정도를 비교하여 가장 효과적인 초기치 방법을 제시하고자 하였다.

  • PDF

비용효율적 지능형 침입탐지시스템 구현을 위한 유전자 알고리즘 기반 통합 모형 (An Integrated Model based on Genetic Algorithms for Implementing Cost-Effective Intelligent Intrusion Detection Systems)

  • 이현욱;김지훈;안현철
    • 지능정보연구
    • /
    • 제18권1호
    • /
    • pp.125-141
    • /
    • 2012
  • 본 연구는 최근 그 중요성이 한층 높아지고 있는 침입탐지시스템(IDS, Intrusion Detection System)의 침입탐지모형을 개선하기 위한 방안으로 유전자 알고리즘에 기반한 새로운 통합모형을 제시한다. 본 연구의 제안모형은 서로 상호보완적 관계에 있는 이분류 모형인 로지스틱 회귀분석(LOGIT, Logistic Regression), 의사결정나무(DT, Decision Tree), 인공신경망 (ANN, Artificial Neural Network), 그리고 SVM(Support Vector Machine)의 예측결과에 적절한 가중치를 부여해 최종 예측결과를 산출하도록 하였는데, 이 때 최적 가중치의 탐색을 위한 방법으로는 유전자 알고리즘을 사용한다. 아울러, 본 연구에서는 1차적으로 오탐지율을 최소화하는 최적의 모형을 산출한 뒤, 이어 비대칭 오류비용 개념을 반영해 오탐지로 인해 발생할 수 있는 전체 비용을 최소화할 수 있는 최적 임계치를 탐색, 최종적으로 가장 비용 효율적인 침입탐지모형을 도출하고자 하였다. 본 연구에서는 제안모형의 우수성을 확인하기 위해, 국내 한 공공기관의 보안센서로부터 수집된 로그 데이터를 바탕으로 실증 분석을 수행하였다. 그 결과, 본 연구에서 제안한 유전자 알고리즘 기반 통합모형이 인공신경망이나 SVM만으로 구성된 단일모형에 비해 학습용과 검증용 데이터셋 모두에서 더 우수한 탐지율을 보임을 확인할 수 있었다. 비대칭 오류비용을 고려한 전체 비용의 관점에서도 단일모형으로 된 비교모형에 비해 본 연구의 제안모형이 더 낮은 비용을 나타냄을 확인할 수 있었다. 이렇게 실증적으로 그 효과가 검증된 본 연구의 제안 모형은 앞으로 보다 지능화된 침입탐지시스템을 개발하는데 유용하게 활용될 수 있을 것으로 기대된다.

모의실험을 기반으로 지수형 응답률 보정을 위한 세부 층 결정에 관한 연구 (A study on the determination of substrata using the information of exponential response rate by simulation studies)

  • 민주원;신기일
    • 응용통계연구
    • /
    • 제31권5호
    • /
    • pp.621-636
    • /
    • 2018
  • 정보적 표본설계 기법을 적용하여 무응답의 영향을 줄이기 위한 연구가 진행되고 있다. 특히 초모집단모형(super population model)에 포함된 오차의 분포가 정규분포를 따르고 응답률이 지수함수를 따를 때 지수형 응답률 정보를 모수추정에 사용함으로써 추정의 정확성이 향상되는 것으로 알려져 있다. 최근 Chung과 Shin (2017)은 정보적 표본설계의 가중치를 구하기 위해 세부 층을 등간격으로 나누는 방법을 고려하였으며 세부 층의 개수가 추정의 정확성에 영향을 주는 것을 확인하였다. 이에 본 연구에서는 주어진 표본 규모에 따른 최적의 세부 층 개수와 최적의 층 경계를 구하기 위해 등간격, 분위수, LH 알고리즘을 이용하여 층을 나누는 방법을 살펴보았으며 모의실험을 통하여 각 방법의 결과를 비교하였다. 또한 다양한 형태의 보조변수 분포를 이용하여 실무에서 사용할 수 있는 세부 층 경계와 세부 층 개수를 정하는 기준을 제안하였다.

교통문화지수 영향요인에 의한 유형화와 영향정도에 관한 연구 (A Study on Patterning and Grading by the Impact of Traffic Culture Index)

  • 정철우;정헌영;고상선
    • 한국항해항만학회지
    • /
    • 제30권1호
    • /
    • pp.35-43
    • /
    • 2006
  • 본 연구는 교통안전공단과 사단법인 녹색교통운동이 공동으로 개발한 교통문화지수와 관련한 2002년과 2003년의 전국 81개 도시 자료를 토대로 통계적 분석을 행하여 이들 대상도시들을 유형화하고, 집단별 영향요인에 근거하여 교통사고 예방대책들을 제시하고자 하였다. 먼저 교통문화지수와 영향요인들에 대한 주성분분석 결과로는 4개의 주성분으로 구분 지울 수 있었으며, 도시 특성별 최적 집단 수는 4개가 적합한 것으로 나타났다. 또한 이들 유형화된 집단별 교통문화지수에의 영향요인을 단계별 다중 회귀분석법을 이용하여 분석한 결과, 4개 집단 모두 높은 설명력을 갖는 회귀모형을 구축할 수 있었다. 이에 따라 각 집단별 교통사고 예방대책들을 구체적으로 제시할 수 있었으며, 아울러 투자된 시설이 얼마나 교통사고 예방에 효과적이었는가를 분석할 필요성이 있음을 향후의 연구 과제로 제시하였다.

의료, 보건, 역학 분야에서 생산되는 준경쟁적 위험자료를 분석하기 위한 통계적 모형의 개발과 임상분석시스템 구축을 위한 연구 (Developing statistical models and constructing clinical systems for analyzing semi-competing risks data produced from medicine, public heath, and epidemiology)

  • 김진흠
    • 응용통계연구
    • /
    • 제33권4호
    • /
    • pp.379-393
    • /
    • 2020
  • 사망과 같은 종말 사건은 중간 사건을 중도절단 시킬 수 있지만 재발과 같은 중간 사건은 종말 사건을 중도절단 시킬 수 없는 자료를 준경쟁위험 자료라고 하는데 의학 및 보건, 역학 분야에서는 이와 같은 자료를 자주 접하게 된다. 본 논문에서는 질병-사망 모형에 포함된 세 가지 전이 시간이 모두 구간중도절단된 준경쟁위험 자료를 분석하기 위해 정규 프레일티를 가진 와이블 회귀모형을 제안하였다. 각 개체는 중간 사건과 종말 사건의 발생 여부에 따라 다섯 가지 유형으로 구분되는데 유형별로 조건부 우도함수를 유도하였다. 조정중요표본추출법을 써서 주변 우도함수를 유도한 후 반복의사뉴톤 알고리즘을 써서 최적 추정량을 얻었다. 제안한 추정 방법의 소표본 성질을 살펴보기 위해 모의실험을 수행하였으며 또한 제안한 추정 방법을 Personnes Agées Quid (PAQUID) 자료에 적용하였다.

점근 회귀방정식을 이용한 한강 권역 소유역의 유출곡선지수 산정 (Estimation of Curve Number Using Asymptotic Regression Method in Small Watersheds of Han Rive)

  • 유지수;박동혁;안재현;김태웅
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2017년도 학술발표회
    • /
    • pp.215-215
    • /
    • 2017
  • NRCS-CN 방법은 총 강우량으로부터 유출량을 계산하는 방법으로, 국내에서는 설계홍수량 산정 시 NRCS-CN 방법의 사용을 권장하고 있다. CN값은 토지이용 및 피복, 토양특성, 수문학적 조건(AMC)에 따른 함수로 결정할 수 있으나, 보통의 경우 미국의 National Engineering Handbook (NEH-4)에서 제시한 표를 활용한다. 그러나, 우리나라의 토지피복 및 토지이용 현황은 미국과 다르기 때문에 현실 조건을 반영한 조정이 필요함에도 불구하고, 충분한 관측 자료가 확보되지 않아 이러한 조정이 어려운 실정이다. NRCS-CN 방법에서는 결과 값이 총 강수량보다 CN에 크게 의존적이기 때문에 부정확한 CN 값의 산정은 큰 오차를 야기할 수 있다. 또한 소유역에서는 초기손실량이 설계홍수량 산정에 큰 영향을 미치지만 우리나라는 초기손실률을 20%의 고정된 값을 일괄적으로 적용하고 있으며, 이는 제주도와 같은 특수한 투수성 지층에서는 적합하지 않다는 지적을 받아왔다. 여러 선행연구에서 강수량과 CN 사이에는 특정 관계식이 존재하며, 고정된 CN 값이 아닌 강수량에 따라 변화하는 값을 적용하는 것이 기존의 NRCS-CN 방법보다 더 정확한 결과를 나타낸다는 것이 확인된 바 있다. 본 연구에서는 NRCS-CN 방법의 CN 값과 초기손실률을 유역에 적합하게 개선하기 위해서 기존의 NRCS-CN 모형에 점근 유출곡선지수방법(Asymptotic CN Regression Method)을 통해 산정된 CN값과 각기 다른 초기손실률(0.01, 0.05, 0.10, 0.20, 0.40)을 적용하여 개선된 총 8개의 모형을 한강 권역 소유역에 적용하였다. RMSE, MAE 및 R-square 등의 지표를 이용하여 모형 검정을 수행하였으며, 최적의 모형 및 미개변수를 선정하였다. 그 결과 기존의 NRCS-CN 방법보다 점근 유출곡선지수방법을 적용했을 때 더 작은 오차를 나타내는 것을 확인하였으며, 대부분의 유역에서 0.01 또는 0.05 등 기존보다 더 작은 초기손실률을 채택 시 실측값과 가장 적은 오차를 나타냈다.

  • PDF