• 제목/요약/키워드: 부스팅

검색결과 137건 처리시간 0.024초

XGBoost를 활용한 리스크패리티 자산배분 모형에 관한 연구 (A Study on Risk Parity Asset Allocation Model with XGBoos)

  • 김영훈;최흥식;김선웅
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.135-149
    • /
    • 2020
  • 인공지능을 기반으로 한 다양한 연구들이 현대사회에 많은 변화를 불러일으키고 있다. 금융시장 역시 예외는 아니다. 로보어드바이저 개발이 활발하게 진행되고 있으며 전통적 방식의 단점을 보완하고 사람이 분석하기 어려운 부분을 대체하고 있다. 로보어드바이저는 인공지능 알고리즘으로 자동화된 투자 결정을 내려 다양한 자산배분 모형과 함께 활용되고 있다. 자산배분 모형 중 리스크패리티는 대표적인 위험 기반 자산배분 모형의 하나로 큰 자산을 운용하는 데 있어 안정성을 나타내고 현업에서 역시 널리 쓰이고 있다. 그리고 XGBoost 모형은 병렬화된 트리 부스팅 기법으로 제한된 메모리 환경에서도 수십억 가지의 예제로 확장이 가능할 뿐만 아니라 기존의 부스팅에 비해 학습속도가 매우 빨라 많은 분야에서 널리 활용되고 있다. 이에 본 연구에서 리스크패리티와 XGBoost를 장점을 결합한 모형을 제안하고자 한다. 기존에 널리 사용되는 최적화 자산배분 모형은 과거 데이터를 기반으로 투자 비중을 추정하기 때문에 과거와 실투자 기간 사이의 추정 오차가 발생하게 된다. 최적화 자산배분 모형은 추정 오차로 인해 포트폴리오 성과에서 악영향을 받게 된다. 본 연구는 XGBoost를 통해 실투자 기간의 변동성을 예측하여 최적화 자산배분 모형의 추정 오차를 줄여 모형의 안정성과 포트폴리오 성과를 개선하고자 한다. 본 연구에서 제시한 모형의 실증 검증을 위해 한국 주식시장의 10개 업종 지수 데이터를 활용하여 2003년부터 2019년까지 총 17년간 주가 자료를 활용하였으며 in-sample 1,000개, out-of-sample 20개씩 Moving-window 방식으로 예측 결과값을 누적하여 총 154회의 리밸런싱이 이루어진 백테스팅 결과를 도출하였다. 본 연구에서 제안한 자산배분 모형은 기계학습을 사용하지 않은 기존의 리스크패리티와 비교하였을 때 누적수익률 및 추정 오차에서 모두 개선된 성과를 보여주었다. 총 누적수익률은 45.748%로 리스크패리티 대비 약 5% 높은 결과를 보였고 추정오차 역시 10개 업종 중 9개에서 감소한 결과를 보였다. 실험 결과를 통해 최적화 자산배분 모형의 추정 오차를 감소시킴으로써 포트폴리오 성과를 개선하였다. 포트폴리오의 추정 오차를 줄이기 위해 모수 추정 방법에 관한 다양한 연구 사례들이 존재한다. 본 연구는 추정 오차를 줄이기 위한 새로운 추정방법으로 기계학습을 제시하여 최근 빠른 속도로 발전하는 금융시장에 맞는 진보된 인공지능형 자산배분 모형을 제시한 점에서 의의가 있다.

회사채 신용등급 예측을 위한 SVM 앙상블학습 (Ensemble Learning with Support Vector Machines for Bond Rating)

  • 김명종
    • 지능정보연구
    • /
    • 제18권2호
    • /
    • pp.29-45
    • /
    • 2012
  • 회사채 신용등급은 투자자의 입장에서는 수익률 결정의 중요한 요소이며 기업의 입장에서는 자본비용 및 기업 가치와 관련된 중요한 재무의사결정사항으로 정교한 신용등급 예측 모형의 개발은 재무 및 회계 분야에서 오랫동안 전통적인 연구 주제가 되어왔다. 그러나, 회사채 신용등급 예측 모형의 성과와 관련된 가장 중요한 문제는 등급별 데이터의 불균형 문제이다. 예측 문제에 있어서 데이터 불균형(Data imbalance) 은 사용되는 표본이 특정 범주에 편중되었을 때 나타난다. 데이터 불균형이 심화됨에 따라 범주 사이의 분류경계영역이 왜곡되므로 분류자의 학습성과가 저하되게 된다. 본 연구에서는 데이터 불균형 문제가 존재하는 다분류 문제를 효과적으로 해결하기 위한 다분류 기하평균 부스팅 기법 (Multiclass Geometric Mean-based Boosting MGM-Boost)을 제안하고자 한다. MGM-Boost 알고리즘은 부스팅 알고리즘에 기하평균 개념을 도입한 것으로 오분류된 표본에 대한 학습을 강화할 수 있으며 불균형 분포를 보이는 각 범주의 예측정확도를 동시에 고려한 학습이 가능하다는 장점이 있다. 회사채 신용등급 예측문제를 활용하여 MGM-Boost의 성과를 검증한 결과 SVM 및 AdaBoost 기법과 비교하여 통계적으로 유의적인 성과개선 효과를 보여주었으며 데이터 불균형 하에서도 벤치마킹 모형과 비교하여 견고한 학습성과를 나타냈다.

데이터마이닝 기법을 활용한 노인장기요양급여 권고모형 개발 (A Recommending System for Care Plan(Res-CP) in Long-Term Care Insurance System)

  • 한은정;이정석;김동건;강임옥
    • 응용통계연구
    • /
    • 제22권6호
    • /
    • pp.1229-1237
    • /
    • 2009
  • 노인장기요양보험에서 가장 중요한 이슈는 급여대상자의 희망, 건강 및 기능상태에 따라 어떤 급여를 제공할 것인가 이다. 이를 해결하고자 노인장기요양보험의 보험자인 국민건강보험 공단은 급여대상자에게 '표준장기요양이용계획서'를 제공하고 있다. 본 연구에서는 표준장기요양이용계획 작성의 효율화 방안을 마련하고자 노인장기요양보험 3차 시범사업 표준이용계획 자료를 활용하여 노인장기요양급여 권고모형을 개발하였다. 모형개발에는 데이터마이닝의 의사결정나무모형, 로지스틱회귀모형, 앙상블 모형의 배깅과 부스팅 기법을 사용하였고, 이 중 실무자가 이해하기 쉬운 의사결정나무를 채택하여 권고모형을 설명 하였다. 본 연구는 노인장기요양보험 제도의 이용계획 수립의 객관성 및 과학성을 확보하고 이용계획 업무를 효율화하는 데에 기여할 것으로 기대된다.

복합 살모넬라 타이피무리움 고스트 백신의 마우스 구강 투여에 의한 면역 응답 (Immune Responses of BALB/c Mice Administrated via Oral Route to a Combined Salmonella Typhimurium Ghost Vaccine)

  • 김판길;하연조;이수만;김삼웅;갈상완
    • 생명과학회지
    • /
    • 제25권11호
    • /
    • pp.1197-1203
    • /
    • 2015
  • 살모넬라 타이피무리움 JOL389와 χ3339는 마우스에 강한 독력을 가진 균주들이며, χ8554는 χ3339로부터 유도되었다. 고스트 카세트를 운반하는 플라스미드 pMMP184가 제조된 후에, BALB/c 마우스의 구강 경로를 경유하여 투여되었다. 총 IgG의 함량 변화는 χ8554 고스트 세포의 부스팅으로 발현 함량이 낮게 나타났지만, 3차 접종의 2주 경과 후, 6주차에서 증가되는 양상을 보였다. 그러나, 혼합 백신 그룹인 JOL389/χ8554 그룹에서는 총 IgG의 함량이 일차 접종 후 2주차부터 상승되는 경향을 보였고, 추가접종이 진행되므로써 많은 상승 폭을 나타내었다. 총 IgG의 함량은 백신 접종 후 10주차에서 χ8554그룹에 비교하여 JOL389/χ8554은 8배 이상 높은 것으로 관찰되었다. IgG1, IgG2a, 분비IgA의 함량은 백신화 후 4주차에서 상승되었다. 독력 살모넬라 타이피무리움 χ3339로 도전실험결과, χ8554 [pMMP184]과 χ8554 [pMMP184]/JOL389은 대조구에 비교하여 50% 이상의 보호효과가 관찰되었다. 이들 결과는 χ8554 [pMMP184]/JOL389은 χ8554 [pMMP184]보다 더 높은 면역 응답을 유도하는 것이 가능한 것으로 추정된다.

통계적 예측모형을 활용한 경륜 경기 순위 분석 (Analysis of cycle racing ranking using statistical prediction models)

  • 박가희;박리라;송종우
    • 응용통계연구
    • /
    • 제30권1호
    • /
    • pp.25-39
    • /
    • 2017
  • 최근 경륜은 2015년도 기준, 5백만 명 이상의 많은 사람들이 참여하고 2조를 넘어선 매출을 발생시키는 대중적인 레저스포츠로서 자리 잡고 있다. 본 연구의 목적은 다양한 통계적 분석기법을 사용하여 경륜경기의 순위를 예측하고, 순위에 유의한 영향을 미치는 변수들을 파악하는 데에 있다. 다양한 Classification 방법과 Regression 방법들을 적용하여 순위예측모형을 만들고 비교분석하였다. 대부분의 모형에서 공통적으로 선택된 변수들을 살펴보면, 등급이 강급될수록, 종합득점이 높을수록 순위가 높아지며 반대로 등급이 승급될수록, 번호 4번을 부여받을수록 그리고 최근성적의 순위가 낮을수록 순위가 낮아지는 것을 알 수 있었다. 또한, 선수의 실력과 관련된 연속형 변수들을 각 경기별로 평균값을 빼서 보정한 자료와 원자료를 사용하여 모형을 적합시킨 결과 모든 모형에서 보정된 자료를 사용하였을 때 더 낮은 오분류율을 보였다. 마지막으로 분석에 사용하지 않은 최근 한 달 경기결과를 예측해서 베팅했을 때 모든 경우에 예측률은 높았지만 큰 이익을 거두지 못했는데 그 이유는 낮은 배당률을 가진 경기의 결과만을 잘 예측했기 때문이다.

깊이정보를 이용한 케스케이드 방식의 실시간 손 영역 검출 (Real-time Hand Region Detection based on Cascade using Depth Information)

  • 주성일;원선희;최형일
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권10호
    • /
    • pp.713-722
    • /
    • 2013
  • 본 논문에서는 깊이정보를 이용하여 케스케이드 방식에 기반한 실시간 손 영역 검출 방법을 제안한다. 실험 환경 조명 조건의 변화로부터 빠르고 안정적으로 손 영역을 검출하기 위해 깊이정보만을 이용한 특징을 제안하며, 부스팅과 케스케이드 방법을 이용한 분류기를 통해 손 영역 검출 방법을 제안한다. 먼저, 깊이정보만을 이용한 특징을 추출하기 위해 입력영상의 중심 깊이 값과 분할된 블록의 평균 깊이 값의 차이를 계산하고, 모든 크기의 손 영역 검출을 위해 중심 깊이 값과 2차 선형 모델을 이용하여 손 영역의 크기를 예측한다. 그리고 손 영역으로부터의 특징 추출을 통한 학습 및 인식을 위해 케스케이드 방식을 적용한다. 본 논문에서 제안한 분류기는 정확도를 유지하고 속도를 향상시키기 위하여 각 스테이지를 한 개의 약분류기로 구성하고 검출율을 만족하면서 오류율이 가장 낮은 임계값을 구하여 과적합 학습을 수행한다. 학습된 분류기를 이용하여 손 영역을 분류하고, 병합단계를 통해 최종 손 영역을 검출한다. 마지막으로 성능 검증을 위해 기존의 다양한 아다부스트와 정량적, 정성적 비교 분석을 통해 제안하는 손 영역 검출 알고리즘의 효율성을 입증한다.

설명 가능한 정기예금 가입 여부 예측을 위한 앙상블 학습 기반 분류 모델들의 비교 분석 (A Comparative Analysis of Ensemble Learning-Based Classification Models for Explainable Term Deposit Subscription Forecasting)

  • 신지안;문지훈;노승민
    • 한국전자거래학회지
    • /
    • 제26권3호
    • /
    • pp.97-117
    • /
    • 2021
  • 정기예금 가입 여부 예측은 은행의 대표적인 금융 마케팅 중 하나로, 은행은 다양한 고객 정보를 활용하여 예측 모델을 구성할 수 있다. 정기예금 가입 여부의 분류 정확도를 향상하기 위해, 많은 연구에서 기계학습 기법들을 이용하여 분류 모델들을 개발하였다. 하지만, 이러한 모델들이 만족스러운 성능을 보일지라도 모델의 의사결정 과정에 대한 근거가 적절하게 설명되지 않는다면 산업에서 활용하기가 쉽지 않다. 이러한 문제점을 해결하기 위해, 본 논문은 설명 가능한 정기예금 가입 여부 예측 기법을 제안한다. 먼저, 테이블 형식에서 우수한 성능을 도출하는 의사결정 나무 기반 앙상블 학습 기법인 랜덤 포레스트, GBM, XGBoost, LightGBM을 이용하여 분류 모델들을 개발하고, 10겹 교차검증을 통해 모델들의 분류 성능을 심층 분석한다. 다음으로, 가장 우수한 성능을 도출하는 모델에 설명 가능한 인공지능 기법인 SHAP을 적용하여 고객 정보의 영향도와 의사결정 과정 등을 해석할 수 있는 근거를 제공한다. 제안한 기법의 실용성과 타당성을 입증하기 위해, Kaggle에서 제공한 은행 마케팅 데이터 셋을 대상으로 모의실험을 진행하였으며, 데이터 셋 구성에 따라 GBM과 LightGBM 모델에 SHAP을 각기 적용하여 설명 가능한 정기예금 가입 여부를 위한 분석 및 시각화를 수행하였다.

앙상블 머신러닝 모형을 이용한 하천 녹조발생 예측모형의 입력변수 특성에 따른 성능 영향 (Effect of input variable characteristics on the performance of an ensemble machine learning model for algal bloom prediction)

  • 강병구;박정수
    • 상하수도학회지
    • /
    • 제35권6호
    • /
    • pp.417-424
    • /
    • 2021
  • Algal bloom is an ongoing issue in the management of freshwater systems for drinking water supply, and the chlorophyll-a concentration is commonly used to represent the status of algal bloom. Thus, the prediction of chlorophyll-a concentration is essential for the proper management of water quality. However, the chlorophyll-a concentration is affected by various water quality and environmental factors, so the prediction of its concentration is not an easy task. In recent years, many advanced machine learning algorithms have increasingly been used for the development of surrogate models to prediction the chlorophyll-a concentration in freshwater systems such as rivers or reservoirs. This study used a light gradient boosting machine(LightGBM), a gradient boosting decision tree algorithm, to develop an ensemble machine learning model to predict chlorophyll-a concentration. The field water quality data observed at Daecheong Lake, obtained from the real-time water information system in Korea, were used for the development of the model. The data include temperature, pH, electric conductivity, dissolved oxygen, total organic carbon, total nitrogen, total phosphorus, and chlorophyll-a. First, a LightGBM model was developed to predict the chlorophyll-a concentration by using the other seven items as independent input variables. Second, the time-lagged values of all the input variables were added as input variables to understand the effect of time lag of input variables on model performance. The time lag (i) ranges from 1 to 50 days. The model performance was evaluated using three indices, root mean squared error-observation standard deviation ration (RSR), Nash-Sutcliffe coefficient of efficiency (NSE) and mean absolute error (MAE). The model showed the best performance by adding a dataset with a one-day time lag (i=1) where RSR, NSE, and MAE were 0.359, 0.871 and 1.510, respectively. The improvement of model performance was observed when a dataset with a time lag up of about 15 days (i=15) was added.

USB Type-C 응용을 위한 Embedded Flash IP 설계 (Design of an Embedded Flash IP for USB Type-C Applications)

  • 김영희;이다솔;김홍주;이도규;하판봉
    • 한국정보전자통신기술학회논문지
    • /
    • 제12권3호
    • /
    • pp.312-320
    • /
    • 2019
  • 본 논문에서는 110nm eFlash 셀을 사용한 512Kb eFlash IP를 설계하였다. eFlash 셀의 프로그램, 지우기와 읽기 동작을 만족시키는 row 구동회로(CG/SL 구동회로), write BL 구동회로( write BL 스위치 회로와 PBL 스위치 선택 회로), read BL 스위치 회로와 read BL S/A 회로와 같은 eFlash 코어회로(Core circuit)를 제안하였다. 그리고 프로그램 모드에서 9.5V와 erase 모드에서 11.5V의 VPP(Boosted Voltage) 전압을 공급하는 VPP 전압 발생기회로는 기존의 단위 전하펌프 회로로 cross-coupled NMOS 트랜지스터를 사용하는 대신 body 전압을 ground에 연결된 12V NMOS 소자인 NMOS 프리차징 트랜지스터의 게이트 노드 전압을 부스팅하는 회로를 새롭게 제안하여 VPP 단위 전하펌프의 프리차징 노드를 정상적으로 VIN(Input Voltage) 전압으로 프리차징 시켜서 VPP 전하펌프 회로의 펌핑 전류를 증가시켰다. 펌핑 커패시터로는 PMOS 펌핑 커패시터에 비해 펌핑전류가 크고 레이아웃 면적이 작은 12V native NMOS 펌핑 커패시터를 사용하였다. 한편 110nm eFlash 공정을 기반으로 설계된 512Kb eFlash 메모리 IP의 레이아웃 면적은 $933.22{\mu}m{\times}925{\mu}m(=0.8632mm^2)$이다.

데이터마이닝 기법을 이용한 서울시 지하철역 승차인원 예측 (A study on the number of passengers using the subway stations in Seoul)

  • 조수진;김보경;김나현;송종우
    • 응용통계연구
    • /
    • 제32권1호
    • /
    • pp.111-128
    • /
    • 2019
  • 지하철은 많은 승객들을 원거리까지 안전하고, 신속 정확하게 원하는 지점으로 대량 수송할 수 있는 친환경적인 교통수단이다. 지하철의 공익성을 증대시키기 위해서는 정확한 승객 수요 예측이 이루어져야 한다. 본 연구는 정확한 지하철 수요예측을 위하여, 군집분석을 통해 서울시 1-9호선 지하철역들을 군집화 하였다. 그 후, 전체 역과 각 군집 별 최종 예측 모형을 제시하였다. 군집화 결과, 294개의 역이 3개로 군집화 되었으며 그룹 1은 상공업지구, 그룹 2는 주상복합지구, 그룹 3은 주거지구가 중심이 되는 역들로 나타났다. 그 후 각 군집 별로 다양한 데이터 마이닝 기법을 이용해 지하철 승차인원 예측 모형을 제시하고, 수요 예측에 중요한 영향을 미치는 요인들을 도출하였다. 그리고 최종 모형을 바탕으로 2018년 10월에 개통될 서울시 9호선 3단계 연장역인 8개 신설역의 3개월 수요를 예측하였다. 8개 신설역의 월평균 시간당 평균 승차인원은 약 241에서 452명, 월평균 시간당 최대 승차인원은 약 969에서 1,515명으로 추정되었다. 본 분석의 최종 모형을 활용한 신설역의 지하철 수요 예측은 대중교통 정책 결정을 위한 기초자료로 활용되어 효율적인 지하철 운영 방안 수립에 기여할 수 있을 것이다.