• 제목/요약/키워드: Ensemble model

검색결과 645건 처리시간 0.19초

기계학습을 이용한 수출신용보증 사고예측 (The Prediction of Export Credit Guarantee Accident using Machine Learning)

  • 조재영;주지환;한인구
    • 지능정보연구
    • /
    • 제27권1호
    • /
    • pp.83-102
    • /
    • 2021
  • 2020년 8월 정부는 한국판 뉴딜을 뒷받침하기 위한 공공기관의 역할 강화방안으로서 각 공공기관별 역량을 바탕으로 5대 분야에 걸쳐 총 20가지 과제를 선정하였다. 빅데이터(Big Data), 인공지능 등을 활용하여 대국민 서비스를 제고하고 공공기관이 보유한 양질의 데이터를 개방하는 등의 다양한 정책을 통해 한국판 뉴딜(New Deal)의 성과를 조기에 창출하고 이를 극대화하기 위한 다양한 노력을 기울이고 있다. 그중에서 한국무역보험공사(KSURE)는 정책금융 공공기관으로 국내 수출기업들을 지원하기 위해 여러 제도를 운영하고 있는데 아직까지는 본 기관이 가지고 있는 빅데이터를 적극적으로 활용하지 못하고 있는 실정이다. 본 연구는 한국무역보험공사의 수출신용보증 사고 발생을 사전에 예측하고자 공사가 보유한 내부 데이터에 기계학습 모형을 적용하였고 해당 모형 간에 예측성과를 비교하였다. 예측 모형으로는 로지스틱(Logit) 회귀모형, 랜덤 포레스트(Random Forest), XGBoost, LightGBM, 심층신경망을 사용하였고, 평가 기준으로는 전체 표본의 예측 정확도 이외에도 표본별 사고 확률을 구간으로 나누어 높은 확률로 예측된 표본과 낮은 확률로 예측된 경우의 정확도를 서로 비교하였다. 각 모형별 전체 표본의 예측 정확도는 70% 내외로 나타났고 개별 표본을 사고 확률 구간별로 세부 분석한 결과 양 극단의 확률구간(0~20%, 80~100%)에서 90~100%의 예측 정확도를 보여 모형의 현실적 활용 가능성을 보여주었다. 제2종 오류의 중요성 및 전체적 예측 정확도를 종합적으로 고려할 경우, XGBoost와 심층신경망이 가장 우수한 모형으로 평가되었다. 랜덤포레스트와 LightGBM은 그 다음으로 우수하며, 로지스틱 회귀모형은 가장 낮은 성과를 보였다. 본 연구는 한국무역보험공사의 빅데이터를 기계학습모형으로 분석해 업무의 효율성을 높이는 사례로서 향후 기계학습 등을 활용하여 실무 현장에서 빅데이터 분석 및 활용이 활발해지기를 기대한다.

나선형 형상의 초고층건물의 공력감쇠의 특성 (Characteristics of Aerodynamic Damping on Helical-Shaped Super Tall Building)

  • 김원술;이진학;타무라 유키오
    • 대한토목학회논문집
    • /
    • 제37권1호
    • /
    • pp.9-17
    • /
    • 2017
  • 본 연구에서는 변위 및 가속도 응답의 저감 효과에 있어서, 유리한 형상인 $180^{\circ}$ 나선형(Helical $180^{\circ}$) 초고층건물을 대상으로 공력진동실험 수행하여 나선형 초고층건물의 공력감쇠율의 특성을 조사하였다. 공력감쇠율은 RD법(Random decrement technique)을 이용하여 평가하였다. 또한 RD법에서 부분 샘플의 개수와 초기 조건 값의 변화가 공력감쇠율에 어떤 영향을 미치는지 조사하였다. 실험 결과, 최소 2000개 이상의 부분 샘플을 이용하여 앙상블 평균을 적용하면 공력감쇠율의 불규칙한 변동의 폭을 줄일 수 있음을 검증했고, 기존 연구들과도 잘 부합되는 것을 알 수 있었다. 정방형 모형과 $180^{\circ}$ 나선형 모형의 공력감쇠율의 결과를 살펴보면, 풍방향 공력감쇠율은 건물의 형상이 다름에도 불구하고 무차원 풍속에 따른 공력감쇠율은 매우 유사한 경향을 보였다. 한편, 정방형 모형에 대한 풍직각방향의 공력감쇠율은 $180^{\circ}$ 나선형모형의 공력감쇠율의 특성과는 다른 양상을 보이는 것을 알 수 있었다. 특히 풍향 변화에 따른 $180^{\circ}$ 나선형 모형의 Y방향에 대한 공력감쇠율은 풍향의 변화와 상관없이, 전반적으로 0에 가까운 값을 갖는 경향이 나타났고, 무차원 풍속의 증가와 함께 변동의 폭은 작지만 점진적으로 증가하는 경향을 보였다. 초기 조건 값의 변화에 따른 공력감쇠율을 평가한 결과, 초기 조건 값을 "응답의 표준편차" 또는 RD 함수에 대한 최적화 "${\sqrt{2}}{\times}$응답의 표준 편차"를 적용하여 평가한 공력감쇠율은 매우 유사한 결과 값과 분포를 보이는 것으로 나타났다.

지구통계 기법을 이용한 오일샌드 저류층 해석 및 스팀주입중력법을 이용한 비투멘 회수 적지 선정 사전 연구 (A Characterization of Oil Sand Reservoir and Selections of Optimal SAGD Locations Based on Stochastic Geostatistical Predictions)

  • 정진아;박은규
    • 자원환경지질
    • /
    • 제46권4호
    • /
    • pp.313-327
    • /
    • 2013
  • 본 연구에서는 캐나다 아사바스카 지역의 맥머레이층에 대한 3차원 지구통계 모사를 실시하였으며 모사 결과를 바탕으로 심부지열회수방법을 통한 경제적 산출 가능 지역을 가늠하고자 하였다. 비투멘의 효율적인 생산을 위하여 SAGD 공법의 최적 입지를 선정하는데 있어 스팀챔버의 충분한 수직적 연장성을 확보하는 것은 중요한 사항이다. 연구지역에서 획득한 110개의 시추공 자료에 대하여 마르코프 전이 확률 기반의 분석을 실시하였으며 이를 바탕으로 맥머레이층 구성 암상에 대한 추계론적 예측을 실시하였다. 추계론적 모사를 통하여 획득한 다중재현을 기반으로 앙상블 확률 분포도를 제작하였으며 이는 각 암상이 분포 할 수 있는 포텐셜을 보여준다. 앙상블 확률 분포도를 이용하여 투수성 퇴적층(역질 퇴적층 및 사질 퇴적층)에 대한 누적 층후도를 구성하였으며 이를 바탕으로 SAGD 공법이 적용될 수 있는 최적 입지를 선정하였다. SAGD 최적 입지 선정을 위한 추가적인 분석을 실시하기 위하여 전이율을 바탕으로 한 단일 퇴적층의 평균적인 수직 및 수평적 연장성을 산정하였다. 투수성 퇴적층의 평균적인 수직적 연장성은 대체로 투수성 퇴적층에 대한 누적층후도 분포도와 유사한 분포 양상을 보이나 일부 누적 층후가 큰 위치에서 유사하지 않은 양상을 보인다. 이는 누적 층후도와 평균적인 수직적 연장성 분포 양상이 유사하지 않은 지역은 투수성 퇴적층과 다른 암상과의 교호성은 매우 크나 투수성 퇴적층의 수직적인 연장성은 좋지 않음을 의미한다. 따라서 누적층후도 뿐 만 아니라 투수성 퇴적층의 수직적 연장성 또한 충분히 고려하였을 때 건전한 SAGD 최적 입지를 선정하는데 충분히 신뢰성 있는 결론을 도출 할 것으로 판단된다.

비대칭 오류 비용을 고려한 XGBoost 기반 재범 예측 모델 (A Recidivism Prediction Model Based on XGBoost Considering Asymmetric Error Costs)

  • 원하람;심재승;안현철
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.127-137
    • /
    • 2019
  • 재범예측은 70년대 이전부터 전문가들에 의해서 꾸준히 연구되어온 분야지만, 최근 재범에 의한 범죄가 꾸준히 증가하면서 재범예측의 중요성이 커지고 있다. 특히 미국과 캐나다에서 재판이나 가석방심사 시 재범 위험 평가 보고서를 결정적인 기준으로 채택하게 된 90년대를 기점으로 재범예측에 관한 연구가 활발해졌으며, 비슷한 시기에 국내에서도 재범요인에 관한 실증적인 연구가 시작되었다. 지금까지 대부분의 재범예측 연구는 재범요인 분석이나 재범예측의 정확성을 높이는 연구에 집중된 경향을 보이고 있다. 그러나 재범 예측에는 비대칭 오류 비용 구조가 있기 때문에 경우에 따라 예측 정확도를 최대화함과 동시에 예측 오분류 비용을 최소화하는 연구도 중요한 의미를 가진다. 일반적으로 재범을 저지르지 않을 사람을 재범을 저지를 것으로 오분류하는 비용은 재범을 저지를 사람을 재범을 저지르지 않을 것으로 오분류하는 비용보다 낮다. 전자는 추가적인 감시 비용만 증가되는 반면, 후자는 범죄 발생에 따른 막대한 사회적, 경제적 비용을 야기하기 때문이다. 이러한 비대칭비용에 따른 비용 경제성을 반영하여, 본 연구에서 비대칭 오류 비용을 고려한 XGBoost 기반 재범 예측모델을 제안한다. 모델의 첫 단계에서 최근 데이터 마이닝 분야에서 높은 성능으로 각광받고 있는 앙상블 기법, XGBoost를 적용하였고, XGBoost의 결과를 로지스틱 회귀 분석(Logistic Regression Analysis), 의사결정나무(Decision Trees), 인공신경망(Artificial Neural Networks), 서포트 벡터 머신(Support Vector Machine)과 같은 다양한 예측 기법과 비교하였다. 다음 단계에서 임계치의 최적화를 통해 FNE(False Negative Error)와 FPE(False Positive Error)의 가중 평균인 전체 오분류 비용을 최소화한다. 이후 모델의 유용성을 검증하기 위해 모델을 실제 재범예측 데이터셋에 적용하여 XGBoost 모델이 다른 비교 모델 보다 우수한 예측 정확도를 보일 뿐 아니라 오분류 비용도 가장 효과적으로 낮춘다는 점을 확인하였다.

공간분포모델을 활용한 사료작물 이탈리안 라이그라스(Lolium multiflorum L.)의 재배적지 변동예측연구 (A Study on the Prediction of Suitability Change of Forage Crop Italian Ryegrass (Lolium multiflorum L.) using Spatial Distribution Model)

  • 김현애;현신우;김광수
    • 한국농림기상학회지
    • /
    • 제16권2호
    • /
    • pp.103-113
    • /
    • 2014
  • 우리나라에서의 사료작물 생산면적이 제한적이기 때문에 미래의 기후조건에서 최적 재배 가능 지역을 중심으로 이탈리안 라이그라스와 같은 사료작물의 생산체계를 설계하는 것이 필요하다. 특히, 한반도를 대상으로 이탈리안 라이그라스의 재배 가능지역을 파악하는 것이 미래를 대비한 정책 결정에 도움을 줄 수 있다. 이번 연구에서는 기후자료를 기반으로 작물의 재배적합도를 예측하는 EcoCrop 모델을 사용하여 현재(1950~2000), 2020년대(2010~2039), 2050년대(2040~2069), 2080년대(2070~2099)의 이탈리안 라이그라스의 재배 가능지역을 분석하였다. 또한, 전구 기후모델인 CCCMA, CSIRO, UKMO-HadCM3, UKMO-HadGEM1, 그리고 NCAR 모델 등으로부터 얻어진 규모축소 기후자료를 활용한 앙상블 예측기법을 재배적합도 예측에 적용하여 미래 기후변화 조건에서의 불확실도를 낮추는 것을 시도하였다. 2050년대까지 이탈리안 라이그라스의 재배적합도는 남한과 북한 모두 크게 상승할 것으로 예측되었다. 예를 들어, 현재 기후조건에서 충청북도와 강원도에서 평균적인 재배적합도가 76.75와 44.77으로 낮게 예측되었지만 2020년대에 각각 16.2% 및 46.1% 증가하여 2080년대에는 모든 행정구역에서 평균적인 재배적합도가 90이상으로 나타날 것으로 예측되었다. 반면, 2080년대에 16개의 시 도 중 11개의 지역에서 재배적합도가 감소할 것으로 예측되었다. 북한의 경우 현재 기후조건에서 평균적인 재배적합도는 28.40으로 평균적인 재배적합도가 낮았다. 그러나 기후변화가 진행되면서 재배적합도가 크게 증가하여 2080년대에는 14개 행정구역 중 10곳에서 평균적인 재배적합도가 80 이상일 것으로 예측되었다. 특히 나선, 신의주 및 개성 인근 지역의 재배적합도가 크게 증가할 것으로 예측되어 이를 중심으로 수출을 위한 사료 생산단지 및 축산단지 조성이 가능할 것으로 예상되었다. 현재, 내한성 향상을 중심으로 이탈리안 라이그라스의 새로운 품종들이 개발 및 보급되고 있어 이러한 신품종을 대상으로 한 이모작 가능지를 구분하기 위해 품종별로 최적화된 모수를 활용한 재배적합도 예측지도를 작성연구가 연구가 필요할 것으로 사료되었다.

이차원 고객충성도 세그먼트 기반의 고객이탈예측 방법론 (A Methodology of Customer Churn Prediction based on Two-Dimensional Loyalty Segmentation)

  • 김형수;홍승우
    • 지능정보연구
    • /
    • 제26권4호
    • /
    • pp.111-126
    • /
    • 2020
  • CRM의 하위 연구 분야로 진행되었던 고객이탈예측은 최근 비즈니스 머신러닝 기술의 발전으로 인해 빅데이터 기반의 퍼포먼스 마케팅 주제로 더욱 그 중요도가 높아지고 있다. 그러나, 기존의 관련 연구는 예측 모형 자체의 성능을 개선시키는 것이 주요 목적이었으며, 전체적인 고객이탈예측 프로세스를 개선하고자 하는 연구는 상대적으로 부족했다. 본 연구는 성공적인 고객이탈관리가 모형 자체의 성능보다는 전체 프로세스의 개선을 통해 더 잘 이루어질 수 있다는 가정하에, 이차원 고객충성도 세그먼트 기반의 고객이탈예측 프로세스 (CCP/2DL: Customer Churn Prediction based on Two-Dimensional Loyalty segmentation)를 제안한다. CCP/2DL은 양방향, 즉 양적 및 질적 로열티 기반의 고객세분화를 시행하고, 고객세그먼트들을 이탈패턴에 따라 2차 그룹핑을 실시한 뒤, 이탈패턴 그룹별 이질적인 이탈예측 모형을 독립적으로 적용하는 일련의 이탈예측 프로세스이다. 제안한 이탈예측 프로세스의 상대적 우수성을 평가하기 위해 기존의 범용이탈예측 프로세스와 클러스터링 기반 이탈예측 프로세스와의 성능 비교를 수행하였다. 글로벌 NGO 단체인 A사의 협력으로 후원자 데이터를 활용한 분석과 검증을 수행했으며, 제안한 CCP/2DL의 성능이 다른 이탈예측 방법론보다 우수한 성능을 보이는 것으로 나타났다. 이러한 이탈예측 프로세스는 이탈예측에도 효과적일 뿐만 아니라, 다양한 고객통찰력을 확보하고, 관련된 다른 퍼포먼스 마케팅 활동을 수행할 수 있는 전략적 기반이 될 수 있다는 점에서 연구의 의의를 찾을 수 있다.

지식 누적을 이용한 실시간 주식시장 예측 (A Real-Time Stock Market Prediction Using Knowledge Accumulation)

  • 김진화;홍광헌;민진영
    • 지능정보연구
    • /
    • 제17권4호
    • /
    • pp.109-130
    • /
    • 2011
  • 연속발생 데이터는 데이터의 원천으로부터 데이터 저장소로 연속적으로 축적이 되는 데이터를 말한다. 이렇게 축적된 데이터의 크기는 시간이 지남에 따라 점점 커진다. 또한 이러한 대용량 데이터에서 정보를 추출하기 위해서는 저장공간, 시간, 그리고 많은 자원이 필요하다. 이러한 연속발생 데이터의 특성은 시간이 지남에 따라 축적된 대용량 데이터의 이용을 어렵고 고비용이 되게 한다. 만약 정보나 패턴을 추출할 때 누적된 전체 발생 데이터 중에서 최근의 일부만 사용 한다면 적은 일부 표본의 사용의 문제로 인하여 전체 데이터 사용에서 발견될 수 있는 유용한 정보의 유실이 있을 수 있다. 이러한 문제점을 해결하기 위해서 본 연구는 연속발생 데이터를 발생 시점에서 계속 모으기 보다 이러한 발생되는 데이터에서 규칙을 추출하여 효율적으로 지식을 관리하고자 한다. 이 방법은 기존의 방법에 비하여 적은 양의 데이터 저장공간을 필요로 한다. 또한 이렇게 축적된 규칙집합은 미래에 예측을 위해서 언제든 실시간 예측을 할 수 있게 준비가 된다. 여러 예측 모델을 결합시키는 방법인 앙상블 이론에 의하면 본 연구가 제시하는 데로 체계적으로 규칙집합을 시간에 따라 융합시킬 경우 더 나은 예측 성과가 가능하다. 본 연구는 주식시장의 변동성을 예측하기 위하여 주식시장 데이터를 사용하였다. 본 연구는 이 데이터를 이용해 본 연구가 제시하는 방법과 기존의 방법의 예측 정확도를 비교 하였다.

아시아 대륙, 동아시아, 대한민국을 대상으로 다른 공간적 규모의 기후변화시나리오 예측 비교 (Comparing climate projections for Asia, East Asia and South Korea)

  • 최혜영;;이동근
    • 환경영향평가
    • /
    • 제26권2호
    • /
    • pp.114-126
    • /
    • 2017
  • 우리나라의 많은 기후변화 관련 영향 평가 연구들이 기상청에서 제공하는 기후변화 시나리오를 이용하고 있지만, 하나의 기후 시나리오로 기후변화의 잠정적인 영향을 정확히 예측하기에는 한계가 있다. 본 연구는 세 가지의 지역적 스케일 - 아시아 대륙, 동아시아 6개국, 대한민국- 을 대상으로 두 가지 대표농도경로 시나리오에서 17개의 지역기후모델을 이용하여 현재와 2070년의 연간 최저 온도와 연간 강수량의 차이를 확인하였다. 대한민국의 경우 최저온도 증가량의 범위는 아시아 규모보다 작았으며 강수량 차이에 대한 편차는 아시아 규모보다 컸다. 최저온도 증가범위는 $1.3^{\circ}C$에서 $5.2^{\circ}C$이며, 연간 강수량 차이는 -42.4 mm (-3.2%) 에서 +389.8 mm (+ 29.6%) 로 기상청의 기후변화 시나리오는 긍정적 기후 시나리오의 예측값에 가까운 것으로 나타났다. 따라서 기후변화 및 관련 영향 평가 연구들은 다양한 기후변화 시나리오를 이용하여 그 예측 범위에 대비할 필요가 있으며, 본 연구 결과에 따라 GFDL-CM3와 INMCM4의 두 가지 기후모델을 이용하여 우리나라의 지구 온난화에 대한 잠정적인 영향을 평가하기를 권한다.

다중 기계학습 방법을 이용한 한국어 커뮤니티 기반 질의-응답 시스템 (A Korean Community-based Question Answering System Using Multiple Machine Learning Methods)

  • 권순재;김주애;강상우;서정연
    • 정보과학회 논문지
    • /
    • 제43권10호
    • /
    • pp.1085-1093
    • /
    • 2016
  • 커뮤니티 기반 질의 응답 시스템은 사용자 질의에 대한 정답을 인터넷 커뮤니티에 사용자들이 게시했던 문서 중에서 선택하여 제공하는 시스템이다. 기존 방법들은 질의 분석의 성능 향상을 위하여 목적 영역에 적합한 규칙을 구축하거나 일부 처리 과정에 기계 학습을 적용하였다. 하지만 기존 방법들은 적용 영역을 확장하거나 수정하는 경우 많은 비용이 소요되며 경우에 따라서는 시스템이 특정 영역에 과적합되는 경우가 발생한다. 본 논문에서는 커뮤니티 기반 질의-응답 시스템의 효과적인 처리를 위해서 시스템의 각 과정에 적합한 기계 학습 방법을 적용하여 전체 과정을 자동화하는 다중 기계학습 방법을 제안한다. 제안 시스템은 사용자 질의를 분석하는 부분과 정답 문서를 선택하는 부분으로 나눌 수 있다. 질의 분석 과정은 질의의 초점 구문을 분석하는 질의 핵심부 추출기와 질의의 주제를 분류하는 질의 유형 분류기로 구성하였으며, 전자는 조건부 무작위장을 사용하고 후자는 지지 벡터 기계를 사용한다. 정답 문서 선택에서는 유사도 측정에서 사용하는 가중치를 인공 신경망으로 학습한다. 또한 인터넷에 커뮤니티에 게시된 데이터는 형태소 분석 결과를 신뢰할 수 없는 경우가 많이 발생한다. 따라서 음절 자질을 사용하여 질의를 분석 단계에서 형태소 분석의 영향을 최소화하는 방법을 제안한다. 제안하는 시스템은 Mean Average Precision 기준으로 0.765, R-Precision 기준으로 0.872의 성능을 보여 기존 시스템보다 성능이 우수하다.

산물벼 함수율 측정을 위한 $2{\times}2$ 마이크로스트립 패치 안테나 개발 (A $2{\times}2$ Microstrip Patch Antenna Array for Moisture Content Measurement of Paddy Rice)

  • 김기복;김종헌;노상하
    • Journal of Biosystems Engineering
    • /
    • 제25권2호
    • /
    • pp.97-106
    • /
    • 2000
  • To develop the grain moisture meter using microwave free space transmission technique, a 10.5GHz microwave signal with the power of 11mW generated by an oscillar with a dielectric resonator is transmitted to an isolator and radiated from a transmitting $2{\times}2$ microstrip patch array antenna into the sample holder filled with the 12 to 26%w.b. of Korean Hwawung paddy rice. the microwave signal, attenuated through the grain with moisture, is collected by a receiving $2{\times}2$ microstrip patch array antenna and detected using a Shottky diode with excellent high frequency characteristic. A pair of light and simple microstrip patch array antenna for measurement of grain moisture content is designed and implemented on atenflon substrate with trleative dielectric constant of 2.6 and thickness of 0.54 by using Ensemble ver. 4.02 software. The aperture of microstrip patch arrays is 41 mm width and 24mm high. The characteristics of microstrip patch antenna such as grain. return loss, and bandwidth are 11.35dBi, -38dB and 0.35GHz($50^{\circ}$ at far-field pattern of E and H plane. The width of the sample holder is large enough to cover the signal between the antennas temperature and bulk density respectively. The calibration model for measurement of grain moisture content is proposed to reduce the effects of fluectuations in bulk density and temperature which give serious errors for the measurements . From the results of regression analysis using the statistically analysis method, the moisture content of grain samples (MC(%)) is expressed in terms of the output voltage(v), temperature (t), and bulk density of samples(${\rho}b$)as follows ;$$MC(%)\;=\;(-3.9838{\times}10^{-8}{\times}v^{3}+8.023{\times}10^{-6}{\times}v^{2}-0.0011{\times}v-0.0004{\times}t+0.1706){\frac{1}{{\rho}b}}{\times}100$ Its determination coefficient, standard error of prediction(SEP) and bias were found to be 0.9855, 0.479%w.b. and -0.0.369 %w.b. respectively between measured and predicted moisture contents of the grain samples.

  • PDF