• 제목/요약/키워드: machine learning techniques

검색결과 1,088건 처리시간 0.03초

기계학습을 이용한 수출신용보증 사고예측 (The Prediction of Export Credit Guarantee Accident using Machine Learning)

  • 조재영;주지환;한인구
    • 지능정보연구
    • /
    • 제27권1호
    • /
    • pp.83-102
    • /
    • 2021
  • 2020년 8월 정부는 한국판 뉴딜을 뒷받침하기 위한 공공기관의 역할 강화방안으로서 각 공공기관별 역량을 바탕으로 5대 분야에 걸쳐 총 20가지 과제를 선정하였다. 빅데이터(Big Data), 인공지능 등을 활용하여 대국민 서비스를 제고하고 공공기관이 보유한 양질의 데이터를 개방하는 등의 다양한 정책을 통해 한국판 뉴딜(New Deal)의 성과를 조기에 창출하고 이를 극대화하기 위한 다양한 노력을 기울이고 있다. 그중에서 한국무역보험공사(KSURE)는 정책금융 공공기관으로 국내 수출기업들을 지원하기 위해 여러 제도를 운영하고 있는데 아직까지는 본 기관이 가지고 있는 빅데이터를 적극적으로 활용하지 못하고 있는 실정이다. 본 연구는 한국무역보험공사의 수출신용보증 사고 발생을 사전에 예측하고자 공사가 보유한 내부 데이터에 기계학습 모형을 적용하였고 해당 모형 간에 예측성과를 비교하였다. 예측 모형으로는 로지스틱(Logit) 회귀모형, 랜덤 포레스트(Random Forest), XGBoost, LightGBM, 심층신경망을 사용하였고, 평가 기준으로는 전체 표본의 예측 정확도 이외에도 표본별 사고 확률을 구간으로 나누어 높은 확률로 예측된 표본과 낮은 확률로 예측된 경우의 정확도를 서로 비교하였다. 각 모형별 전체 표본의 예측 정확도는 70% 내외로 나타났고 개별 표본을 사고 확률 구간별로 세부 분석한 결과 양 극단의 확률구간(0~20%, 80~100%)에서 90~100%의 예측 정확도를 보여 모형의 현실적 활용 가능성을 보여주었다. 제2종 오류의 중요성 및 전체적 예측 정확도를 종합적으로 고려할 경우, XGBoost와 심층신경망이 가장 우수한 모형으로 평가되었다. 랜덤포레스트와 LightGBM은 그 다음으로 우수하며, 로지스틱 회귀모형은 가장 낮은 성과를 보였다. 본 연구는 한국무역보험공사의 빅데이터를 기계학습모형으로 분석해 업무의 효율성을 높이는 사례로서 향후 기계학습 등을 활용하여 실무 현장에서 빅데이터 분석 및 활용이 활발해지기를 기대한다.

영화 흥행에 영향을 미치는 새로운 변수 개발과 이를 이용한 머신러닝 기반의 주간 박스오피스 예측 (Development of New Variables Affecting Movie Success and Prediction of Weekly Box Office Using Them Based on Machine Learning)

  • 송정아;최근호;김건우
    • 지능정보연구
    • /
    • 제24권4호
    • /
    • pp.67-83
    • /
    • 2018
  • 2013년 누적인원 2억명을 돌파한 한국의 영화 산업은 매년 괄목할만한 성장을 거듭하여 왔다. 하지만 2015년을 기점으로 한국의 영화 산업은 저성장 시대로 접어들어, 2016년에는 마이너스 성장을 기록하였다. 영화산업을 이루고 있는 각 이해당사자(제작사, 배급사, 극장주 등)들은 개봉 영화에 대한 시장의 반응을 예측하고 탄력적으로 대응하는 전략을 수립해 시장의 이익을 극대화하려고 한다. 이에 본 연구는 개봉 후 역동적으로 변화하는 관람객 수요 변화에 대한 탄력적인 대응을 할 수 있도록 주차 별 관람객 수를 예측하는데 목적을 두고 있다. 분석을 위해 선행연구에서 사용되었던 요인 뿐 아니라 개봉 후 역동적으로 변화하는 영화의 흥행순위, 매출 점유율, 흥행순위 변동 폭 등 선행연구에서 사용되지 않았던 데이터들을 새로운 요인으로 사용하고 Naive Bays, Random Forest, Support Vector Machine, Multi Layer Perception등의 기계학습 기법을 이용하여 개봉 일 후, 개봉 1주 후, 개봉 2주 후 시점에는 차주 누적 관람객 수를 예측하고 개봉 3주 후 시점에는 총 관람객 수를 예측하였다. 새롭게 제시한 변수들을 포함한 모델과 포함하지 않은 모델을 구성하여 실험하였고 비교를 위해 매 예측시점마다 동일한 예측 요인을 사용하여 총 관람객 수도 예측해보았다. 분석결과 동일한 시점에 총 관람객 수를 예측했을 경우 보다 차주 누적 관람객 수를 예측하는 것이 더 높은 정확도를 보였으며, 새롭게 제시한 변수들을 포함한 모델의 정확도가 대부분 높았으며 통계적으로 그 차이가 유의함으로써 정확도에 기여했음을 확인할 수 있었다. 기계학습 기법 중에는 Random Forest가 가장 높은 정확도를 보였다.

캠페인 효과 제고를 위한 자기 최적화 변수 선택 알고리즘 (Self-optimizing feature selection algorithm for enhancing campaign effectiveness)

  • 서정수;안현철
    • 지능정보연구
    • /
    • 제26권4호
    • /
    • pp.173-198
    • /
    • 2020
  • 최근 온라인의 비약적인 활성화로 캠페인 채널들이 다양하게 확대되면서 과거와는 비교할 수 없을 수준의 다양한 유형들의 캠페인들이 기업에서 수행되고 있다. 하지만, 고객의 입장에서는 중복 노출로 인한 캠페인에 대한 피로감이 커지면서 스팸으로 인식하는 경향이 있고, 기업입장에서도 캠페인에 투자하는 비용은 점점 더 늘어났지만 실제 캠페인 성공률은 오히려 더 낮아지고 있는 등 캠페인 자체의 효용성이 낮아지고 있다는 문제점이 있어 실무적으로 캠페인의 효과를 높이고자 하는 다양한 연구들이 지속되고 있다. 특히 최근에는 기계학습을 이용하여 캠페인의 반응과 관련된 다양한 예측을 해보려는 시도들이 진행되고 있는데, 이 때 캠페인 데이터의 다양한 특징들로 인해 적절한 특징을 선별하는 것은 매우 중요하다. 전통적인 특징 선택 기법으로 탐욕 알고리즘(Greedy Algorithm) 중 SFS(Sequential Forward Selection), SBS(Sequential Backward Selection), SFFS(Sequential Floating Forward Selection) 등이 많이 사용되었지만 최적 특징만을 학습하는 모델을 생성하기 때문에 과적합의 위험이 크고, 특징이 많은 경우 분류 예측 성능 하락 및 학습시간이 많이 소요된다는 한계점이 있다. 이에 본 연구에서는 기존의 캠페인에서의 효과성 제고를 위해 개선된 방식의 특징 선택 알고리즘을 제안한다. 본 연구의 목적은 캠페인 시스템에서 처리해야 하는 데이터의 통계학적 특성을 이용하여 기계 학습 모델 성능 향상의 기반이 되는 특징 부분 집합을 탐색하는 과정에서 기존의 SFFS의 순차방식을 개선하는 것이다. 구체적으로 특징들의 데이터 변형을 통해 성능에 영향을 많이 끼치는 특징들을 먼저 도출하고 부정적인 영향을 미치는 특징들은 제거를 한 후 순차방식을 적용하여 탐색 성능에 대한 효율을 높이고 일반화된 예측이 가능하도록 개선된 알고리즘을 적용하였다. 실제 캠페인 데이터를 이용해 성능을 검증한 결과, 전통적인 탐욕알고리즘은 물론 유전자알고리즘(GA, Genetic Algorithm), RFE(Recursive Feature Elimination) 같은 기존 모형들 보다 제안된 모형이 보다 우수한 탐색 성능과 예측 성능을 보임을 확인할 수 있었다. 또한 제안 특징 선택 알고리즘은 도출된 특징들의 중요도를 제공하여 예측 결과의 분석 및 해석에도 도움을 줄 수 있다. 이를 통해 캠페인 유형별로 중요 특징에 대한 분석과 이해가 가능할 것으로 기대된다.

데이터 크기에 따른 k-NN의 예측력 연구: 삼성전자주가를 사례로 (The Effect of Data Size on the k-NN Predictability: Application to Samsung Electronics Stock Market Prediction)

  • 천세학
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.239-251
    • /
    • 2019
  • 본 논문은 학습데이터의 크기에 따른 사례기반추론기법이 주가예측력에 어떻게 영향을 미치는지 살펴본다. 삼성전자 주가를 대상을 학습데이터를 2000년부터 2017년까지 이용한 경우와 2015년부터 2017년까지 이용한 경우를 비교하였다. 테스트데이터는 두 경우 모두 2018년 1월 1일부터 2018년 8월 31일까지 이용하였다. 시계 열데이터의 경우 과거데이터가 얼마나 유용한지 살펴보는 측면과 유사사례개수의 중요성을 살펴보는 측면에서 연구를 진행하였다. 실험결과 학습데이터가 많은 경우가 그렇지 않은 경우보다 예측력이 높았다. MAPE을 기준으로 비교할 때, 학습데이터가 적은 경우, 유사사례 개수와 상관없이 k-NN이 랜덤워크모델에 비해 좋은 결과를 보여주지 못했다. 그러나 학습데이터가 많은 경우, 일반적으로 k-NN의 예측력이 랜덤워크모델에 비해 좋은 결과를 보여주었다. k-NN을 비롯한 다른 데이터마이닝 방법론들이 주가 예측력 제고를 위해 학습데이터의 크기를 증가시키는 것 이외에, 거시경제변수를 고려한 기간유사사례를 찾아 적용하는 것을 제안한다.

기계학습 기반 적응형 전자상거래 에이전트 설계 (Design of Adaptive Electronic Commerce Agents Using Machine Learning Techniques)

  • 백혜정;박영택
    • 정보처리학회논문지B
    • /
    • 제9B권6호
    • /
    • pp.775-782
    • /
    • 2002
  • 전자상거래 시스템의 보급이 활성화되기 시작하면서 사용자의 구매 행위에 적응형으로 대처하는 지능형 전자상거래 에이전트의 필요성이 증대되고 있다. 이와 같은 적응형 전자상거래 에이전트는 사용자의 구매 행위를 모니터하면서, 각 분야별 고객의 구매 행위를 자동 분류하고, 분류된 각 클러스터로부터 사용자의 취향을 학습하는 하는 기능을 필요로 한다. 이러한 기능을 가지는 적응형 전자상거래 에이전트를 구축하기 위해서 본 논문에서는다음 3가지 부분에 중점을 두고 시스템을 설계하였다. 첫째, 사용자의 구매 행위를 포괄적으로 모니터하여 사용자 행위로 추상화하는 모니터 에이전트, 둘째, 고객 구매 행위 데이터로부터 유사한 분야 구매 데이터들로 클러스터 하는 개념적 클러스터 에이전트, 셋째, 각 클러스터로부터 사용자 프로파일을 구축하는 사용자 프로파일 에이전트를 중심으로 설계하는 방안을 제안하고 있다 특히, 본 논문에서는 보다 정확한 고객 구매 행위를 학습하기 위해서 개념적 클러스터링 방식과 귀납적 기계학습 방식을 적용하는 2단계 구조를 제안하고 있다.이와 같은 구조는 여러 분야의 상품을 구매한 정보로부터 사용자의 다중 취향을 학습할 때발생하는 문제를 해결함으로, 사용자 프로파일을 정확하게 구축할 수 있는 장점이 있다. 이러한 정확한 사용자 프로파일을 기반으로 사용자에게 보다 적절한 정보를 제공하는 적응형 전자상거래 시스템을 만들 수 있다.

머신러닝을 이용한 탄성파 반사법 자료의 해저면 겹반사 제거 (Removal of Seabed Multiples in Seismic Reflection Data using Machine Learning)

  • 남호수;임보성;권일룡;김지수
    • 지구물리와물리탐사
    • /
    • 제23권3호
    • /
    • pp.168-177
    • /
    • 2020
  • 해저면 탄성파 겹반사는 발파점 모음자료와 겹쌓기 단면에서 모두 일차 반사파의 해석에 잘못된 결과를 초래할 수 있다. 따라서, 해저면 겹반사는 자료처리를 통해 제거해야 한다. 전통적인 자료처리 과정에서 겹반사 제거는 예측오차 곱풀기와 라돈 필터링 등과 같은 모델-기반 기법과 지표관련-겹반사제거와 같은 데이터-기반 기법에 의해 이루어져 왔다. 그러나 대다수의 자료처리 과정들은 방대한 컴퓨터 자원과 전문적인 자료처리 기법뿐만 아니라 자료처리 변수들을 테스트하고 선택하는데 많은 시간을 필요로 한다. 이 논문에서는 머신러닝 시스템을 활용한 해저면 겹반사의 제거효과를 살펴보기 위해 Marmousi2 속도모델에 대한 수치모델링으로 겹반사가 포함된 입력데이터와 겹반사가 포함되지 않은 레이블데이터를 생성하였다. 수직시간차가 보정된 공통중간점 모음자료로 훈련데이터를 구성하였으며 인공신경망은 U-Net 모델을 적용하였다. 해저면 겹반사를 제거하기 위해 훈련된 모델은 레이블데이터에 거의 근접하는 예측 결과를 만들어내며, 현장자료에 대한 예측 테스트에서 해저면 겹반사를 효과적으로 제거하는 것으로 나타났다.

의사결정나무 기반 회귀분석과 SVM 회귀분석을 이용한 커터 관입깊이에 따른 최적 커터간격 비 연구 (A study on the optimum cutter spacing ratio according to penetration depth using decision tree-based and SVM regressions)

  • 이기준;류희환;권태혁
    • 한국터널지하공간학회 논문집
    • /
    • 제22권5호
    • /
    • pp.501-513
    • /
    • 2020
  • TBM 터널굴착에서 실질적으로 지반을 굴착하는 역할을 하는 부분인 커터헤드 설계 시, 커터 관입깊이와 커터 간격을 달리하여 커터절삭 시험 시 최소 비에너지에서의 커터간격을 반영하고 있으나, 암반 조건에 따라서 동일한 커터 관입깊이에서의 최적 커터간격이 달라지기 때문에 최적 커터간격을 설정하는 연구가 활발히 진행되어야 한다. 이러한 비선형적인 커터 관입깊이와 커터 간격의 관계에서 커터 관입깊이에 따른 최적 커터간격을 예측하기 위해 머신러닝 기법인 의사결정나무 기반 랜덤 포레스트 회귀 모델과 SVM 회귀모델을 이용하여 커터 관입깊이에 따른 최적 커터 간격을 예측하였다. 랜덤 포레스트 분석기법은 SVM 분석기법보다 데이터 개수에 더 큰 영향을 받기 때문에 커터 관입깊이에 따른 최적 커터간격비의 예측에 SVM이 더 정확한 예측을 하였다. 데이터가 많이 축적되면 SVM 회귀모델이 보다 더 정확한 예측값으로 커터헤드 설계 시 커터간격을 설정하는데 효율적으로 사용될 수 있을 것으로 판단된다.

일반화가속모형을 이용한 기술신용평가 주요 지표 분석 (Analysis of Important Indicators of TCB Using GBM)

  • 전우정;서영욱
    • 한국전자거래학회지
    • /
    • 제22권4호
    • /
    • pp.159-173
    • /
    • 2017
  • 기술력 기반의 중소벤처기업에 대한 기술금융 지원을 위해 정부는 2014년 7월부터 기술보증기금 및 일정 자격을 갖춘 민간 기술신용평가사에게 일종의 기술력 등급평가인 기술신용평가를 실시하여 은행의 여신에 활용토록 하였다. 본 논문에서는 최근까지의 기술신용평가 현황 및 한국신용정보원에서 축적하고 있는 기술평가 관련 가용 지표들에 대한 선행 연구를 개략적으로 살펴본 후 기술평가등급점수에 유의적인 영향을 미치는 지표(indicator)를 통상적인 다중회귀기법으로 탐색할 것이다. 본 논문의 관심 대상인 지표 별 등급 영향도와 모형의 적합도는 대표적인 기계학습 분류기(classifier)인 일반화가속모형(Generalized Boosting Model; GBM)을 적용하여 분석하였는 바, 주요 지표를 독립변수(feature)로 투입하여 지표의 상대적 중요성 및 분류 정확도를 산출하였다. 분석결과 회귀모형과 기계학습 모형 간 지표별 상대적인 중요도는 크게 차이나지 않는 것으로 분석되었으나, GBM 모형의 경우 회귀모형에 비해서 이노비즈인증, 연구소 및 연구개발전담부서 보유, 특허등록건수, 벤처확인 지표 등 기술개발역량이 상대적으로 기술등급에 더 큰 영향을 미치는 것으로 분석되었다.

P2P 플랫폼에서의 대출자 신용분석 사례연구: 8퍼센트, 렌딧, 어니스트 펀드 (A Case Study on Credit Analysis System in P2P: 8Percent, Lendit, Honest Fund)

  • 최수만;전동화;오경주
    • 지식경영연구
    • /
    • 제21권3호
    • /
    • pp.229-247
    • /
    • 2020
  • 지식경영 분야의 P2P금융 플랫폼의 성장속에서 빅데이터 및 머신러닝(Machine Learning) 기술을 보유한 회사만이 치열한 경쟁 속에서 생존할 가능성이 높을 것으로 예상된다. 그럼에도 불구하고 관련 서비스를 제공하는 온라인 P2P대출 플랫폼 업체들은 투자자와 대출을 신청하는 중개자로서의 역할을 수행할 뿐이며 투자와 관련된 위험은 모두 투자자에게 귀속시키고 있다. 이러한 이유로, 투자자 입장에서는 투자상품의 안전성을 확인할 수 있는 유일한 방법이 신문이나 온라인 웹사이트를 통한 P2P대출 플랫폼 업체의 평판에만 의존할 수 밖에 없는 실정이다. 또한, 한국의 P2P대출 플랫폼 업체들이 대출자의 개별 신용분석을 체계적으로 실시하여 연체율 등의 시계열 정보를 정확히 파악하기에는 시간적, 경제적 여건이 매우 열악한 상황이다. 그러나, 최근 몇몇 P2P대출 플랫폼 업체들이 업체별 대출자 신용분석에 대한 역량을 가장 중요한 영업자산으로 인식함으로써 빅데이터 및 머신러닝 기술을 바탕으로 인공지능(AI)에 기반한 새로운 신용평가 시스템을 구축하고 시행에 들어가고 있음은 매우 긍정적으로 평가된다. 따라서, 본 연구에서는 신용대출 시장에 주력하고 있으며 인공지능 활용으로 잘 알려진 상위 3개 업체를 대상으로 사례분석 방식을 통해 인공지능을 활용한 대출자 신용분석 절차 및 사용하는 정보 데이터의 종류 등을 분석하고자 한다. 이를 통하여 현 상황에서 P2P 플랫폼 업체들의 인공지능을 통한 신용분석 기법을 이해하고 현 시점에서 국내 인공지능을 활용한 신용분석 방식의 한계점과 개선방안 등을 함께 고찰하고자 한다.

작성자 분석 기반의 공격 메일 탐지를 위한 분류 모델 (A Classification Model for Attack Mail Detection based on the Authorship Analysis)

  • 홍성삼;신건윤;한명묵
    • 인터넷정보학회논문지
    • /
    • 제18권6호
    • /
    • pp.35-46
    • /
    • 2017
  • 최근 사이버보안에서 악성코드를 이용한 공격은 메일에 악성코드를 첨부하여 이를 사용자가 실행하도록 유도하여 공격을 수행하는 형태가 늘어나고 있다. 특히 문서형태의 파일을 첨부하여 사용자가 쉽게 실행하게 되어 위험하다. 저자 분석은 NLP(Neutral Language Process) 및 텍스트 마이닝 분야에서 연구되어지고 있는 분야이며, 특정 언어로 이루어진 텍스트 문장, 글, 문서를 분석하여 작성한 저자를 분석하는 방법들은 연구하는 분야이다. 공격 메일의 경우 일정 공격자에 의해 작성되어지기 때문에 메일 내용 및 첨부된 문서 파일을 분석하여 해당 저자를 식별하면 정상메일과 더욱 구별된 특징들을 발견할 수 있으며, 탐지 정확도를 향상시킬 수 있다. 본 논문에서는 기존의 기계학습 기반의 스팸메일 탐지 모델에서 사용되는 특징들과 문서의 저자 분석에 사용되는 특징들로부터 공격메일을 분류 및 탐지를 할 수 있는 feature vector 및 이에 적합한 IADA2(Intelligent Attack mail Detection based on Authorship Analysis)탐지 모델을 제안하였다. 단순히 단어 기반의 특징들로 탐지하던 스팸메일 탐지 모델들을 개선하고, n-gram을 적용하여 단어의 시퀀스 특성을 반영한 특징을 추출하였다. 실험결과, 특징의 조합과 특징선택 기법, 적합한 모델들에 따라 성능이 개선됨을 검증할 수 있었으며, 제안하는 모델의 성능의 우수성과 개선 가능성을 확인할 수 있었다.