• 제목/요약/키워드: 의사결정나무회귀분석

검색결과 123건 처리시간 0.023초

데이터마이닝을 이용한 국민연금 부정수급 예측모형 개발 - 손해배상금 불성실 신고를 대상으로 - (An Application of Data-Mining Tool in Fraud Pension Payment Prediction)

  • 차경엽
    • Communications for Statistical Applications and Methods
    • /
    • 제17권1호
    • /
    • pp.1-8
    • /
    • 2010
  • 최근 사회복지분야에서 부정수급, 횡령 등이 빈번히 발생함에 따라 비리를 방지하기 위한 체계적인 관리 방안이 요구되고 있다. 데이터마이닝은 다수의 이해관계자와 많은 예산이 투입되는 사업을 관리하는데 효과적인 방법이다. 본 연구는 국민연금의 부정 수급자 관리방안으로 데이터마이닝을 이용한 예측모형을 개발하였다. 분석결과, 수급자의 급여, 연금 가입, 사고내역 정보가 부정수급의 특성 요인으로 나타났으며 이를 의사결정나무 모형, 로지스틱 회귀모형, 인공신경망 모형에 적용한 결과 의사결정나무 모형의 예측력이 가장 우수한 것으로 분석되었다.

축구경기의 경기력분석 (Performances analysis of football matches)

  • 민대기;이용수;김용래
    • Journal of the Korean Data and Information Science Society
    • /
    • 제26권1호
    • /
    • pp.187-196
    • /
    • 2015
  • 축구경기에서 승패를 결정 하는 것은 골득실이고 경기에 대한 분석은 일반적으로 득점은 공격력으로, 실점은 수비력으로 평가한다. 본 연구에서는 축구경기력에 대한 분석을 함에 있어서 승패와 득점, 실점에 미치는 요인이 무엇인가를 밝혀내고자 하였다. 경기의 승패를 결정하는 요인들을 밝혀내기 위하여 의사결정나무, 로지스틱 회귀모형 그리고 판별함수 등을 이용한다. 그 결과 공격보다는 수비와 관련된 요인이 승부에 더 결정적인 영향을 미치는 것으로 나타났다. 공격력과 수비력에 대한 분석을 실행하기 위하여 득점과 실점을 반응 변수로 사용해 본 결과, 공격력에 있어서는 논스톱패스와 공격속도가 주요한 요인이었고, 수비력에서는 수비 시 공수거리와 좌우 폭이 주요한 결정요인으로 나타났다.

마케팅 데이터를 대상으로 중요 통계 예측 기법의 정확성에 대한 비교 연구 (A Comparative Study on the Accuracy of Important Statistical Prediction Techniques for Marketing Data)

  • 조민호
    • 한국전자통신학회논문지
    • /
    • 제14권4호
    • /
    • pp.775-780
    • /
    • 2019
  • 미래를 예측하는 기법은 통계에 기반을 둔 것과 딥러닝에 기반을 둔 기술로 분류할 수 있다. 그중 통계에 기반을 둔 것이 간단하고 정확성이 높아서 많이 사용된다. 하지만 실무자들은 많은 분석기법의 올바른 사용에 어려움이 많다. 이번 연구에서는 마케팅에 관련된 데이터에 다항로지스틱회귀, 의사결정나무, 랜덤포레스트, 서포트벡터머신, 베이지안 추론을 적용하여 예측의 정확성을 비교하였다. 동일한 마케팅 데이터를 대상으로 하였고, R을 활용하여 분석을 진행하였다. 마케팅 분야의 데이터 특성을 반영한 다양한 기법의 예측 결과가 실무자들에게 좋은 참고가 될 것으로 생각한다.

이동통신고객 분류를 위한 의사결정나무(C4.5)와 신경망 결합 알고리즘에 관한 연구 (A Study on the Combined Decision Tree(C4.5) and Neural Network Algorithm for Classification of Mobile Telecommunication Customer)

  • 이극노;이홍철
    • 지능정보연구
    • /
    • 제9권1호
    • /
    • pp.139-155
    • /
    • 2003
  • 본 논문은 결합된 의사결정 나무(C4.5)와 신경망기법을 적용함으로써 고객의 신용에 대한 예측을 높이기 위하여 이동통신 고객의 패턴을 분류하고, 분석하는 새로운 방법에 대하여 연구하였다. 의사 결정나무(C4.5)를 형성하여 선택된 결정변수와 함께 규칙을 생성함으로써, 신경망의 입력벡터 값을 정의하는 체계적인 방법을 제시하였다. 고객 관리측면에서 본 논문은 이동 통신 회사의 기존고객을 분류하여 패턴을 분석함으로써 우수한 고객의 지속적인 관리와 이탈 가능성이 많은 고객을 차별 관리하여 기업이익을 증대시킬 수 있을 것이다. 또한 이러한 분류를 통하여 신규 고객에 반영함으로써 고객의 향후 관리에도 기여할 수 있을 것이다. 실제 이동통신 고객데이터를 중심으로 연구의 결과는 예측의 정확도가 기존의 의사결정 트리 모델 (CART, C4.5), 회귀모형, 신경망 접근 방법과 기존에 연구되었던 결합모델(CART & 신경망)보다 훨씬 높게 연구되었다.

  • PDF

하이브리드 의사결정나무와 인공신경망 모델을 이용한 방문학습지사의 고객세분화 (Customer Segmentation of a Home Study Company using a Hybrid Decision Tree and Artificial Neural Network Model)

  • 서광규;안범준
    • 한국산학기술학회논문지
    • /
    • 제7권3호
    • /
    • pp.518-523
    • /
    • 2006
  • 본 논문은 하이브리드 의사결정 나무(CART)와 인공신경망 모델을 개발하여 고객의 이탈에 대한 예측을 높이기 위하여 가정방문 학습지 고객의 패턴을 분류하고, 분석하는 새로운 방법에 대하여 연구하였다. 의사 결정나무(CART5)를 형성하여 선택된 결정변수들은 인공신경망의 입력벡터 값으로 선택되는 새로운 방법을 제시하였다. 고객 관리측면에서 본 논문은 가정방문 학습지 회사의 기존고객을 분류하여 패턴을 분석함으로써 우수한 고객의 지속적인 관리와 이탈 가능성이 많은 고객을 차별 관리하여 기업이익을 증대시킬 수 있을 것이다. 새롭게 제안한 하이브리드 모델은 기존의 의사결정트리모델(CART), 회귀모형, 인공신경망 모델과 비교한 결과 그 예측 정확성이 높음을 확인할 수 있었다.

  • PDF

벌점화 분위수 회귀나무모형에 대한 연구 (Penalized quantile regression tree)

  • 김재오;조형준;방성완
    • 응용통계연구
    • /
    • 제29권7호
    • /
    • pp.1361-1371
    • /
    • 2016
  • 분위수 회귀모형은 설명변수가 반응변수의 조건부 분위수 함수에 어떻게 관계되는지 탐색함으로서 많은 유용한 정보를 제공한다. 그러나 설명변수와 반응변수가 비선형 관계를 갖는다면 선형형태를 가정하는 전통적인 분위수 회귀모형은 적합하지 않다. 또한 고차원 자료 또는 설명변수간 상관관계가 높은 자료에 대해서 변수선택의 방법이 필요하다. 이러한 이유로 본 연구에서는 벌점화 분위수 회귀나무모형을 제안하였다. 한편 제안한 방법의 분할규칙은 과도한 계산시간과 분할변수 선택편향 문제를 극복한 잔차 분석을 기반으로 하였다. 본 연구에서는 모의실험과 실증 예제를 통해 제안한 방법의 우수한 성능과 유용성을 확인하였다.

CART를 이용한 Tree Model의 성능평가 (Using CART to Evaluate Performance of Tree Model)

  • 정용규;권나연;이영호
    • 서비스연구
    • /
    • 제3권1호
    • /
    • pp.9-16
    • /
    • 2013
  • 데이터 분석가에게 많은 노력이 요구되지 않으면서 사용자가 쉽게 분석결과를 이해할 수 있는 범용 분류기법으로서 가장 대표적인 것은 Breiman이 개발한 의사결정나무를 들 수 있다. 의사결정나무에서 기본이 되는 2가지 핵심내용은 독립변수의 차원 공간을 반복적으로 분할하는 것과 평가용 데이터를 사용하여 가지치기를 하는 것이다. 분류문제에서 반응변수는 범주형 변수여야 한다. 반복적 분할은 변수 의 차원 공간을 겹치지 않는 다차원 직사각형으로 나눈다. 여기서 변수는 연속형, 이진 혹은 서열의 척도이다. 본 논문에서는 새로운 사례를 분류함에 있어서 분류의 성능을 평가하기 위해 분류나무의 정확도 정밀도 재현률 등을 실험하고자 한다.

  • PDF

사상체질 분류모형 개발 및 진단시스템의 구현에 관한 연구 (Study on Development of Classification Model and Implementation for Diagnosis System of Sasang Constitution)

  • 범수균;전미란;오암석
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2008년도 지능정보 및 응용 학술대회
    • /
    • pp.155-159
    • /
    • 2008
  • 본 논문에서는 사상체질분류검사 설문지를 이용하여 사상체질을 진단할 때 진단의 정확도를 향상시키기 위한 사상체질 분류모형을 개발하기 위하여 데이터마이닝의 주요 분류기법인 판별분석(discriminant analysis), 의사결정나무(decision tree analysis), 신경망분석(neural network analysis), 로지스틱 회귀분석(logistic regression analysis), 군집분석(clustering analysis) 등 다양한 분류분석모형을 이용한다. 본 연구에서는 분류의 비교적 정확도가 우수하며, 특히 분석과정을 쉽게 이해하고 설명할 수 있다는 점과 구현이 용이하다는 장점을 가지고 있는 판별분석모형과 의사결정나무분석모형을 기반으로 사상체질 분류모형을 개발하고, 두 분류모형을 적용한 사상체질 진단시스템을 구현하였다.

  • PDF

실시간 CRM을 위한 분류 기법과 연관성 규칙의 통합적 활용;신용카드 고객 이탈 예측에 활용

  • 이지영;김종우
    • 한국경영정보학회:학술대회논문집
    • /
    • 한국경영정보학회 2007년도 International Conference
    • /
    • pp.135-140
    • /
    • 2007
  • 이탈 고객 예측은 데이터 마이닝에서 다루는 주요한 문제 중에 하나이다. 이탈 고객 예측은 일종의 분류(classification) 문제로 의사결정나무추론, 로지스틱 회귀분석, 인공신경망 등의 기법이 많이 활용되어왔다. 일반적으로 이탈 고객 예측을 위한 모델은 고객의 인구통계학적 정보와 계약이나 거래 정보를 입력변수로 하여 이탈 여부를 목표변수로 보는 형태로 분류 모델을 생성하게 된다. 본 연구에서는 고객과의 지속적인 접촉으로 발생되는 추가적인 사건 정보를 활용하여 연관성 규칙을 생성하고 이 결과를 기존의 방식으로 생성된 분류 모델과 결합하는 이탈 고객 예측 방법을 제시한다. 제시한 방법의 유용성을 확인하기 위해서 특정 국내 신용카드사의 실제 데이터를 활용하여 실험을 수행하였다. 실험 결과 제시된 방법이 기존의 전통적인 분류 모델에 비해서 향상된 성능을 보이는 것을 확인할 수 있었다. 제시된 예측 방법의 장점은 기존의 이탈 예측을 위한 입력 변수들 이외에 고객과 회사간의 접촉을 통해서 생성된 동적 정보들을 통합적으로 활용하여 예측 정확도를 높이고 실시간으로 이탈 확률을 갱신할 수 있다는 점이다.

  • PDF

청년의 문제음주에 미치는 사회생태학적 결정요인에 관한 데이터 마이닝 분석 (Data Mining Analysis of Determinants of Alcohol Problems of Youth from an Ecological Perspective)

  • 이숙현;문상호
    • 사회복지연구
    • /
    • 제49권4호
    • /
    • pp.65-100
    • /
    • 2018
  • 본 연구는 사회생태학적인 관점에서 문제음주를 논의하였다. 이론적 논의와 더불어 실증적인 근거를 제시하고자, 2538명의 청년을 대상으로 데이터마이닝 기법을 적용한 탐색적 정책연구를 실시했다. 구체적으로, SAS-Enterprise Miner를 활용하여 의사결정나무, 신경망, 로지스틱회귀 모형을 분석하였다. 이때, 독립변인에 대한 선행적 가정의 설정 없이, 문제음주에 설명력을 가지는 영향요인을 찾고, 정책적 함의를 도출하였다. 의사결정나무모형 분석결과, 흡연여부가 문제음주를 가장 잘 설명하는 것으로 나타났으며, 흡연여부 대비 다른 변인의 중요도는 성별(0.5796), 배우자유무(0.3301), 가구원수(0.2805), 경제활동 참여여부(0.2596) 그리고 교육(0.2167) 순으로 크게 나타났다. 신경망의 최적화 과정은 50회 반복을 통해 추정되었으며, 횟수 3에서 평균제곱오차(ASE: Average Squared Error)가 분석용 데이터는 0.133, 평가용은 0.152 그리고 검증용은 0.170으로 나타났다. 마지막으로 로지스틱회귀분석에서는 성별, 연령, 흡연여부, 배우자유무, 가구원수, 구직여부 그리고 경제활동참여여부가 청년의 문제음주에 유의미한 영향을 미치는 것으로 나타났다. 분석결과를 토대로 본 연구는 청년에게 특화된 중독프로그램 마련 및 청년 구직스트레스 해소방안 등 다양한 정책적 함의를 제언하였다.