• 제목/요약/키워드: 의사결정나무알고리즘

검색결과 106건 처리시간 0.031초

데이터 마이닝에서 배깅과 부스팅 알고리즘 비교 분석

  • 이영섭;오현정
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2003년도 춘계 학술발표회 논문집
    • /
    • pp.97-102
    • /
    • 2003
  • 데이터 마이닝의 여러 기법중 모형의 변동성을 줄이고 정확도가 높은 분류자를 형성하기 위하여 다양한 앙상블 기법이 연구되고 있다. 그 중에서 배깅과 부스팅 방법이 가장 널리 알려져 있다. 여러 가지 데이터에 이 두 방법을 적용하여 오분류율을 구하여 비교한 후 각 데이터 특성을 입력변수로 하고 배깅과 부스팅 중 더 낮은 오분류율을 갖는 알고리즘을 목표변수로 하여 의사결정나무를 형성하였다. 이를 통해서 배깅과 부스팅 알고리즘이 어떠한 데이터 특성의 패턴이 존재하는지 분석한 결과 부스팅 알고리즘은 관측치, 입력변수, 목표변수 수가 큰 것이 적합하고 반면에 배깅 알고리즘은 관측치, 입력변수, 목표변수 수의크기가 작은 것이 적합함을 알 수 있었다.

  • PDF

분산형 데이터마이닝 구현을 위한 의사결정나무 모델 전송 기술 (The Transfer Technique among Decision Tree Models for Distributed Data Mining)

  • 김충곤;우정근;백성욱
    • 디지털콘텐츠학회 논문지
    • /
    • 제8권3호
    • /
    • pp.309-314
    • /
    • 2007
  • 분산형 데이터마이닝을 위해 의사결정나무 알고리즘은 분산형 협업 환경에 적합하도록 변환되어야 한다. 본 논문에서 제시된 분산형 데이터마이닝 시스템은 각각의 사이트에서 부분적인 데이터를 위한 데이터마이닝 작업을 수행할 수 있는 에이전트와 여러 에이전트들의 협업을 통해 최종적인 의사결정나무 모델을 완성할 수 있도록 에이전트들 간의 통신을 중재하는 미디에이터로 구성되어 있다. 분산형 데이터마이닝의 장점 중에 하나는 여러 사이트에 분산되어 있는 대량의 데이터를 분산 처리하므로 데이터마이닝의 소요시간을 현저하게 줄일 수 있다는 점이다. 그러나 각 사이트들에 존재하고 있는 에이전트들 간의 통신에 부하가 과도하게 걸린다면, 효율적인 시스템으로의 활용도가 낮아질 것 이다. 본 논문은 에이전트들 간에 의사결정나무 모델의 전송량을 최소로 할 수 있는 방법론에 초점을 맞추었다.

  • PDF

사용자 맞춤형 건강 콘텐츠 추천 알고리즘에 대한 연구 (A Study on Personalized Health Care Contents Recommendation Algorithm)

  • 이하늘;이하영;한아연;신문선
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2017년도 제56차 하계학술대회논문집 25권2호
    • /
    • pp.360-361
    • /
    • 2017
  • 본 논문에서는 웹 또는 앱을 통해 제공되는 무한한 정보 중에서 사용자들에게 필요한 건강 관련 정보를 맞춤형으로 제공하기 위해서 사용자 맞춤형 건강 콘텐츠 추천 알고리즘을 설계한다. 그리하여 집단 지성 알고리즘과 의사 결정 나무를 활용하여 사용자 맞춤형 건강 콘텐츠 추천 서비스를 이용하는 사용자들의 자가건강진단 정보를 활용하여 웹상의 URL 정보를 토대로 맞춤형 정보를 분석, 추천하는 알고리즘의 유용성을 제시한다.

  • PDF

데이터 마이닝에서 배깅, 부스팅, SVM 분류 알고리즘 비교 분석 (An Empirical Comparison of Bagging, Boosting and Support Vector Machine Classifiers in Data Mining)

  • 이영섭;오현정;김미경
    • 응용통계연구
    • /
    • 제18권2호
    • /
    • pp.343-354
    • /
    • 2005
  • 데이터 마이닝에서 데이터를 효율적으로 분류하고자 할 때 많이 사용하고 있는 알고리즘을 실제 자료에 적용시켜 분류성능을 비교하였다. 분류자 생성기법으로는 의사결정나무기법 중의 하나인 CART, 배깅과 부스팅 알고리즘을 CART 모형에 결합한 분류자, 그리고 SVM 분류자를 비교하였다. CART는 결과 해석이 쉬운 장점을 가지고 있지만 데이터에 따라 생성된 분류자가 다양하여 불안정하다는 단점을 가지고 있다. 따라서 이러한 CART의 단점을 보완한 배깅 또는 부스팅 알고리즘과의 결합을 통해 분류자를 생성하고 그 성능에 대해 평가하였다. 또한 최근 들어 분류성능을 인정받고 있는 SVM의 분류성능과도 비교?평가하였다. 각 기법에 의한 분류 결과를 가지고 의사결정나무를 형성하여 자료가 가지는 데이터의 특성에 따른 분류 성능을 알아보았다. 그 결과 데이터의 결측치가 없고 관측값의 수가 적은 경우는 SVM의 분류성능이 뛰어남을 알 수 있었고, 관측값의 수가 많을 때에는 부스팅 알고리즘의 분류성능이 뛰어났으며, 데이터의 결측치가 존재하는 경우는 배깅의 분류성능이 뛰어남을 알 수 있었다.

한국 신노년층의 생산적 노화를 위한 회복탄력형 여가 프로그램 알고리즘 검증 (A verification of algorithm on resilience leisure programs for the productive aging of the new elderly in Korea)

  • 이은석;황희정;심승구;조건상;안찬우
    • 디지털융복합연구
    • /
    • 제15권5호
    • /
    • pp.505-515
    • /
    • 2017
  • 이 연구는 한국 신노년층의 생산적 노화를 위한 회복탄력형 여가 프로그램 알고리즘을 검증하는데 목적이 있다. 연구의 목적을 달성하기 위해서 2014년 대도시와 중/소도시 그리고 농촌지역에 예비노인(56세-64세)을 모집단으로 설정하여 525명을 대상으로 설문조사를 실시하였으며, 수집된 자료는 SPSS 20.0프로그램을 이용하여 설문지의 신뢰도와 타당도검사, 의사결정나무분석을 실시한 결과 다음과 같은 결과를 도출하였다. 첫째, 의사결정나무분석을 이용한 회복탄력형 여가프로그램에 영향을 미치는 요인은 주관적 건강상태, 활동욕구, 대인관계교류, 가계소득으로 나타났다. 둘째, 의사결정 나무분석을 이용하여 회복탄력성 변인의 알고리즘을 분석한 결과, 대인관계성, 자기조절성, 긍정성 요인 순으로 나타났다. 회복탄력성의 구성요인들 간의 구조적 알고리즘은 대인관계성에 따라 대인관계성이 낮은 집단의 경우는 긍정성과 관련이 있고, 높은 집단은 자기조절성과 관련이 있음을 알 수 있었다.

의사결정나무에서 분리 변수 선택에 관한 연구 (A Study on Selection of Split Variable in Constructing Classification Tree)

  • 정성석;김순영;임한필
    • 응용통계연구
    • /
    • 제17권2호
    • /
    • pp.347-357
    • /
    • 2004
  • 의사결정나무에서 분리 변수를 선택하는 것은 매우 중요한 일이다. C4.5는 변수 선택에 있어 연속형 변수로의 변수 선택 편의가 심각하고, QUEST는 연속형 변수와 관련해서 정규성 가정이 위반될 경우 변수 선택력이 떨어진다. 본 논문에서는 통계적 로버스트 검정 알고리즘을 제안하고, 모의 실험을 통하여 C4.5, QUEST그러고 제안된 알고리즘의 효율성을 비교하였다. 실험 결과 제안된 알고리즘이 변수 선택 편의와 변수 선택력 측면에서 로버스트함을 알 수 있었다.

산업안전 향상을 위한 전문가 시스템 구축에 관한 연구 (A Study on Construction of an Expert System for Enhancement of Industrial Safety)

  • 임영문;최요한
    • 대한안전경영과학회:학술대회논문집
    • /
    • 대한안전경영과학회 2005년도 추계학술대회
    • /
    • pp.324-327
    • /
    • 2005
  • 급속도로 발전하는 산업의 고도화와 이에 따른 업종의 다양화, 이에 동반되는 예상치 못한 산업재해는 불특정 다수에게 인적, 물적 피해를 야기 시키고 있다. 산업재해 예방을 위해 다양한 선행 연구들이 진행되었으나 이들 연구는 기존의 산업재해 데이터를 토대로 빈도분석, 비교분석을 통한 관리적, 교육적 등치 대책만을 제시하고 있다. 본 연구에서는 산업재해 예방을 위해 객관적이고 정량화된 데이터를 통한 예측 분석이 가능한 데이터마이닝을 적용하여 대표적인 기법인 의사결정나무의 CHAID, CART, C4.5, QUEST 4가지 알고리즘 비교분석하여 산업재해 예방 및 전문가 시스템 구축을 위해 적용할 수 있는 최적의 알고리즘을 제시하도록 한다.

  • PDF

산업재해의 요인분석을 위한 의사결정나무 (Decision Tree Approach for Factor Analysis of Industrial Accidents)

  • 임영문;황영섭
    • 대한안전경영과학회지
    • /
    • 제8권4호
    • /
    • pp.1-11
    • /
    • 2006
  • 의사결정나무 알고리즘은 데이터마이닝 기법중 하나인데 관심이 되는 데이터들에 대하여 분류 및 예측을 가능하게 해준다. 이 기법은 데이터 형태의 특성을 분석할 수 있고 산업재해 형태의 차이점을 찾아내는데 사용될 수 있다. 본 연구에서는 산업재해 데이터의 특성을 파악하고자 C4.5 알고리즘을 사용하였다. 본 연구에서 분석을 위하여 사용된 데이터는 강원도에서 발생한 2년 동안의 산업재해 관련 데이터로서 연구에 적용된 데이터의 수는 19,909개로 구성되어 있다. 본 연구의 목적을 위하여 한 개의 목표변수와 여덟 개의 독립변수가 산업재해 형태에 따라 세분화 되었다. 분석 후 데이터는 222개의 전체 나뭇가지와 151개의 줄기가지로 분류되었다. 또한 본 연구에서는 재해자들의 위험도 관리와 감소를 위하여 이익도표를 제공하였다.

지능형 학회관리 시스템 설계 및 구현 (Design and Implementation of Intelligent Society Member Management System)

  • 조영기;백성욱;방기천
    • 디지털콘텐츠학회 논문지
    • /
    • 제5권3호
    • /
    • pp.205-212
    • /
    • 2004
  • 본 논문에서는 다양한 연구 활동을 유도하기 위해 구축된 지능형 학회 관리 시스템의 설계 및 구현 사례를 다루었다. 본 시스템은 회원 정보와 학회활동 기록 등의 데이터를 기반으로 데이터마이닝을 수행하여 데이터마이닝 과정에서 나타난 여러 유용한 학회활동 규칙들을 생성함으로서 회원들과 효과적으로 상호작용 할 수 있도록 했다. 데이터마이닝은 여러 기법들 중 의사결정나무알고리즘(Decision Tree Algorithm)을 사용했다. 분석된 정보를 이용해 사용자 위주의 운영정책과 동적 인터페이스를 제공하기 위한 웹사이트 개인화 계획을 제시한다.

  • PDF

이동통신고객 분류를 위한 의사결정나무(C4.5)와 신경망 결합 알고리즘에 관한 연구 (A Study on the Combined Decision Tree(C4.5) and Neural Network Algorithm for Classification of Mobile Telecommunication Customer)

  • 이극노;이홍철
    • 지능정보연구
    • /
    • 제9권1호
    • /
    • pp.139-155
    • /
    • 2003
  • 본 논문은 결합된 의사결정 나무(C4.5)와 신경망기법을 적용함으로써 고객의 신용에 대한 예측을 높이기 위하여 이동통신 고객의 패턴을 분류하고, 분석하는 새로운 방법에 대하여 연구하였다. 의사 결정나무(C4.5)를 형성하여 선택된 결정변수와 함께 규칙을 생성함으로써, 신경망의 입력벡터 값을 정의하는 체계적인 방법을 제시하였다. 고객 관리측면에서 본 논문은 이동 통신 회사의 기존고객을 분류하여 패턴을 분석함으로써 우수한 고객의 지속적인 관리와 이탈 가능성이 많은 고객을 차별 관리하여 기업이익을 증대시킬 수 있을 것이다. 또한 이러한 분류를 통하여 신규 고객에 반영함으로써 고객의 향후 관리에도 기여할 수 있을 것이다. 실제 이동통신 고객데이터를 중심으로 연구의 결과는 예측의 정확도가 기존의 의사결정 트리 모델 (CART, C4.5), 회귀모형, 신경망 접근 방법과 기존에 연구되었던 결합모델(CART & 신경망)보다 훨씬 높게 연구되었다.

  • PDF