• 제목/요약/키워드: 결정 트리

검색결과 768건 처리시간 0.032초

특징공간을 사선 분할하는 퍼지 결정트리 유도 (Fuaay Decision Tree Induction to Obliquely Partitioning a Feature Space)

  • 이우향;이건명
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권3호
    • /
    • pp.156-166
    • /
    • 2002
  • 결정트리 생성은 특징값들로 기술된 사례들로부터 분류 규칙을 추출하는 유용한 기계학습 방법중 하나이다. 결정트리는 특징공간을 분할하는 형태에 따라 단변수(univariate) 결정트리와 다변수(multivariate) 결정트리로 대별된다. 실제 현장에서 얻어지는 데이터는 관측오류, 불확실성, 주관적인 판단 등의 이유로 특징값 자체에 오류를 포함하는 경우가 많다. 이러한 오류에 대해 강건한 결정트리를 생성하기 위한 방법으로 퍼지 기법을 도입한 결정트리 생성 방법에 대한 연구가 진행되어 왔다. 현재까지 대부분의 퍼지 결정트리에 대한 연구는 단변수 결정트리에 퍼지 기법을 도입한 것들이며, 다변수 결정트리에 퍼지 기법을 적용한 것은 찾아보기 힘들다. 이 논문에서는 다변수 결정트리에 퍼지 기법을 적용하여 퍼지사선형 결정트리라고 하는 퍼지 결정트리를 생성하는 방법을 제안한다. 또한 제안한 결정트리 생성 방법의 특성을 보이기 위한 실험 결과를 보인다.

특징 공간을 사선 분할하는 퍼지 결정 트리 (A Fuzzy Decision Tree to Partition Feature Space with Oblique Planes)

  • 이우항;이건명
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (2)
    • /
    • pp.21-23
    • /
    • 1999
  • 결정 트리는 실세계에서 얻어지는 많은 사례들로부터 분류 정보를 얻기 위해 사용되는 유용한 방법중의 하나이다. 분류를 목적으로 사용되는 사례, 즉 데이터들은 실제 현장에서 얻어지기 때문에 관측오류, 불확실성, 주관적인 판단 등의 원인으로 참 값이 아닌 근사 값으로써 기술되는 경우가 많으며, 이러한 잠재적 오류로 인해 잘못된 결정 트리가 생성될 수 있다. 한편, 트리를 생성하는 각각의 과정에서 하나의 특징 값만을 고려하지 않고 두 가지 이상의 특징 값을 동시에 고려하여 결정 트리를 생성할 경우 보다 정확한 분류 정보를 기대할 수 있다. 본 논문에서는 수치 특징 값으로 기술된 데이터로부터 보다 정확한 분류 정보를 얻을 수 있고, 작은 오류에 강건한 사선형 분할 퍼지 결정 트리를 제안한다. 또한 제안된 사선형 분할 퍼지 결정 트리의 생성 절차 및 생성된 결정 트리를 이용하여 새로운 데이터에 분류 정보를 부여하는 추론 과정을 소개한다.

  • PDF

운율구 추출 및 음소 지속 시간의 트리 기반 모델링 (Tree-based Modeling of Prosodic Phrasing and Segmental Duration)

  • 이상호;오영환
    • 한국음향학회지
    • /
    • 제17권6호
    • /
    • pp.43-53
    • /
    • 1998
  • 본 논문에서는 한국어 TTS시스템을 위한 운율구 추출, 운율구 사이의 휴지 기간, 음소의 지속 시간 모델링 방법을 설명한다. 실험을 위해 여러 장르로 구성된 400문장을 선 정하고, 이를 전문 여성 아나운서가 발성하였다. 녹음된 음성 신호에 대해 음소 및 운율구 경계를 결정하고, 문장에 대해서는 형태소 분석, 발음표기 변환, 구문 분석을 수행하였다. 400문장(약33분) 중 240문장(약20분)을 이용하여 결정 트리 및 회귀 트리를 학습시킨 후, 160분장(약13분)에 대해 실험하였다. 운율 모델링을 위한 특징들이 제안되었고, 학습된 트리 들을 해석함으로써 특징들의 유효성이 평가되었다. 실험 문장에 대해 운율구 경계의 유무를 결정하는 결정 트리의 오류율은 14.46%이었고, 운율구 사이의 휴지 기간과 음소 지속 시간 을 예측하기 위한 회귀 트리들의 평균 제곱 오류근(RMSE)이 각각 132msec, 22msec이었다. 수집된 모든 자료(400문장)로 학습한 결과, 운율구 경계 결정 오류율, 휴지 기간 및 지속시 간 RMSE의 10-fold cross-validation 추정치가 각각 13.77%, 127.91msec, 21.54msec이었다.

  • PDF

비트맵을 활용한 분류 구현 (BBC;Bit-map Based Classification)

  • 조용준;이상원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 추계학술발표대회 및 정기총회
    • /
    • pp.63-66
    • /
    • 2005
  • 분류란 여러 분야에서 쌓인 정보 데이터를 분석하여, 결과값에 대한 공통속성을 찾아내어 새로운 입력 데이터에 대해 보다 보편적인 결과를 분석하거나 예측하는 기법이다. 의사 결정 트리는 이러한 분류의 한 형태로 저장된 데이터를 활용하여 선험적 지식을 취득하고, 새로운 데이터에 대한 예측을 발생시키는 데이터 분석 방법이다. 그러나, 의사 결정 트리의 여러 가지 장점에도 불구하고 트리 구성에 많은 비용이 소요되는 단점이 존재한다. 점점 대량의 데이터를 다루어야 하는 현대 사회에서는 이러한 단점이 더욱더 커질 수 밖에 없다. 본 논문에서는 이러한 문제점을 해결하고자 비트맵을 활용한 의사 결정 트리의 구현을 제안한다. 비트맵을 사용하게 되면 의사 결정 트리 생성의 가장 큰 비용인 속성값 측정에서 높은 효율을 유지할 수 있게 된다. 또한 보다 효율적이고, 확장성이 높은 의사 결정 트리를 구현할 수가 있다.

  • PDF

CART를 이용한 운율구 추출 및 음소 지속 시간 모델링 (The Modelling of Prosodic Phrasing and Segmental Duration using CART)

  • 이상호
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 1호
    • /
    • pp.135-138
    • /
    • 1998
  • 본 논문에서는 트리 기반 모델링 기법 중 하나인 CART(Classification And Regression Trees) 방법을 이용하여, 운율구 추출, 운율구 사이의 휴지 기간, 음소 지속 시간을 모델링 하고자 한다. 총 400문장(약 33분)의 코퍼스를 수집한 후, 그 중 240문장(약 20분)을 이용하여 결정 트리와 회귀 트리를 학습시키고 160문장(약 13분)에 대해 실험하였다. 운율구 경계를 결정하는 결정 트리의 오류율은 14.6%이었고, 운율구 사이의 휴지 기간과 음소 지속 시간을 예측하는 회귀 트리들의 평균 제곱 오류근(RMSE)이 각각 132.61msec, 21.97msec이었다.

의사결정트리를 이용한 교육성과 요인에 관한 연구 (A Study on Factors of Education's Outcome using Decision Trees)

  • 김완섭
    • 공학교육연구
    • /
    • 제13권4호
    • /
    • pp.51-59
    • /
    • 2010
  • 대학에서 운영되는 강좌를 효과적으로 관리하고 교육성과를 향상시키기 위해서는 각 클래스의 현재의 교육성과를 진단하고 교육성과에 영향을 미치는 요인들을 파악하는 과정이 요구된다. 요인을 발견하는 연구에는 연관성 분석, 회귀분석 등의 통계기법들이 많이 사용되고 있으며 최근에는 데이터마이닝의 결정트리 분석도 사용되고 있다. 결정트리 분석은 결과 모델을 이해하기 쉽고 의사결정에 적용하기 쉽다는 장점이 있지만, 다중공선성 등의 입력 데이터의 특성에 견고하지 못한 문제점이 있다. 본 연구에서는 기존의 결정트리 분석의 문제점들을 정리하고, 이 문제점들을 보완하기 위한 하나의 실험적 해결책으로 다중 결정트리를 이용한 요인의 발견 방법을 제안한다. 실험을 통해 다중 결정트리를 수행이 다중 결정트리를 적용할 때보다 신뢰할 수 있는 요인을 발견하고 각 변수의 중요성을 발견할 수 있음을 보였다.

  • PDF

데이터 마이닝을 위한 LVQ 기반 신경 트리 분류기 (Neural Tree Classifier based on LVQ for Data Mining)

  • 김세현;김은주;이일병
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (2)
    • /
    • pp.157-159
    • /
    • 2001
  • 신경 트리는 신경망과 결정 트리의 구조를 결합한 형태의 분류기로서 비선형적 결정 경계 형성이 가능하며 기존 신경망에 비해 학습, 출력시 계산량이 적다는 장점을 갖는다. 본 논문에서는 신경 트리의 노드를 구성하는 신경망을 학습하기 위하여 기존의 방법들과는 달리 교사 학습 방법인 LVQ3 알고리즘을 사용하는 신경 트리 분류기를 제안한다. 학습 과정을 통해 생성된 트리는 오인식율 추정을 이용한 가지치기를 통하여 효율적인 트리로 재구성된다. 제안하는 방법은 실제 데이터 집합들을 이용한 실험을 통하여 그 성능을 검증하였다.

  • PDF

전역적 범주화를 이용한 대용량 데이터를 위한 순차적 결정 트리 분류기 (Incremental Decision Tree Classifier Using Global Discretization For Large Dataset)

  • 한경식;이수원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.352-354
    • /
    • 2002
  • 최근 들어, 대용량의 데이터를 처리할 수 있는 결정 트리 생성 방법에 많은 관심이 집중되고 있다. 그러나, 대용량 데이터를 위한 대부분의 알고리즘은 일괄처리 방식으로 데이터를 처리하기 때문에 새로운 예제가 추가되면 이 예제를 반영한 결정 트리를 생성하기 위해 처음부터 다시 재생성해야 한다. 이러한 재생성에 따른 비용문제에 보다 효율적인 접근 방법은 결정 트리를 순차적으로 생성하는 접근 방법이다. 대표적인 알고리즘으로 BOAT와 ITI를 들 수 있다. BOAT는 대용량 데이터를 지원하는 순차적 알고리즘이 지만 분할 포인트가 노드에서 유지하는 신뢰구간을 넘어서는 경우와 분할 변수가 변경되면 그에 영향을 받는 부분은 다시 생성해야 한다는 문제점을 안고 있고, 이에 반해 ITI는 분할 포인트 변경과 분할 변수 변경을 효율적으로 처리하지만 대용량 데이터를 처리하지 못해 오늘날의 순차적인 트리 생성 기법으로 적합하지 못하다. 본 논문은 ITI의 기본적인 트리 재구조화 알고리즘을 기반으로 하여 대용량 데이터를 처리하지 못하는 ITI의 한계점을 극복하기 위해 전역적 범주화 기법을 이용한 접근방법을 제안한다.

  • PDF

부스팅 트리에서 적정 트리사이즈의 선택에 관한 연구 (The guideline for choosing the right-size of tree for boosting algorithm)

  • 김아현;김지현;김현중
    • Journal of the Korean Data and Information Science Society
    • /
    • 제23권5호
    • /
    • pp.949-959
    • /
    • 2012
  • 범주형 목표변수를 잘 예측하기 위한 데이터마이닝 방법 중에서 최근에는 여러 단일 분류자를 결합한 앙상블 기법이 많이 활용되고 있다. 앙상블 기법 가운데 부스팅은 재표본 시 분류하기 어려운 관찰치의 가중치를 높여 분류자가 해당 관찰치에 보다 집중할 수 있도록 함으로써 다른 앙상블 기법에 비해 오차를 효과적으로 감소시키는 방법으로 알려져 있다. 부스팅을 구성하는 분류자를 의사결정나무로 둔 부스팅 트리 모형의 경우 각 트리의 사이즈를 결정해야 하는데, 본 연구에서는 자료 별로 부스팅 트리에 가장 적합한 트리사이즈가 서로 다를수 있다고 가정하고, 주어진 자료에 맞는 트리사이즈를 추정하는 문제에 대해 논의하였다. 우선 트리사이즈가 부스팅 트리의 정확도에 중요한 영향을 미치는가를 파악하기 위하여 28개의 자료를 대상으로 실험을 수행하였으며, 그 결과 트리사이즈를 결정하는 문제가 모형 전체의 성능을 결정하는데 상당한 역할을 한다는 것을 확인할 수 있었다. 또한 그 결과를 바탕으로 최적의 트리사이즈에 영향을 미칠 것으로 판단되는 몇 가지 특성 변수를 정의하고, 해당 변수를 이용하여 부스팅 트리에서의 최적 트리사이즈를 설명하는 모형을 구성해 보았다. 자료 별로 고유한 최적의 트리사이즈는 자료의 특성에 의존적일 가능성도 있으므로 본 연구에서 제안하는 추정방법은 최적 트리사이즈를 결정하기 위한 출발점 또는 가이드라인으로 활용하는 것이 적절할 것이다. 기존에는 부스팅 트리의 사이즈에 대한 값으로 목표변수의 범주의 개수를 활용하였는데, 본 모형에서 제안하는 트리사이즈의 추정치로 부스팅 트리를 구축한 경우 기존방법에 비해 분류정확도를 유의미하게 개선하는 것을 확인할 수 있었다.

결정트리를 이용한 한국어 화행 분석 (Korean Speech Act Analysis Using Decision Tree)

  • 이성욱;서정연
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.377-381
    • /
    • 1999
  • 담화 분석에서 화자의 의도와 대화의 흐름을 이해하기 위해서 화행 분석이 중요하다. 최근에 대화 말뭉치를 이용하여 화행을 결정하는 방법들이 많이 연구되어 왔다. 발화 특성 정보를 이용한 통계적 화행 분석과 담화 구조를 최대 엔트로피 모델에 적용한 연구가 있었다. 그러나 이러한 연구에서 발화의 어떤 특성 정보가 실제 화행 결정에 중요한 역할을 하는지 알기가 어렵다. 그러나 결정 트리를 이용한 본 연구는 결정트리의 분리자를 통해 어떤 정보들이 화행결정에 영향을 끼치는지 알 수 있다는 장점이 있다. 본 연구는 결정트리를 이용하여 화행을 결정하였으며, 현재 발화의 이전 발화 정보만을 고려한 bigram, 이전 두 발화의 화행을 고려한 trigram, 또한 담화 구조를 고려한 trigram 모델을 비교 분석하였다.

  • PDF