• 제목/요약/키워드: 분류 트리 방법

검색결과 232건 처리시간 0.028초

데이터 마이닝을 위한 LVQ 기반 신경 트리 분류기 (Neural Tree Classifier based on LVQ for Data Mining)

  • 김세현;김은주;이일병
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (2)
    • /
    • pp.157-159
    • /
    • 2001
  • 신경 트리는 신경망과 결정 트리의 구조를 결합한 형태의 분류기로서 비선형적 결정 경계 형성이 가능하며 기존 신경망에 비해 학습, 출력시 계산량이 적다는 장점을 갖는다. 본 논문에서는 신경 트리의 노드를 구성하는 신경망을 학습하기 위하여 기존의 방법들과는 달리 교사 학습 방법인 LVQ3 알고리즘을 사용하는 신경 트리 분류기를 제안한다. 학습 과정을 통해 생성된 트리는 오인식율 추정을 이용한 가지치기를 통하여 효율적인 트리로 재구성된다. 제안하는 방법은 실제 데이터 집합들을 이용한 실험을 통하여 그 성능을 검증하였다.

  • PDF

결정트리 분류기법 기반 유전자 계통수 추론 (Inference of Gene Phylogenetic Tree based on Decision Tree)

  • 김신석;황부현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (1)
    • /
    • pp.280-282
    • /
    • 2001
  • 분자생물학의 급진적 발전은 현대 계통분류학에 큰 변혁을 가져왔다. 특히 유전의 근원물질인 DNA나 RNA를 분리.조작.분석하는 기술의 발전으로 이를 이용만 계통수 제작은 계통생물학의 중요한 실험방법으로 자리잡고 있다. 그 중 염기서열 비교 방법은 현재 유전자 계통수 제작에 가장 널리 이용되는 방법이다. 하지만 이러만 계통수는 각 객체간의 거리만을 표현하고, 객체군간의 차이는 설명하기 힘들다. 본 연구에서는 염기서열의 상대적인 특징(유사도)을 대신하는 염기서열의 총량과 염기 함량 등을 이용해 새로이 분류 기법 중 결정트리 방법에 적응하고, 종 분류의 유전적 모델을 설계한다. 또한 결정트리의 클래스인 종은 상위 클래스들을 포함하고 있어, 본 논문에서는 기존의 결정트리 분류자를 수정한 단계적 결정트기 분류자를 제안한다.

  • PDF

다중 응답 분류회귀트리를 이용한 음성 개성 변환 (Voice Personality Transformation Using a Multiple Response Classification and Regression Tree)

  • 이기승
    • 한국음향학회지
    • /
    • 제23권3호
    • /
    • pp.253-261
    • /
    • 2004
  • 본 논문에서는 음성 신호가 지니고 있는 화자 의존적 특징 변수를 변환 시키는 음성 개성 변환 기법이 새롭게 제안되었다. 제안된 방법은 성도 전달 함수의 특성을 반영하는 켑스트럼 벡터와 여기 신호의 특성을 반영하는 피치 값을 변환 대상 변수로 삼았으며, 이들에 대한 변환 기법으로 다중 응답 분류 회귀 트리를 사용하였다. 다중 응답 분류 회귀 트리는 기존의 분류 회귀 트리를 다차원 확장시킨 형태로서, 반응값이 벡터 형태로 존재하는 분류 회귀 트리를 의미한다. 본 논문에서는 기존의 코드북 메핑 방법과 비교하여 제안된 기법의 성능을 평가하였으며, 분류 회귀 트리에 입력되는 관찰값을 다양하게 변화시켜 트리의 복잡도와 변환 성능을 정량적으로 분석하였다. 네 명의 화자를 이용한 음성 개성 변환 실험에서, 기존의 코드북 메핑과 비교하여 객관적으로 우수한 성능을 나타내었으며, 청취 테스트에서도 변환음이 목표로 하는 화자의 음성과 유사함을 관찰할 수 있었다.

특징 공간을 사선 분할하는 퍼지 결정 트리 (A Fuzzy Decision Tree to Partition Feature Space with Oblique Planes)

  • 이우항;이건명
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (2)
    • /
    • pp.21-23
    • /
    • 1999
  • 결정 트리는 실세계에서 얻어지는 많은 사례들로부터 분류 정보를 얻기 위해 사용되는 유용한 방법중의 하나이다. 분류를 목적으로 사용되는 사례, 즉 데이터들은 실제 현장에서 얻어지기 때문에 관측오류, 불확실성, 주관적인 판단 등의 원인으로 참 값이 아닌 근사 값으로써 기술되는 경우가 많으며, 이러한 잠재적 오류로 인해 잘못된 결정 트리가 생성될 수 있다. 한편, 트리를 생성하는 각각의 과정에서 하나의 특징 값만을 고려하지 않고 두 가지 이상의 특징 값을 동시에 고려하여 결정 트리를 생성할 경우 보다 정확한 분류 정보를 기대할 수 있다. 본 논문에서는 수치 특징 값으로 기술된 데이터로부터 보다 정확한 분류 정보를 얻을 수 있고, 작은 오류에 강건한 사선형 분할 퍼지 결정 트리를 제안한다. 또한 제안된 사선형 분할 퍼지 결정 트리의 생성 절차 및 생성된 결정 트리를 이용하여 새로운 데이터에 분류 정보를 부여하는 추론 과정을 소개한다.

  • PDF

부스팅 트리에서 적정 트리사이즈의 선택에 관한 연구 (The guideline for choosing the right-size of tree for boosting algorithm)

  • 김아현;김지현;김현중
    • Journal of the Korean Data and Information Science Society
    • /
    • 제23권5호
    • /
    • pp.949-959
    • /
    • 2012
  • 범주형 목표변수를 잘 예측하기 위한 데이터마이닝 방법 중에서 최근에는 여러 단일 분류자를 결합한 앙상블 기법이 많이 활용되고 있다. 앙상블 기법 가운데 부스팅은 재표본 시 분류하기 어려운 관찰치의 가중치를 높여 분류자가 해당 관찰치에 보다 집중할 수 있도록 함으로써 다른 앙상블 기법에 비해 오차를 효과적으로 감소시키는 방법으로 알려져 있다. 부스팅을 구성하는 분류자를 의사결정나무로 둔 부스팅 트리 모형의 경우 각 트리의 사이즈를 결정해야 하는데, 본 연구에서는 자료 별로 부스팅 트리에 가장 적합한 트리사이즈가 서로 다를수 있다고 가정하고, 주어진 자료에 맞는 트리사이즈를 추정하는 문제에 대해 논의하였다. 우선 트리사이즈가 부스팅 트리의 정확도에 중요한 영향을 미치는가를 파악하기 위하여 28개의 자료를 대상으로 실험을 수행하였으며, 그 결과 트리사이즈를 결정하는 문제가 모형 전체의 성능을 결정하는데 상당한 역할을 한다는 것을 확인할 수 있었다. 또한 그 결과를 바탕으로 최적의 트리사이즈에 영향을 미칠 것으로 판단되는 몇 가지 특성 변수를 정의하고, 해당 변수를 이용하여 부스팅 트리에서의 최적 트리사이즈를 설명하는 모형을 구성해 보았다. 자료 별로 고유한 최적의 트리사이즈는 자료의 특성에 의존적일 가능성도 있으므로 본 연구에서 제안하는 추정방법은 최적 트리사이즈를 결정하기 위한 출발점 또는 가이드라인으로 활용하는 것이 적절할 것이다. 기존에는 부스팅 트리의 사이즈에 대한 값으로 목표변수의 범주의 개수를 활용하였는데, 본 모형에서 제안하는 트리사이즈의 추정치로 부스팅 트리를 구축한 경우 기존방법에 비해 분류정확도를 유의미하게 개선하는 것을 확인할 수 있었다.

결정 트리 모델링에 의한 한국어 문맥 종속 음소 분류 연구 (A Study on the Categorization of Context-dependent Phoneme using Decision Tree Modeling)

  • 이선정
    • 한국컴퓨터산업학회논문지
    • /
    • 제2권2호
    • /
    • pp.195-202
    • /
    • 2001
  • 본 논문에서는 한국어 음소가 좌, 우 음소에 따라 발음 방식이 달라질 때 매 음소를 모델링 하는 방법에 관한 연구를 수행한다. 이를 위해 유니트 감소 알고리즘과 결정 트리(Decision Tree)를 사용하는 방법을 사용하여 비교 연구한다. 유니트 감소 알고리즘은 통계적 특성만을 이용한 알고리즘이며 결정 트리 모델링 방식은 한국어 음운정보와 통계적 정보를 이용하여 문맥종속 음소를 분류하는 방식이다. 특히 본 논문에서는 결정 트리를 사용하여 문맥종속 음소를 분류하는 것에 대하여 상세히 기술한다. 마지막으로 결정 트리를 사용하여 분류된 문맥종속 음소의 성능을 실험하였다.

  • PDF

퍼지 데이타에 대한 퍼지 결정트리 기반 분류규칙 마이닝 (Classification Rue Mining from Fuzzy Data based on Fuzzy Decision Tree)

  • 이건명
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제28권1호
    • /
    • pp.64-72
    • /
    • 2001
  • 결정트리 생성은 일련의 특징값으로 기술된 사례들로부터 분류 지식을 추출하는 학습 방법중의 하나이다. 현장에서 수집되는 사례들은 관측 오류, 주관적인 판단, 불확실성 등으로 인해서 애매하게 주어지는 경우가 많다. 퍼지숫자나 구간값을 사용함으로써 이러한 애매한 데이타의 수치 속성은 쉽게 표현될 수 있다. 이 논문에서는 수치 속성은 보통값 뿐마아니라 퍼지숫자나 구간값을 갖을 수 있고, 비수치 속서은 보통값을 가지며, 데이터의 클래스는 확신도를 기자는 학습 데이터들로 부터, 분류 규칙을 마이닝하기 위한 퍼지 결정트리 생성 방법을 제안한다. 또한 제안한 방법에 의해 생성된 퍼지 결정트리를 사용하여, 새로운 데이터에 대한 클래스를 결정하는 추론 방법을 소개한다. 한편, 제안된 방법의 유용성을 보이기 위해 수행한 실험의 결과를 보인다.

  • PDF

오픈 디렉토리 프로젝트를 이용한 문맥 광고 (Using Open Directory Project to Contextual Advertising)

  • 이정현;하종우;박상현;이상근
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 추계학술발표대회
    • /
    • pp.719-720
    • /
    • 2009
  • 문맥 광고에서 웹 페이지의 내용과 의미적으로 연관된 광고를 매칭하기 위해, 최근 웹 페이지와 광고를 동일한 분류 트리에 분류하여 의미적으로 매칭하는 방법이 제안되었다. 그러나 이 방법에서 사용된 분류 트리 및 분류기를 작성하기 위해선 많은 시간과 노력이 필요하다. 따라서 이를 용이하게 하기 위하여, 본 논문에서는 오픈 디렉토리 프로젝트의 공개 데이터를 활용하여 웹 페이지와 광고의 주제 분류를 위한 분류 트리 및 분류기를 작성하는 기법을 제안한다. 또한 실험 결과를 통하여 제안한 기법이 문맥 광고에서 웹 페이지와 광고의 의미적 매칭의 높은 정확성을 보장하는 것을 입증한다.

특징공간을 사선 분할하는 퍼지 결정트리 유도 (Fuaay Decision Tree Induction to Obliquely Partitioning a Feature Space)

  • 이우향;이건명
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권3호
    • /
    • pp.156-166
    • /
    • 2002
  • 결정트리 생성은 특징값들로 기술된 사례들로부터 분류 규칙을 추출하는 유용한 기계학습 방법중 하나이다. 결정트리는 특징공간을 분할하는 형태에 따라 단변수(univariate) 결정트리와 다변수(multivariate) 결정트리로 대별된다. 실제 현장에서 얻어지는 데이터는 관측오류, 불확실성, 주관적인 판단 등의 이유로 특징값 자체에 오류를 포함하는 경우가 많다. 이러한 오류에 대해 강건한 결정트리를 생성하기 위한 방법으로 퍼지 기법을 도입한 결정트리 생성 방법에 대한 연구가 진행되어 왔다. 현재까지 대부분의 퍼지 결정트리에 대한 연구는 단변수 결정트리에 퍼지 기법을 도입한 것들이며, 다변수 결정트리에 퍼지 기법을 적용한 것은 찾아보기 힘들다. 이 논문에서는 다변수 결정트리에 퍼지 기법을 적용하여 퍼지사선형 결정트리라고 하는 퍼지 결정트리를 생성하는 방법을 제안한다. 또한 제안한 결정트리 생성 방법의 특성을 보이기 위한 실험 결과를 보인다.

데이터의 다중 추상화 수준을 위한 결정 트리 (Decision Trees For Multiple Abstraction Level of Data)

  • 정민아;이도현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.82-84
    • /
    • 2001
  • 데이터 분류(classification)란 이미 분류된 객체집단군 즉, 학습 데이터에 대한 분석을 바탕으로 아직 분류되지 않는 개체의 소속 집단을 결정하는 작업이다. 현재까지 제안된 여러 가지 분류 모델 중 결정 트리(decision tree)는 인간이 이해하기 쉬운 형태를 갖고 있기 때문에 탐사적인 데이터 마이닝(exploatory)작업에 특히 유용하다. 본 논문에서는 결정 트리 분류에 다중 추상화 수준 문제(multiple abstraction level problem)를 소개하고 이러한 문제를 다루기 위한 실용적인 방법을 제안한다. 데이터의 다중 추상화 수준 문제를 해결하기 위해 추상화 수준을 강제로 같게 하는 것이 문제를 해결할 수 없다는 것을 보인 후, 데이터 값들 사이의 일반화, 세분화 관련성을 그대로 유지하면서 존재하는 유용화할 수 있는 방법을 제시한다.

  • PDF