• Title/Summary/Keyword: 부스팅

Search Result 135, Processing Time 0.027 seconds

Text Filtering by Boosting Linear Perceptrons (선형 퍼셉트론의 부스팅 학습에 의한 텍스트 여과)

  • 오장민;장병탁
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2000.05a
    • /
    • pp.73-76
    • /
    • 2000
  • 문서 분류나 여과 문제에서 양의 학습 데이터의 부족은 성능 저하의 주요 원인이 된다. 이런 경우 여러 학습 알고리즘이 문제의 특성을 제대로 파악하지 못한다. 본 논문에서는 부스팅 기법을 도입하여 이 문제를 접근해 보았다. 부스팅 기법은 약한 능력을 보유한 학습 알고리즘을 부스팅 과정을 통해 궁극적으로 강력한 성능을 얻을 수 있게 해준다. 간단한 선형 퍼셉트론에 부스팅 기법을 도입하여 문서 여과에 적용하였다. 제안된 알고리즘을 Reuters-21578 문서 집합에 적용한 결과, 재현률 측면에서 다층 신경망보다 우수한 성능을 보였고 특히 양의 학습 데이터가 부족한 문제의 경우 탁월한 결과를 얻을 수 있었다.

  • PDF

데이터 마이닝에서 배깅과 부스팅 알고리즘 비교 분석

  • Lee, Yeong-Seop;O, Hyeon-Jeong
    • Proceedings of the Korean Statistical Society Conference
    • /
    • 2003.05a
    • /
    • pp.97-102
    • /
    • 2003
  • 데이터 마이닝의 여러 기법중 모형의 변동성을 줄이고 정확도가 높은 분류자를 형성하기 위하여 다양한 앙상블 기법이 연구되고 있다. 그 중에서 배깅과 부스팅 방법이 가장 널리 알려져 있다. 여러 가지 데이터에 이 두 방법을 적용하여 오분류율을 구하여 비교한 후 각 데이터 특성을 입력변수로 하고 배깅과 부스팅 중 더 낮은 오분류율을 갖는 알고리즘을 목표변수로 하여 의사결정나무를 형성하였다. 이를 통해서 배깅과 부스팅 알고리즘이 어떠한 데이터 특성의 패턴이 존재하는지 분석한 결과 부스팅 알고리즘은 관측치, 입력변수, 목표변수 수가 큰 것이 적합하고 반면에 배깅 알고리즘은 관측치, 입력변수, 목표변수 수의크기가 작은 것이 적합함을 알 수 있었다.

  • PDF

Kernel Perceptron Boosting for Effective Learning of Imbalanced Data (불균형 데이터의 효과적 학습을 위한 커널 퍼셉트론 부스팅 기법)

  • 오장민;장병탁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.304-306
    • /
    • 2001
  • 많은 실세계의 문제에서 일반적인 패턴 분류 알고리즘들은 데이터의 불균형 문제에 어려움을 겪는다. 각각의 학습 예제에 균등한 중요도를 부여하는 기존의 기법들은 문제의 특징을 제대로 파악하지 못하는 경우가 많다. 본 논문에서는 불균형 데이터 문제를 해결하기 위해 퍼셉트론에 기반한 부스팅 기법을 제안한다. 부스팅 기법은 학습을 어렵게 하는 데이터에 집중하여 앙상블 머신을 구축하는 기법이다. 부스팅 기법에서는 약학습기를 필요로 하는데 기존 퍼셉트론의 경우 문제에 따라 약학습기(weak learner)의 조건을 만족시키지 못하는 경우가 있을 수 있다. 이에 커널을 도입한 커널 퍼셉트론을 사용하여 학습기의 표현 능력을 높였다. Reuters-21578 문서 집합을 대상으로 한 문서 여과 문제에서 부스팅 기법은 다층신경망이나 나이브 베이스 분류기보다 우수한 성능을 보였으며, 인공 데이터 실험을 통하여 부스팅의 샘플링 경향을 분석하였다.

  • PDF

Text Classification By Boosting Nave Bayes (베이지안 부스팅학습에 의한 문서 분류)

  • 김유환;장병탁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.256-258
    • /
    • 2000
  • 최근 들어, 여러 기계학습 알고리즘이 문서 분류와 여과에 사용되고 있다. 특히 AdaBoost와 같은 부스팅 알고리즘은 실세계의 문서 데이터에 사용되었을 때 비교적 좋은 성능을 보이는 것으로 알려져 있다. 그러나 지금까지의 부스팅 알고리즘은 모두 단어의 존재 여부만을 가지고 판단하는 분류자를 기반으로 하고 있기 때문에 가중치 정보를 충분히 사용할 수 없다는 단점이 있다. 이 논문에서는 나이브 베이스를 사용한 부스팅 알고리즘은 단어의 가중치 정보를 효율적으로 사용할 수 있을 뿐 아니라. 확률적으로도 의미있는 신뢰도(confidence ratio)를 생성 할 수 있기 때문이다. TREC-7과 TREC-8의 정보 여과 트랙(filtering track)에 대해서 실험한 결과 좋은 성능을 보여주었다.

  • PDF

Boosting Algorithms for Large-Scale Data and Data Batch Stream (대용량 자료와 순차적 자료를 위한 부스팅 알고리즘)

  • Yoon, Young-Joo
    • The Korean Journal of Applied Statistics
    • /
    • v.23 no.1
    • /
    • pp.197-206
    • /
    • 2010
  • In this paper, we propose boosting algorithms when data are very large or coming in batches sequentially over time. In this situation, ordinary boosting algorithm may be inappropriate because it requires the availability of all of the training set at once. To apply to large scale data or data batch stream, we modify the AdaBoost and Arc-x4. These algorithms have good results for both large scale data and data batch stream with or without concept drift on simulated data and real data sets.

The guideline for choosing the right-size of tree for boosting algorithm (부스팅 트리에서 적정 트리사이즈의 선택에 관한 연구)

  • Kim, Ah-Hyoun;Kim, Ji-Hyun;Kim, Hyun-Joong
    • Journal of the Korean Data and Information Science Society
    • /
    • v.23 no.5
    • /
    • pp.949-959
    • /
    • 2012
  • This article is to find the right size of decision trees that performs better for boosting algorithm. First we defined the tree size D as the depth of a decision tree. Then we compared the performance of boosting algorithm with different tree sizes in the experiment. Although it is an usual practice to set the tree size in boosting algorithm to be small, we figured out that the choice of D has a significant influence on the performance of boosting algorithm. Furthermore, we found out that the tree size D need to be sufficiently large for some dataset. The experiment result shows that there exists an optimal D for each dataset and choosing the right size D is important in improving the performance of boosting. We also tried to find the model for estimating the right size D suitable for boosting algorithm, using variables that can explain the nature of a given dataset. The suggested model reveals that the optimal tree size D for a given dataset can be estimated by the error rate of stump tree, the number of classes, the depth of a single tree, and the gini impurity.

A study for improving data mining methods for continuous response variables (연속형 반응변수를 위한 데이터마이닝 방법 성능 향상 연구)

  • Choi, Jin-Soo;Lee, Seok-Hyung;Cho, Hyung-Jun
    • Journal of the Korean Data and Information Science Society
    • /
    • v.21 no.5
    • /
    • pp.917-926
    • /
    • 2010
  • It is known that bagging and boosting techniques improve the performance in classification problem. A number of researchers have proved the high performance of bagging and boosting through experiments for categorical response but not for continuous response. We study whether bagging and boosting improve data mining methods for continuous responses such as linear regression, decision tree, neural network through bagging and boosting. The analysis of eight real data sets prove the high performance of bagging and boosting empirically.

Resolving Part-of-Speech Tagging Ambiguities by a Maximum Entropy Boosting Model (최대 엔트로피 부스팅 모델을 이용한 품사 모호성 해소)

  • 박성배;장병탁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.522-524
    • /
    • 2003
  • 품사 결정 문제는 자연언어처리의 가장 기본적인 문제들 중 하나이며, 기계학습의 관점에서 보면 분류 문제(classification problem)로 쉽게 표현된다. 본 논문에서는 품사 결정의 모호성을 해소하기 위해서 최대 엔트로피 부스팅 모델(maximum entropy boosting model)을 이 문제에 적응하였다. 그리고, 품사 결정에서 중요한 요소 중의 하나인 미지어 처리를 위해서 특별히 설계된 일차 자질을 고려하였다. 최대 엔트로피 부스팅 모델의 장점은 쉬운 모델링인데, 실제로 품사 결정을 위한 일차 자질만 작성하는 노려만 들이고도 96.78%의 정확도를 보여 지금까지 알려진 최고의 성능과 거의 비슷한 결과를 보였다.

  • PDF

Resolving Prepositional Phrase Attachment Using a Maximum Entropy Boosting Model (최대 엔트로피 부스팅 모델을 이용한 전치사 접속 모호성 해소)

  • 박성배;장병탁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10d
    • /
    • pp.670-672
    • /
    • 2002
  • Park과 Zhang은 최대 엔트로피 모델(maximum entropy model)을 실제 자연언어 처리에 적용함에 있어서 나타날 수 있는 여러가지 문제를 해결하기 위한 최대 엔트로피 모델(maximum entropy boosting model)을 제시하여 문서 단위화(text chunking)에 성공적으로 적용하였다. 최대 엔트로피 부스팅 모델은 쉬운 모델링과 높은 성능을 보이는 장점을 가지고 있다. 본 논문에서는 최대 엔트로피 부스팅 모델을 영어 전치사 접속 모호성 해소에 적용한다. Wall Street Journal 말뭉치에 대한 실험 결과, 아주 작은 노력을 들였음에도 84.3%의 성능을 보여 지금까지 알려진 최고의 성능과 비슷한 결과를 보였다.

  • PDF

Current THD Improvement of Valley-Fill Rectifier (밸리-필 정류기의 전류 THD 개선)

  • Lee, Chi-Hwan;Choi, Nam-Yerl
    • Journal of the Korean Institute of Illuminating and Electrical Installation Engineers
    • /
    • v.22 no.1
    • /
    • pp.87-94
    • /
    • 2008
  • A method for improving current THD of Valley-fill rectifier is proposed in this paper. The proposed topology combines a boosting inductor with Valley-fill rectifier which carry out AC/DC conversion and PFC simultaneously The boosting effect by PWM switching makes low THD current and improve of Valley-fill rectifier. The operation modes and THD of input current are analyzed as applied the boosting inductor, and the optimum value of boosting inductor is determined A 100[W] single-stage converter has been designed and tested. Experimental results are resented to verify the validity of the proposed method.