Abstract
Biological early warning system detects toxicity by looking at behavior of organisms in water. The system uses classifier for judgement about existence and amount of toxicity in water. Boosting algorithm is one of possible application method for improving performance in a classifier. Boosting repetitively change training example set by focusing on difficult examples in basic classifier. As a result, prediction performance is improved for the events which are difficult to classify, but the information contained in the events which can be easily classified are discarded. In this paper, an incremental learning method to overcome this shortcoming is proposed by using the extended data expression. In this algorithm, decision tree classifier define class distribution information using the weight parameter in the extended data expression by exploiting the necessary information not only from the well classified, but also from the weakly classified events. Experimental results show that the new algorithm outperforms the former Learn++ method without using the weight parameter.
생물 조기 경보 시스템은 물속 생명체의 행동을 관찰하여 독성을 감지한다. 이 시스템은 분류기를 물의 독성의 유무와 정도를 판단하기 위해 사용한다. 이 분류기의 성능을 높이기 위해 적용할 수 있는 방법 중에 부스팅 알고리즘이 있다. 부스팅은 기본 분류기로는 예측 정확도가 낮았던 분류하기 어려운 사건에 집중할 수 있도록 다음 번 데이터에 해당 훈련 사건(event)들이 뽑힐 확률을 높여준다. 횟수가 진행될수록 분류기가 어려운 사건들을 집중적으로 고려하게 된다. 그 결과 분류하기 어려웠던 사건에 대한 예측 성능은 좋아지지만, 비교적 쉬운 훈련 사건들의 정보는 버려지는 단점이 있다. 본 논문에서는 이 같은 단점을 보완하기 위해 분류기에 확장된 데이터 표현을 위한 점진적 학습법의 적용을 제안한다. 확장된 데이터 표현의 가중치 변수를 사용하면 약하게 분류되는 사건 뿐 아니라 쉽게 분류되는 사건의 정보까지도 사용하여 분류기의 예측 정확도를 높일 수 있게 된다. 새로 적용된 알고리즘과 기존의 중요도 변수를 사용하지 않는 learn++를 비교하여 성능이 향상됨을 검증하였다.