Abstract
The classification is that a new data is classified into one of given classes and is one of the most generally used data mining techniques. Memory-Based Reasoning (MBR) is a reasoning method for classification problem. MBR simply keeps many patterns which are represented by original vector form of features in memory without rules for reasoning, and uses a distance function to classify a test pattern. If training patterns grows in MBR, as well as size of memory great the calculation amount for reasoning much have. NGE, FPA, and RPA methods are well-known MBR algorithms, which are proven to show satisfactory performance, but those have serious problems for memory usage and lengthy computation. In this paper, we propose DPA (Dynamic Partition Averaging) algorithm. it chooses partition points by calculating GINI-Index in the entire pattern space, and partitions the entire pattern space dynamically. If classes that are included to a partition are unique, it generates a representative pattern from partition, unless partitions relevant partitions repeatedly by same method. The proposed method has been successfully shown to exhibit comparable performance to k-NN with a lot less number of patterns and better result than EACH system which implements the NGE theory and FPA, and RPA.
분류란 새로운 자료를 주어진 클래스 중의 하나로 구분하는 것으로 가장 일반적으로 사용되는 데이터마이닝 기법 중의 하나이다. 그중 메모리기반 추론(MBR : Memory-Based Reasoning)은 추론 규칙 없이 특징들의 최초의 벡터 형태에 의해 표현된 학습패턴을 단순히 저장한다. 그리고 분류 시에 새로운 자료가 메모리에 저장된 학습패턴들과의 거리를 계산하여 가장 가까운 거리에 있는 학습패턴의 클래스로 분류하는 기법이다. MBR 기법에서 학습패턴이 커지면 저장에 필요한 메모리의 크기도 커질 뿐만 아니라 추론을 위한 계산도 많아지는 문제점을 가지고 있다. 이러한 문제를 해결하기 위한 대표적인 방법으로 초월평면을 이용하는 NGE 이론과 대표패턴을 추출하여 학습하는 FPA 기법과 RPA 기법 등을 들을 수 있다. 본 논문에서는 학습패턴 공간을 GINI-Index값을 이용하여 일련의 최적 분할점을 찾아 가변크기로 분할하는 동적분할평균(DPA : Dynamic Partition Averaging)기법을 제안하였다. 제안한 기법의 성능을 검증하기 위하여 MBR기법 중 널리 사용되는 k-NN 기법과 비교하였다. 제안한 기법이 k-NN기법에 비해 대표패턴 개수는 줄이고 분류성능은 유사하게 유지시킨 것을 보여주었다. 또한, 제안한 기법은 NGE 이론을 구현한 EACH 시스템과 대표패턴 기법인 FPA기법과 RPA기법 등과 비교하여 탁월한 분류 성능을 보여주었다.