DOI QR코드

DOI QR Code

A New Memory-based Learning using Dynamic Partition Averaging

동적 분할 평균을 이용한 새로운 메모리 기반 학습기법

  • Published : 2008.08.25

Abstract

The classification is that a new data is classified into one of given classes and is one of the most generally used data mining techniques. Memory-Based Reasoning (MBR) is a reasoning method for classification problem. MBR simply keeps many patterns which are represented by original vector form of features in memory without rules for reasoning, and uses a distance function to classify a test pattern. If training patterns grows in MBR, as well as size of memory great the calculation amount for reasoning much have. NGE, FPA, and RPA methods are well-known MBR algorithms, which are proven to show satisfactory performance, but those have serious problems for memory usage and lengthy computation. In this paper, we propose DPA (Dynamic Partition Averaging) algorithm. it chooses partition points by calculating GINI-Index in the entire pattern space, and partitions the entire pattern space dynamically. If classes that are included to a partition are unique, it generates a representative pattern from partition, unless partitions relevant partitions repeatedly by same method. The proposed method has been successfully shown to exhibit comparable performance to k-NN with a lot less number of patterns and better result than EACH system which implements the NGE theory and FPA, and RPA.

분류란 새로운 자료를 주어진 클래스 중의 하나로 구분하는 것으로 가장 일반적으로 사용되는 데이터마이닝 기법 중의 하나이다. 그중 메모리기반 추론(MBR : Memory-Based Reasoning)은 추론 규칙 없이 특징들의 최초의 벡터 형태에 의해 표현된 학습패턴을 단순히 저장한다. 그리고 분류 시에 새로운 자료가 메모리에 저장된 학습패턴들과의 거리를 계산하여 가장 가까운 거리에 있는 학습패턴의 클래스로 분류하는 기법이다. MBR 기법에서 학습패턴이 커지면 저장에 필요한 메모리의 크기도 커질 뿐만 아니라 추론을 위한 계산도 많아지는 문제점을 가지고 있다. 이러한 문제를 해결하기 위한 대표적인 방법으로 초월평면을 이용하는 NGE 이론과 대표패턴을 추출하여 학습하는 FPA 기법과 RPA 기법 등을 들을 수 있다. 본 논문에서는 학습패턴 공간을 GINI-Index값을 이용하여 일련의 최적 분할점을 찾아 가변크기로 분할하는 동적분할평균(DPA : Dynamic Partition Averaging)기법을 제안하였다. 제안한 기법의 성능을 검증하기 위하여 MBR기법 중 널리 사용되는 k-NN 기법과 비교하였다. 제안한 기법이 k-NN기법에 비해 대표패턴 개수는 줄이고 분류성능은 유사하게 유지시킨 것을 보여주었다. 또한, 제안한 기법은 NGE 이론을 구현한 EACH 시스템과 대표패턴 기법인 FPA기법과 RPA기법 등과 비교하여 탁월한 분류 성능을 보여주었다.

Keywords

References

  1. T. Dietterich, A Study of Distance-Based Machine Learning Algorithms, Ph. D. Thesis, computer Science Dept., Oregon State University, 1995
  2. D. Wettschereck, "Weighted kNN versus Majority kNN :A Recommendation," German National Research Center for Information Technology, 1995
  3. D. Wettschereck, "A Hybrid Nearest-Neighbor and Nearest-Hyperrectangle Algorithm," Proceedings of the 7th European Conference on Machine Learning, 1995
  4. D. Aha, "Instance-Based Learning Algorithms," Machine Learning, Vol. 6, No. 1, pp. 37-66, 1991
  5. D. Wettschereck and T. Dietterich, "An Experimental Comparison of the Nearest-Neighbor and Nearest-Hyperrectangle Algorithms," Machine Learning, Vol. 19, No. 1, pp. 1-25, 1995
  6. D. Wettschereck and T. Dietterich, "Locally Adaptive Nearest Neighbor Algorithms," Advances in Neural Information Processing Systems 6: 184-191, 1994
  7. S. Salzberg, "A Nearest Hyperrectangle Learning Method," Machine Learning, Vol. 6. No. 3. pp. 251-276, 1991
  8. L. Breiman, J. Friedman, R. Olshen, and C. Stone. Classification and regression trees. Wadsworth International Group, 1984
  9. 심범식, 정태선, 윤충화, "최근접 초월평면 학습법에서 시드개수의 영향에 대한 분석", 한국정보처리학회, '98 춘계학술대회, 1998
  10. 정태선, 이형일, 윤충화, 고정 분할 평균알고리즘을 사용하는 새로운 메모리 기반 추론, 한국정보처리학회 논문지 제6권 제6호, pp. 1563-1570, 1999
  11. 이형일, 정태선, 윤충화, 강경식, 재귀 분할 평균기법을 이용한 새로운 메모리 기반 추른 알고리즘, 한국정보처리학회 논문지 제6권 제7호, pp. 1849-1857, 1999
  12. 이형일, 초월평면 최적화를 이용한 최근접 초월평면 학습법의 성능 향상 방법, 한국퍼지및지능시스템학회논문지, 2003, 13(3), pp.328-333
  13. O. L. Mangasarian and W. H. Wolberg, "Cancer diagnosis via linear programming", SIAM News, Volume 23, Number 5, September 1990, pp 1 & 18
  14. http://www.ics.uci.edu/~mlearn