DOI QR코드

DOI QR Code

Document Classification of Small Size Documents Using Extended Relief-F Algorithm

확장된 Relief-F 알고리즘을 이용한 소규모 크기 문서의 자동분류

  • 박흠 (부산대학교 컴퓨터공학과)
  • Published : 2009.06.30

Abstract

This paper presents an approach to the classifications of small size document using the instance-based feature filtering Relief-F algorithm. In the document classifications, we have not always good classification performances of small size document included a few features. Because total number of feature in the document set is large, but feature count of each document is very small relatively, so the similarities between documents are very low when we use general assessment of similarity and classifiers. Specially, in the cases of the classification of web document in the directory service and the classification of the sectors that cannot connect with the original file after recovery hard-disk, we have not good classification performances. Thus, we propose the Extended Relief-F(ERelief-F) algorithm using instance-based feature filtering algorithm Relief-F to solve problems of Relief-F as preprocess of classification. For the performance comparison, we tested information gain, odds ratio and Relief-F for feature filtering and getting those feature values, and used kNN and SVM classifiers. In the experimental results, the Extended Relief-F(ERelief-F) algorithm, compared with the others, performed best for all of the datasets and reduced many irrelevant features from document sets.

자질 수가 적은 소규모 크기 문서들의 자동분류는 좋은 성능을 얻기 어렵다. 그 이유는 문서집단 전체의 자질 수는 크지만 단위 문서 내 자질 수가 상대적으로 너무 적기 때문에 문서간 유사도가 너무 낮아 우수한 분류 알고리즘을 적용해도 좋은 성능을 얻지 못한다. 특히 웹 디렉토리 문서들의 자동분류에서나, 디스크 복구 작업에서 유사도 평가와 자동분류로 연결되지 않은 섹터를 연결하는 작업에서와 같은 소규모 크기 문서의 자동분류에서는 좋은 성능을 얻지 못한다. 따라서 본 논문에서는 소규모 크기 문서의 자동분류에서의 문제점을 해결하기 위해 분류 사전작업으로, 예제기반 자질 필터링 방법 Relief-F알고리즘을 소규모 문서 내 자질 필터링에 적합한 ERelief-F 알고리즘을 제시한다. 또 비교 실험을 위해, 기존의 자질 필터링 방법 중 Odds Ratio와 정보이득, 또 Relief-F 알고리즘을 함께 실험하여 분류결과를 비교하였다. 그 결과, ERelief-F 알고리즘을 사용했을 때의 결과가 정보이득과 Odds Ratio, Relief-F보다 월등히 우수한 성능을 보였고 부적절한 자질도 많이 줄일 수 있었다.

Keywords

References

  1. 이재윤, 최보영, 정영미, '문헌 자동분류에서 용어 가중치 기법에 대한 연구', 한국정보관리학회 제7회 학술대회 논문집, pp.41-44, 2000
  2. Yiming Yang and Jan O. Pederson, 'A comparative study on feature selection in text categorization', Proceedings of the 14th International Conference on Machine Learning ICML97, 1997, pp.412-420
  3. Kira K & Rendell L, 'A practical approach to feature selection', Proceedings of the Ninth International Workshop on Machine Learning, Morgan Kaufmann Publishers Inc, 1992, pp.249-256
  4. Igor Kononenko, 'Estimating Attributes: Analysis and Extensions of RELIEF', Proceedings of the 1994 European Conference on Machine Learning, 1994, pp.171-182 https://doi.org/10.1007/3-540-57868-4_57
  5. Yijun Sun, Jian Li, 'Iterative RELIEF for feature weighting', Proceedings of the 23rd international conference on Machine learning Vol.148, 2006, pp.913-920 https://doi.org/10.1145/1143844.1143959
  6. Baranidharan Raman &Thomas R. Ioerger, 'Instance based filter for feature selection', Journal of Machine Learning Reseach 1, 2002, pp.1-23
  7. Marko Robnik-Sikonja & Igor Kononenko, 'Theoretical and Empirical Analysis of ReliefF and RReliefF', Journal of Machine Learning Vol.53 Issue1-2, 2003, pp.23-69 https://doi.org/10.1023/A:1025667309714
  8. Pascal Soucy & Guy W. Mineau, 'A Simple KNN Algorithm for Text Categorization', Proceedings of the 2001 IEEE International Conference on Data Mining, 2001, pp.647-648
  9. Zhi-Hong Deng, Shi-Wei Tang, Dong-Qing Yang, Ming Zhang, Xiao-Bin Wu and Meng Yang, 'Two Odds-Radio- Based Text Classification Algorithms', Proceedings of Web Information Systems Engineering(Workshops) pp.223-231, 2002
  10. Sanmay Das, 'Filters, Wrappers and a Boosting-Based Hybrid for Feature Selection', The Proceedings of the Eighteenth International Conference on Machine Pages, pp.74-81, 2001