DOI QR코드

DOI QR Code

상향식 계층분류의 최적화 된 병합을 위한 후처리분석과 피드백 알고리즘

Reinforcement Post-Processing and Feedback Algorithm for Optimal Combination in Bottom-Up Hierarchical Classification

  • 최윤정 (서일대학 정보통신과) ;
  • 박승수 (이화여자대학교 컴퓨터공학과)
  • 투고 : 2009.12.16
  • 심사 : 2010.01.20
  • 발행 : 2010.04.30

초록

본 논문은 자동화된 분류시스템의 성능향상을 위한 것으로 오분류율이 높은 불확실성이 강한 문서들의 범주결정방식을 개선하기 위한 후처리분석 방법과 피드백 알고리즘을 제안한다. 전통적인 분류시스템에서 분류의 정확성을 결정하는 요인으로 학습방법과 분류모델, 그리고 데이터의 특성을 들 수 있다. 특성들이 일부 공유되어 있거나 다의적인 특성들이 풍부한 문서들의 분류문제는 정형화된 데이터들에서 보다 심화된 분석과정이 요구된다. 특히 단순히 최상위 항목으로 지정하는 기존의 결정방법이 분류의 정확도를 저하시키는 직접적인 요인이 되므로 학습방법의 개선과 함께 분류모델을 적용한 이후의 결과 값인 순위정보 리스트의 관계를 분석하는 작업이 필요하다. 본 연구에서는 경계범주의 자동탐색기법으로 확장된 학습체계를 제안한 이전 연구의 후속작업으로써, 최종 범주를 결정하기까지의 후처리분석 방법과 이전의 학습단계로 피드백하여 신뢰성을 높일 수 있는 알고리즘을 제안하고 있다. 실험결과에서는 제안된 범주결정방식을 적용한 후 1회의 피드백을 수행하였을 때의 결과들을 단계적이고 종합적으로 분석함으로써 본 연구의 타당성과 정확성을 보인다.

This paper shows a reinforcement post-processing method and feedback algorithm for improvement of assigning method in classification. Especially, we focused on complex documents that are generally considered to be hard to classify. A basis factors in traditional classification system are training methodology, classification models and features of documents. The classification problem of the documents containing shared features and multiple meanings, should be deeply mined or analyzed than general formatted data. To address the problems of these document, we proposed a method to expand classification scheme using decision boundary detected automatically in our previous studies. The assigning method that a document simply decides to the top ranked category, is a main factor that we focus on. In this paper, we propose a post-processing method and feedback algorithm to analyze the relevance of ranked list. In experiments, we applied our post-processing method and one time feedback algorithm to complex documents. The experimental results show that our system does not need to change the classification algorithm itself to improve the accuracy and flexibility.

키워드

참고문헌

  1. T.,Joachims,“Text Categorization with Support Vector Machines: Learning with Many Relevant Features,” In Proc. of ECML-98 pp.137-142, 1998.
  2. Y.,Yang,“Expert Network:Effective and Efficient Learning form Human Decisions in Text Categorization and Retrieval,” In Proc. of 17th ACM, pp.13-22, 1994.
  3. D.,Koller,S.,Tong,“Active Learning for Parameter Estimation in Bayesian Networks,” In Neural Information Processing Systems, 2001.
  4. D.,David, J., Catlett, “Heterogeneous Uncertainty Sampling for Supervised Learning,” In Proc. of the 11th ICML, pp.148-156, 1994.
  5. D.,R.,Wilson, et al “Reduction Techniques for Exemplarbased Learning Algorithms,” Machine Learning, Vol.38. No.3, pp.257-286, 2002. https://doi.org/10.1023/A:1007626913721
  6. T., Zhang, and F.Oles, “A Probability Analysis on the Value of Unlabeled Data for Classification Problems,” In Proc. of 17th Machine Learning (ICML), 2000.
  7. K.,A.,Kofahi, and A., Tyrrell, et.al, “Combining Multiple Classifiers for Text Categorization,” In Proc. of ACM CIKM, pp.97-104, 2001. https://doi.org/10.1145/502585.502603
  8. S.B.,Kim and H.C.,Rim, “Recomputation of Class Relevance Score for Improving Text Classification,” In Proc. Conference of Computational Linguistics and Intelligent Text Processing (CICLing), LNCS, Vol.2945, pp.580-583, Feb., 2004.
  9. Shanfeng Zhu and Ichigaku Takigawa et. al, “Field Independent Probabilistic Model for Clustering Multi-field Documents,” Information Processing and Management, Vol.45, pp.555-570,2009. https://doi.org/10.1016/j.ipm.2009.03.005
  10. Qinrong Feng, Duoqian Miao and Yi Cheng, “Hierarchical decision rules mining,” Expert Systems with Application, Vol.37, pp.2081-2091, 2010 https://doi.org/10.1016/j.eswa.2009.06.065
  11. Nicolas Garcia-Pedrajas and Domingo Ortiz-Boyer, “Boosting k-nearest neighbor classifier by means of input space projection,” Expert Systems with Applications,Vol. 36, pp.10570-10582, 2009. https://doi.org/10.1016/j.eswa.2009.02.065
  12. David A. Bell, J. W. Guan, Yaxin B, “On Combining Classifier Mass Functions for Text Categorization”, IEEE Trans. Knowl. Data Eng. Vol.17, No.10, pp.1307-1319,2005. https://doi.org/10.1109/TKDE.2005.167
  13. G.P. Zhang, “A Neural Network Ensemble Method with Jittered Training Data for Time Series Forecasting,” Information Sciences. Vol.177, pp.5329-5346.2007. https://doi.org/10.1016/j.ins.2007.06.015
  14. S. B. Cho, “Ensemble of Structure Adaptive Self-Organizing Maps for High Performance Classification,” Information Science, Vol. 123, No.1-2, pp.103-114, 2000. https://doi.org/10.1016/S0020-0255(99)00112-7
  15. 최윤정,지정규,박승수, “경계범주 자동탐색에 의한 확장된 학습체계 구성방법”, 정보처리학회논문지(B), Vol. No. pp.- pp. 2009. 12. https://doi.org/10.3745/KIPSTB.2009.16B.6.479