퍼지추론을 이용한 소수 문서의 대표 키워드 추출

Representative Keyword Extraction from Few Documents through Fuzzy Inference

  • 노순억 (금오공과대학교 대학원 컴퓨터공학과) ;
  • 김병만 (금오공과대학교 대학원 컴퓨터공학과) ;
  • 허남철 (대구미래대학 컴퓨터정보처리학과)
  • 발행 : 2001.12.01

초록

본 논문은 사용자의 관심 내용을 포함하는 소수 문서들로부터 대표 용어들을 추출하고 가중치를 부여하는 새로운 방법을 제시한다. 대표 용어들의 추출 방법에서는 우선 예제 문서들로부터 후보 용어들을 추출하고 퍼지 추론을 적용하여 초기 대표 용어들을 선택한 수 예제 문서 내에서의 이들 용어들과 후보 용어들의 발생 빈도의 유사성을 이용하여 가중치를 재산정하고 대표 용어들을 자동 확장하였다. 제안 방법의 성능은 초기 대표 용어들을 선책하는 방법에 의해 영향을 크게 받는다. 따라서 문서집합에서 대표 용어를 추출하는 문제는 불확실성을 내포하고 있으므로 이러한 문제 해결에 효과적인 퍼지 추론을 초기 대표 용어의 선택 방법에 적용하였다. 본 논문에서 다루는 문제는 문서 집합의 중심 벡터를 계산하는 것으로 볼 수가 있다. 성능 평가를 위해 기존의 대표적인 Rocchio 알고리즘과 Widrow-Hoff 알고리즘과의 문서 분류 실험을 하였다. 실험 결과 우수한 성능을 보여줌으로서 제안 방법의 유용성을 확인 할 수 있었다.

In this work, we propose a new method of extracting and weighting representative keywords(RKs) from a few documents that might interest a user. In order to extract RKs, we first extract candidate terms and them choose a number of terms called initial representative keywords (IRKs) from them through fuzzy inference. Then, by expanding and reweighting IRKs using term co-occurrence similarity, the final RKs are obtained. Performance of our approach is heavily influenced by effectiveness of selection method of IRKs so that we choose fuzzy inference because it is more effective in handling the uncertainty inherent in selecting representative keywords of documents. The problem addressed in this paper can be viewed as the one of calculating center of document vectors. So, to show the usefulness of our approach, we compare with two famous methods - Rocchio and Widrow-Hoff - on a number of documents collections. The result show that our approach outperforms the other approaches.

키워드

참고문헌

  1. Proceedings of the 21st Annual International ACM SIGIR Conference on Resarch and Development in Information Retrieval Improving Automatic Query Expansion Mitra, M.;Singhal, A.;Buckley, C.
  2. Machine Learning Learning and revising user profiles: the identification of interesting Web sites Pazzani, M.;Billsus, D.
  3. Applied Artificial Intelligence Personalized Web Document Filtering Using Reinforcement Learning Seo, Y.;Zhang, B
  4. Proceedings of the 14th International Conference on Machine Learning A comparative study on feature selection in text categorization Yang, Y.;Pedersen, J.
  5. Query Term Expansion and Reweighting using Term Co-Occurence Similarity and Fuzzy Inference Byeong Man Kim;Ju Youn Kim;JongWan Kim
  6. Intelligent Control A Practical Study on the Implementation of Fuzzy Logic Controllers O. Cordo;F. Herrera;A. Peregrin
  7. Proceedings of SIGIR-96;19th ACM International Conference on Research and Development in Information Retrieval Training algorthms for linear text classifiler David D. Lewis;Robert E. Schapire;James P. Callan;Ron Papka
  8. Modern Information Retrieval R. Baeza-Yates;B. Ribeiro-Neto
  9. 21th Ann. Int. ACM SIGIR Conference on Research and Development in Information Retrieval Using a generalized instance set for automatic text categorization K. Lam;C. Ho
  10. Proceeding of ACM SIGIR International Corference on Research and Development in Information Retrieval Query Expansion Using Local and Global Document Analysis Jinix Xu;W. Bruce Croft