DOI QR코드

DOI QR Code

Query Expansion and Term Weighting Method for Document Filtering

문서필터링을 위한 질의어 확장과 가중치 부여 기법

  • 신승은 (충북대학교 대학원 컴퓨터공학과) ;
  • 강유환 (충북대학교 대학원 컴퓨터공학과) ;
  • 오효정 (한국전자통신연구원) ;
  • 장명길 (한국전자통신연구원) ;
  • 박상규 (한국전자통신연구원) ;
  • 이재성 (충북대 컴퓨터교육과) ;
  • 서영훈 (충북대학교 전기전자컴퓨터공학부)
  • Published : 2003.12.01

Abstract

In this paper, we propose a query expansion and weighting method for document filtering to increase precision of the result of Web search engines. Query expansion for document filtering uses ConceptNet, encyclopedia and documents of 10% high similarity. Term weighting method is used for calculation of query-documents similarity. In the first step, we expand an initial query into the first expanded query using ConceptNet and encyclopedia. And then we weight the first expanded query and calculate the first expanded query-documents similarity. Next, we create the second expanded query using documents of top 10% high similarity and calculate the second expanded query- documents similarity. We combine two similarities from the first and the second step. And then we re-rank the documents according to the combined similarities and filter off non-relevant documents with the lower similarity than the threshold. Our experiments showed that our document filtering method results in a notable improvement in the retrieval effectiveness when measured using both precision-recall and F-Measure.

본 논문에서는 문서 필터링을 위한 질의어 확장과 가중치 부여 기법을 제안한다. 문서 필터링은 웹 검색 엔진들에 대한 검색 결과의 정확률 향상을 목적으로 한다. 문서 필터링을 위한 질의어 확장은 개념망, 백과사전, 유사도 상위 10% 문서를 이용하며, 각각의 확장 질의어에 가중치를 부쳐하여 질의어와 문서들간의 유사도를 계산한다. 첫 번째 단계에서 개념망과 백과사전을 이용하여 초기 질의어에 대한 1차 확장 질의어를 생성하고, 1차 확장 질의엉 가중치를 부여하여 질의어와 문서들간의 유사도를 계산한다. 다음 단계에서는 높은 유사도를 갖는 상위 10% 문서들을 이용하여 2타 확장 질의어를 생성하고, 2차 확장 질의어에 가중치를 부쳐하여 질의어와 문서들간의 유사도를 계산한다. 다음으로 1차 유사도와 2차 유사도를 결합하여 문서들을 재순위화하고, 임계치보다 낮은 유사도를 갖는 문서들을 필터링함으로써 웹 검색 엔진들의 검색 결과 정확률을 향상시킨다. 실험에서 이러한 문서 필터링을 위한 질의어 확장과 가중치 부여 기법은 정확률-재현율과 F-measure를 이용하여 성능 평가를 할 때 정보 검색 효율성에서 주목할 만한 성능 향상을 보였다.

Keywords

References

  1. 장명길, 김현진, 장문수, 최재훈, 오효정, 이충희, 허정, '의미기반 정보검색', 정보과학회지, 제19권 제10호, pp.7-18, 2001
  2. David A. Hull, Stephen Robertson, 'The TREC-8 Filtering Track Final Report,' The Eighth Text REtrieval Conference(TREC-8), pp.35-56, 2000
  3. Robert Schapire, Yoram Singer, Amit Singhal, 'Boosting and Rocchio Applied to Text Filtering,' In Proc. 21'th ACM SIGIR International Conference on Research and Development in Information Retrieval, pp.215-223, 1998 https://doi.org/10.1145/290941.290996
  4. 이경순, 박영찬, 최기선, '문서 클러스터를 이용한 재순위화 모델', 제10회 한글 및 한국어정보처리학회, pp.81-87, 1998
  5. Kyung-Soon Lee, Young-Chan Park and Key-Sun Choi, 'Re-ranking model based on document clusters,' Information Processing and Management, 37, pp.1-14, 2001 https://doi.org/10.1016/S0306-4573(00)00017-0
  6. Larry Fitzpatrick and Mei Dent, 'Automatic Feedback Using Past Queries : Social Searching?,' In Proc. 20'th ACM SIGIR International Conference on Research and Development in Information Retrieval, pp.306-313, 1997 https://doi.org/10.1145/278459.258597
  7. Chris Buckley and Gerard Salton and J. Allan, 'The effect of adding relevance information in a relevance feedback environment,' In Proc. 17'th ACM SIGIR International Conference on Research and Development in Information Retrieval, pp.292-298, 1994
  8. Scott Deerwester and Susan T. Dumais and Richard Harshman, 'Indexing by Latent Semantic Analysis,' Journal of the American Society for Information Science, 41(6), pp. 391-407, 1990 https://doi.org/10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9
  9. Oren Zamir and Oren Etzioni, 'Web Document Clustering : A Feasibility Demonstration,' In Proc. 21'th annual international ACM SIGIR conference on Research and development in Information retrieval, pp.46-54, 1998 https://doi.org/10.1145/290941.290956
  10. 김영택, '자연언어처리', 생능출판사, 2001
  11. J. J. Rocchio, 'Document Retrieval Systems- Optimization and Evaluation,' PhD thesis, Harvard Computational Laboratory, Cambridge, MA, 1966
  12. J. J. Rocchio, 'Relevance feedback in information retrieval,' In The SMART Retrieval System-Experiments in Automatic Document Processing, Prentice Hall, pp.313-323, 1971
  13. Gerard Salton and Chris Buckley, 'Improving retrieval performance by relevance feedback,' Journal of the American Society for Information Science, 41(4), pp.288-297, 1990 https://doi.org/10.1002/(SICI)1097-4571(199006)41:4<288::AID-ASI8>3.0.CO;2-H
  14. Amit Singhal, Mandar Mitra and Chris Buckley, 'Learning routing queries in a query zone,' In Proc. 20'th ACM SIGIR International Conference on Research and Development in Information Retrieval, pp.25-32, 1997 https://doi.org/10.1145/278459.258530
  15. E. Hovy and C. Y. Lin, 'Automated Text Summarization in SUMARIST,' Proc. of a Workshop on Intelligent Scalable Text Summarization, pp.18-24, 1997