Query Term Expansion and Reweighting using Term-Distribution Similarity

용어 분포 유사도를 이용한 질의 용어 확장 및 가중치 재산정

  • 김주연 (금오공과대학교 전자계산기공학과) ;
  • 김병만 (금오공과대학교 컴퓨터공학부) ;
  • 박혁로 (전남대학교 컴퓨터정보학부)
  • Published : 2000.03.31

Abstract

We propose, in this paper, a new query expansion technique with term reweighting. All terms in the documents feedbacked from a user, excluding stopwords, are selected as candidate terms for query expansion and reweighted using the relevance degree which is calculated from the term-distribution similarity between a candidate term and each term in initial query. The term-distribution similarity of two terms is a measure on how similar their occurrence distributions in relevant documents are. The terms to be actually expanded are selected using the relevance degree and combined with initial query to construct an expanded query. We use KT-set 1.0 and KT-set 2.0 to evaluate performance and compare our method with two methods, one with no relevance feedback and the other with Dec-Hi method which is similar to our method. based on recall and precision.

본 논문에서는 사용자의 적합 피드백을 기반으로 피드백 문서들에서 발생하는 용어들과 초기 질의와의 관련 정도를 이용하여 용어의 가중치를 산정하는 방법에 대하여 제안한다. 피드백 문서들에서 발생하는 용어들 중에서 불용어를 제외한 모든 용어들을 질의로 확장될 수 있는 후보 용어들로 선택하고 피드백 문서들에서 발생 빈도 유사성을 이용하여 초기 질의에 대한 후보 용어의 관련 정도를 산정하며, 피드백 문서들에서의 가중치와 관련 정도를 결합하여 후보 용어들의 가중치를 산정 하였다. 본 논문에서는 성능을 평가하기 위하여 KT-set 1.0과 KT-set 2.0을 사용하였으며, 성능의 상대적인 평가를 위하여 질의어를 확장하지 않은 방법, Dec-Hi방법들을 정확률-재현율을 사용하여 평가 하였다.

Keywords

References

  1. Salton. G, 'Historical Note: The Pase thirty Years in Information Retrieval,' Journal of the American Society for Information Science, Vol.38, No.5, 1987
  2. Croft.W.B, Cook. R., and Wilder. D, 'Providing Government Information on the Internet: Experiences with THOMAS,' In Digital Libraries Conference DL'95, pp.19-24, 1995
  3. Voorhees.E, 'Query expantion using lexical-semantic relations' Proceeding of ACM SIGIR International Conference on Research and Development in Information Retrieval, pp.61-69,1994
  4. Sparck Jones.K, 'Automatic Keyword Classification for Information for retrieval,' Butterworth, London. 1971
  5. Racchio.J.J, 'Relevance Feedback in Information Retrieval,' Englewood Cliffs, 1971
  6. Croft. W.B , 'Experiments with Representation in a Document Retrieval System,' information Technology: Research and Development, 2(1), 1-21, 1983
  7. Robertson, S.E. and K.Sparck Jones, 'Relevance Weighting of Search Terms,' Journal of the American Society for Information Science, 27(3), 129-146, 1976 https://doi.org/10.1002/asi.4630270302
  8. Harman. D, 'Towards Interactive Query Expansion,' Paper presented at ACM Conference on Research and Development in Information Retrieval, Grenoble, France, 1988 https://doi.org/10.1145/62437.62469
  9. Salton. G. and C. Buckley, 'Improving Retrieval Performance by Relevance Feedback,' Journal of the American Society for Information Science, 41(4), 28-297, 1990 https://doi.org/10.1002/(SICI)1097-4571(199006)41:4<288::AID-ASI8>3.0.CO;2-H
  10. Jinix Xu and W. Bruce Croft, 'Query Expansion Using Local and Global Document Analysis,' Proceeding of ACM SIGIR International Conference on Research and Development in Information Retrieval. pp.4-12, 1996 https://doi.org/10.1145/243199.243202
  11. 김성혁 외 5인, '자동 색인기 성능 실험을 위한 Test Set 개발', 정보관리 학회지 제11권 1호, 1994
  12. 김재군, 김영환, 김성혁, '한국어 정보 검색 연구를 위한 시험용 데이타 모음(KTSET)', 제 6회 한글 및 한국어정보처리학술대회, 1998