Query Term Expansion and Reweighting using Term Co-Occurrence Similarity and Fuzzy Inference

용어 발생 유사도와 퍼지 추론을 이용한 질의 용어 확장 및 가중치 재산정

  • 김주연 (금오공과대학교 컴퓨터공학부) ;
  • 김병만 (금오공과대학교 컴퓨터공학부)
  • Published : 2000.09.01

Abstract

본 논문에서는 사용자의 적합 피드백을 기반으로 적합 문서들에서 발생하는 용어들과 초기 질의어간의 발생 빈도 유사도 및 퍼지 추론을 이용하여 용어의 가중치를 산정하는 방법에 대하여 제안한다. 피드백 문서들에서 발생하는 용어들 중에서 불용어를 제외한 모든 용어들을 질의어로 확장될 수 있는 후보 용어들로 선택하고, 발생 빈도 유사성을 이용한 초기 질의어-후보 용어의 관련 정도, 용어의 IDF, DF 정보를 퍼지 추론에 적용하여 후보 용어의 초기 질의어에 대한 최종적인 관련 정도를 산정 하였으며, 피드백 문서들에서의 가중치와 관련 정도를 결합하여 후보 용어들의 가중치를 산정 하였다. 본 논문에서는 성능을 평가하기 위하여 KT-set 1.0과 KT-set 2.0을 사용하였으며, 성능의 상대적인 평가를 위하여 Dec-Hi 방법, 용어 분포 유사도를 이용한 방법, 퍼지 추론을 이용한 방법들을 정확률-재현률을 사용하여 평가하였다.

Keywords

References

  1. Salton. G, 'Historical Note: The Pase thirty Years in Information Retrieval,' Journal of the American Society for Information Science, Vol.38, No.5, 1987
  2. Croft.W.B, Cook. R., and Wilder. D, 'Providing Government Information on the Internet: Experiences with THOMAS,' In Digital Libraries Conference DL'95, pp.19-24, 1995
  3. Voorhees.E, 'Query expantion using lexical semantic relations' Proceeding of ACM SIGIR International Conference on Research and Development in Information Retrieval, pp.61-69, 1994
  4. Sparck Joncs.K, 'Automatic Keyword Classification for Information for retrieval,' Butterworth. London. 1971
  5. Racchio.J.J. 'Relevance Feedback in Information Retrieval.' Englewood Cliffs, 1971
  6. 김주연, 김병만, 박혁로, '용어 분포 유사도를 이용한 질의 용어 확장 및 가중치 재산정', 정보과학회논문지, 제27권 1호, 2000
  7. Mamdani, E.H., 'Application of fuzzy algorithms for control of simple dynamic plant.' IEEE Proc. control & Science, Vol. 121, No. 12, pp1585-1588. Dec. 1974
  8. Croft. W.B . 'Experiments with Representation in a Document Hetrieval System,' information Technology: Research and Development, 2(1). 1-21, 1983
  9. Robertson, S.E. and K.Sparck Jones, 'Relevance Weighting of Search Terms,' Journal of the American Society for Information Science, 27(3). 129-146, 1976 https://doi.org/10.1002/asi.4630270302
  10. Harman. D, 'Towards Interactive Query Expansion,' Paper presented at ACM Conference on Research and Development in Information Retrieval. Grenoble, France, 1988 https://doi.org/10.1145/62437.62469
  11. Salton. G. and C. Buckley, 'Improving Hetrieval Performance by Relevance Feedback,' Journal of the American Society for Information Science. 41(4), 228-297, 1990
  12. 김성혁 외 5인, '자동 색인기 성능 실험을 위한 Test Set 개발', 정보관리 학회지 제11권 1호, 1994
  13. 김재군, 김영환, 김성혁, '한국어 정보 검색 연구를 위한 시험용 데이터 모음(KTSET),' 제 6회 한글 및 한국어정보처리학술대회, 1998