인터넷에서 잠재적 의미 분석을 이용한 지능적 정보 검색

Intelligne information retrieval using latent semantic analysis on the internet

  • 임재현 (중앙대학교 컴퓨터공학과) ;
  • 김영찬 (중앙대학교 컴퓨터공학과)
  • 발행 : 1997.08.01

초록

인터넷에서 분산 정보를 검색하는 대부분의 시스템들은 사용자가 요구하는 검색 용어의 의미를 반영하지 못해 관련된 정보를 정확히 찾지 못하고 있다. 본 논문에서는 정보 검색 성능을 향상시키는 방안으로 검색 용어의 의미를 반영할 수 있는 용어 분포에 기반한 자동화된 질의어 확장을 제안한다. 먼저, 사용자가 부여한 질의어와 전체 문서에서 용어의 중요도를 반영한 가중치(weight)를 계산하고, LSI의 SVD기법을 이용해 모든 문서에서 질의어와 유사하게 출현하는 용어의 분포를 측정하여, 이들 수치와 질의어 용어의 유사성을 측정하였다. 또한 자동적으로 추가할 용어를 줄이기 위한 방안을 연구하였으며 본 논문에서 제안한 방법을 사용해 검색 성능을 평가하였다.

Most systems that retrieve distributed information on the Internet have difficulties in retrieving relevant information for they are not able to reflect exact semantics on retrieval queries that usersrequest. In this paepr, we propose an automatic query expansion based on ter distribution which reflects semantics of retrieval term to emhance the performance of information retrieval. We computed weight, indicating its overal imoritance in the collection documents and user's query and we use LSI's SVD technique to measure the term distribution which appears similar to query. And also, we measure the similarity to compared numerical value with query terms. Also we researched the method to reduce additional terms automatically and evaluated the performance of the proposed method.

키워드

참고문헌

  1. Proceedings of Supercomputing'95 Computational methods for Intelligent Information Access M. W. Berry;S. T. Dumais;T. A. Letshe
  2. Information Retrieval:Data Structure and Algorithms Willian B. Frakes;Ricardo Baeza-Yates
  3. Journal of the American Society for Information Science indexing by latent semantic analysis S. Deerwester;S. Dumais;G. Furnas;T. Landauer;R. Harshan
  4. Southern California Univ. Internel Resource Discovery-Topical Clustering and visualization using latent semantic indexing Shih-Hao Li
  5. Proc. of the 16th International ACM SIGIR Conf. on R & D in information Retrival Concept based query expansion Qiu. Y.;Frie. H. p.
  6. Journal of the American Society for Information Science no.41 Improving Retrieval Performance by Relevance Feedback Gerard Salton;Chirs Buckery
  7. Rank Xerox Research Centre A Detailed Analsis of English Stemming Algorithms David A. Hull
  8. /SVDPACKC:Version 1.0 User's Guide. Tech. Rep. CS-93-194. University of Tennessee M. W. Berry(al.)
  9. Computer and information Systems, The Univ. of Michigan Recall-Precision Trade-off:A Derivation Michael Gordon;Manfred Kochen