정보검색(情報檢索)에 있어서 용어(用語)의 통계적(統計的) 관련성(關聯性)을 응용(應用)한 클러스터링기법(技法)

A Study on the Clustering Technique Associated with Statistical Term Relatedness in Information Retrieval

  • Jeong, Jun-Min (School of Information & Library Science, Case Western Reserve University)
  • 발행 : 1985.12.31

초록

본(本) 논문(論文)에서는 통계적(統計的) 용어조합(用語組合)과 클러스터링기법(技法)에 관한 문헌(文獻)을 간단히 살펴보았다. 선행연구(先行硏究)들로부터 통계적(統計的) 용어조합(用語組合)은 조합기법(組合技法)의 비효율성(非效率性)때문이 아니라 문헌집단(文獻集團)의 이질성(異質性) 때문에 검색(檢索)과 분류(分類)에 적당치 않다는 사실(事實)을 발견(發見)할 수 있다. 그 결과(結果)로부터 정보검색(情報檢索)의 최적화(最適化)를 위한 조합기법(組合技法)으로서 클러스터링과 통계적(統計的) 색인(索引)의 개념(槪念)을 이용(利用)할 수 있다. 본(本) 논문(論文)의 가설(假說)은 클러스터파일내(內)에서 통계적(統計的) 용어조합(用語組合)을 사용(使用)함으로써 정보검색(情報檢索)시스템의 성능(性能)을 상당히 향상(向上)시킬 수 있다는 것이다. 달리말해서, 파일들을 모으고 의미적(意味的)으로 관련(關聯)있는 모든 문헌(文獻)들을 함께 모아줌으로써, 유사조합(類似組合)(spurious association)의 문제(問題)를 상당히 해결(解決)할 수 있을 것이다. 실제적(實際的)으로, 본(本) 논문(論文)에서는 조합기법(組合技法)의 방법론(方法論)을 어떻게 생성(生成)할 수 있을 것인가를 고려했다. 자동용어(自動用語) 상관성(相關性)을 위하여 스타일(stiles)의 조합인자(組合因子)를 이용(利用)했으며 클러스터링 환경(環境)을 위해 커널기법(技法)(kernel method)을 사용(使用)했다.

At the present time, the role and importance of information retrieval has greatly increased for two main reasons: the coverage of the searchable collections is now extensive and collection size may exceed several million documents; further more, the search results can now be obtained more or less instantaneously using online procedures and computer terminal devices that provide interaction and communication between system and users. The large collection size make it plausible to the users that relevant information will in fact be retrieved as a result of a search operation, and the probability of obtaining the search output without delay creates a substantial user demand for the retrieval services.

키워드