An Application of A Clustering Method for A Thesaurus Construction

Clustering에 의한 Thesaurus 작성

  • 趙廷完 (Korea Advanced Institute Of Science) ;
  • 鄭文楨
  • Published : 1984.01.01

Abstract

To apply a clustering algorithm to an automatic thesaurus construction in information retrieval systems, clustering methods are studied. A hypergeometric distribution property and an irreducible matrix property are used to get the similarities between keywords and initial clusters. The criterion of similarity is given by Bayesian procedure, and by another criterion derived from the information theory. The test whether the model is correct is done by comparing the keywork-CR thesaurues constructed in ADAM information retrieval system.

Thesaurus란 情報檢索體에서 발생하는 여러 keyword들 간의 同體性이나 階層性사이에 관계를 지워준 사전이다. Thesaurus에 넣을 keyword들이 선정된후 이들 keyword들로 thesaurus를 만드는 한가지 방법은 데이타 베이스에서 사용할 keyword들의 cluster를 구하는 것이다. Clustering이란 여러 특성을 가진 구성원 들의 모임을 주어진 특성에 따라 여러개의 부분적인 집단으로 分割하는 것을 말 한다. 정보검색체계에서도 keyword들을 分類할 때 이들중 비슷한 keyword들을 어떻게 찾아서 어떠한 방법으로 나눌 것인가가 가장 重要한 연구 분야의 하나이 다. Clustering은 정보검색에서 뿐아니라 醫學, 分類學, pattern recognition, 사회 학, 경제학등 그 응용이 다양하다.

Keywords