Parallel Information Retrieval using Document Clustering Techniques

문서 클러스터링 기법을 활용한 병렬 정보 검색

  • 강유경 (부산대학교 컴퓨터공학과 인공지능 연구실, 병렬처리연구실) ;
  • 박세진 (부산대학교 컴퓨터공학과 인공지능 연구실, 병렬처리연구실) ;
  • 류광렬 (부산대학교 컴퓨터공학과 인공지능 연구실, 병렬처리연구실) ;
  • 정상화 (부산대학교 컴퓨터공학과 인공지능 연구실, 병렬처리연구실)
  • Published : 1998.10.01

Abstract

본 논문은 고품질의 정보를 신속하게 제공할 수 있으며, cost-effective 한 medium-grained 병렬 정보 검색 시스템을 제시하고 있다. 본 검색 시스템은 병렬 모델의 효율을 극대화하는 방안으로 문서 라이브러리를 작은 단위의 클러스터로 세분화하고 검색 시 클러스터 단위로 프로세서에 할당될 수 있게 하여 할당될 작업의 단위를 적절히 중규모화하였을 뿐만 아니라, 각 클러스터마다 독립적인 염색인 파일을 별도로 두어 순위 부여 계산시 통신을 최소화 할 수 있도록 하였다. 또한, 기계 학습 기법을 이용하여 가능한 한 유사한 문서군이 되도록 클러스터링 함으로써 불필요한 크러스터가 검색될 가능성을 최소화하여 성능을 높였다. 본 검색 시스템은 분산메모리 MIMD 구조의 트랜스퓨터에서 구현되었으며, Connection machine에서 사용되는 Stanfill방법과의 비교 실험을 통하여 계층적인 접근법의 성능을 비교, 평가하였다. 그리고 random클러스터링 기법과 비교하여 기계학습을 통한 클러스터링 접근방법이 우수함을 보이고 있다.

Keywords