Greedy Document Gathering Method Using Links and Clustering

Link와 Clustering을 이용한 적극적 문서 수집 기법

  • 김원우 (홍익대학교 컴퓨터공학과) ;
  • 변영태 (홍익대학교 컴퓨터공학과)
  • Published : 2001.06.01

Abstract

특정 영역에 대해 사용자에게 관련 정보를 제공해 주는 서비스를 하는 정보 에이전트를 개발 중이다. 정보 에이전트는 사용자 질의 처리를 달은 Agent Manager와 지식베이스를 관리하는 KB Manager, 그리고 Web으로부터 해당 영역의 관련 문서를 끌어오는 Web Manager로 구성되어 있다. Web Manager는 방문할 URL을 수집하고, 이들 문서에 대한 관련 평가와 Indexing을 수행한다. Web Manager는 검색 엔진을 이용하거나, 방문한 문서의 link를 이용하여 URL을 수집하는데 이러한 URL수집기법은 많은 관련 문서를 놓치는 문제점이 있다. 이 문제점을 해결하기 위해서 해당 영역과 관련된 Site들을 대상으로 Link를 이용해 문서들을 모아와, 문서들을 TAG들의 패턴으로 얻어낸 문서 형식을 이용해 Clustering하며 관련 문서들의 Group을 찾아내는 적극적 문서 수집 기법을 제안한다. 실험 결과, Link와 Clustering을 이용할 경우 기존보다 효과적으로 관련 문서를 많이 수집할 수 있음을 알 수 있다.

Keywords