A Document Collection Method for More Accurate Search Engine

정확도 높은 검색 엔진을 위한 문서 수집 방법

  • 하은용 (안양대학교 컴퓨터공학과) ;
  • 최선완 (안양대학교 컴퓨터공학과)
  • Published : 1999.10.01

Abstract

인터넷상의 정보 검색 엔진들은 웹 로봇을 실행해서 인터넷에 연결되어 있는 수많은 웹 서버들을 방문해서 웹 문서를 획득하고, 인덱싱 기법을 써서 자료를 추출하고 분류해서 검색 엔진의 기초가 되는 데이터 베이스를 구축한다. 정보 추출을 위해 웹 로봇을 운영할 때 웹 서버에 대한 사전 지식 없이 진행된다면 수많은 불필요한 요구가 전송돼서 인터넷 트래픽을 증가시키는 요인이 된다. 하지만 웹 서버가 사전에 자신이 공개할 문서에 대한 요약 정보를 웹 로봇에게 통보하고, 웹 로봇은 이 정보를 이용해서 웹 서버의 해당 문서에 대한 정보 수집 작업을 처리한다면 불필요한 인터넷 트래픽을 줄일 수 있을 뿐만 아니라 검색 엔진의 정보의 정확도를 높이고, 웹 서버상의 웹 문서 파일의 변동 사항을 자동으로 검사하고 변동된 사항들을 종합 정리해서 등록된 각 웹 로봇에게 전송하는 문서 감시 통보 시스템과 통보된 요약 정보를 토대로 웹 서버로부터 해당 문서를 전송받아 필요한 인덱스 정보를 추출하는 효율적인 웹 로봇을 제안한다.

Keywords