Dynamic index storage and integrated searching service development

동적 색인 스토리지 및 통합 검색 서비스 개발

  • Published : 2007.11.16

Abstract

In this paper, the integrated search system made for the web news and review retrieval service is introduced. We made XSLTRobot that extract title, date, author and content from html document like news or reviews for search service. XSLTRobot used the XSLT technology in order to extract desired part of html page. The Intergrated Information Retrieval System(IIRS) is suitable for various search data format. And we introduce Dynamic Index Storage which is module of IIRS. Dynamic Index Storage is used to environment which needs fast index update like news. And it's design focused on retrieval performance because there was not many document that it has to update on a real time.

본 논문은 웹뉴스 및 리뷰 검색 서비스를 위해 만든 통합 검색 시스템을 소개한다. 검색 서비스를 위한 데이터 수집을 위해서 특정 사이트에서 수집한 뉴스와 리뷰 문서로부터 제목, 날짜, 저자, 본문처럼 특정한 영역의 데이터만 추출하는 XSLTRobot을 만들었다. XSLTRobot은 원하는 부분의 데이터만 추출하기 위해 XSLT 기술을 이용한다. 여러가지 검색 데이터 형식에 적합한 통합 검색엔진과 통합 검색엔진의 스토리지 모듈중 하나인 동적 색인 저장소(Dynamic Index Storage)를 소개한다. 동적 색인 저장소는 뉴스 데이터처럼 색인의 업데이트가 빨라야 하는 환경에 이용된다. 본 논문에서 제시하는 동적 색인 저장소는 대량의 실시간 업데이트 문서를 처리하지 않기 때문에 검색성능에 초점을 맞춰서 설계하였다.

Keywords