복합문서 개체 검색 시스템- [IN2] DOR

Composite Document Object Retrieval and Searching System-[IN2] DOR

  • 안태성 (모비코앤시스메타㈜ 부설 기술연구소) ;
  • 임중수 (모비코앤시스메타㈜ 부설 기술연구소) ;
  • 김명훈 (모비코앤시스메타㈜ 부설 기술연구소) ;
  • 안우람 (모비코앤시스메타㈜ 부설 기술연구소) ;
  • 이경일 (모비코앤시스메타㈜ 부설 기술연구소)
  • 발행 : 2003.10.10

초록

기존 문서 검색 시스템의 경우 단순히 문서 내에서 텍스트를 추출한 후 그 텍스트를 색인, 검색하는 형태를 가지고 있었다. 본 논문에서는 MS Word, Excel, HWP 등 다양한 형태의 문서에서 텍스트, 표, 이미지, 차트, 동영상 등의 문서 개체를 분석, 색인하고 이를 검색하는 시스템의 개발 방법을 제외하였다. 제안된 시스템은 문서의 내부 자료 구조를 CDML(Composite Document Markup Language)로 변환하고, 이를 색인, 저장함으로 기존의 전문 검색 시스템의 한계를 효과적으로 극복했으며, 문서 내의 검색 대상 개체로 자동 이동하고 하일라이팅 시키는 기술을 구현함으로 사용자 편익성을 높였다. 개발된 시스템의 성능을 평가한 결과, 다양한 문서 형식에 대해 평균 97% 이상의 CDML변환 성공률과 개체 검색 성공률을 보였으며, 이진 파일에서 직접 개체를 추출함으로 매우 높은 분석 및 색인 속도가 달성되었음을 확인할 수 있었다. 본 논문에서 소개된 새로운 패러다임의 문서 검색 솔루션을 통해 다양한 기술적 상업적 파급 효과가 기대되고 있다.

키워드