DOI QR코드

DOI QR Code

A Framework for Handling Duplicate Documents in a Blog Environment

블로그 환경에서의 중복문서 핸들링을 위한 프레임워크

  • Lee, Soon-Haeng (Dept. of Electronics and Computer Engineering, Hanyang University) ;
  • Lee, Sang-Chul (Dept. of Electronics and Computer Engineering, Hanyang University) ;
  • Kim, Sang-Wook (Dept. of Electronics and Computer Engineering, Hanyang University)
  • 이순행 (한양대학교 전자컴퓨터통신공학과) ;
  • 이상철 (한양대학교 전자컴퓨터통신공학과) ;
  • 김상욱 (한양대학교 전자컴퓨터통신공학과)
  • Published : 2008.05.16

Abstract

블로그 환경에서의 중복문서는 블로그 검색 서비스 성능의 저하를 초래한다. 기존의 웹 페이지 환경에서와는 달리 블로그 환경에서는 문서의 생성 시점을 알 수 있어 원본 문서와 중복문서를 쉽게 파악 할 수 있다는 특징이 있다. 본 논문에서는 이 점에 착안하여 문서를 저장하는 시점에 중복 여부를 판정함으로써 검색 결과에 중복문서가 반영되는 것을 원천적으로 방지할 수 있는 효과적인 중복문서 핸들링 프레임워크를 제안한다. 또한, 성능 평가를 통해 제안하는 프레임워크의 우수성을 보인다.

Keywords