Annual Conference of KIPS (한국정보처리학회:학술대회논문집)
- 2008.05a
- /
- Pages.239-242
- /
- 2008
- /
- 2005-0011(pISSN)
- /
- 2671-7298(eISSN)
DOI QR Code
A Framework for Handling Duplicate Documents in a Blog Environment
블로그 환경에서의 중복문서 핸들링을 위한 프레임워크
- Lee, Soon-Haeng (Dept. of Electronics and Computer Engineering, Hanyang University) ;
- Lee, Sang-Chul (Dept. of Electronics and Computer Engineering, Hanyang University) ;
- Kim, Sang-Wook (Dept. of Electronics and Computer Engineering, Hanyang University)
- Published : 2008.05.16
Abstract
블로그 환경에서의 중복문서는 블로그 검색 서비스 성능의 저하를 초래한다. 기존의 웹 페이지 환경에서와는 달리 블로그 환경에서는 문서의 생성 시점을 알 수 있어 원본 문서와 중복문서를 쉽게 파악 할 수 있다는 특징이 있다. 본 논문에서는 이 점에 착안하여 문서를 저장하는 시점에 중복 여부를 판정함으로써 검색 결과에 중복문서가 반영되는 것을 원천적으로 방지할 수 있는 효과적인 중복문서 핸들링 프레임워크를 제안한다. 또한, 성능 평가를 통해 제안하는 프레임워크의 우수성을 보인다.
Keywords