Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))
- 2008.10a
- /
- Pages.63-68
- /
- 2008
- /
- 2005-3053(pISSN)
High Speed Local Text Reuse Detection using IR Approach
정보검색 기법을 이용한 부분 문서 재사용 고속 탐색
- Bae, Won-Sik (Department of Computer Engineering, Changwon National University) ;
- Jo, Myung-Rae (Department of Computer Engineering, Changwon National University) ;
- Cha, Jeong-Won (Department of Computer Engineering, Changwon National University)
- Published : 2008.10.10
Abstract
인터넷의 발달로 지식의 재사용이 폭발적으로 증가하였다. 이는 지식의 확산이라는 측면에서는 바람직하지만 지식의 도용이라는 문제점을 안고 있다. 따라서 문서의 전부나 일부분을 재사용한 것인지를 판단하고자하는 요구가 증가하고 있다. 본 논문에서는 정보검색 기술을 이용하여 문서에서 부분 문서 재사용 및 표절을 탐색하는 방법을 제안한다. 본 논문에서는 대용량 문서의 고속 탐색을 위해서 원본 문서와 대상 문서를 색인하여 검색에 이용한다. 또한 한글의 언어적 특성을 맞게 어순 변경 비교, 기능어 생략 비교, 갭(gap) 비교 등의 다양한 처리 조건을 제공하여 문서 재사용을 탐색할 수 있다. 실험을 통해서 기존의 시스템보다 정확하게 고속으로 문서 재사용 탐색이 가능함을 보였다. 특히 비교 문서가 증가하더라도 비교 시간이 급격하게 증가하지 않으며, 정보검색 기법을 사용하는 경우 취약하다고 알려져 있는 부분 문서 재사용 탐색에도 견고하며, 처리 조건에 따라 유연하게 문서 재사용 탐색이 가능하다.
Keywords