Document Content Similarity Detection Algorithm Using Word Cooccurrence Statistical Information Based Keyword Extraction

단어 공기 통계 정보 기반 색인어 추출을 활용한 문서 유사도 검사 알고리즘

  • 김진규 (창원문성대학교 빅데이터센터) ;
  • 이승철 (창원문성대학교 빅데이터센터) ;
  • 박기봉 (창원문성대학교 빅데이터센터) ;
  • 허덕행 (창원문성대학교 빅데이터센터)
  • Published : 2016.01.12

Abstract

빠른 속도로 쏟아지고 있는 각종 발행물, 논문들에 대한 표절 검토는 표절 검출 알고리즘을 통해 직접적인 복제, 짜깁기, 말 바꾸어 쓰기 등을 검토하거나 표절 검토자가 직접 해당 문서의 키워드를 검색하여 확인하는 방식으로 이루어지고 있다. 하지만 점점 더 늘어나는 방대한 양의 문서들에 대한 표절 검토 작업은 더욱 정교한 검토 방법론을 필요로 하고 있으며, 이를 돕기 위해 문서의 직접적인 단어나 복제 비교에서 더 나아가 문서의 내용을 비교하여 비슷한 내용의 문서들을 필터링 및 검출할 수 있는 방법을 제안한다. 문서의 내용을 비교하기 위해 키워드 추출 알고리즘을 선행하며, 이를 통해 문서의 핵심 내용을 비교할 수 있는 기반을 마련하여 표절 검토자의 작업의 정확성과 속도를 향상시키고자 한다.

Keywords