Proceedings of the Korean Society of Computer Information Conference (한국컴퓨터정보학회:학술대회논문집)
- 2016.01a
- /
- Pages.111-113
- /
- 2016
Document Content Similarity Detection Algorithm Using Word Cooccurrence Statistical Information Based Keyword Extraction
단어 공기 통계 정보 기반 색인어 추출을 활용한 문서 유사도 검사 알고리즘
- Kim, Jinkyu (Bigdata Center, Changwon Moonsung University) ;
- Yi, Seungchul (Bigdata Center, Changwon Moonsung University) ;
- Park, Kibong (Bigdata Center, Changwon Moonsung University) ;
- Haing, Huhduck (Bigdata Center, Changwon Moonsung University)
- Published : 2016.01.12
Abstract
빠른 속도로 쏟아지고 있는 각종 발행물, 논문들에 대한 표절 검토는 표절 검출 알고리즘을 통해 직접적인 복제, 짜깁기, 말 바꾸어 쓰기 등을 검토하거나 표절 검토자가 직접 해당 문서의 키워드를 검색하여 확인하는 방식으로 이루어지고 있다. 하지만 점점 더 늘어나는 방대한 양의 문서들에 대한 표절 검토 작업은 더욱 정교한 검토 방법론을 필요로 하고 있으며, 이를 돕기 위해 문서의 직접적인 단어나 복제 비교에서 더 나아가 문서의 내용을 비교하여 비슷한 내용의 문서들을 필터링 및 검출할 수 있는 방법을 제안한다. 문서의 내용을 비교하기 위해 키워드 추출 알고리즘을 선행하며, 이를 통해 문서의 핵심 내용을 비교할 수 있는 기반을 마련하여 표절 검토자의 작업의 정확성과 속도를 향상시키고자 한다.