대용량 문서 집합에서 유사 문서 탐색을 위한 효과적인 전처리 시스템의 설계

An Efficient Preprocessing System for Searching Similar Texts among Massive Document Repository

  • 박선영 (부산대학교 정보컴퓨터공학부) ;
  • 김지훈 (POSTECH 컴퓨터공학과) ;
  • 김선영 (부산대학교 정보컴퓨터공학부) ;
  • 김형준 (부산대학교 정보컴퓨터공학부) ;
  • 조환규 (부산대학교 정보컴퓨터공학부)
  • 투고 : 2010.01.04
  • 심사 : 2010.02.18
  • 발행 : 2010.05.15

초록

최근 문서 표절이 사회적 이슈가 되면서 문서간 유사도를 검사하는 시스템의 필요성이 대두되었다. 이에 따라 문서 유사도 검사 시스템에서의 중요한 요소인 검사 속도와 정확도를 충족시키기 위한 연구가 진행되고 있다. 본 논문에서는 유사 문서 탐색 시스템에서의 성능을 향상시키기 위해 전역 사전이라는 모델을 사용한 전처리 방법을 제시한다. 전역 사전이란 탐색 대상 문서군에서 사용된 모든 단어의 정보를 포함한 것으로, 유사한 문서가 어느 문서인지 빠르게 파악하는 데에 사용한다. 시스템에서 이 모델을 적용하는 방법에 대해 기술하고, 실험을 통해 각 방법의 전처리 성능을 분석하여 최적화된 문서 전처리 방법을 찾아낸다. 결과적으로 검사 대상 문서가 20,000건 이상인 경우에도 검사 대상 문서의 개수를 50개 이하로 획기적으로 줄여서 전체 시스템의 성능을 크게 향상시킬 수 있다는 것을 알 수 있었다.

Since the paper plagiarism has become one of important social issues, it is necessary to develop system for measuring the similarity between papers. The speed and accuracy of the system are very important features. So many researchers are studying the features. In this paper, we propose a preprocessing method using 'Global Dictionary' model to enhance performance of the system. The global dictionary includes information of all words in the document repository. The system uses the model to find similar papers with low computing time. Finally our experiment showed that a set of more than 20,000 documents could be reduced to about 50 documents drastically by our filtering techniques, which proves the excellence of our system.

키워드

참고문헌

  1. H. D. Nam, "Plagiarism and Copyright Infringement," Creation and Right Spring 2009, vol.54, pp.32-36, Sechang, 2009. (in Korean)
  2. Korean Intellectual Property Office, http://www.kipo.go.kr/ (in Korean)
  3. S. M. Eissen, and B. Stein, "Intrinsic plagiarism detection," Lecture Notes in Computer Science, vol.3936, pp.565-569, Springer, 2006.
  4. J. L. Donaldson, A. Lancaster, and P. H. Sposato, A plagiarism detection system, In Proceedings of the Twelfth SIGCSE Technical Symposium on Computer Science Education, pp.21-25, 1981.
  5. S. Schleimer, D. S. Wilkerson, and A. Aiken, "Winnowing : local algorithms for document fingerprinting," SIGMOD '03: Proceedings of the 2004 ACM SIGMOD international conference on Management of data, pp.76-85, ACM, 2003.
  6. C. K. Ryu, H. J. Kim and H. G. Cho, "Developing of Text Plagiarism Detection Model using Korean Corpus Data," Journal of KIISE : Computing Practices and Letters, vol.14, no.2, pp.231-235, 2008. (in Korean)
  7. C. K. Ryu, H. J. Kim, S. H. Park and H. G. Cho, DeVAC(Document eVolution Analysis Center), http://devac.cs.pusan.ac.kr:8080/ (in Korean)
  8. H. J. Kim and H. G. Cho, "Improving Preprocessing step for Document retrieval system based on String Alignment," Proc. of the KIISE Korea Computer Congress 2008, vol.35, no.1(C), pp.248-251, 2008. (in Korean)
  9. 21th Century Sejong Project, http://www.sejong.or.kr/ (in Korean)