DOI QR코드

DOI QR Code

Discriminator of Similar Documents Using Syntactic and Semantic Analysis

구문의미분석를 이용한 유사문서 판별기

  • 강원석 (안동대학교 정보과학교육과) ;
  • 황도삼 (영남대학교 컴퓨터공학과) ;
  • Received : 2013.12.18
  • Accepted : 2014.02.24
  • Published : 2014.03.28

Abstract

Owing to importance of document copyright the need to detect document duplication and plagiarism is increasing. Many studies have sought to meet such need, but there are difficulties in document duplication detection due to technological limitations with the processing of natural language. This thesis designs and implements a discriminator of similar documents with natural language processing technique. This system discriminates similar documents using morphological analysis, syntactic analysis, and weight on low frequency and idiom. To evaluate the system, we analyze the correlation between human discrimination and term-based discrimination, and between human discrimination and proposed discrimination. This analysis shows that the proposed discrimination needs improving. Future research should work to define the document type and improve the processing technique appropriate for each type.

문서 저작권에 대한 관심과 중요성이 높아짐에 따라 문서 복제나 표절의 검출에 대한 필요성이 증대되고 있다. 이와 같은 이유로 많은 연구가 이루어지고 있으나 자연어 처리기술의 한계가 있어 문서의 심층적 표절 검출에 어려움이 있다. 본 논문은 자연어 분석의 기술을 적용한 유사문서 판별기를 설계, 구현한다. 이 시스템은 형태소 분석의 기술과 함께 구문의미 분석의 기술, 저빈도 및 관용표현 가중치을 이용하여 유사문서를 판별한다. 본 시스템의 성능을 실험하기 위하여 휴먼 판별과 기존 시스템, 그리고 휴먼 판별과 제안한 시스템의 판별과의 상관계수를 분석하였다. 실험결과, 구문의미 분석을 활용한 시스템의 개선점을 발견할 수 있었다. 앞으로 문서 유형을 정의하고 각 유형에 맞는 판별 기법을 개발할 필요가 있다.

Keywords

References

  1. 조정현, 김유섭, "웹 검색을 활용한 기사 표절 탐지 시스템", 한국컴퓨터종합학술대회 발표논문집, 제35권, 제1호(C), pp.420-424, 2008.
  2. 손기락, 문승미, "계층적 군집화기법을 이용한 소스코드 표절검사", 정보교육학회논문지, 제11권, 제1호, pp.91-98, 2007.
  3. 지정훈, 우균, 조환규, "바이트코드 분석을 이용한 자바프로그램 표절검사기법", 정보과학회 논문지 : 소프트웨어및응용, 제35권, 제7호, pp.442-451, 2008.
  4. 김연어, 이윤정, 우균, "클래스 구조 그래프 비교를 통한 프로그램 표절 검사 방법", 한국콘텐츠학회논문지, 제13권, 제11호, pp.37-47, 2013. https://doi.org/10.5392/JKCA.2013.13.11.037
  5. S. Brin, J. Davis, and H. Garcia-Molina, "Copy Detection Mechanisms for Digital Documents," Proc. of the ACM SIGMOD international conference on management of Data, pp.398-409, 1995.
  6. A. Si, H. V. Leong, and R. W. H. Lau, "CHECK: A Document Plagiarism Detection System," Proc. of the 1997 ACM symposium on Applied Computing, pp.70-77, 1997.
  7. S. M. Eissen and B. Stein, "Intrinsic Plagiarism Detection," Proceedings of the 28th European Conference on Advanced Information Retrieval(ECIR'06), pp.565-569, 2006.
  8. 허원지, 정용규, "문서간 유사도 측정방법의 개선에 관한 연구", 한국정보과학회 2011년 가을 학술발표논문집, 제38권, 제2호(C), pp.122-124, 2011.
  9. http://www.turnitin.com
  10. 박우창, 서여진, "구조와 내용유사도에 기반한 XML 웹문서 검색시스템 구축", 한국인터넷정보학회, 제6권, 제2호, pp.99-115, 2005.
  11. 신미애, 고방원, 김영철, 정진영, "문서구조정보 기반의 유사도 측정", 2010년 한국컴퓨터정보학회 하계학술대회논문집, 제18권, 제2호, pp.499-502, 2010.
  12. 전명재, 박상돈, 박웅, 허진영, 조환규, "한글 구조특성과 지역정렬 알고리즘을 사용한 표절 판정 시스템의 개발", 2004년 정보과학회 가을학술발표논문집, 제31권, 제2호, pp.727-729, 2004.
  13. 조동욱, 홍윤선, 조선옥, "효과적인 e-런닝 시스템 구축을 위한 과제물 표절 검사", 한국콘텐츠학회 종합학술대회 논문집, 제1권, 제2호, pp.53-59, 2003.
  14. 임해창, 최성원, 우연문, 문서의 표절 검사 방법, 특허출원, 2006.
  15. 류창건, 김형준, 조환규, "한글 말뭉치를 이용한 한글 표절 탐색 모델 개발", 정보과학회논문지 : 컴퓨팅의 실제 및 레터, 제14권, 제2호, pp.231-235, 2008.
  16. 황인수, "인터넷 검색과 형태소분석을 이용한 표절검사시스템의 개발에 관한 연구", J. of Information Technology Applications and Management, 제16권, 제1호, pp.21-36, 2009.
  17. 천승환, 김미영, 이귀상, "유사 어절트리와 비색인어 기반의 문서표절 유사도 분류 방법", 한국컴퓨터산업교육학회 논문지, 제3권, 제8호, pp.1039-1048, 2002.
  18. 김혜숙, 박상철, 김수형, "단어가중치기반 문서간 유사도 측정에 관한 연구", 2003년 한국멀티미디어학회 춘계학술발표논문집, pp.198-201, 2003.
  19. 장성호, 강승식, "용어 선별기법에 의한 유사문서 판별시스템", 2003년도 정보과학회 봄학술발표논문집, 제30권, 제1호, pp.534-536, 2003.
  20. 지혜성, 조준희, 임희석, "한국어 문장 표절 유형을 고려한 유사 문장 판별", 한국컴퓨터교육학회논문지, 제13권, 제6호, pp.79-89, 2010.
  21. 김명철, 김덕봉, 이하규, 김유성, 김재훈, 박혁로 역, 최신정보검색론, 홍릉과학출판사, 2001.
  22. 김재훈, 선충녕, 홍상욱, 이성욱, 서정연, 조정미, "KTAG99: 새로운 환경에 쉽게 적응하는 한국어 품사 태킹 시스템,", 제11회 한글 및 한국어정보처리 학술대회논문집, pp.99-105, 1999.
  23. 강원석, 노주환, 제환주, 조대흠, 황세연, 정부천, "검색엔진을 위한 키워드 관련어 추출기의 설계 및 구현", 한국컴퓨터교육학회 2007년도 동계 학술대회 논문집, pp.241-246, 2007.
  24. 국립국어연구원, 21세기 세종계획 성과물, 2008.