DOI QR코드

DOI QR Code

A Study on Plagiarism Detection and Document Classification Using Association Analysis

연관분석을 이용한 효과적인 표절검사 및 문서분류에 관한 연구

  • 황인수 (전주대학교 스마트미디어학부)
  • Received : 2013.12.11
  • Accepted : 2014.09.19
  • Published : 2014.09.30

Abstract

Plagiarism occurs when the content is copied without permission or citation, and the problem of plagiarism has rapidly increased because of the digital era of resources available on the World Wide Web. An important task in plagiarism detection is measuring and determining similar text portions between a given pair of documents. One of the main difficulties of this task is that not all similar text fragments are examples of plagiarism, since thematic coincidences also tend to produce portions of similar text. In order to handle this problem, this paper proposed association analysis in data mining to detect plagiarism. This method is able to detect common actions performed by plagiarists such as word deletion, insertion and transposition, allowing to obtain plausible portions of plagiarized text. Experimental results employing an unsupervised document classification strategy showed that the proposed method outperformed traditionally used approaches.

Keywords

References

  1. 김진환, 홍태호, "지식검색 서비스에서 집단지성 품질이 지속사용 의도에 미치는 영향: 기대일치이론과신뢰를중심으로", 정보시스템연구, 제20권, 제4호, 2011, pp. 1-22.
  2. 박선영, 조환규, "성분 정렬을 이용한 한글 유사 문서 탐색 방법", 한국컴퓨터종합학술대회 논문집, 제38권, 제1호(C), 2011, pp. 228-231.
  3. 손윤호, 김인규, 김남규, "연관규칙 마이닝을 활용한 개념적 데이터베이스 설계 자동화 기법", 정보시스템연구, 제18권, 제4호, 2009, pp. 59-86 https://doi.org/10.5859/KAIS.2009.18.4.059
  4. 신동호, LSA를 이용한 내용기반 검색엔진 시스템, 서울대학교석사학위논문, 2000.
  5. 유은지, 김정철, 이춘열, 김남규, "시맨틱 텍스트 마이닝을 위한 온톨로지 활용 방안", 정보시스템연구, 제21권, 제3호, 2012, pp.137-161.
  6. 이동욱, 백서현, 박민지, 박진희, 정혜욱, 이지형, "LSA를 이용한 문장 상호 추천과 문장 성향 분석을 통한 문서요약", Journal of Korean Institute of Intelligent Systems, Vol. 22, No. 5, 2012, pp. 656-662. https://doi.org/10.5391/JKIIS.2012.22.5.656
  7. 정석경, 분포정보를 이용한 명사 소프트 클러스터링 연구, 연세대학교 석사학위논문, 1997.
  8. 정영미, 이재윤, "한국어 텍스트내 용어연관성 분석을 위한 기초연구", 제5회 한국정보관리학회 학술대회 논문집, 1998, pp. 243-246.
  9. 조준희, 한국어 문서 표절 검사를 위한 LSA와 N-gram 기반의 유사 문장 판별, 고려대학교 석사학위 논문, 2009.
  10. 지정훈, 우균, 조환규, "굼벨 분포 모델을 이용한 표절 프로그램 자동 탐색 및 추적", 정보처리학회논문지A, 제16-A권, 제6 호, 2009, pp. 453-462. https://doi.org/10.3745/KIPSTA.2009.16A.6.453
  11. 지혜성, 조준희, 임희석, "한국어 문장 표절 유형을 고려한 유사 문장 판별", 한국컴퓨터교육학회논문지, 제13권, 제6호, 2010.
  12. 황인수, "인터넷 검색과 형태소분석을 이용한 표절검사시스템의 개발에 관한 연구", 정보기술응용연구, 제16권, 제1호, 2009, pp. 21-36.
  13. Ahmed H. Osmana, Naomie Salima, Mohammed S. Binwahlanc, Rihab Alteebd, Albaraa Abuobiedaa, "An improved plagiarism detection scheme based on semantic role labeling," Applied Soft Computing, Vol 12, 1012, pp. 1493-1502. https://doi.org/10.1016/j.asoc.2011.12.021
  14. Agrawal, T., Imielinski T., and Swami A., "Mining Associations between Sets of Items in Massive Databases," Proceedings of the ACM SIGMOD International conference on Management of Data, Washington D.C, 1993., pp. 207-216.
  15. Asim M. El Tahir Ali, Hussam M. Dahwa Abdulla, Vaclav Snasel, "Survey of Plagiarism Detection Methods," 2011 Fifth Asia Modelling Symposium Conference in Theory and Practice of Digital Libraries, 2011.
  16. Brijs, T., Swinnen G., Vanhoof K., and Wets G., "Using Association Rules for Product Assortment Decisions: A Case Study," Proceedings on KDD-99, ACM, San Diego, CA, USA, 1999, pp. 254-260.
  17. Brin S. , J. Davis, H. Garcia-Molina, "Copy detection mechanisms for digital documents," Proceedings of the 1995 ACM SIGMOD International Conference on Management of Data, ACM, San Jose, CA, United States, 1995, pp. 398-409.
  18. Donaldson, J. L., Lancaster, A., and P. H. Sposato, "A plagiarism detection system," Proceedings of the 20th SIGCSE. 1981, pp. 21-25.
  19. Fernando Sanchez-Vega, Esau Villatoro- Tello, Manuel Montes-y-Gomez, Luis Villasenor-Pineda, Paolo Rosso, "Determining and characterizing the reused text for plagiarism detection," Expert Systems with Applications, Vol 401, 2013, pp. 1804-1813.
  20. Gabriel Oberreuter, Juan D. Velasquez, "Text mining applied to plagiarism detection: The use of words for detecting deviations in the writing style," Expert Systems with Applications, 2013.
  21. Georgina Cosma, Mike Joy, "Evaluating the Performance of LSA for Source-code Plagiarism Detection," Informatica, Vol. 36, 2012, pp. 409-424.
  22. James P. Purdy, "Anxiety and the Archive: Understanding Plagiarism Detection Services as Digital Archives," Computers and Composition, Vol 26, 2009, pp. 65-77. https://doi.org/10.1016/j.compcom.2008.09.002
  23. Liu, Y. T., Zhang, H. R., Chen, T. W., & Teng, W. G., "Extending Web Search for Online Plagiarism Detection," 1-4244-45004/ 07 IEEE, 2007.
  24. Narayanan Shivakumar, "SCAM : A Copy Detection Mechanism for digital Documents," Proceedings of 2nd International Conference in Theory and Practice of Digital Libraries, 1995.
  25. Paul Clough, "Measuring Text Reuse," Proceedings of the conference : Association for Computational Linguistics. Meeting, V.40, 2002, pp. 152-159.
  26. Salha M. Alzahrani, Naomie Salim, and Ajith Abraham, "Understanding Plagiarism Linguistic Patterns, Textual Features, and Detection Methods," IEEE Transactions On Systems, Man, and Cybernetics-Part C: Applications and Reviews, Vol. 42, No. 2, 2012.
  27. 루씬 한글분석기 오픈소스 프로젝트, http://cafe.naver.com/korlucene
  28. Perez, J. C., http://www.itworld.co.kr