• 제목/요약/키워드: Plagiarism Detection

검색결과 65건 처리시간 0.022초

데이터 구조를 고려한 소스코드 표절 검사 기법 (A Plagiarism Detection Technique for Source Codes Considering Data Structures)

  • 이기화;김연어;우균
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제3권6호
    • /
    • pp.189-196
    • /
    • 2014
  • 표절은 불법이고 피해야 하지만 여전히 빈번하게 발생하고 있다. 특히, 소스코드 표절은 그 특성상 복사가 용이해 다른 저작물보다 더 빈번히 발생한다. 코드 표절을 방지하기 위한 다양한 연구가 있었다. 하지만 앞서 연구된 소스코드 표절 검사 기법을 살펴보면 프로그램이 알고리즘과 데이터 구조로 구성됨에도 불구하고 데이터 구조는 전혀 고려하지 않고 있다. 이 논문에서는 데이터 구조를 고려한 소스코드 표절 검사 기법을 제안한다. 구체적으로 말해서 두 소스코드의 데이터 구조를 트리 집합으로 나타내고, 헝가리안 메소드를 사용해 비교한다. 제안하는 기법의 효용성을 보이기 위해 객체지향 교과목에서 과제 답안으로 제출한 126개의 소스코드를 대상으로 실험하였다. 실험 결과 데이터 구조와 알고리즘을 모두 고려했을 때, 알고리즘만 고려한 경우보다 정확률과 F-measure가 각각 22.6%, 19.3% 향상됨을 보였다.

Plagiarism Detection among Source Codes using Adaptive Methods

  • Lee, Yun-Jung;Lim, Jin-Su;Ji, Jeong-Hoon;Cho, Hwaun-Gue;Woo, Gyun
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제6권6호
    • /
    • pp.1627-1648
    • /
    • 2012
  • We propose an adaptive method for detecting plagiarized pairs from a large set of source code. This method is adaptive in that it uses an adaptive algorithm and it provides an adaptive threshold for determining plagiarism. Conventional algorithms are based on greedy string tiling or on local alignments of two code strings. However, most of them are not adaptive; they do not consider the characteristics of the program set, thereby causing a problem for a program set in which all the programs are inherently similar. We propose adaptive local alignment-a variant of local alignment that uses an adaptive similarity matrix. Each entry of this matrix is the logarithm of the probabilities of the keywords based on their frequency in a given program set. We also propose an adaptive threshold based on the local outlier factor (LOF), which represents the likelihood of an entity being an outlier. Experimental results indicate that our method is more sensitive than JPlag, which uses greedy string tiling for detecting plagiarism-suspected code pairs. Further, the adaptive threshold based on the LOF is shown to be effective, and the detection performance shows high sensitivity with negligible loss of specificity, compared with that using a fixed threshold.

Generating Pylogenetic Tree of Homogeneous Source Code in a Plagiarism Detection System

  • Ji, Jeong-Hoon;Park, Su-Hyun;Woo, Gyun;Cho, Hwan-Gue
    • International Journal of Control, Automation, and Systems
    • /
    • 제6권6호
    • /
    • pp.809-817
    • /
    • 2008
  • Program plagiarism is widespread due to intelligent software and the global Internet environment. Consequently the detection of plagiarized source code and software is becoming important especially in academic field. Though numerous studies have been reported for detecting plagiarized pairs of codes, we cannot find any profound work on understanding the underlying mechanisms of plagiarism. In this paper, we study the evolutionary process of source codes regarding that the plagiarism procedure can be considered as evolutionary steps of source codes. The final goal of our paper is to reconstruct a tree depicting the evolution process in the source code. To this end, we extend the well-known bioinformatics approach, a local alignment approach, to detect a region of similar code with an adaptive scoring matrix. The asymmetric code similarity based on the local alignment can be considered as one of the main contribution of this paper. The phylogenetic tree or evolution tree of source codes can be reconstructed using this asymmetric measure. To show the effectiveness and efficiency of the phylogeny construction algorithm, we conducted experiments with more than 100 real source codes which were obtained from East-Asia ICPC(International Collegiate Programming Contest). Our experiments showed that the proposed algorithm is quite successful in reconstructing the evolutionary direction, which enables us to identify plagiarized codes more accurately and reliably. Also, the phylogeny construction algorithm is successfully implemented on top of the plagiarism detection system of an automatic program evaluation system.

이산 푸리에 변환을 적용한 텍스트 패턴 분석에 관한 연구 - 표절 문장 탐색 중심으로 - (A Study on Text Pattern Analysis Applying Discrete Fourier Transform - Focusing on Sentence Plagiarism Detection -)

  • 이정송;박순철
    • 한국산업정보학회논문지
    • /
    • 제22권2호
    • /
    • pp.43-52
    • /
    • 2017
  • 패턴 분석은 신호 및 영상 처리와 텍스트 마이닝 분야에서 가장 중요한 기술 중 하나이다. 이산 푸리에 변환(Discrete Fourier Transform: DFT)은 일반적으로 신호와 영상의 패턴을 분석하는데 사용된다. 본 논문에서는 DFT가 텍스트 패턴 분석에도 적용될 수 있음을 가정하고 문서의 텍스트 패턴이 다른 문서에서도 존재하는지를 탐색하는 표절 문장 탐색에 세계 최초로 적용하였다. 이를 위해 텍스트를 ASCII 코드로 변환하여 신호화하고 복사/붙여넣기, 용어의 재배치 등 단순한 표절 형태의 탐색은 Cross-Correlation(상호상관)을 이용하였다. 또한 유의어를 사용하거나 번역 및 요약 등의 표절 형태를 탐색하기 위해 워드넷(WordNet) 유사도를 사용하였다. 실험을 위해 표절 탐색 분야의 저명한 워크숍인 PAN에서 제공하는 공식적인 데이터 셋(2013 Corpus)을 사용하였으며, 실험 결과 11개의 표절 문장 탐색 기법 중 4번째로 우수한 성능을 보였다.

자바스크립트에 특화된 프로그램 종속성 그래프를 이용한 표절 탐지 (Plagiarism Detection Using Dependency Graph Analysis Specialized for JavaScript)

  • 김신형;한태숙
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권5호
    • /
    • pp.394-402
    • /
    • 2010
  • 자바스크립트는 현재 웹 사이트, 웹 어플리케이션에서 가장 많이 사용되는 스크립트 언어 중 하나이다. 자바스크립트로 작성된 프로그램은 원본 프로그램 형태로 클라이언트에게 전송되므로 무단 복제, 도용에 쉽게 노출된다. 때문에 자바스크립트 프로그램의 도용을 탐지하기 위한 연구가 필요하다. 현재 일반적으로 프로그램 표절 탐지를 위해 사용되는 자동화 도구들의 경우 고수준의 표절 기법에 적절히 대응하지 못한다. 반면에 프로그램 종속성 그래프에 기반을 둔 기존 연구들의 경우 자바스크립트의 동적인 특징을 적절히 반영하지 못한다. 또한 지나친 일반화로 인해 일부 틀린 판정(false positive)을 보이며 대상 프로그램의 크기가 클 경우 탐지 속도에 문제를 보이고 있다. 본 논문에서는 자바스크립트에 특화된 프로그램 종속성 그래프(이하 JS PDG)와 이를 사용한 도용 탐지 기법을 제안하여 이러한 문제를 해결하고자 한다. 본 논문에서 제안하는 JS PDG는 세분화된 노드 타입을 가지고 있어 기존 PDG와 비교해 보다 정확한 그래프 간 비교를 할 수 있도록 하며 포함하고 있는 노드 타입에 따라 정의되는 JS PDG의 타입은 탐색 범위를 분할을 가능하게 해 전체 도용 탐지 속도가 개선 될 수 있도록 한다. 실험 결과 기존 PDG에서 나타나는 틀린 판정을 확인할 수 있었으며 PDG간 비교 횟수가 줄어들어 도용 탐지 속도가 개선됨을 확인할 수 있었다.

Strengthening Publication Ethics for KODISA Journals: Learning from the Cases of Plagiarism

  • Hwang, Hee-Joong;Lee, Jong-Ho;Lee, Jung-Wan;Kim, Young-Ei;Yang, Hoe-Chang;Youn, Myoung-Kil;Kim, Dong-Ho
    • 유통과학연구
    • /
    • 제13권4호
    • /
    • pp.5-8
    • /
    • 2015
  • Purpose - The purpose of this paper is to review, analyze, and learn from the most recent cases of plagiarism and to identify and promote ethical practices in research and publication. Research design, data, and methodology - This is a case study, an analytical approach, which focuses on analyzing the most recent cases of plagiarism to identify ethical issues and concerns in journal publication practices. Results - Despite the availability of many software and web-based applications and programs to detect plagiarism, there is no universal or perfect plagiarism detection application available to ease the editorial responsibility. Lack of understanding the concept and ignorance of plagiarism were the main reasons for the cases of plagiarism. Conclusions - Some of the plagiarism cases reveal a lack of knowledge in proper application of in-text citations and references, including quoting, requiting, paraphrasing, and citing sources, etc. Furthermore, the need for recognizing and considering the distorted and falsified primary and secondary research data as plagiarism is essential to enhance ethical practices in journal publication.

표절 방지에 관한 최근 정보 (Recent Information on the Plagiarism Prevention)

  • 이성호
    • 한국발생생물학회지:발생과생식
    • /
    • 제15권1호
    • /
    • pp.71-76
    • /
    • 2011
  • 연구윤리(혹은 연구진실성)는 과학 사회의 건강성을 유지시키는 역할 때문에 학계, 정부는 물론 과학계에 종사하지 않는 일반인들로부터 주목 받고 있다. 이 논문에서는 대표적인 연구부정인 표절을 다룬 유용한 논문들을 소개하고자 한다. 일반적으로, 연구 결과는 독창성(originality), 정확성(accuracy), 재현성(reproducibility), 정밀성(precision) 그리고 연구윤리(research ethics)가 보장되어야 한다. 표절의 정의는 "적절한 언급이나 인정 없이 다른 사람의 말이나 글, 또는 아이디어를 도용하는 것이다." 표절은 간혹 데이터의 위조와 변조보다는 경미한 연구부정으로 고려되기도 하지만, 본질적으로 그 속성은 지적 산물의 절도에 해당한다. 표절은 논문 출판 단계에만 국한해서 일어나는 것이 아니라, 연구제안과 연구수행 그리고 종설 논문 작성과정으로 확장될 수 있다. 표절의 정의를 확대하면, 중복 출판은 자기표절로 간주할 수 있다. 표절을 방지하기 위해서는 과학 사회 모든 구성원들의 정직한 노력이 요구된다. 먼저, 연구자들은 자신들의 과학적인 작업수행에 있어서 투명성(transparency)과 진실성 내지 고결성(integrity)을 유지해야 한다. 편집위원회 구성원들과 심사자들은 임무 수행과정에서 공평함과 충분한 자격을 유지해야 한다. 정부와 연구 재단들은 과학 사회에 표절 방지를 위한 재정적, 정책적 지원을 아낌없이 해야 한다. 향상된 편집 서비스, 표절 방지 프로그램 활용, 그리고 정직한 과학논문을 쓰는 방법에 대한 철저한 교육은 과학 사회의 건전한 기반을 구축하는데 기여할 것이다.

문서를 위한 표절 탐지 시스템에 관한 연구 (A Study on Plagiarism Detection System for Documents)

  • 안병렬;김문현
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2006년도 춘계학술대회 학술발표 논문집 제16권 제1호
    • /
    • pp.413-415
    • /
    • 2006
  • 디지털 시대에는 누구나 쉽게 정보에 접근 할 수가 있어 아주 간단하게 다른 사람의 정보를 불법 복제해서 무단으로 사용하는 경우가 증가하게 되었다. 이는 많은 투자와 노력으로 지식을 생성하는 일도 중요하지만 이를 관리하고 보호하는 일이 중요한 과제로 부상하고 있다는 것을 의미한다. 본 논문에서는 다른 사람의 지적 재산권을 침해하고 표절을 하여 사용했을 경우 이를 효과적으로 탐지하는 새로운 방법과 이론을 제시하고자 한다.

  • PDF

굼벨 분포 모델을 이용한 표절 프로그램 자동 탐색 및 추적 (Automated Detecting and Tracing for Plagiarized Programs using Gumbel Distribution Model)

  • 지정훈;우균;조환규
    • 정보처리학회논문지A
    • /
    • 제16A권6호
    • /
    • pp.453-462
    • /
    • 2009
  • 소프트웨어의 지적 재산권 보호 및 인증에 대한 관심과 중요성이 커지면서 소프트웨어에 대한 표절 탐색 및 보호, 판단에 대한 연구가 활발 하게 진행되고 있다. 지금까지 표절에 대한 연구는 주로 속성 계산, 토큰 패턴, 프로그램 파스트리, 유사도 측정 알고리즘 등을 이용해 두 프로 그램을 비교하는데 초점을 두었다. 이와 더불어, 표절과 협동(collaboration)을 구분하는 것은 표절연구에서 매우 중요하다. 본 논문에서는 극단 치 분포 확률 모델을 이용한 소스코드 클러스터링을 위한 알고리즘을 제안한다. 본 논문에서는 먼저 두 프로그램 먼저 두 프로그램 $P_a$$P_b$ 의 유사도를 측정하는 비대칭거리측정함수 pdist($P_a$, $P_b$)를 제안하고, 모든 소스코드 쌍에 대해 pdist($P_a$, $P_b$)를 통해 측정된 유사도를 간선무게로 하는 표절방 향그래프(PDG)를 생성한다. 그리고 본 논문에서는 표절방향그래프를 굼벨거리그래프(GDG)로 변환한다. pdist($P_a$, $P_b$) 점수 분포는 극단치 확률 분포로 잘 알려진 굼벨분포(Gumbel distribution)와 매우 유사하다. 또한, 본 논문에서는 의사표절(pseudo- plagiarism)을 새롭게 정의한다. 의사표절은 프로그램의 강한 기능적 제약사항으로 인해 발생하는 가상 표절의 한 종류이다. 본 논문에서는 ICPC(International Collegiate Programming Contest)와 KOI(Korean Olympiad for Informatics) 대회에 제출된 18개 프로그램 그룹의 700개 이상의 소스코드에 대해 실험을 진행하였다. 실험결과 프로그램 그룹에 포함된 표절 프로그램들을 찾았으며, 소스코드 클러스터링 알고리즘은 의사표절과 실제표절 프로그램 그룹을 효과적으로 구분하였다.

A Study of Natural Language Plagiarism Detection

  • Ahn, Byung-Ryul;Kim, Heon;Kim, Moon-Hyun
    • 한국정보기술응용학회:학술대회논문집
    • /
    • 한국정보기술응용학회 2005년도 6th 2005 International Conference on Computers, Communications and System
    • /
    • pp.325-329
    • /
    • 2005
  • Vast amount of information is generated and shared in this active digital As the digital informatization is vividly going on now, most of documents are in digitalized forms, and this kind of information is on the increase. It is no exaggeration to say that this kind of newly created information and knowledge would affect the competitiveness and the future of our nation. In addition to that, a lot of investment is being made in information and knowledge based industries at national level and in reality, a lot of efforts are intensively made for research and development of human resources. It becomes easier in digital era to create and share the information as there are various tools that have been developed to create documents along with the internet, and as a result, the share of dual information is increasing day in and day out. At present, a lot of information that is provided online is actually being plagiarized or illegally copied. Specifically, it is very tricky to identify some plagiarism from tremendous amount of information because the original sentences can be simply restructured or replaced with similar words, which would make them look different from original sentences. This means that managing and protecting the knowledge start to be regarded as important, though it is important to create the knowledge through the investment and efforts. This dissertation tries to suggest new method and theory that would be instrumental in effectively detecting any infringement on and plagiarism of intellectual property of others. DICOM(Dynamic Incremental Comparison Method), a method which was developed by this research to detect plagiarism of document, focuses on realizing a system that can detect plagiarized documents and parts efficiently, accurately and immediately by creating positive and various detectors.

  • PDF