• 제목/요약/키워드: 표절 문장 탐색

검색결과 2건 처리시간 0.016초

이산 푸리에 변환을 적용한 텍스트 패턴 분석에 관한 연구 - 표절 문장 탐색 중심으로 - (A Study on Text Pattern Analysis Applying Discrete Fourier Transform - Focusing on Sentence Plagiarism Detection -)

  • 이정송;박순철
    • 한국산업정보학회논문지
    • /
    • 제22권2호
    • /
    • pp.43-52
    • /
    • 2017
  • 패턴 분석은 신호 및 영상 처리와 텍스트 마이닝 분야에서 가장 중요한 기술 중 하나이다. 이산 푸리에 변환(Discrete Fourier Transform: DFT)은 일반적으로 신호와 영상의 패턴을 분석하는데 사용된다. 본 논문에서는 DFT가 텍스트 패턴 분석에도 적용될 수 있음을 가정하고 문서의 텍스트 패턴이 다른 문서에서도 존재하는지를 탐색하는 표절 문장 탐색에 세계 최초로 적용하였다. 이를 위해 텍스트를 ASCII 코드로 변환하여 신호화하고 복사/붙여넣기, 용어의 재배치 등 단순한 표절 형태의 탐색은 Cross-Correlation(상호상관)을 이용하였다. 또한 유의어를 사용하거나 번역 및 요약 등의 표절 형태를 탐색하기 위해 워드넷(WordNet) 유사도를 사용하였다. 실험을 위해 표절 탐색 분야의 저명한 워크숍인 PAN에서 제공하는 공식적인 데이터 셋(2013 Corpus)을 사용하였으며, 실험 결과 11개의 표절 문장 탐색 기법 중 4번째로 우수한 성능을 보였다.

성분 정렬을 이용한 한글 유사 문서 탐색 방법 (A Similar Text Detection of Korean Document using Composition Alignment)

  • 박선영;조환규
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(C)
    • /
    • pp.228-231
    • /
    • 2011
  • 최근 표절에 대한 사회적 관심이 꾸준히 높아지고 있는 가운데, 기계적으로 유사한 문서를 탐색하는 방법에 대한 많은 연구가 이루어지고 있다. 이 중 생물정보학에서 유전자 서열을 분석하기 위해 사용되는 '지역 정렬(local alignment)' 기법은 문서 간 유사 영역을 탐색하는 데에 유용하다. 한편 한글에는 조사가 존재하는데, 이 때문에 한글 문장은 각 품사의 순서에 큰 영향을 받지 않는다. 이러한 한글의 특성을 이용해 기존 문서의 어순만 바꾼 문장을 생성할 경우, 지역 정렬을 이용한 탐색 방법으로는 이를 찾아내기 힘들다. 본 논문에서는 한글의 특성을 고려하여 어순과 관계없이 해당 영역의 유사성을 찾아내는 새로운 한글 유사 문서 탐색 방법을 제시한다. 이를 위하여, 성분 정렬(composition alignment) 기법을 적용한다. 성분 정렬 기법은 생물학에서 생물의 진화 과정이나 돌연변이 DNA 등 서열의 순서가 일부 뒤바뀌는 것을 허용하면서 유사한 시퀀스를 찾는 기법으로 기존의 방법보다 더욱 유연하고 민감한 방법이라 할 수 있다. 이를 적용하여 한글 문서를 탐색한 결과, 일반적인 문장 및 거의 동일한 문장 간의 유사도 점수는 큰 변화가 없었으나, 어순을 바꾼 문장의 경우 기존의 방법보다 평균 35.34% 가량 민감하게 탐색할 수 있었다. 추후 한글에 대한 초성 추출 및 성분 정렬 방법을 응용하여 다단계 구조의 유사 문서 탐색 방법에 대해 연구할 계획이다.