• 제목/요약/키워드: 유사도 판별

검색결과 380건 처리시간 0.028초

구문의미트리 비교기를 이용한 유사문서 판별기 (Discriminator of Similar Documents Using the Syntactic-Semantic Tree Comparator)

  • 강원석
    • 한국콘텐츠학회논문지
    • /
    • 제15권10호
    • /
    • pp.636-646
    • /
    • 2015
  • 정보사회에 문서 복제나 표절의 검출에 대한 필요성이 증대되고 있다. 그 필요성에 따라 많은 연구가 이루어지고 있으나 자연어 처리의 문제가 유사 문서 판별의 질 향상에 제약이 되었다. 최근 구문의미분석의 기술을 접목하여 유사문서 판별의 성능을 향상을 시도하였으나 구문의미분석의 결과인 구문의미트리를 비교하는 어려움이 있었다. 본 논문은 구문의미트리의 유사도를 계산하는 구문의미트리 비교기를 개발하고 이를 이용하여 유사문서를 판별하는 시스템을 설계, 구현한다. 본 시스템의 성능을 실험하기 위하여 휴먼 판별과 제안한 시스템의 판별과의 상관계수를 분석하였다. 실험결과, 구문의미트리 비교기를 이용한 유사문서 판별기의 성능을 검증할 수 있었다. 앞으로 문서 유형을 정의하고 각 유형에 맞는 판별 기법을 개발할 필요가 있다.

차량 헤드라이트 불량검사 방법 (Inspection of Vehicle Headlight Defects)

  • 김근홍;문창배;김병만;오득환
    • 한국산업정보학회논문지
    • /
    • 제23권1호
    • /
    • pp.87-96
    • /
    • 2018
  • 본 논문에서는 차량 헤드라이트의 불량 유무를 판별하기 위하여 생산된 헤드라이트 이미지를 위치 및 회전 보정 후 검사이미지의 ROI(Region of Interest)와 표준 이미지의 ROI와의 유사도를 이용하여 불량 유무를 판단하는 방법을 제안하였다. 유사도 판별은 OpenCV에서 제공하는 템플릿매칭 유사도 판별방법을 응용하여 히스토그램 기반에서 유사도를 판별하는 방법을 사용하였고, 성능 분석을 목적으로 기존 OpenCV의 기본 방법과 비교하였다. 분석결과, OpenCV의 기본 방법보다 좋은 성능을 보임을 알 수 있었고, 제안 방법의 경우 불량 판별율 100%에 근접함을 알 수 있었다.

구문의미분석를 이용한 유사문서 판별기 (Discriminator of Similar Documents Using Syntactic and Semantic Analysis)

  • 강원석;황도삼
    • 한국콘텐츠학회논문지
    • /
    • 제14권3호
    • /
    • pp.40-51
    • /
    • 2014
  • 문서 저작권에 대한 관심과 중요성이 높아짐에 따라 문서 복제나 표절의 검출에 대한 필요성이 증대되고 있다. 이와 같은 이유로 많은 연구가 이루어지고 있으나 자연어 처리기술의 한계가 있어 문서의 심층적 표절 검출에 어려움이 있다. 본 논문은 자연어 분석의 기술을 적용한 유사문서 판별기를 설계, 구현한다. 이 시스템은 형태소 분석의 기술과 함께 구문의미 분석의 기술, 저빈도 및 관용표현 가중치을 이용하여 유사문서를 판별한다. 본 시스템의 성능을 실험하기 위하여 휴먼 판별과 기존 시스템, 그리고 휴먼 판별과 제안한 시스템의 판별과의 상관계수를 분석하였다. 실험결과, 구문의미 분석을 활용한 시스템의 개선점을 발견할 수 있었다. 앞으로 문서 유형을 정의하고 각 유형에 맞는 판별 기법을 개발할 필요가 있다.

면 객체 매칭을 위한 판별모델의 성능 평가 (Evaluation of Classifiers Performance for Areal Features Matching)

  • 김지영;김정옥;유기윤;허용
    • 한국측량학회지
    • /
    • 제31권1호
    • /
    • pp.49-55
    • /
    • 2013
  • 데이터마이닝과 바이오인식 분야의 판별모델의 성능평가 방법을 이종의 공간 데이터 셋의 매칭에 적용함으로써 좋은 매칭결과를 보이는 판별모델을 도출하고자 한다. 이를 위하여 매칭 기준별 매칭 후보객체 쌍의 거리 값을 구하고, 이들 거리 값을 Min-Max 방법과 Tanh 방법으로 정규화하여 유사도를 산출한다. 산출된 유사도를 CRITIC 방법, Matcher Weighting 방법 그리고 Simple Sum 방법으로 결합하여 형상유사도를 도출하는 판별모델을 적용하였다. 각 판별모델을 PR곡선과 AUC-PR로 평가한 결과, Tanh 정규화와 Simple Sum 방법을 적용한 판별모델의 AUC-PR이 0.893으로 가장 높게 나타났다. 따라서 이종의 공간 데이터 셋의 매칭을 위해서는 Tanh 정규화를 이용하여 각 매칭기준별 유사도를 산출하고 Simple Sum 방법으로 형상유사도를 구하는 판별모델이 적합한 것으로 사료된다.

Sent2Vec 문장 임베딩을 통한 한국어 유사 문장 판별 구현 (Implementation of Korean Sentence Similarity using Sent2Vec Sentence Embedding)

  • 박상길;신명철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.541-545
    • /
    • 2018
  • 본 논문에서는 Sent2Vec을 이용한 문장 임베딩으로 구현한 유사 문장 판별 시스템을 제안한다. 또한 한국어 특성에 맞게 모델을 개선하여 성능을 향상시키는 방법을 소개한다. 고성능 라이브러리 구현과 제품화 가능한 수준의 완성도 높은 구현을 보였으며, 자체 구축한 평가셋으로 한국어 특성을 반영한 모델에 대한 P@1 평가 결과 Word2Vec CBOW에 비해 9.25%, Sent2Vec에 비해 1.93% 더 높은 성능을 보였다.

  • PDF

필적 및 서명에 대한 Off-line 자동분석시스템 (The Off-line Verification System of Signature of Handwrite)

  • 김세훈;하정요;김계영;최형일
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2007년도 학술대회 3부
    • /
    • pp.189-193
    • /
    • 2007
  • 필적 감정은 개인의 고유한 필적 개성을 이용하여 임의의 두 필기 문장 또는 텍스트가 동일인에 의해 작성되었는지를 판별하는 기술로 유서대필 및 보안수사, 서명의 검증, 범죄 수사 등에 활용되어지고 있다. 이러한 작업은 감정 전문가의 판단기준에 의해 필적의 유사성을 판별하기 때문에 객관성 결여 및 과도한 소요 시간, 과도한 처리비용의 문제를 내포하게 된다. 이러한 문제를 해결하여 판별의 객관성과 업무의 신속한 처리를 가능하게 하기 본 논문에서는 컴퓨터를 통한 패턴 분석을 적용하여 두 필적의 유사성을 판별하는 방법을 본 논문에서는 제안한다. 이를 위하여 본 논문은 학습단계와 자동분석단계로 나뉘며, 학습단계에서는 입력된 문서영상에서 필적의 영역을 추출한 후, 특징을 추출하고 DTW연산을 통하여 학습을 한다. 자동분석단계에서는 대조할 문서영상에서의 특징을 추출하고 입력된 문서영상과 대조할 문서영상간의 마할라노비스 거리(Mahalanobis Distance)를 구하여 서명 및 필적에 대한 유사도를 도출한다. 실험은 4명의 필적을 이용하여 비교하였으며, 우수한 결과를 보였다.

  • PDF

선율간 유사도 분석에 의한 악곡 양식 판별 (Classifying Musical Form by Melodic Similarity Analysis)

  • 서정범;배재학
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 추계학술발표대회 및 정기총회
    • /
    • pp.683-686
    • /
    • 2005
  • 주어진 악곡의 성격을 파악하거나 악곡속의 주요정보를 추출하기 위해서는 해당 악곡의 양식파악이 선행되어야 한다. 이에 본 논문에서는 선율간 유사도 분석을 통하여 악곡의 양식을 판별하는 방안을 모색하였다. 선율간의 유사도를 분석하기 위한 방법으로 Hofmann-Engl 의 Conceptual Framework을 사용하였다.

  • PDF

CNN 기반 서명인식에서 시간정보를 이용한 위조판별 (Fake Discrimination using Time Information in CNN-based Signature Recognition)

  • 최승호;정성훈
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2017년도 제56차 하계학술대회논문집 25권2호
    • /
    • pp.293-294
    • /
    • 2017
  • 본 논문에서는 CNN 기반 서명인식에서 시간정보를 이용하여 위조서명을 보다 정확하게 판별하는 방법을 제안한다. 시간정보를 이용하는 첫 번째 방법은 서명하는 전체 시간을 동일한 개수의 등 간격으로 나누어 각각의 이미지를 얻고 이를 합성하여 이용하는 방법이다. 두 번째 방법은 동일한 개수의 등 간격으로 나누어진 각각의 이미지를 CNN-LSTM 으로 판별하는 방법이다. 동일한 개수의 등 간격으로 나누어진 이미지들에는 서명의 속도에 따른 모양의 차이가 발생하기 때문에 비록 최종 서명의 모양이 원본과 매우 유사하다고 하더라도 속도가 다른 경우 위조임을 판별할 수 있다. 두 명의 서명에 대하여 실험을 한 결과 최종 서명이 매우 유사하더라도 속도가 다른 경우 위조로 판별할 수 있음을 보였다. 다만 이미지 합성 과정에 만들어진 새로운 정보로 인하여 진짜 서명을 가짜로 판별할 수 있는 가능성도 늘어날 수 있음을 확인하였다.

  • PDF

용어 선별 기법에 의한 유사 문서 판별 시스템 (Text Similarity Decision System by Term Selection Method)

  • 장성호;강승식
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.534-536
    • /
    • 2003
  • 대부분의 정보 검색 시스템은 문서 내어서 추출된 모든 용어를 이용해서 문서간 유사도 계산이나 문서 분류, 문서 클러스터링 등에 활용한다. 그러나 실질적으로 문서 내외 모든 용어를 추출해야만 이러한 정보 검색 시스템을 활용할 수 있는 것은 아니며, 오히려 용어 빈도수 같은 가중치가 낮은 용어를 용어 추출에서 제외시킴으로써 모든 용어 추출로 인해서 발생하는 시간과 공간을 많이 소비하는 문제를 해결할 수 있다. 또한 정확하고 자동적인 문서 분류를 위한 문서 클러스터링보다 유사 문서 검색의 활용은 검색효율의 증가를 가져 올 수 있다. 본 논문에서는 유사 문서 판별 시스템을 이용해 용어 추출의 효율성을 실험하였으며, 모든 용어를 추출한 경우보다 중요 용어만 추출한 경우에 더 좋은 성능을 보였다.

  • PDF

스마트폰 기반의 이동상황 판별을 위한 유클리디안 거리유사도의 응용 (Application of Euclidean Distance Similarity for Smartphone-Based Moving Context Determination)

  • 장영환;김병만;장성봉;신윤식
    • 한국산업정보학회논문지
    • /
    • 제19권4호
    • /
    • pp.53-63
    • /
    • 2014
  • 이동 컴퓨팅 환경에서 사용자 움직임 판별은 해결해야 할 중요한 이슈중의 하나이다. 본 논문에서는 유클리디안 거리 유사도를 이용하여 스마트폰 사용자의 움직임을 인식하고 판별하기 위한 방법을 제시한다. 제안된 방법에서는 GPS와 가속 센서를 이용하여 데이터를 수집하고, 수집된 데이터를 이용하여, 사용자의 정지, 걷기, 뛰기, 차량이동을 판별한다. 제안된 방법의 타당성과 효율성을 검증하기 위하여, 안드로이드 시스템에 유클리디안 거리 유사도의 여러 변형을 이용한 응용프로그램을 구현하여 그 정확도를 측정하였다. 실험 결과, 사용자 움직임 종류를 90% 이상의 정확도를 가지고 판별해 내었다.