• 제목/요약/키워드: 유사 중복 검출

검색결과 22건 처리시간 0.022초

대표 Unigram 군집화를 통한 유사중복문서 검출 최적화 (The Optimization of Near Duplicate Detection Using Representative Unigram Grouping)

  • 권영현;윤도현;안영민
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(B)
    • /
    • pp.291-293
    • /
    • 2012
  • SNS, 블로그의 이용이 늘어나면서, 문서의 복제와 재생산이 빈번하게 발생함에 따라 대용량 문서에서의 유사중복문서 검출이 큰 이슈로 제기되고 있다. 본 논문에서는 한국어 문서를 대상으로 이러한 문제를 해결하기 위해 품질을 유지하면서 신속하게 문서집합 중 유사중복문서를 검출하는 방법에 대해 제안한다. 제안하는 알고리즘에서는 문서를 대표하는 고빈도 Unigram Token을 활용하여 문서를 군집화함으로써 비교 대상을 최소화 하였다. 실험결과, 76만 문서에서 기존 방법 대비 평균 0.88의 Recall을 유지하면서도 중복을 검출하는데 있어서 십수초내에 처리가 가능함을 보였다. 향후 대용량 검색시스템 및 대용량 이미지, 동영상 유사중복 검출에도 활용할 수 있을 것으로 기대한다.

클라우드 환경에서 검색 효율성 개선과 프라이버시를 보장하는 유사 중복 검출 기법 (Efficient and Privacy-Preserving Near-Duplicate Detection in Cloud Computing)

  • 한창희;신형준;허준범
    • 정보과학회 논문지
    • /
    • 제44권10호
    • /
    • pp.1112-1123
    • /
    • 2017
  • 최근 다수의 콘텐츠 서비스 제공자가 제공하는 콘텐츠 중심 서비스가 클라우드로 이전함과 동시에 온라인 상의 유사 중복 콘텐츠가 급격히 증가함에 따라, 불필요한 과잉 검색 결과를 초래하는 등 클라우드 기반 데이터 검색 서비스의 품질이 저하하고 있다. 또한 데이터 보호법 등에 의거, 각 서비스 제공자는 서로 다른 비밀키를 이용하여 콘텐츠를 암호화하기 때문에 데이터 검색이 어렵다. 따라서, 검색 프라이버시를 보장하면서 유사 중복 데이터 검색의 정확도까지 보장하는 서비스의 구현은 기술적으로 어려운 실정이다. 본 연구에서는, 클라우드 환경에서 데이터 복호 없이 불필요한 검색 결과를 제거함으로써 검색서비스 품질을 제고하며, 동시에 효율성까지 개선된 유사 중복 검출 기법을 제안한다. 제안 기법은 검색 프라이버시와 콘텐츠 기밀성을 보장한다. 또한, 사용자 측면의 연산 비용 및 통신 절감을 제공하며, 빠른 검색 평가기능을 제공함으로써 유사 중복 검출 결과의 신뢰성을 보장한다. 실제 데이터를 통한 실험을 통해, 제안 기법은 기존 연구 대비 약 70.6%로 성능이 개선됨을 보인다.

요약 비디오 영상과 PCA를 이용한 유사비디오 검출 기법 (Similar Video Detection Method with Summarized Video Image and PCA)

  • 유재만;김우생
    • 한국멀티미디어학회논문지
    • /
    • 제8권8호
    • /
    • pp.1134-1141
    • /
    • 2005
  • 웹 상의 출판이 보편화 될수록 많은 데이터의 내용물들이 압축, 포맷, 편집 등 변형된 상태로 중복해서 존재하게 된다. 이러한 유사한 데이터들은 검색 시 속도나 검색률 등에 문제를 야기 시킬 수도 있으며, 반면에 특정 사이트에 문제가 발생할 경우 다른 사이트의 중복된 데이터를 제공해 줄 수도 있게 된다. 따라서 본 논문에서는 대규모 데이터베이스 상에 존재하는 비디오들 중에서 유사한 데이터들에 대한 정보를 사전에 감지할 수 있는 효율적인 방법을 제안한다. 본 연구에서는 비디오들을 직접 비교하는 대신 비디오를 대표하는 요약 비디오 영상을 만들고, 주성분 분석(PCA-principle component analysis) 기법을 적용하여 저차원 특징벡터 상에 군집화를 통해 유사 비디오들을 검출하였다. 실험을 통하여 제안하는 방법의 효율성과 정확성이 우수함을 보였다.

  • PDF

클라우드 기반 R&D 연구 보고서 문서표절 및 유사도 검출 시스템 (R&D Redundancy and Similarity Check System)

  • 신효정;박기흥;허덕행
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2016년도 제53차 동계학술대회논문집 24권1호
    • /
    • pp.31-32
    • /
    • 2016
  • 최근 정부의 R&D 연구에 대한 지원 규모 증가로 인해 전국가적으로 활발하게 기술 연구가 진행되고 있지만 예산을 집행하는 과정에서 기술 연구개발 과제의 중복연구로 시간과 예산을 낭비하는 사례를 노출하고 있다. 이와 같은 문제점을 해결하기 위해서는 정부 R&D 과제 선정과정에서 연구주제의 중복성 방지 등 근원적 혁신이 필요하다. 본 논문에서는 텍스트 마이닝 기술 및 빅데이터 분석 기술(하둡, 아마존 웹 서비스)과 같은 데이터 분석 기술이 도입된 클라우드 기반 R&D 연구 보고서 문서표절 및 유사도를 검출하는 시스템을 제안한다. 본 시스템은 SaaS 형태의 "on-demand software"로 웹 접속만으로 사용이 가능하다.

  • PDF

돼지 바이러스 질병 감염에 의한 유사산 실태조사 (Pig viral diseases causing reproductie failure in Korea)

  • 김병한;권창희;안수환;이재진
    • 대한수의학회지
    • /
    • 제32권3호
    • /
    • pp.365-368
    • /
    • 1992
  • 1988년부터 1990년 6월까지 전국의 양돈장에서 수집된 돼지 유사산 태아 74복에서 바이러스성 원인체 분리 및 혈청학적 진단을 수행하였던 바 다음과 같은 결과를 얻었다. 공시한 74복의 유사산 태아중 44복의 태아 흉강액에서 면역 globulin이 검출되어 전염성 질병감염에 의한 유사산으로 추정되었다. 이중 37%가 바이러스성 유사산으로 나타났으며 유사산의 원인체별 분포를 살펴보면 돼지 파보바이러스가 21%로 가장 높았으며, 뇌심근염 바이러스가 11%, 일본뇌염 바이러스가 9% 등의 순으로 나타났다. 한편 돼지 콜레라바이러스 및 오제스키병 바이러스에 의한 유사산이 각각 1건씩 검출되었으며 동일 유사산 태아에서 2가지 병원체가 중복감염된 예도 관찰되었다.

  • PDF

코드 재사용을 위한 기능 단위 모듈의 유사도 분석 기법 연구 (A Study on Similarity Analysis of Function Unit Module for Reusing Code)

  • 나학연;이종호;류성열
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (1)
    • /
    • pp.394-396
    • /
    • 2000
  • 소프트웨어 재사용은 이전의 개발 경험을 새로운 소프트웨어 개발 과정에서 재적용 하는 것으로, 소프트웨어 개발 환경 및 관리 과정에서 생산성 향상에 기여할 수 있다. 본 논문에서는 객체지향 언어로 개발된 프로그램에서, 하나의 클래스에 있는 여러 메소드들 안에 중복된 코드가 있는 경우 이러한 중복된 코드의 검출을 통해 재사용의 근거로 제시하고자 한다. 그 방법으로 McCabe의 유사도 분석 기법을 이용하였고, 그 과정에서 나타난 문제점을 해결하고자, 새로운 검색 요소로 구성된 최적의 유사도 분석 기법을 제안하였다. 그리고 분석 결과를 재사용하기 위한 문서와 작업의 기준도 마련하였다. 기준에 맞게 작성된 문서들은 코드 수준의 재사용 가능 라이브러리로 저장하여 다음 개발에 직접 적용한다면, 비용 및 시간을 절약하는 효과를 기대할 수 있다.

  • PDF

얼굴 검증을 이용한 개선된 얼굴 검출 (Improved Face Detection Algorithm Using Face Verification)

  • 오정수
    • 한국정보통신학회논문지
    • /
    • 제22권10호
    • /
    • pp.1334-1339
    • /
    • 2018
  • Viola & Jones의 얼굴 검출 알고리즘은 대표적인 얼굴 검출 알고리즘으로 매우 우수한 얼굴 검출 성능을 보인다. 그러나 많은 얼굴을 포함하는 영상들을 대상으로 한 Viola & Jones 알고리즘은 얼굴의 다양성으로 미검출 얼굴들, 가짜 얼굴들과 중복 검출된 얼굴들 같은 잘못 검출된 얼굴들을 발생시킨다. 본 논문은 Viola & Jones 알고리즘에서 생성된 잘못 검출된 얼굴들을 제거하는 얼굴 검증 알고리즘을 이용한 개선된 얼굴 검출 알고리즘을 제안한다. 제안된 얼굴 검증 알고리즘은 검출된 얼굴들에 대한 크기, 지정된 영역의 피부색, 눈과 입에서 발생된 에지, 중복 검출을 평가하여 얼굴이 유효한지를 확인한다. Viola & Jones 알고리즘에 의해 검출된 658개의 얼굴 영상들을 대상으로 한 얼굴 검증 실험에서 제안된 얼굴 검증 알고리즘은 실제 사람들에 의해 생성된 모든 얼굴 영상들을 검증하는 것을 보여준다.

검색 기반의 질문생성에서 중복 방지를 위한 유사 응답 검출 (Detection of Similar Answers to Avoid Duplicate Question in Retrieval-based Automatic Question Generation)

  • 최용석;이공주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권1호
    • /
    • pp.27-36
    • /
    • 2019
  • 본 연구는 검색 기반의 질문 자동 생성 시스템에서 사용자가 이미 답변한 내용을 재질문하지 않도록 사용자의 응답과 유사도가 높은 응답을 질문-데이터베이스에서 찾는 방법을 제안한다. 유사도가 높게 검출된 응답의 질문은 이미 사용자가 아는 내용일 확률이 높기 때문에 질문 후보군에서 제거한다. 유사 응답 검출에는 두 응답간의 동일 단어, 바꿔쓰기 표현, 문장 내용을 모두 사용하였다. 바꿔쓰기 표현은 통계기반의 기계번역에서 사용하는 구절 테이블을 사용하여 구축하였다. 문장 내용은 두 문장을 주의-기반 컨볼루션 신경망으로 압축하여 유사도를 계산하였다. 평가를 위해 구축한 100개의 평가 응답에 질문-응답 데이터베이스로부터 가장 유사한 응답을 추출해서 얻은 결과는 MRR값 71%의 성능을 보였다.

MPEG 오디오 부호화 과정을 고려한 오디오 워터마킹

  • 김연정;오현오;윤대희;석종원;홍진우
    • 정보보호학회지
    • /
    • 제12권1호
    • /
    • pp.19-24
    • /
    • 2002
  • 시간 영역에서 수행하는 대역확산 워터마킹의 경우 들리지 않으면서도 강인한 워터마크를 생성하기 위해 심리음향 모델을 이용한다. 주파수 영역에서 심리음향모델에 의해 변형된 PN 시퀸스는 시간 영역으로 역변환되어 원신호에 삽입된다. 워터마크가 삽입된 오디오 신호가 WEG 오디오 부호화 과정을 통과할 경우, 다시 심리음향모델과 주파수 변환을 수행하는 중복 연산이 요구된다. 본 논문에서는 WEG오디오 부호화 과정과 오디오 워터마킹 과정을 결합시킴으로써 중복 연산을 피한 효율적인 오디오 워터마킹 알고리즘을 제안한다. 제안된 알고리즘은 MPEG 오디오 부호화 중에서, 특히, MP3 부호화 과정에 대해 수행하였으며, MDCT 영역에서 워터마크를 삽입한다. 삽입된 워터마크 신호는 일반적인 대역확산 워터마킹 복호화기를 이용하여 시간 영역에서 검출이 가능하며, 기존의 방법과 유사한 수준의 복호화 성능을 나타낸다.

화자 겹침을 고려한 화자 전환 검출 시스템 제안 (Proposal of speaker change detection system considering speaker overlap)

  • 박지수;윤영선;차신;박전규
    • 한국음향학회지
    • /
    • 제40권5호
    • /
    • pp.466-472
    • /
    • 2021
  • 화자 전환 검출은 대화 중에 발성 화자가 다른 사람으로 바뀌는 시점을 검출하는 것을 의미한다. 이 과정에서 화자 중복, 화자 정보 표기의 부정확성, 데이터 불균형 등으로 화자가 바뀌는 순간을 검출하는 데 어려움이 발생한다. 본 논문에서는 이러한 문제를 해결하기 위해 음성 인식에 널리 사용되는 TIMIT 데이터를 가공하여 충분한 양의 훈련 데이터를 얻었으며, 화자가 겹치는지를 파악한 후에 화자 전환 여부를 판단하였다. 본 논문에서는 화자 겹침을 고려한 화자 전환 검출 시스템을 구축하기 위하여 다양한 접근법을 사용하여 성능을 평가하고 검증했다. 그 결과 화자 겹칩 영역을 제거하기 위해 X-Vector 구조와 유사한 형태의 검출 시스템과 화자 전환 검출 시스템을 모델링하기 위한 Bi-LSTM 모델을 제안하였다. 실험 결과 기준 시스템보다 상대적으로 각각 4.6 %, 13.8 % 성능 향상을 확인하였다. 또한, 실험 결과를 기반으로 텍스트 정보와 화자 정보 등을 고려한다면 좀 더 강인한 화자 전환 검출 시스템을 구축할 수 있을 것으로 판단한다.