• Title/Summary/Keyword: 유사 중복 검출

Search Result 22, Processing Time 0.034 seconds

The Optimization of Near Duplicate Detection Using Representative Unigram Grouping (대표 Unigram 군집화를 통한 유사중복문서 검출 최적화)

  • Kwon, Young-Hyun;Yun, Do-Hyun;Ahn, Young-Min
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06b
    • /
    • pp.291-293
    • /
    • 2012
  • SNS, 블로그의 이용이 늘어나면서, 문서의 복제와 재생산이 빈번하게 발생함에 따라 대용량 문서에서의 유사중복문서 검출이 큰 이슈로 제기되고 있다. 본 논문에서는 한국어 문서를 대상으로 이러한 문제를 해결하기 위해 품질을 유지하면서 신속하게 문서집합 중 유사중복문서를 검출하는 방법에 대해 제안한다. 제안하는 알고리즘에서는 문서를 대표하는 고빈도 Unigram Token을 활용하여 문서를 군집화함으로써 비교 대상을 최소화 하였다. 실험결과, 76만 문서에서 기존 방법 대비 평균 0.88의 Recall을 유지하면서도 중복을 검출하는데 있어서 십수초내에 처리가 가능함을 보였다. 향후 대용량 검색시스템 및 대용량 이미지, 동영상 유사중복 검출에도 활용할 수 있을 것으로 기대한다.

Efficient and Privacy-Preserving Near-Duplicate Detection in Cloud Computing (클라우드 환경에서 검색 효율성 개선과 프라이버시를 보장하는 유사 중복 검출 기법)

  • Hahn, Changhee;Shin, Hyung June;Hur, Junbeom
    • Journal of KIISE
    • /
    • v.44 no.10
    • /
    • pp.1112-1123
    • /
    • 2017
  • As content providers further offload content-centric services to the cloud, data retrieval over the cloud typically results in many redundant items because there is a prevalent near-duplication of content on the Internet. Simply fetching all data from the cloud severely degrades efficiency in terms of resource utilization and bandwidth, and data can be encrypted by multiple content providers under different keys to preserve privacy. Thus, locating near-duplicate data in a privacy-preserving way is highly dependent on the ability to deduplicate redundant search results and returns best matches without decrypting data. To this end, we propose an efficient near-duplicate detection scheme for encrypted data in the cloud. Our scheme has the following benefits. First, a single query is enough to locate near-duplicate data even if they are encrypted under different keys of multiple content providers. Second, storage, computation and communication costs are alleviated compared to existing schemes, while achieving the same level of search accuracy. Third, scalability is significantly improved as a result of a novel and efficient two-round detection to locate near-duplicate candidates over large quantities of data in the cloud. An experimental analysis with real-world data demonstrates the applicability of the proposed scheme to a practical cloud system. Last, the proposed scheme is an average of 70.6% faster than an existing scheme.

Similar Video Detection Method with Summarized Video Image and PCA (요약 비디오 영상과 PCA를 이용한 유사비디오 검출 기법)

  • Yoo, Jae-Man;Kim, Woo-Saeng
    • Journal of Korea Multimedia Society
    • /
    • v.8 no.8
    • /
    • pp.1134-1141
    • /
    • 2005
  • With ever more popularity of video web-publishing, popular content is being compressed, reformatted and modified, resulting in excessive content duplication. Such overlapped data can cause problem of search speed and rate of searching. However, duplicated data on other site can provide alternatives while specific site cause problem. This paper proposes the efficient method, for retrieving. similar video data in large database. In this research we have used the method to compare summarized video image instead of the raw video data, and detected similar videos through clustering in that dimension feature vector through PCA(principle component analysis). We show that our proposed method is efficient and accurate through our experiment.

  • PDF

R&D Redundancy and Similarity Check System (클라우드 기반 R&D 연구 보고서 문서표절 및 유사도 검출 시스템)

  • Shin, Hyojoung;Park, Kiheung;Haing, Huhduck
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2016.01a
    • /
    • pp.31-32
    • /
    • 2016
  • 최근 정부의 R&D 연구에 대한 지원 규모 증가로 인해 전국가적으로 활발하게 기술 연구가 진행되고 있지만 예산을 집행하는 과정에서 기술 연구개발 과제의 중복연구로 시간과 예산을 낭비하는 사례를 노출하고 있다. 이와 같은 문제점을 해결하기 위해서는 정부 R&D 과제 선정과정에서 연구주제의 중복성 방지 등 근원적 혁신이 필요하다. 본 논문에서는 텍스트 마이닝 기술 및 빅데이터 분석 기술(하둡, 아마존 웹 서비스)과 같은 데이터 분석 기술이 도입된 클라우드 기반 R&D 연구 보고서 문서표절 및 유사도를 검출하는 시스템을 제안한다. 본 시스템은 SaaS 형태의 "on-demand software"로 웹 접속만으로 사용이 가능하다.

  • PDF

Pig viral diseases causing reproductie failure in Korea (돼지 바이러스 질병 감염에 의한 유사산 실태조사)

  • Kim, Byoung-han;Kweon, Chang-hee;An, Soo-hwan;Rhee, Jae-chin
    • Korean Journal of Veterinary Research
    • /
    • v.32 no.3
    • /
    • pp.365-368
    • /
    • 1992
  • 1988년부터 1990년 6월까지 전국의 양돈장에서 수집된 돼지 유사산 태아 74복에서 바이러스성 원인체 분리 및 혈청학적 진단을 수행하였던 바 다음과 같은 결과를 얻었다. 공시한 74복의 유사산 태아중 44복의 태아 흉강액에서 면역 globulin이 검출되어 전염성 질병감염에 의한 유사산으로 추정되었다. 이중 37%가 바이러스성 유사산으로 나타났으며 유사산의 원인체별 분포를 살펴보면 돼지 파보바이러스가 21%로 가장 높았으며, 뇌심근염 바이러스가 11%, 일본뇌염 바이러스가 9% 등의 순으로 나타났다. 한편 돼지 콜레라바이러스 및 오제스키병 바이러스에 의한 유사산이 각각 1건씩 검출되었으며 동일 유사산 태아에서 2가지 병원체가 중복감염된 예도 관찰되었다.

  • PDF

A Study on Similarity Analysis of Function Unit Module for Reusing Code (코드 재사용을 위한 기능 단위 모듈의 유사도 분석 기법 연구)

  • 나학연;이종호;류성열
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10a
    • /
    • pp.394-396
    • /
    • 2000
  • 소프트웨어 재사용은 이전의 개발 경험을 새로운 소프트웨어 개발 과정에서 재적용 하는 것으로, 소프트웨어 개발 환경 및 관리 과정에서 생산성 향상에 기여할 수 있다. 본 논문에서는 객체지향 언어로 개발된 프로그램에서, 하나의 클래스에 있는 여러 메소드들 안에 중복된 코드가 있는 경우 이러한 중복된 코드의 검출을 통해 재사용의 근거로 제시하고자 한다. 그 방법으로 McCabe의 유사도 분석 기법을 이용하였고, 그 과정에서 나타난 문제점을 해결하고자, 새로운 검색 요소로 구성된 최적의 유사도 분석 기법을 제안하였다. 그리고 분석 결과를 재사용하기 위한 문서와 작업의 기준도 마련하였다. 기준에 맞게 작성된 문서들은 코드 수준의 재사용 가능 라이브러리로 저장하여 다음 개발에 직접 적용한다면, 비용 및 시간을 절약하는 효과를 기대할 수 있다.

  • PDF

Improved Face Detection Algorithm Using Face Verification (얼굴 검증을 이용한 개선된 얼굴 검출)

  • Oh, Jeong-su
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.22 no.10
    • /
    • pp.1334-1339
    • /
    • 2018
  • Viola & Jones's face detection algorithm is a typical face detection algorithm and shows excellent face detection performance. However, the Viola & Jones's algorithm in images including many faces generates undetected faces and wrong detected faces, such as false faces and duplicate detected faces, due to face diversity. This paper proposes an improved face detection algorithm using a face verification algorithm that eliminates the false detected faces generated from the Viola & Jones's algorithm. The proposed face verification algorithm verifies whether the detected face is valid by evaluating its size, its skin color in the designated area, its edges generated from eyes and mouth, and its duplicate detection. In the face verification experiment of 658 face images detected by the Viola & Jones's algorithm, the proposed face verification algorithm shows that all the face images created in the real person are verified.

Detection of Similar Answers to Avoid Duplicate Question in Retrieval-based Automatic Question Generation (검색 기반의 질문생성에서 중복 방지를 위한 유사 응답 검출)

  • Choi, Yong-Seok;Lee, Kong Joo
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.8 no.1
    • /
    • pp.27-36
    • /
    • 2019
  • In this paper, we propose a method to find the most similar answer to the user's response from the question-answer database in order to avoid generating a redundant question in retrieval-based automatic question generation system. As a question of the most similar answer to user's response may already be known to the user, the question should be removed from a set of question candidates. A similarity detector calculates a similarity between two answers by utilizing the same words, paraphrases, and sentential meanings. Paraphrases can be acquired by building a phrase table used in a statistical machine translation. A sentential meaning's similarity of two answers is calculated by an attention-based convolutional neural network. We evaluate the accuracy of the similarity detector on an evaluation set with 100 answers, and can get the 71% Mean Reciprocal Rank (MRR) score.

MPEG 오디오 부호화 과정을 고려한 오디오 워터마킹

  • 김연정;오현오;윤대희;석종원;홍진우
    • Review of KIISC
    • /
    • v.12 no.1
    • /
    • pp.19-24
    • /
    • 2002
  • 시간 영역에서 수행하는 대역확산 워터마킹의 경우 들리지 않으면서도 강인한 워터마크를 생성하기 위해 심리음향 모델을 이용한다. 주파수 영역에서 심리음향모델에 의해 변형된 PN 시퀸스는 시간 영역으로 역변환되어 원신호에 삽입된다. 워터마크가 삽입된 오디오 신호가 WEG 오디오 부호화 과정을 통과할 경우, 다시 심리음향모델과 주파수 변환을 수행하는 중복 연산이 요구된다. 본 논문에서는 WEG오디오 부호화 과정과 오디오 워터마킹 과정을 결합시킴으로써 중복 연산을 피한 효율적인 오디오 워터마킹 알고리즘을 제안한다. 제안된 알고리즘은 MPEG 오디오 부호화 중에서, 특히, MP3 부호화 과정에 대해 수행하였으며, MDCT 영역에서 워터마크를 삽입한다. 삽입된 워터마크 신호는 일반적인 대역확산 워터마킹 복호화기를 이용하여 시간 영역에서 검출이 가능하며, 기존의 방법과 유사한 수준의 복호화 성능을 나타낸다.

Proposal of speaker change detection system considering speaker overlap (화자 겹침을 고려한 화자 전환 검출 시스템 제안)

  • Park, Jisu;Yun, Young-Sun;Cha, Shin;Park, Jeon Gue
    • The Journal of the Acoustical Society of Korea
    • /
    • v.40 no.5
    • /
    • pp.466-472
    • /
    • 2021
  • Speaker Change Detection (SCD) refers to finding the moment when the main speaker changes from one person to the next in a speech conversation. In speaker change detection, difficulties arise due to overlapping speakers, inaccuracy in the information labeling, and data imbalance. To solve these problems, TIMIT corpus widely used in speech recognition have been concatenated artificially to obtain a sufficient amount of training data, and the detection of changing speaker has performed after identifying overlapping speakers. In this paper, we propose an speaker change detection system that considers the speaker overlapping. We evaluated and verified the performance using various approaches. As a result, a detection system similar to the X-Vector structure was proposed to remove the speaker overlapping region, while the Bi-LSTM method was selected to model the speaker change system. The experimental results show a relative performance improvement of 4.6 % and 13.8 % respectively, compared to the baseline system. Additionally, we determined that a robust speaker change detection system can be built by conducting related studies based on the experimental results, taking into consideration text and speaker information.