• 제목/요약/키워드: duplicate detection

검색결과 87건 처리시간 0.025초

Concentric Circle-Based Image Signature for Near-Duplicate Detection in Large Databases

  • Cho, A-Young;Yang, Won-Keun;Oh, Weon-Geun;Jeong, Dong-Seok
    • ETRI Journal
    • /
    • 제32권6호
    • /
    • pp.871-880
    • /
    • 2010
  • Many applications dealing with image management need a technique for removing duplicate images or for grouping related (near-duplicate) images in a database. This paper proposes a concentric circle-based image signature which makes it possible to detect near-duplicates rapidly and accurately. An image is partitioned by radius and angle levels from the center of the image. Feature values are calculated using the average or variation between the partitioned sub-regions. The feature values distributed in sequence are formed into an image signature by hash generation. The hashing facilitates storage space reduction and fast matching. The performance was evaluated through discriminability and robustness tests. Using these tests, the particularity among the different images and the invariability among the modified images are verified, respectively. In addition, we also measured the discriminability and robustness by the distribution analysis of the hashed bits. The proposed method is robust to various modifications, as shown by its average detection rate of 98.99%. The experimental results showed that the proposed method is suitable for near-duplicate detection in large databases.

가변 변수와 검증을 이용한 개선된 얼굴 요소 검출 (Improved Facial Component Detection Using Variable Parameter and Verification)

  • 오정수
    • 한국정보통신학회논문지
    • /
    • 제24권3호
    • /
    • pp.378-383
    • /
    • 2020
  • Viola & Jones의 객체 검출 알고리즘은 얼굴 요소 검출을 위한 매우 우수한 알고리즘이지만 변수 설정에 따른 중복 검출, 오 검출, 미 검출 같은 문제들이 여전히 존재한다. 본 논문은 Viola & Jones의 객체 검출 알고리즘에 미 검출을 줄이기 위한 가변 변수와 중복 검출과 오 검출을 줄이기 위한 검증을 적용한 개선된 얼굴 요소 검출 알고리즘을 제안한다. 제안된 알고리즘은 잠재적 유효 얼굴 요소들을 검출할 때까지 Viola & Jones의 객체 검출의 변수 값을 변화시켜 미 검출을 줄이고, 검출된 얼굴 요소의 크기, 위치, 유일성을 평가하는 검증을 이용해 중복 검출과 오 검출들을 제거시켜 준다. 시뮬레이션 결과들은 제안된 알고리즘이 검출된 객체들에 유효 얼굴 요소들을 포함시키고 나서 무효 얼굴 요소들을 제거하여 유효 얼굴 요소들만을 검출하는 것을 보여준다.

SIFT 기술자 이진화를 이용한 근-복사 이미지 검출 후-검증 방법 (A Post-Verification Method of Near-Duplicate Image Detection using SIFT Descriptor Binarization)

  • 이유진;낭종호
    • 정보과학회 논문지
    • /
    • 제42권6호
    • /
    • pp.699-706
    • /
    • 2015
  • 최근 이미지 컨텐츠에 쉽게 접근할 수 있는 인터넷 환경과 이미지 편집 기술들의 보급으로 근-복사 이미지가 폭발적으로 증가하면서 관련 연구가 활발하게 이루어지고 있다. 그러나 근-복사 이미지 검출 방법으로 주로 쓰이는 BoF(Bag-of-Feature)는 고차원의 지역 특징을 저차원으로 근사화하는 양자화과정에서 서로 다른 특징들을 같다고 하거나 같은 특징을 다르다고 하는 한계가 발생할 수 있으므로 이를 극복하기 위한 후-검증 방법이 필요하다. 본 논문에서는 BoF의 후-검증 방법으로 SIFT(Scale Invariant Feature Transform) 기술자를 128bit의 이진 코드로 변환한 후 BoF 방법에 의하여 추출된 짧은 후보 리스트에 대하여 변환한 코드들간의 거리를 비교하는 방법을 제안하고 성능을 분석하였다. 1500장의 원본이미지들에 대한 실험을 통하여 기존의 BoF 방법과 비교하여 근-복사 이미지 검출 정확도가 4% 향상됨을 보였다.

흡착관/열탈착 GC/MS 방법에 의한 모사시료 중의 미량 페놀 분석에 관한 평가 (Evaluation of the Measurement of Trace Phenols by Adsorption/Thermal Desorption/Gas Chromatography/Mass Spectrometry (ATD/GC/MS) in Artificial Air)

  • 허귀석;이재환;황승만;정필갑;유연미;김정우;이대우
    • 한국대기환경학회지
    • /
    • 제18권2호
    • /
    • pp.127-137
    • /
    • 2002
  • Phenolic compounds in air are toxic even at their low concentrations. We had evaluated a total of five phenolic compounds (Phenol, o-Cresol, m-Cresol, 2-Nitrophenol and 4-Chloro-3-methylphenol) in artificial air using a combination of ATD/GC/MS. To compare the adsorption efficiency of these phenolic compounds, three adsorbents (Tenax TA, Carbotrap and Carbopack B) were tested. Tenax TA adsorbent was most effective of all the adsorbents used for the efficiency test. Five phenolic compounds were found to be very stable on adsorbent tubes for 4 days at room temperature. Detection limit of five phenolic compounds ranged from 0.05 to 0.08 ppb (when assumed to collect 10 L air). The calibration curve was linear over the range of 22∼ 164 ng. The reproducibility was less than 4%. Sampling of duplicate pairs (DPs) was made to demonstrate duplicate precision and sampling efficiency.

연속간행물 종합목록의 중복레코드 최소화 방안 연구 (A Study on the Duplicate Records Detection in the Serials Union Catalog)

  • 이혜진;김순영;김완종;최호남
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2007년도 추계 종합학술대회 논문집
    • /
    • pp.445-448
    • /
    • 2007
  • 연속간행물 종합목록은 국내 여러 기관에 산재한 연속간행물의 정보를 통합하여 공유하고, 정보자원화하기 위한 필수 도구로서 최적화된 목록 및 소장 정보를 생성하여 이용자에게 학술지에 대한 신뢰성 있는 정보를 제공하는 것이 목적이다. 이를 위해서는 데이터의 일관성이 무엇보다 중요하며 레코드의 중복성은 종합목록 품질평가에 있어 중요한 척도 중에 하나가 된다. 본 연구는 연속간행물 기반의 종합목록 데이터의 품질을 개선하기 위하여 오류 데이터로 인한 중복레코드를 최소화하기위한 방안을 마련하는데 있다. 이를 위하여 연속간행물의 중복레코드 검증 요소를 분석하고 검증 프로세스를 제안하였다.

  • PDF

종합목록의 중복레코드 검증을 위한 알고리즘 연구 (A Study on Duplicate Detection Algorithm in Union Catalog)

  • 조순영
    • 한국문헌정보학회지
    • /
    • 제37권4호
    • /
    • pp.69-88
    • /
    • 2003
  • 본 연구는 KERIS 종합목록의 품질 개선을 위하여 새로운 유형의 중복 데이터 색출 알고리즘을 개발한 것이다. 새로운 알고리즘에서는 현재 적용하고 있는 것과 같은 MARC 데이터 일치여부 비교 방식에서 탈피하여 언어별 서지 유형별 다른 비교방식을 적용하였다. 아울러 비교 요소간의 유사성을 측정하고, 각 요소의 중요도에 따라 가중치를 차등 부여하는 방식을 병행하였다. 새로 개발한 알고리즘의 효용성을 입증하기 위하여 최근 종합목록에 업로드된 데이터 210,000건을 추출하여 실험용 마스터 파일을 구축하고 7,649건을 두 개의 알고리즘으로 처리한 결과 새로운 알고리즘에서 중복레코드의 색출 비율이 36.2% 더 높게 나타났다.

클라우드 환경에서 검색 효율성 개선과 프라이버시를 보장하는 유사 중복 검출 기법 (Efficient and Privacy-Preserving Near-Duplicate Detection in Cloud Computing)

  • 한창희;신형준;허준범
    • 정보과학회 논문지
    • /
    • 제44권10호
    • /
    • pp.1112-1123
    • /
    • 2017
  • 최근 다수의 콘텐츠 서비스 제공자가 제공하는 콘텐츠 중심 서비스가 클라우드로 이전함과 동시에 온라인 상의 유사 중복 콘텐츠가 급격히 증가함에 따라, 불필요한 과잉 검색 결과를 초래하는 등 클라우드 기반 데이터 검색 서비스의 품질이 저하하고 있다. 또한 데이터 보호법 등에 의거, 각 서비스 제공자는 서로 다른 비밀키를 이용하여 콘텐츠를 암호화하기 때문에 데이터 검색이 어렵다. 따라서, 검색 프라이버시를 보장하면서 유사 중복 데이터 검색의 정확도까지 보장하는 서비스의 구현은 기술적으로 어려운 실정이다. 본 연구에서는, 클라우드 환경에서 데이터 복호 없이 불필요한 검색 결과를 제거함으로써 검색서비스 품질을 제고하며, 동시에 효율성까지 개선된 유사 중복 검출 기법을 제안한다. 제안 기법은 검색 프라이버시와 콘텐츠 기밀성을 보장한다. 또한, 사용자 측면의 연산 비용 및 통신 절감을 제공하며, 빠른 검색 평가기능을 제공함으로써 유사 중복 검출 결과의 신뢰성을 보장한다. 실제 데이터를 통한 실험을 통해, 제안 기법은 기존 연구 대비 약 70.6%로 성능이 개선됨을 보인다.

Hashing을 이용한 불법 복제 콘텐츠 검출을 위한 내용 기반 영상 검색 (Content-based Video Retrieval for Illegal Copying Contents Detection using Hashing)

  • 손희수;변성우;이석필
    • 전기학회논문지
    • /
    • 제67권10호
    • /
    • pp.1358-1363
    • /
    • 2018
  • As the usage of the Internet grows and digital media become more diversified, it has become much easier for digital contents to be distributed and shared. This makes easier to access the desired digital contents. On the other hand, there is an increasing need to protect the copyright of digital works. There are some prevalent ways to protect ownership, but they accompany several disadvantages. Among those ways, watermarking methods have the advantage of ensuring invisibility, but they also have a disadvantage that they are vulnerable to external attacks such as a noise and signal processing. In this paper, we propose the detecting method of illegal contents that is robust against external attacks to protect digital works. We extract HSV and LBP features from images and use Euclidian-based hashing techniques to shorten the searching time on high-dimensional and near-duplicate videos. According to the results, the proposed method showed higher detection rates than that of the Watermarking techniques in terms of the images with fabrications or deformations.

CoA 설정 시간 단축을 통한 빠른 핸드오버 제공 메카니즘 (Fast Handover Provision Mechanism through Reduction of CoA Configuration Time)

  • 최지형;이동철;김동일
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2007년도 추계종합학술대회
    • /
    • pp.79-82
    • /
    • 2007
  • 최근 이동 통신 기술의 발달과 이동 단말의 보급률이 증가하면서, 사용자들은 휴대 및 이동 시에 빠르고 끊김없는 서비스를 요구하게 되었다. 이러한 요구 사항을 충족시키기 위해 IETF에서는 FMIPv6(Fast Handoff for Mobile IPv6)를 제안하였다. FMIPv6의 핸드오버 과정은 크게 이동 감지, 새로운 CoA 설정, 바인딩 갱신 과정으로 나뉜다. 하지만, 각각의 과정에서 지연이 생기고, CoA 설정 과정의 DAD(Duplicate Address Detection) 실행 시 큰 지연이 생긴다. 본 논문에서는 DAD 절차를 생략하고 AR(Access Router)에 이동 단말의 CoA에 관련된 정보를 저장하여 핸드오버 시 지연을 줄이는 방안을 제안한다.

  • PDF

Tree-Pattern-Based Clone Detection with High Precision and Recall

  • Lee, Hyo-Sub;Choi, Myung-Ryul;Doh, Kyung-Goo
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제12권5호
    • /
    • pp.1932-1950
    • /
    • 2018
  • The paper proposes a code-clone detection method that gives the highest possible precision and recall, without giving much attention to efficiency and scalability. The goal is to automatically create a reliable reference corpus that can be used as a basis for evaluating the precision and recall of clone detection tools. The algorithm takes an abstract-syntax-tree representation of source code and thoroughly examines every possible pair of all duplicate tree patterns in the tree, while avoiding unnecessary and duplicated comparisons wherever possible. The largest possible duplicate patterns are then collected in the set of pattern clusters that are used to identify code clones. The method is implemented and evaluated for a standard set of open-source Java applications. The experimental result shows very high precision and recall. False-negative clones missed by our method are all non-contiguous clones. Finally, the concept of neighbor patterns, which can be used to improve recall by detecting non-contiguous clones and intertwined clones, is proposed.