• 제목/요약/키워드: 접두 필터링

검색결과 1건 처리시간 0.014초

맞춤 접두 필터링을 이용한 효율적인 유사도 조인 (Efficient Similarity Joins by Adaptive Prefix Filtering)

  • 박종수
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권4호
    • /
    • pp.267-272
    • /
    • 2013
  • 데이터 정제나 복사 탐지와 같은 많은 응용들을 가진 중요한 연산인 유사도 조인은 도전적인 주제로 데이터집합에서 주어진 한계치 이상의 유사도를 가지는 모든 쌍의 레코드들을 찾는 것이다. 우리는 빠른 유사도 조인을 위해 후보 쌍들의 생성 시에 접두 필터링 원리를 강한 제약 조건으로 사용하는 새 알고리즘을 제안한다. 그 원리에 의해 한정된 접두 토큰들내에서 탐색 레코드의 현재 접두 토큰이 인덱싱 레코드의 접두 토큰을 공유할 때에만 후보 쌍이 생성된다. 이 생성 방법은 두 레코드들 사이에 공통부분의 상한 값을 계산할 필요가 없어서 실행시간을 감소시킨다. 실제 데이터 집합에 적용된 실험 결과는 제안된 알고리즘이 이전의 접두 필터링 방법의 알고리즘들에 비해 상당히 우수함을 보여준다.