초록
유사도 조인 처리에서 일반적인 기법은 생성-검증 구조를 사용하여, 첫 번째 생성 단계는 레코드들의 집합에서 후보 쌍들의 집합을 생성하고 두 번째 단계는 실제 유사도를 계산하여 각 후보 쌍을 검증한다. 검증 단계에서 후보 쌍들의 개수를 줄이기 위하여 본 논문에서는 각 후보 쌍의 한 레코드의 중앙값을 다른 레코드와 공통되는 토큰들의 개수가 적절하게 가질 수 있는지를 검사하는 필터로 사용한다. 중앙값 필터를 가지는 유사도 조인 알고리즘을 제안하고 제안된 알고리즘이 실세계 데이터집합에서 여러 실험을 통해 중앙값 필터를 갖지 않는 최근의 알고리즘들에 비해 실행시간에서 더 좋은 성능을 가진다는 것을 보여준다.
In similarity join processing, a general technique employs a generation-verification framework, which includes two phases: the first phase generates a set of candidate pairs from a collection of records; and the second phase verifies each candidate pair by computing real similarity. In order to reduce the number of candidate pairs in the verification phase, the median of one record of each candidate pair is used as a filter in this paper to test whether the other record can has the proper number of overlapped tokens. We propose a similarity join algorithm with the median filter, and show that the proposed algorithm has better performance in execution time than recent algorithms without the filter through extensive experiments on real-world datasets.