A Sampling-based Algorithm for Top-${\kappa}$ Similarity Joins

Top-${\kappa}$ 유사도 조인을 위한 샘플링 기반 알고리즘

  • Received : 2014.02.07
  • Accepted : 2014.03.30
  • Published : 2014.08.15

Abstract

The problem of top-${\kappa}$ set similarity joins finds the top-${\kappa}$ pairs of records ranked by their similarities between two sets of input records. We propose an efficient algorithm to return top-${\kappa}$ similarity join pairs using a sampling technique. From a sample of the input records, we construct a histogram of set similarity joins, and then compute an estimated similarity threshold in the histogram for top-${\kappa}$ join pairs within the error bound of 95% confidence level based on statistical inference. Finally, the estimated threshold is applied to the traditional similarity join algorithm which uses the min-heap structure to get top-${\kappa}$ similarity joins. The experimental results show the good performance of the proposed algorithm on large real datasets.

Top-${\kappa}$ 유사도 조인 문제는 두 개의 입력 레코드 집합들에서 유사도를 기준한 상위 ${\kappa}$ 개의 레코드 쌍을 찾는 것이다. 샘플링 기법을 이용하여 상위 ${\kappa}$ 개의 유사도 조인 쌍을 반환하는 효율적인 알고리즘을 제안한다. 입력 레코드들의 표본에서 집합 유사도 조인들의 히스토그램을 구성하고, 상위 ${\kappa}$ 개의 조인 쌍을 위한 추정 유사도 한계치를 통계 추론으로 95% 신뢰 구간의 오차 한계 내에서 계산한다. 상위 ${\kappa}$ 개의 유사도 조인을 얻기 위하여 최소-히프 구조를 사용하는 일반 유사도 조인 알고리즘에 이 추정 한계치를 적용한다. 대 용량의 실제 데이터집합에서의 실험결과는 제안된 알고리즘의 좋은 성능을 보여준다.

Keywords

Acknowledgement

Supported by : 성신여자대학교

References

  1. R. J. Bayardo, Y. Ma, and R. Srikant, "Scaling up all pairs similarity search," In Proceedings of the WWW'07, pp.131-140, 2007.
  2. C. Xiao, W. Wang, X. Lin, J.X. Yu, and G. Wang, "Efficient Similarity Joins for Near-Duplicate Detection," ACM TODS, vol.36, no.3, Article 15, Aug. 2011.
  3. L. A. Ribeiro and T. Harder, "Generalizing prefix filtering to improve set similarity joins," Information Systems 36, pp.62-78, 2011. https://doi.org/10.1016/j.is.2010.07.003
  4. J.S. Park, "Efficient Similarity Joins by Adaptive Prefix Filtering," KIPS Tr. Software and Data Eng., vol.2, pp.267-270, 2013. (in Korean) https://doi.org/10.3745/KTSDE.2013.2.4.267
  5. C. Xiao, W. Wang, X. Lin, and H. Shang, "Top-k set similarity joins," IEEE ICDE'09, pp.916-927, 2009.
  6. Y. Kim and K. Shim, "Parallel Top-K Similarity Join Algorithms Using MapReduce," IEEE ICDE 2012, pp.510-521, 2012.
  7. W. Zhang, J. Xu, X. Liang, Y. Zhang, and X. Lin, "Top-k Similarity Join over Multi-valued Objects," Database Systems for Advanced Applications, Lecture Notes in Computer Science, vol.7238, pp. 509-525, 2012.
  8. R.V. Hogg and E.A. Tanis, Probability and Statistical Inference, 7th Ed., Pearson, 2005.
  9. T.H. Cormen, et al., Introduction to Algorithms, 2nd Ed., McGraw-Hill, 2001.
  10. S. Acharya, P.B. Gibbons, V. Poosala, and S. Ramaswany, "Join Synopses for Approximate Query Answering," ACM SIGMOD, pp.275-286, 1999.