DOI QR코드

DOI QR Code

A MapReduce-based kNN Join Query Processing Algorithm for Analyzing Large-scale Data

대용량 데이터 분석을 위한 맵리듀스 기반 kNN join 질의처리 알고리즘

  • 이현조 (전북대학교 컴퓨터공학과) ;
  • 김태훈 (전북대학교 컴퓨터공학과) ;
  • 장재우 (전북대학교 컴퓨터공학과)
  • Received : 2014.09.15
  • Accepted : 2015.01.22
  • Published : 2015.04.15

Abstract

Recently, the amount of data is rapidly increasing with the popularity of the SNS and the development of mobile technology. So, it has been actively studied for the effective data analysis schemes of the large amounts of data. One of the typical schemes is a Voronoi diagram based on kNN join algorithm (VkNN-join) using MapReduce. For two datasets R and S, VkNN-join can reduce the time of the join query processing involving big data because it selects the corresponding subset Sj for each Ri and processes the query with them. However, VkNN-join requires a high computational cost for constructing the Voronoi diagram. Moreover, the computational overhead of the VkNN-join is high because the number of the candidate cells increases as the value of the k increases. In order to solve these problems, we propose a MapReduce-based kNN-join query processing algorithm for analyzing the large amounts of data. Using the seed-based dynamic partitioning, our algorithm can reduce the overhead for constructing the index structure. Also, it can reduce the computational overhead to find the candidate partitions by selecting corresponding partitions with the average distance between two seeds. We show that our algorithm has better performance than the existing scheme in terms of the query processing time.

최근 모바일 기술의 발달 및 소셜 네트워크 서비스의 활성화를 통해 사용자 데이터가 급격히 증대되고 있다. 이에 따라 대용량 데이터에 대한 효율적인 데이터 분석 기법에 대한 연구가 활발히 이루어지고 있다. 대표적인 대용량 데이터 분석 기법으로는 맵리듀스 환경에서 보로노이 다이어그램을 이용한 k 최근접점 조인(VkNN-join) 알고리즘이 존재한다. 데이터집합 R, S에 대해, VkNN-join 알고리즘은 부분집합 Ri에 연관된 부분집합 Sj만을 후보탐색 영역으로 선정하여 질의처리를 수행하기 때문에, 대용량 데이터에 대한 join 질의처리 시간을 감소시키는 장점이 존재한다. 그러나 VkNN-join은 보로노이 다이어그램을 사용하기 때문에, 색인 구축 비용이 높은 단점이 존재한다. 아울러 kNN 질의처리를 위한 후보 영역 선정 시 k값에 비례하여 후보영역의 크기가 증가하기 때문에, kNN 연산 오버헤드가 증가하는 문제점이 존재한다. 이를 해결하기 위해 본 논문에서는 대용량 데이터 분석을 위한 맵리듀스 기반 kNN join 질의처리 알고리즘을 제안한다. 제안하는 질의처리 알고리즘은 시드 기반의 동적 분할을 통해 색인구조 구축비용을 절감한다. 또한 시드 간 평균 거리를 기반으로 질의 처리 후보 영역을 선정함으로써, kNN-join 질의를 위한 연산 오버헤드를 감소시킨다. 아울러, 성능 평가를 통해 제안하는 기법이 질의처리 시간 측면에서 기존 기법에 비해 우수함을 보인다.

Keywords

Acknowledgement

Supported by : 한국연구재단

References

  1. J. Dean and S. Ghemawat, "MapReduce: Simplified data processing on large clusters," Communications of the ACM, Vol. 51, No. 1, pp. 107-113, 2008. https://doi.org/10.1145/1327452.1327492
  2. D. Jiang, BC. Ooi, L. Shi and S. Wu, "The performance of MapReduce: An in-depth study," Proc. of the VLDB Endowment, Vol. 3.1-2, pp. 472-483, 2010.
  3. JA. Hartigan and MA. Wong, "Algorithm AS 136: A k-means Clustering Algorithm," Applied Statistics, pp. 100-10, 1979.
  4. X. Jin, and J. Han, "K-Medoids Clustering," Encyclopedia of Machine Learning, Springer US, pp. 564-565, 2010.
  5. C. Bohm and HP. Kriegel, "A cost model and index architecture for the similarity join," ICDE 2001, pp. 411-420, 2001.
  6. C. Xia, H. Lu, BC. Ooi, and J. Hu, "Gorder: An efficient method for knn join processing," VLDB 2004, pp. 756-767, 2004.
  7. C. Yu, B. Cui, S. Wang, and J. Su, "Efficient indexbased knn join processing for high-dimensional data," Information and Software Technology, Vol. 49, No. 4, pp. 332-344, 2007. https://doi.org/10.1016/j.infsof.2006.05.006
  8. B. Yao, F. Li, and P. Kumar, "K nearest neighbor queries and knn-joins in large relational databases (almost) for free," ICDE 2010, pp. 4-15, 2010.
  9. W. Lu, Y. Shen, Y. Chen, and BC. Ooi, "Efficient processing of k nearest neighbor joins using Map-Reduce," Proc. of the VLDB Endowment, Vol. 5, No. 10, pp. 1016-1027, 2012.