DOI QR코드

DOI QR Code

맵리듀스를 이용한 그리드 기반 인덱스 생성 및 k-NN 조인 질의 처리 알고리즘

Grid-based Index Generation and k-nearest-neighbor Join Query-processing Algorithm using MapReduce

  • 투고 : 2015.02.12
  • 심사 : 2015.08.26
  • 발행 : 2015.11.15

초록

맵리듀스는 대용량 데이터 처리를 위한 시스템 안정성과 유용성을 제공한다. 맵리듀스 기반 k-최근접점 조인 질의처리 알고리즘은 두 데이터 집합 R과 S를 기반으로 R의 모든 레코드에 대해 S의 데이터 중 가장 인접한 k개의 레코드를 탐색하는 알고리즘으로써, 대용량 데이터 분석을 위한 중요한 질의 처리 알고리즘이다. 그러나 기존 k-최근접점 조인 질의처리 알고리즘은 높은 인덱스 구축비용 문제로 인해 대용량 데이터 처리에 적합하지 않은 문제점을 지닌다. 따라서, 본 논문에서는 그리드 기반 인덱스 생성 및 k-최근접점 질의 처리 알고리즘을 제안한다. 제안하는 기법은 질의 셀로부터 인접한 데이터만을 찾아 맵리듀스 테스크에 전송함으로써 데이터 전송 및 k-최근접점 연산 오버헤드를 줄인다. 성능평가를 통해, 제안하는 기법이 정확 매칭 질의를 제공하는 동시에 기존 기법에 비해 질의 처리 시간 측면에서 최대 7배의 성능을 개선함을 보인다.

MapReduce provides high levels of system scalability and fault tolerance for large-size data processing. A MapReduce-based k-nearest-neighbor(k-NN) join algorithm seeks to produce the k nearest-neighbors of each point of a dataset from another dataset. The algorithm has been considered important in bigdata analysis. However, the existing k-NN join query-processing algorithm suffers from a high index-construction cost that makes it unsuitable for the processing of bigdata. To solve the corresponding problems, we propose a new grid-based, k-NN join query-processing algorithm. Our algorithm retrieves only the neighboring data from a query cell and sends them to each MapReduce task, making it possible to improve the overhead data transmission and computation. Our performance analysis shows that our algorithm outperforms the existing scheme by up to seven-fold in terms of the query-processing time, while also achieving high extent of query-result accuracy.

키워드

과제정보

연구 과제 주관 기관 : 한국연구재단

참고문헌

  1. EMC ANNUAL REPORT, [online]. Available: http://korea.emc.com/corporate/annual-report/big-data.htm (accessed 2014, Feb, 01)
  2. Y. S. Min, H. Y. Kim, Y. K. Kim, "A Trend to Distributed File Systems for Cloud Computing," Journal of KIISE, Vol. 27, No. 5, pp. 86-94, May. 2009. (in Korean)
  3. Apache Software Foundation, Hadoop MapReduce [online]. Available: http://hadoop.apache.org/mapreduce
  4. J. Dean, S. Ghemawat, "MapReduce: Simplified Data Processing on Large Clusters," Operating System Design and Implementation, 2004.
  5. D. Jiang, B. C. Ooi, L. Shi, S. Wu, "The performance of MapReduce: An In-depth Study," Proc. of the PVLDB, 2010.
  6. E. M. Knorr, R. T. Ng, "Algorithms for Mining Distance-based Outlier in Large Datasets," Proc. of the VLDB, 1998.
  7. M. M. Breuning, H. -P. Kriegel, R. T. NG, J. Sander, "Lof: Identifying Density-based Local Outliers," Proc. of the SIGMOD, 2000.
  8. C. Bohm and H.-P. Kriegel, "A Cost Model and Index Architecture for the Similarity Join," Proc. of the ICDE, 2001.
  9. C. Xia, H. Lu, B. C. Ooi, J. Hu. Gorder, "An efficient method for knn join processing," Proc. of the VLDB, 2004.
  10. C. Yu, B. Cui, S. Wang, and J. Su, "Efficient Index-based knn Join Processing for High-dimensional Data," Information and Software Technology, 2007.
  11. B. Yao, F. Li, P. Kumar, "K Nearest Neighbor Queries and knn-joins in Large Relational Databases (almost) for Free," Proc. of the ICDE, 2010.
  12. Lu Wei, Shen Su, Chen Beng, Chin Ooi, "Efficient Processing of k Nearest Neighbor Joins Using Mapreduce," Proc. of the PVLDB, 2012.
  13. C. Zhang, F Li, J. Jestes, "Efficient Parallel kNN joins for Large Data in MapReduce," Proc. of the EDBT: 15th International Conference on Extending Database Technology, 2012.
  14. H. Kllapi, B. Harb, C. Yu, "Near Neighbor Join," Proc. of International Conference of Data Engineering, 2014.
  15. S, Yang, M. A. Cheema, X. Lin, W. Wang, "Reverse k Nearest Neighbors Query Processing:Experiments and Analysis," Proc. of the VLDB, 2015.
  16. C. Yu, B. C. Ooi, K. -L. Tan, H. V. Jagadish, "Indexing the Distance: An Efficient Method to knn Processing," Proc. of the VLDB, 2001.
  17. Moderate Resolution Imaging Spectroradiometer. [Online]. Available: http://modis.gsfc.nasa.gov/data/ (downloaded 2014, Feb. 01)