DOI QR코드

DOI QR Code

An Efficient Angular Space Partitioning Based Skyline Query Processing Using Sampling-Based Pruning

데이터 샘플링 기반 프루닝 기법을 도입한 효율적인 각도 기반 공간 분할 병렬 스카이라인 질의 처리 기법

  • 최우성 (고려대학교 컴퓨터학과) ;
  • 김민석 (고려대학교 컴퓨터학과) ;
  • ;
  • 정재화 (한국방송통신대학교 컴퓨터과학과) ;
  • 정순영 (고려대학교 컴퓨터학과)
  • Received : 2016.07.04
  • Accepted : 2016.09.29
  • Published : 2017.01.31

Abstract

Given a multi-dimensional dataset of tuples, a skyline query returns a subset of tuples which are not 'dominated' by any other tuples. Skyline query is very useful in Big data analysis since it filters out uninteresting items. Much interest was devoted to the MapReduce-based parallel processing of skyline queries in large-scale distributed environment. There are three requirements to improve parallelism in MapReduced-based algorithms: (1) workload should be well balanced (2) avoid redundant computations (3) Optimize network communication cost. In this paper, we introduce MR-SEAP (MapReduce sample Skyline object Equality Angular Partitioning), an efficient angular space partitioning based skyline query processing using sampling-based pruning, which satisfies requirements above. We conduct an extensive experiment to evaluate MR-SEAP.

다기준 의사결정 시 활용할 수 있는 스카이라인 질의는 다수의 선택지 중에서 사용자가 '선호하지 않을 만한'(uninteresting) 선택지를 제거함으로써 사용자가 검토해야 하는 선택지의 수를 대폭 감소시키기 때문에 대용량 데이터 분석 시 매우 유용하게 활용될 수 있다. 이러한 배경에서 대용량 데이터에 대한 스카이라인 질의를 분산 병렬 처리하는 기법이 각광을 받고 있으며, 특히 맵리듀스(MapReduce) 기반의 분산 병렬 처리 기법 연구가 활발히 진행되어 왔다. 맵리듀스 기반 알고리즘의 병렬성 제고를 위해서는 부하 불균등 문제 중복 계산 문제 과다한 네트워크 비용 발생 문제를 해소해야 한다. 본 논문에서는 부하 불균등 문제와 중복 계산 문제를 해소하면서도 데이터 샘플링 기반 프루닝을 통해 네트워크 비용 절감 시킬 수 있는 맵리듀스 기반 병렬 스카이라인 질의 처리 기법인 MR-SEAP(MapReduce sample Skyline object Equality Angular Partitioning)을 소개한다. 또한 다양한 관점에서의 실험 평가함으로써 제안 기법의 효용성을 다방면으로 검증했다.

Keywords

References

  1. Borzsony, Stephan, Donald Kossmann, and Konrad Stocker, "The skyline operator," Data Engineering, 2001, Proceedings, 17th International Conference on. IEEE, 2001.
  2. Zhang, Boliang, Shuigeng Zhou, and Jihong Guan, "Adapting skyline computation to the mapreduce framework: Algorithms and experiments," International Conference on Database Systems for Advanced Applications, Springer Berlin Heidelberg, 2011.
  3. Park, Yoonjae, Jun-Ki Min, and Kyuseok Shim, "Parallel computation of skyline and reverse skyline queries using mapreduce," Proceedings of the VLDB Endowment, Vol.6, No.14, pp.2002-2013, 2013. https://doi.org/10.14778/2556549.2556580
  4. Jaehwa Chung, "Data Samping-based Angular Space Partitioning for Parallel Skyline Query Processing," The Korean Association Computer Education, Vol.18, No.5, pp.63-70, 2015.
  5. J. S. Vitter, "Random sampling with a reservoir," ACM Transactions on Mathematical Software (TOMS), Vol.11, No.1, pp.37-57, 1985. https://doi.org/10.1145/3147.3165
  6. Woo-Sung Choi, Jong-Hyeon Min, Jaehwa Chung, and Soon-Young Jung, "A Sampling based Pruning Approach for Efficient Angular Space Partitioning based Skyline Query Processing," 2016 KIPS Spring Conference, Vol.23, No.1, pp.55-58, 2016.
  7. Shang, Haichuan and Masaru Kitsuregawa, "Skyline operator on anti-correlated distributions," Proceedings of the VLDB Endowment, Vol.6, No.9, pp.649-660, 2013. https://doi.org/10.14778/2536360.2536365