DOI QR코드

DOI QR Code

Measuring Hadoop Optimality by Lorenz Curve

로렌츠 커브를 이용한 하둡 플랫폼의 최적화 지수

  • Received : 2013.12.18
  • Accepted : 2014.03.11
  • Published : 2014.04.30

Abstract

Ever increasing "Big data" can only be effectively processed by parallel computing. Parallel computing refers to a high performance computational method that achieves effectiveness by dividing a big query into smaller subtasks and aggregating results from subtasks to provide an output. However, it is well-known that parallel computing does not achieve scalability which means that performance is improved linearly by adding more computers because it requires a very careful assignment of tasks to each node and collecting results in a timely manner. Hadoop is one of the most successful platforms to attain scalability. In this paper, we propose a measurement for Hadoop optimization by utilizing a Lorenz curve which is a proxy for the inequality of hardware resources. Our proposed index takes into account the intrinsic overhead of Hadoop systems such as CPU, disk I/O and network. Therefore, it also indicates that a given Hadoop can be improved explicitly and in what capacity. Our proposed method is illustrated with experimental data and substantiated by Monte Carlo simulations.

최근 큰 관심을 받는 빅데이터는 분산처리를 통해서만 효과적으로 처리할 수 있다. 분산처리란 주어진 쿼리를 여러 대의 컴퓨터로 분할하고 각 분할된 데이터의 계산 결과를 취합하는 과정으로, 주어진 하드웨어 리소스를 효과적으로 최대한 사용하는 것이 중요하다. 하둡은 이러한 분산처리를 가능하게 하는 플랫폼 중의 하나로 분산처리에 사용된 컴퓨터의 개수만큼 성능 향상을 기대할 수 있는 확장성을 최대한 보장하는 매우 성공적인 플랫폼이다. 이 논문에서는 하둡 플랫폼이 얼마나 최적화 되어있는지에 대한 객관적이고 계량적인 지수를 제공함으로써 주어진 하둡 플랫폼의 효율성을 측정한다. 방법론적으로는 로렌츠 커브를 이용하여 하드웨어 리소스들이 얼마나 잘 균등히 배분되어 있는지 살펴보고 CPU, 디스크 일기/쓰기 및 네트워크 병목현상에 따른 비용을 감안한 최적화된 로렌츠 커브를 찾음으로써 최적화 지수를 산출한다. 바꾸어 말하면, 이러한 최적화 지수는 주어진 하둡 플랫폼이 얼마만큼의 성능 향상이 가능한지 알려주는 척도로 오랜 시간을 필요로 하는 빅테이터의 처리 속도 개선을 위한 중요한 정보를 제공한다. 실험 자료 및 모의실험을 통해 본 논문에서 제안된 방법을 검증하였다.

Keywords

References

  1. Bai, J. and Perron, P. (1998). Estimating and testing linear models with multiple structural changes, Econo- metrica, 66, 47-78. https://doi.org/10.2307/2998540
  2. Dean, J. and Ghemawat, S. (2004). MapReduce: simplified data processing on large clusters, In Proceedings of the 6th USENIX Symposium on Operating Systems Design and Implementation (OSDI), 10.
  3. Embrechts, P., Kluppelberg, C. and Mikosch, T. (1997). Modelling Extremal Events: For Insurance and Finance, Springer.
  4. Ghemawat, S., Gobioff, H. and Leung, S.-T. (2003). The Google file system, In Proceedings of the 19th ACM Symposium on Operating Systems Principles (SOSP), 29-43.
  5. Herodotou, H. and Babu, S. (2011). Profiling, What-if Analysis, and Cost-based Optimization of MapReduce Programs, In Proceedings of the VLDB Endowment, 4, 1111-1122.
  6. Jiang, D., Ooi, B. C., Shi, L. and Wu, S. (2010). The performance of MapReduce: an in-depth study, In Proceedings of the VLDB Endowment, 3, 472-483.
  7. Khoussainova, N., Balazinska, M. and Suciu, D. (2012). PerfXplain: debugging MapReduce job performance, In Proceedings of the VLDB Endowment, 5, 598-609.
  8. Lee, K.-H., Lee, Y.-J., Choi, H., Chung, Y. D. and Moon, B. (2012). Parallel data processing with MapReduce: A survey, SIGMOD Record, 40, 11-20. https://doi.org/10.1145/2094114.2094118
  9. Shafer, J., Rixner, S. and Cox, A. L. (2010). The Hadoop Distributed Filesystem: Balancing Portability and Performance, In Proceedings of 2010 IEEE International Symposium on Performance Analysis of Systems and Software (ISPASS), 122-133.
  10. Yitzhaki, S. and Schechtman, E. (2012). The Gini Methodology: A Primer on a Statistical Methodology, Springer series in statistics, Springer.