DOI QR코드

DOI QR Code

Comparative Analysis of Map Reduction Performance by Data Compression Method for Improving Big Data Processing Efficiency

빅데이터 처리 효율 향상을 위한 데이터 압축 방식에 따른 맵리듀스 성능 비교 분석

  • Wonjib Kim (Department of Big Data, Seoul Gangseo Campus of Korea Polytechnics College) ;
  • Hayoon Kim (Department of Big Data, Seoul Gangseo Campus of Korea Polytechnics College) ;
  • HyeopGeon Lee (Department of Big Data, Seoul Gangseo Campus of Korea Polytechnics College) ;
  • Young-Woon Kim (Department of Big Data, Seoul Gangseo Campus of Korea Polytechnics College)
  • 김원집 (한국폴리텍대학 서울강서캠퍼스 빅데이터과) ;
  • 김하윤 (한국폴리텍대학 서울강서캠퍼스 빅데이터과) ;
  • 이협건 (한국폴리텍대학 서울강서캠퍼스 빅데이터과) ;
  • 김영운 (한국폴리텍대학 서울강서캠퍼스 빅데이터과)
  • Published : 2024.10.31

Abstract

하둡은 대용량 데이터 처리를 위한 대표적인 오픈소스 프레임워크이다. 특히 하둡의 맵리듀스 프로그래밍 모델은 분산 환경에서 병렬 처리를 가능하게 한다. 데이터를 처리하기 위한 환경에서는 데이터의 양의 방대해짐에 따라 저장 공간의 한계와 데이터의 전송 속도의 병목현상이 발생이 빈번하다. 이를 해결하기 위한 방법 중 하나는 데이터 압축 기술의 활용이다. 대표적으로 Gzip, Bzip2, Zstd 등이 있으며, 각 방식은 압축률, CPU 사용량, 메모리 사용 측면에서 상이한 특성을 보인다. 이에 본 논문은 하둡의 맵리듀스 프로그래밍 모델에서 대표적인 압축 방식을 구분하여 압축 방식에 따른 성능 평가를 수행한다. 수행 결과는 빅데이터 개발자들에게 맵리듀스 환경의 압축의 효율적 선택을 위한 가이드라인을 제시할 수 있다.

Keywords

References

  1. Apache Hadoop, https://hadoop.apache.org, accessed Sept. 27, 2024
  2. Deutsch, Peter. "GZIP file format specification version 4.3" (1996)
  3. Bzip2, "Bzip2 Homepage," http://www.bzip.org, accessed Sept. 27, 2024
  4. Wassenberg, J., & Fiedorowicz, P. (2020). Zstandard Compression and the 'application/zstd'