빅데이터 처리 효율 향상을 위한 데이터 압축 방식에 따른 맵리듀스 성능 비교 분석

Comparative Analysis of Map Reduction Performance by Data Compression Method for Improving Big Data Processing Efficiency

  • 김원집 (한국폴리텍대학 서울강서캠퍼스 빅데이터과) ;
  • 김하윤 (한국폴리텍대학 서울강서캠퍼스 빅데이터과) ;
  • 이협건 (한국폴리텍대학 서울강서캠퍼스 빅데이터과) ;
  • 김영운 (한국폴리텍대학 서울강서캠퍼스 빅데이터과)
  • Wonjib Kim (Department of Big Data, Seoul Gangseo Campus of Korea Polytechnics College) ;
  • Hayoon Kim (Department of Big Data, Seoul Gangseo Campus of Korea Polytechnics College) ;
  • HyeopGeon Lee (Department of Big Data, Seoul Gangseo Campus of Korea Polytechnics College) ;
  • Young-Woon Kim (Department of Big Data, Seoul Gangseo Campus of Korea Polytechnics College)
  • 발행 : 2024.10.31

초록

하둡은 대용량 데이터 처리를 위한 대표적인 오픈소스 프레임워크이다. 특히 하둡의 맵리듀스 프로그래밍 모델은 분산 환경에서 병렬 처리를 가능하게 한다. 데이터를 처리하기 위한 환경에서는 데이터의 양의 방대해짐에 따라 저장 공간의 한계와 데이터의 전송 속도의 병목현상이 발생이 빈번하다. 이를 해결하기 위한 방법 중 하나는 데이터 압축 기술의 활용이다. 대표적으로 Gzip, Bzip2, Zstd 등이 있으며, 각 방식은 압축률, CPU 사용량, 메모리 사용 측면에서 상이한 특성을 보인다. 이에 본 논문은 하둡의 맵리듀스 프로그래밍 모델에서 대표적인 압축 방식을 구분하여 압축 방식에 따른 성능 평가를 수행한다. 수행 결과는 빅데이터 개발자들에게 맵리듀스 환경의 압축의 효율적 선택을 위한 가이드라인을 제시할 수 있다.

키워드

참고문헌

  1. Apache Hadoop, https://hadoop.apache.org, accessed Sept. 27, 2024
  2. Deutsch, Peter. "GZIP file format specification version 4.3" (1996)
  3. Bzip2, "Bzip2 Homepage," http://www.bzip.org, accessed Sept. 27, 2024
  4. Wassenberg, J., & Fiedorowicz, P. (2020). Zstandard Compression and the 'application/zstd'