DOI QR코드

DOI QR Code

아파치 스쿱을 사용한 하둡의 데이터 적재 성능 영향 요인 분석

Analysis of the Influence Factors of Data Loading Performance Using Apache Sqoop

  • ;
  • 고정현 (부경대학교 컴퓨터공학과) ;
  • 여정모 (부경대학교 컴퓨터공학과)
  • 투고 : 2014.09.16
  • 심사 : 2014.11.26
  • 발행 : 2015.02.28

초록

빅데이터 기술은 데이터 처리 속도가 빠르다는 면에서 주목을 받고 있다. 그리고 관계형 데이터베이스(Relational Database: RDB)에 저장되어있는 대용량 정형 데이터를 더 빠르게 처리하기 위해서 빅데이터 기술을 활용하는 연구도 진행되고 있다. 다양한 분산 처리 도구들을 사용하여 분석 성능을 측정하는 연구는 많지만 분석하기 전 단계인 정형 데이터 적재의 성능에 관한 연구는 미미하다. 때문에 본 연구에서는 RDB 안에 저장되어있는 정형 데이터를 아파치 스쿱(Apache Sqoop)을 사용하여 분산 처리 플랫폼 하둡(Hadoop)으로 적재하는 성능을 측정하였다. 그리고 적재에 영향을 미치는 요인을 분석하기 위해 여러 가지 영향 요소를 변경해가면서 반복적으로 실험을 수행하였고 RDB 기반으로 구성된 서버 간의 적재 성능과 비교하였다. 실험 환경에서 아파치 스쿱의 적재 속도가 낮았지만 실제 운영하고 있는 대규모 하둡 클러스터 환경에서는 더 많은 하드웨어 자원이 확보되기 때문에 훨씬 더 좋은 성능을 기대할 수 있다. 이는 향후 진행할 적재 성능 개선 및 하둡 환경에서 정형 데이터를 분석하는 전체적인 단계의 성능을 향상시킬 수 있는 방법에 대한 연구의 기반이 될 것으로 예상한다.

Big Data technology has been attracted much attention in aspect of fast data processing. Research of practicing Big Data technology is also ongoing to process large-scale structured data much faster in Relatioinal Database(RDB). Although there are lots of studies about measuring analyzing performance, studies about structured data loading performance, prior step of analyzing, is very rare. Thus, in this study, structured data in RDB is tested the performance that loads distributed processing platform Hadoop using Apache sqoop. Also in order to analyze the influence factors of data loading, it is tested repeatedly with different options of data loading and compared with data loading performance among RDB based servers. Although data loading performance of Apache Sqoop in test environment was low, but in large-scale Hadoop cluster environment we can expect much better performance because of getting more hardware resources. It is expected to be based on study improving data loading performance and whole steps of performance analyzing structured data in Hadoop Platform.

키워드

참고문헌

  1. Apache Hadoop [Internet], http://hadoop.apache.org
  2. Apache Sqoop [Internet], http://sqoop.apache.org
  3. Lee Hyunjong, "Use of Big Data Hadoop Platform," in Journal of Communications and Networks, Vol.29, No.11, 2012.
  4. Shvachko, K., Hairong Kuang, Radia, S., and Chansler, R., "The Hadoop Distributed File System," in Mass Storage Systems and Technologies (MSST), 2010 IEEE 26th Symposium on, Mar., 2010.
  5. HooYoung Ahn, KyongHa Lee, SooHo Lee, YoonJoon Lee, SangMin Lee, and YoungKyun Kim, "An Efficient Method for Enhancing the Storage Efficiency in Hadoop DFS," in Journal of KISS : computing practices, Vol.19, No.3, 2013.
  6. Dae Soon Choi, Jeehong Kim, and Young Ik Eom, "Analyses of Replica Placement Schemes in Distributed File Systems," in Journal of Computing Science and Engineering, Vol.39, No.1A, 2012.
  7. Tom White, "Hadoop: The Definitive Guide, Third Edition," O'Reilly/Yahoo Press, 2012.
  8. Kathleen Ting, Jarek Jarcec Cecho, "Apache Sqoop Cookbook," O'Reilly, 2013.
  9. Rinusha Irudeen, Sanjeeva Samaraweera, "Big data solution for Sri Lankan development: A case study from travel and tourism," in Advances in ICT for Emerging Regions, 2013 International Conference on.
  10. Nodar Momtselidze, Alex Kuksin "Hadoop Integrating with Oracle Data Warehouse and Data Mining," in Journal of Technical Science and Technologies, Vol.2, No.1, 2013.
  11. Ankit Jain, "Instant Apache Sqoop," Packt Publishing Ltd, 2013.
  12. Ognjen V. Joldzic, Dijana R. Vukovic, "The Impact of Cluster Characteristics on HiveQL Query Optimization," in Telecommunications Forum (TELFOR), 2013 21st.