DOI QR코드

DOI QR Code

Performance Comparison of DW System Tajo Based on Hadoop and Relational DBMS

하둡 기반 DW시스템 타조와 관계형 DBMS의 성능 비교

  • 유신 (부경대학교 컴퓨터공학과) ;
  • 고정현 (부경대학교 컴퓨터공학과) ;
  • 여정모 (부경대학교 컴퓨터공학과, (주)엔코아)
  • Received : 2014.04.28
  • Accepted : 2014.08.01
  • Published : 2014.09.30

Abstract

Since Hadoop which is the Big-data processing platform was announced, SQL-on-Hadoop is the spotlight as the technique to analyze data using SQL on Hadoop. Tajo created by Korean programmers has recently been promoted to Top-Level-Project status by the Apache in April and has been paid attention all around world. Despite a sensible change caused by Hadoop's appearance in DW market, researches of those performance is insufficient. Thus, this study has been conducted to help choose a DW solution based on SQL-on-Hadoop as progressing the test on comparison analysis of RDBMS and Tajo. It has shown that Tajo based on Hadoop is more superior than RDBMS if it is used with accurate strategy. In addition, open-source project Tajo is expected not only to achieve improvements in technique due to active participation of many developers but also to be in charge of an important role of DW in the filed of data analysis.

빅데이터 처리 플랫폼인 하둡의 등장 이후 SQL을 이용하여 하둡상에서 데이터 분석을 할 수 있는 SQL-on-Hadoop 기술이 주목받고 있다. 그 중에서도 국내 개발자가 주축이 되어 개발하고 올해 4월 아파치 최상위 프로젝트로 선정된 타조(Tajo)가 많은 주목을 받고 있다. SQL-on-Hadoop 기술의 등장으로 DW시장의 변화가 포착되고 있지만 그 성능에 관한 연구는 미미한 실정이다. 그래서 본 연구에서는 타조를 이용하여 관계형 데이터베이스와의 데이터 분석성능 비교에 관한 실험을 진행하여 SQL-on-Hadoop 기반 DW 선택에 도움이 될 연구를 수행하였다. 하둡 기반기술인 타조를 올바른 사용전략을 세워 활용한다면 관계형 데이터베이스보다 우수한 성능을 보인다는 결과를 얻었으며 오픈 소스인 타조는 많은 개발자들의 참여로 인해 점차 기술의 완성도가 높아져 DW 및 데이터 분석분야에서 중요한 축을 담당할 수 있을 것으로 예상한다.

Keywords

References

  1. Apache Hadoop [Internet]. http://hadoop.apache.org
  2. A. Thusoo, J. Sarma, N. Jain, Z. Shao, P. Chakka, N. Zhang, S. Antony, H. Liu, and R. Murthy, "Hive-a petabyte scale data warehouse using Hadoop," in Data Engine-ering(ICDE), 2010 IEEE 26thInternational Conferenceon, March, 2010, pp.996-1005.
  3. J. Dean and S. Ghemawat, "MapReduce: Simplified data procession on large clusters," in Usenix OSDI, Vol.51, No.1. ACM, 2004.
  4. Takgil Sim, "Trend of SQL-on-hadoop tech-nology based on Open-source," The Korea Society of Computer & Information, Vol.21, No.1, Jun., 2013.
  5. Mark A. Beyer and Roxane Edjlali, "Magic Quadrant for Data Warehouse Database Management Systems," Gartner, 2014.
  6. Hyunsik Choi, Jihoon Son, Haemi Yang, Hyoseok Ryu, Byungnam Lim, Soohyung Kim, and Yon Dohn Chung, "Tajo: A Distributed Data Warehouse System on Large Clusters," in IEEE ICDE Conference, 2013.
  7. Jaehwa Jung, "SQL-on-Hadoop with Apache Tajo, and application case of SK Telecom", in Deview, 2013.
  8. Googole BigQuery [Internet], http://developers.google.com/bigquery/
  9. Sergey Melnik, Andrey Gubarev, Jing Jing Long, Geoffrey Romer, Shiva Shivakumar, Matt Tolton, and Theo Vassilakis, "Dremel: Interactive Analysis of Web-Scale Datasets", Proc. of the 36th Int'l Conf on Very Large Data Bases, pp.330-339, 2010.
  10. Hyunsik Choi "SQL-on-Hadoop and Tajo", Tech Planet, 2013.
  11. Apache Tajo [Internet]. http://tajo.incu bator.apache.org
  12. Transaction Processing Performance Coouncill [Internet]. http://www.tpc.org/tpch/
  13. Apache Sqoop [Internet]. http://sqoop. apache.org

Cited by

  1. Unified Platform for AI and Big Data Analytics vol.05, pp.08, 2017, https://doi.org/10.4236/jcc.2017.58001