• 제목/요약/키워드: Tajo

검색결과 5건 처리시간 0.018초

하둡 기반 DW시스템 타조와 관계형 DBMS의 성능 비교 (Performance Comparison of DW System Tajo Based on Hadoop and Relational DBMS)

  • 유신;고정현;여정모
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권9호
    • /
    • pp.349-354
    • /
    • 2014
  • 빅데이터 처리 플랫폼인 하둡의 등장 이후 SQL을 이용하여 하둡상에서 데이터 분석을 할 수 있는 SQL-on-Hadoop 기술이 주목받고 있다. 그 중에서도 국내 개발자가 주축이 되어 개발하고 올해 4월 아파치 최상위 프로젝트로 선정된 타조(Tajo)가 많은 주목을 받고 있다. SQL-on-Hadoop 기술의 등장으로 DW시장의 변화가 포착되고 있지만 그 성능에 관한 연구는 미미한 실정이다. 그래서 본 연구에서는 타조를 이용하여 관계형 데이터베이스와의 데이터 분석성능 비교에 관한 실험을 진행하여 SQL-on-Hadoop 기반 DW 선택에 도움이 될 연구를 수행하였다. 하둡 기반기술인 타조를 올바른 사용전략을 세워 활용한다면 관계형 데이터베이스보다 우수한 성능을 보인다는 결과를 얻었으며 오픈 소스인 타조는 많은 개발자들의 참여로 인해 점차 기술의 완성도가 높아져 DW 및 데이터 분석분야에서 중요한 축을 담당할 수 있을 것으로 예상한다.

매개변수 환경설정에 따른 타조의 외부합병정렬 성능 연구 (External Merge Sorting in Tajo with Variable Server Configuration)

  • 이종백;강운학;이상원
    • 정보과학회 논문지
    • /
    • 제43권7호
    • /
    • pp.820-826
    • /
    • 2016
  • 거대한 데이터로부터 가치 있는 정보를 추출해 내는 빅데이터 기술의 필요성은 나날이 커지고 있다. 빅데이터 분석을 위해 사용되는 하둡 시스템은 맵리듀스를 통해 데이터를 처리하였으나, 맵리듀스 프레임워크는 코드 재사용성의 한계, 질의 최적화 기술의 부재 등의 단점을 보인다. 이를 극복하기 위해 SQL-on-Hadoop이라 불리는 하둡 기반의 SQL 질의 처리 기술이 주목받고 있다. SQL-on-Hadoop 기술 중 타조(Tajo)는 국내 개발진이 주축이 되어 개발되었다. 타조는 데이터 분석을 위해 외부합병정렬 알고리즘을 사용하며, 정렬 연산에 영향을 주는 매개변수로 정렬 버퍼 사이즈와 팬-아웃을 가진다. 본 논문은 타조의 정렬 연산에 영향을 미치는 매개변수인 정렬 버퍼 사이즈와 팬-아웃 값에 따른 정렬의 성능 차이를 보인다. 또한 측정한 성능에 대하여 정렬 버퍼 사이즈가 증가함에 따른 CPU 캐시 미스의 비율 증가, 팬-아웃에 따른 합병 단계 수의 변화가 성능 차이의 원인임을 보인다.

Efficient Multimedia Data File Management and Retrieval Strategy on Big Data Processing System

  • Lee, Jae-Kyung;Shin, Su-Mi;Kim, Kyung-Chang
    • 한국컴퓨터정보학회논문지
    • /
    • 제20권8호
    • /
    • pp.77-83
    • /
    • 2015
  • The storage and retrieval of multimedia data is becoming increasingly important in many application areas including record management, video(CCTV) management and Internet of Things (IoT). In these applications, the files containing multimedia that need to be stored and managed is tremendous and constantly scaling. In this paper, we propose a technique to retrieve a very large number of files, in multimedia format, using the Hadoop Framework. Our strategy is based on the management of metadata that describes the characteristic of files that are stored in Hadoop Distributed File System (HDFS). The metadata schema is represented in Hbase and looked up using SQL On Hadoop (Hive, Tajo). Both the Hbase, Hive and Tajo are part of the Hadoop Ecosystem. Preliminary experiment on multimedia data files stored in HDFS shows the viability of the proposed strategy.

Matlab을 활용한 빅데이터 기반 분석 시스템 연구 (Research on the Analysis System based on the Big Data for Matlab)

  • 주문일;김희철
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2016년도 추계학술대회
    • /
    • pp.96-98
    • /
    • 2016
  • 최근 급속한 데이터의 생성으로 인하여 빅데이터 기술이 발전하고 있으며, 빅데이터를 분석하기 위한 다양한 빅데이터 분석 툴이 개발되어지고 있다. 대표적인 빅데이터 기반의 분석 툴은 R 프로그램, Hive, Tajo 등 다양한 분석 툴이 있다. 그러나, Matlab을 활용한 데이터 분석과 이를 위한 알고리즘 개발이 여전히 보편적이며, 빅데이터 분석에서도 Matlab이 광범위하게 사용되고 있다. 본 논문은 생체신호를 분석하는 Matlab을 활용한 빅데이터 기반 분석 시스템을 연구하고자 한다.

  • PDF

네트워크 기반 조선왕조 건국과정 분석 (Analysis of Foundation Procedure for Chosun Dynasty Based on Network)

  • 김학용
    • 한국콘텐츠학회논문지
    • /
    • 제15권5호
    • /
    • pp.582-591
    • /
    • 2015
  • 고려 공민왕에서부터 조선이 건국되는 과정을 다양한 시각에서 기록된 네 가지 다른 역사서로부터 등장인물을 추출하여 서로 다른 네트워크를 구축하였다. 본 연구에서 구축한 모든 네트워크는 일반적인 사회네트워크와 마찬가지로 척도 없는 네트워크의 특성을 보여주었다. 다른 역사서와는 달리 태조 총서는 이성계와 그 가문 중심으로 주관적으로 기록된 역사임을 네트워크 기반으로 확인할 수 있었다. 이는 이미 잘 알려져 있는 사실이지만 네트워크 연구를 통해서 확인할 수 있다는 것에 의의가 있다. 또 다른 사실은 정도전이 조선건국의 설계자로 알려져 있으나 네트워크 연구에서는 조선건국에 있어서 실제 그의 역할이 두드려지지 않았는데, 이 사실은 다양한 역사적 기록에서도 확인할 수 있었다. 따라서 네트워크를 기반으로 하는 본 연구는 고려말과 조선건국 사이의 역사적 사실을 좀 더 객관적으로 바라볼 수 있는 정보를 제공할 수 있는데 의의가 있다. 네트워크 연구에서 중심인물 또는 허브 노드를 결정하는 구조인자는 연결계수다. 응집 중심성은 네트워크상에서 위치의 중요성을 나타내는 척도다. 본 연구에서는 연결계수 값에 응집 중심성 값을 추가하여 상호 비교함으로써 중심인물을 결정하는데 보완할 수 있는 방법론을 도입하였으며, 역사네트워크에서 주관성과 편향성을 반영하는 척도로 활용할 수 있음을 제시하였다. 향후 네트워크 연구에서 연결계수와 응집 중심성을 동시에 고려하는 알고리즘을 개발한다면 허브 노드를 결정하는 새로운 방법으로 활용할 수 있을 것이다.