• 제목/요약/키워드: Hadoop System

검색결과 235건 처리시간 0.031초

Hadoop 상에서 MapReduce 응용프로그램 평가 (Performance Evaluation of MapReduce Application running on Hadoop)

  • 김준수;강윤희;박용범
    • 소프트웨어공학소사이어티 논문지
    • /
    • 제25권4호
    • /
    • pp.63-67
    • /
    • 2012
  • 다양한 분야에서 빠르게 대용량의 자료가 생성됨에 따라 이를 처리하기 위해 분산 프로그래밍 모델인 MapReduce의 활용이 도입되고 있다. 본 논문에서는 SUN Blade150에 Solaris와 Linux 환경의 클러스터 시스템을 구축한 뒤 해당 환경에서의 MapReduce 미들웨어인 Hadoop 에서 응용수행에 대한 평균 시간 및 표준 편차를 평가하여 Hadoop 기반 MapReduce 구현이 어떠한 클러스터 시스템에 의해 성능이 영향을 미치는지를 보인다.

  • PDF

분산 하둡 시스템의 성능 비교 분석 (Performance Analysis of Distributed Hadoop Systems)

  • 배병진;김영주;김영국
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2014년도 춘계학술대회
    • /
    • pp.479-482
    • /
    • 2014
  • 오늘날 급증하는 빅데이터를 효율적으로 관리하기 위해 오픈소스인 하둡을 많이 사용한다. 하둡은 분산 파일 처리 시스템인 HDFS(Hadoop Distributed File System)와 분산 병렬 처리 시스템인 맵리듀스(MapReduce)로 구성되어 있다. 하둡의 맵리듀스 프레임워크에서는 빅데이터를 HDFS에서 읽어들이고 분석 처리된 결과를 다시 HDFS에 쓴다. 이러한 분산 병렬 처리 방식은 하둡 버전에 따라 다른 시스템 구조를 가진다. 따라서 본 논문에서는 하둡 버전에 따른 빅데이터 처리 시에 동작하는 하둡시스템들의 내부 성능을 비교 분석한다. 이를 위해서 하둡 시스템을 감시할 수 있는 방법을 고안하여 내부적으로 생성되는 프로세스 및 스레드들과 변수들의 발생빈도를 측정하여 분석 지표로 사용한다.

  • PDF

An Empirical Performance Analysis on Hadoop via Optimizing the Network Heartbeat Period

  • Lee, Jaehwan;Choi, June;Roh, Hongchan;Shin, Ji Sun
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제12권11호
    • /
    • pp.5252-5268
    • /
    • 2018
  • To support a large-scale Hadoop cluster, Hadoop heartbeat messages are designed to deliver the significant messages, including task scheduling and completion messages, via piggybacking to reduce the number of messages received by the NameNode. Although Hadoop is designed and optimized for high-throughput computing via batch processing, the real-time processing of large amounts of data in Hadoop is increasingly important. This paper evaluates Hadoop's performance and costs when the heartbeat period is controlled to support latency sensitive applications. Through an empirical study based on Hadoop 2.0 (YARN) architecture, we improve Hadoop's I/O performance as well as application performance by up to 13 percent compared to the default configuration. We offer a guideline that predicts the performance, costs and limitations of the total system by controlling the heartbeat period using simple equations. We show that Hive performance can be improved by tuning Hadoop's heartbeat periods through extensive experiments.

DEVS 형식론 기반의 재겨냥성 하둡 시뮬레이션 환경 개발 (Development of Retargetable Hadoop Simulation Environment Based on DEVS Formalism)

  • 김병수;강봉구;김탁곤;송해상
    • 한국시뮬레이션학회논문지
    • /
    • 제26권4호
    • /
    • pp.51-61
    • /
    • 2017
  • 최근 빅 데이터가 증가하는 추세에 따라 이를 분석 및 처리하고 활용하는 방안에 대한 관심도 증대되고 있다. 이러한 빅 데이터를 저장, 관리하기 위한 대표적인 플랫폼으로 분산 컴퓨팅 프레임워크인 맵리듀스와 분산 파일 시스템인 HDFS로 구성된 하둡 플랫폼이 있다. 하둡은 일반적으로 수백 수천 대 이상의 클러스터로 구축되는데, 이 때 실제 클러스터 구성이나 파라미터에 따라 하둡 플랫폼이 가지는 효과도를 분석하는 것이 중요하다. 하지만 수천 대 이상의 클러스터 구축하여 이를 분석하는 것이 실질적으로 어렵기 때문에 모델링 및 시뮬레이션 기법을 통해 분석하는 것이 필요하다. 본 논문은 계층적이고 모듈러한 모델링이 가능한 DEVS 형식론을 기반으로 하둡 시뮬레이션 환경을 제안한다. 제안하는 시뮬레이션 환경은 하둡 실행 결과를 이용한 입력 모델 설계를 통해 어플리케이션의 특성을 잘 반영할 수 있으며, 파라미터/알고리즘/모델들을 다양하게 변경하여 실험할 수 있는 재겨냥성 환경을 제공한다. 또한 사용자 편의성의 극대화를 위해 사용자 인터페이스, 실시간 모델 뷰어, 입력 시나리오 편집기를 제공한다. 본 논문에서는 어플리케이션 실행 결과와의 비교를 통해 하둡 시뮬레이터를 검증하고, 다양한 파라미터에 대한 실험을 진행한다.

하둡 플랫폼을 이용한 대량의 스몰파일 처리방법 (Processing Method of Mass Small File Using Hadoop Platform)

  • 김창복;정재필
    • 한국항행학회논문지
    • /
    • 제18권4호
    • /
    • pp.401-408
    • /
    • 2014
  • 하둡(Hadoop)은 맵리듀스(MapReduce) 분산처리 프로그래밍 모델과 HDFS(Hadoop distributed file system) 분산 파일시스템으로 구성된다. 하둡은 빅데이터 처리에 적합한 프레임워크로서, 대량의 스몰파일 처리에 문제점이 있다. 하둡에서 대량의 스몰파일 처리는 하나의 파일마다 매퍼가 생성되며, 파일의 메타정보를 저장하기 위해 많은 메모리가 필요한 문제점이 있다. 본 논문은 하둡 플랫폼에서 다양한 방법으로 대량의 스몰파일 처리방법을 비교 검토하였다. 일반 압축은 데이터의 크기와 상관없이 하나의 매퍼로 처리해야 하기 때문에, 하둡 처리 포맷으로 적절하지 않다. 시퀀스 와 하둡 아카이브 파일의 처리는 스몰파일을 압축 및 병합을 통해 네임노드의 메모리 문제가 제거되었다. 하둡 아카이브 파일은 스몰파일의 병합시간이 시퀀스 파일보다 빠른 속도를 보였다. CombineFileInputFormat 클래스를 이용한 처리는 병합과정이 필요 없으며, 빅데이터 처리방법과 유사한 속도를 보였다.

A Novel Node Management in Hadoop Cluster by using DNA

  • Balaraju. J;PVRD. Prasada Rao
    • International Journal of Computer Science & Network Security
    • /
    • 제23권9호
    • /
    • pp.134-140
    • /
    • 2023
  • The distributed system is playing a vital role in storing and processing big data and data generation is speedily increasing from various sources every second. Hadoop has a scalable, and efficient distributed system supporting commodity hardware by combining different networks in the topographical locality. Node support in the Hadoop cluster is rapidly increasing in different versions which are facing difficulty to manage clusters. Hadoop does not provide Node management, adding and deletion node futures. Node identification in a cluster completely depends on DHCP servers which managing IP addresses, hostname based on the physical address (MAC) address of each Node. There is a scope to the hacker to theft the data using IP or Hostname and creating a disturbance in a distributed system by adding a malicious node, assigning duplicate IP. This paper proposing novel node management for the distributed system using DNA hiding and generating a unique key using a unique physical address (MAC) of each node and hostname. The proposed mechanism is providing better node management for the Hadoop cluster providing adding and deletion node mechanism by using limited computations and providing better node security from hackers. The main target of this paper is to propose an algorithm to implement Node information hiding in DNA sequences to increase and provide security to the node from hackers.

Hadoop에서 SQL 기반 질의언어를 지원하는 공간 빅데이터 질의처리 시스템 (Spatial Big Data Query Processing System Supporting SQL-based Query Language in Hadoop)

  • 주인학
    • 한국정보전자통신기술학회논문지
    • /
    • 제10권1호
    • /
    • pp.1-8
    • /
    • 2017
  • 본 논문에서는 Hadoop에 공간 데이터를 저장하고 SQL 기반 질의언어에 의하여 공간 데이터를 질의할 수 있는 공간 빅데이터 질의처리 시스템을 제시한다. 제안한 시스템은 대용량의 공간 빅데이터를 HDFS 기반의 저장 시스템에 저장하고 공간 데이터 처리기능이 추가확장된 SQL 기반 질의언어로 질의를 할 수 있도록 지원하며 OGC 심플 피처모델 기반의 공간 데이터 표준 데이터타입과 함수를 지원한다. 본 논문에서는 질의언어 파싱, 질의언어 검증, 질의계획 생성, 저장시스템 연동 등 질의처리의 주요 기능 개발을 제시하였다. 제안한 시스템의 성능을 기존 시스템과 비교하였으며, 실험에서는 Hadoop에 저장된 공간 데이터에 대한 영역질의의 질의실행시간에 있어서 비교 시스템 대비 약 58%의 성능향상을 나타냄을 보였다.

Efficient Multimedia Data File Management and Retrieval Strategy on Big Data Processing System

  • Lee, Jae-Kyung;Shin, Su-Mi;Kim, Kyung-Chang
    • 한국컴퓨터정보학회논문지
    • /
    • 제20권8호
    • /
    • pp.77-83
    • /
    • 2015
  • The storage and retrieval of multimedia data is becoming increasingly important in many application areas including record management, video(CCTV) management and Internet of Things (IoT). In these applications, the files containing multimedia that need to be stored and managed is tremendous and constantly scaling. In this paper, we propose a technique to retrieve a very large number of files, in multimedia format, using the Hadoop Framework. Our strategy is based on the management of metadata that describes the characteristic of files that are stored in Hadoop Distributed File System (HDFS). The metadata schema is represented in Hbase and looked up using SQL On Hadoop (Hive, Tajo). Both the Hbase, Hive and Tajo are part of the Hadoop Ecosystem. Preliminary experiment on multimedia data files stored in HDFS shows the viability of the proposed strategy.

Kerberos 기반 하둡 분산 파일 시스템의 안전성 향상방안 (A Study on Security Improvement in Hadoop Distributed File System Based on Kerberos)

  • 박소현;정익래
    • 정보보호학회논문지
    • /
    • 제23권5호
    • /
    • pp.803-813
    • /
    • 2013
  • 최근 스마트 기기 및 소셜 네트워크 서비스의 발달로 인해 데이터가 폭증하며 세계는 이른바 빅데이터 시대를 맞고 있다. 이에 이러한 데이터를 처리할 수 있는 새로운 기술인 빅데이터 처리기술은 클라우드 컴퓨팅 기술과 함께 주목받고 있으며, 가장 대표적인 기술이 바로 하둡이다. 하둡 분산 파일 시스템은 상용 리눅스 서버에서 실행되도록 설계된 오픈소스 프레임워크로서 수백 테라바이트 크기의 파일을 저장할 수 있다. 초기 하둡은 빅데이터 처리에 초점을 맞추어 보안이 거의 도입되지 않은 상태였으나 사용자가 빠르게 늘어남에 따라 하둡 분산 파일 시스템에 개인정보를 포함한 민감한 데이터가 많이 저장되면서, 2009년 커버로스와 토큰 시스템을 도입한 새로운 버전을 발표하였다. 그러나 이 시스템은 재전송 공격, 가장 공격 등이 가능하다는 취약점을 가진다. 따라서 본 논문에서는 하둡 분산 파일 시스템 보안 취약점을 분석하고, 이러한 취약점을 보완하면서 하둡의 성능을 유지할 수 있는 새로운 프로토콜을 제안한다.

타원곡선기반 하둡 분산 시스템의 초기 인증 프로토콜 (Initial Authentication Protocol of Hadoop Distribution System based on Elliptic Curve)

  • 정윤수;김용태;박길철
    • 디지털융복합연구
    • /
    • 제12권10호
    • /
    • pp.253-258
    • /
    • 2014
  • 최근 스마트폰 사용이 증가하면서 빅 데이터 서비스를 제공하는 클라우드 컴퓨팅 기술이 발달하고 있으며, 빅 데이터 서비스를 제공받으려는 사용자 또한 증가하고 있다. 빅 데이터 서비스 중 하둡 프레임워크는 데이터 집약적인 분산 어플리케이션을 지원하는 하둡 파일 시스템과 하둡 맵리듀스로 서비스를 제공하고 있으나, 하둡 시스템을 이용하는 스마트폰 서비스는 데이터 인증시 보안에 매우 취약한 상태이다. 본 논문에서는 스마트폰 서비스를 제공하는 하둡 시스템의 초기 과정의 인증 프로토콜을 제안한다. 제안 프로토콜은 하둡 시스템의 안전한 다중 데이터 처리를 지원하기 위해서 대칭키 암호 기술과 함께 ECC 기반의 알고리즘을 조합하였다. 특히, 제안 프로토콜은 사용자가 하둡 시스템에 접근하여 데이터를 처리할 때, 초기 인증키를 대칭키 대신 타원 곡선 기반의 공개키를 사용함으로써 안전성을 향상시켰다.