• 제목/요약/키워드: Hadoop Cluster

검색결과 72건 처리시간 0.029초

Hadoop 클러스터를 위한 모니터의 설계 및 구현 (Design and Implementation of a Monitor for Hadoop Cluster)

  • 금태훈;이원주;전창호
    • 전자공학회논문지CI
    • /
    • 제49권1호
    • /
    • pp.8-15
    • /
    • 2012
  • 본 논문에서는 Hadoop 클러스터의 노드 정보와 작업 정보를 실시간으로 수집할 수 있는 새로운 모니터를 제안한다. 이 모니터는 Hadoop클러스터의 노드 정보와 작업 정보를 수집하는 Agent, 수집된 정보를 분석하고 데이터베이스에 저장하는 Collector로 구성된다. 또한 Collector를 Hadoop 클러스터에 참여하지 않은 새로운 노드에 위치시킴으로써 분석과정에서 발생하는 오버헤드로 인한 Hadoop의 작업지연을 제거한다. 제안한 모니터를 구현하고 실험적 클러스터에 적용함으로써, dead 노드의 발생을 실시간으로 파악할 수 있었다. 또한, Hadoop의 작업수행 과정에서 비효율적인 과정을 발견하고 개선함으로써 작업수행시간을 단축시킬 수 있었다.

An Analytical Approach to Evaluation of SSD Effects under MapReduce Workloads

  • Ahn, Sungyong;Park, Sangkyu
    • JSTS:Journal of Semiconductor Technology and Science
    • /
    • 제15권5호
    • /
    • pp.511-518
    • /
    • 2015
  • As the cost-per-byte of SSDs dramatically decreases, the introduction of SSDs to Hadoop becomes an attractive choice for high performance data processing. In this paper the cost-per-performance of SSD-based Hadoop cluster (SSD-Hadoop) and HDD-based Hadoop cluster (HDD-Hadoop) are evaluated. For this, we propose a MapReduce performance model using queuing network to simulate the execution time of MapReduce job with varying cluster size. To achieve an accurate model, the execution time distribution of MapReduce job is carefully profiled. The developed model can precisely predict the execution time of MapReduce jobs with less than 7% difference for most cases. It is also found that SSD-Hadoop is 20% more cost efficient than HDD-Hadoop because SSD-Hadoop needs a smaller number of nodes than HDD-Hadoop to achieve a comparable performance, according to the results of simulation with varying the number of cluster nodes.

노드의 가용성을 고려한 하둡 태스크 할당 정책 (Task Assignment Policy for Hadoop Considering Availability of Nodes)

  • 류우석
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 춘계학술대회
    • /
    • pp.103-105
    • /
    • 2017
  • 하둡 맵리듀스(MapReduce)는 사용자가 요청한 잡을 하둡 클러스터에서 효과적으로 병렬 분산 처리하기 위한 프레임워크이다. 맵리듀스의 태스크 스케쥴러는 사용자의 잡 태스크들을 여러 노드에 할당하기 위한 기법이다. 하지만, 기존의 스케쥴러는 노드의 가용 상태에 따라 규모가 동적으로 변화하는 하둡 클러스터를 고려하지 않음으로써 클러스터의 자원을 충분히 활용하지 못하는 문제가 있다. 본 논문에서는 노드의 가용성을 고려하여 잡 태스크를 효과적으로 할당함으로써 하둡 클러스터의 활용성을 높이는 태스크 할당 정책을 제시한다.

  • PDF

Hadoop 상에서 MapReduce 응용프로그램 평가 (Performance Evaluation of MapReduce Application running on Hadoop)

  • 김준수;강윤희;박용범
    • 소프트웨어공학소사이어티 논문지
    • /
    • 제25권4호
    • /
    • pp.63-67
    • /
    • 2012
  • 다양한 분야에서 빠르게 대용량의 자료가 생성됨에 따라 이를 처리하기 위해 분산 프로그래밍 모델인 MapReduce의 활용이 도입되고 있다. 본 논문에서는 SUN Blade150에 Solaris와 Linux 환경의 클러스터 시스템을 구축한 뒤 해당 환경에서의 MapReduce 미들웨어인 Hadoop 에서 응용수행에 대한 평균 시간 및 표준 편차를 평가하여 Hadoop 기반 MapReduce 구현이 어떠한 클러스터 시스템에 의해 성능이 영향을 미치는지를 보인다.

  • PDF

A Novel Node Management in Hadoop Cluster by using DNA

  • Balaraju. J;PVRD. Prasada Rao
    • International Journal of Computer Science & Network Security
    • /
    • 제23권9호
    • /
    • pp.134-140
    • /
    • 2023
  • The distributed system is playing a vital role in storing and processing big data and data generation is speedily increasing from various sources every second. Hadoop has a scalable, and efficient distributed system supporting commodity hardware by combining different networks in the topographical locality. Node support in the Hadoop cluster is rapidly increasing in different versions which are facing difficulty to manage clusters. Hadoop does not provide Node management, adding and deletion node futures. Node identification in a cluster completely depends on DHCP servers which managing IP addresses, hostname based on the physical address (MAC) address of each Node. There is a scope to the hacker to theft the data using IP or Hostname and creating a disturbance in a distributed system by adding a malicious node, assigning duplicate IP. This paper proposing novel node management for the distributed system using DNA hiding and generating a unique key using a unique physical address (MAC) of each node and hostname. The proposed mechanism is providing better node management for the Hadoop cluster providing adding and deletion node mechanism by using limited computations and providing better node security from hackers. The main target of this paper is to propose an algorithm to implement Node information hiding in DNA sequences to increase and provide security to the node from hackers.

노드의 동적 다운 스케일링을 지원하는 분산 클러스터 시스템의 설계 및 구현 (Design and Implementation of Distributed Cluster Supporting Dynamic Down-Scaling of the Cluster)

  • 류우석
    • 한국전자통신학회논문지
    • /
    • 제18권2호
    • /
    • pp.361-366
    • /
    • 2023
  • 빅데이터의 분산 처리를 수행하기 위한 대표적인 프레임워크인 하둡은 클러스터 규모를 수천 개 이상의 노드까지 증가시켜서 병렬분산 처리 성능을 높일 수 있는 장점이 있다. 하지만 클러스터의 규모를 줄이는 것은 결함이 있거나 성능이 저하된 노드들을 영구적으로 퇴역시키는 수준에서 제한되어 있음에 따라 소규모 클러스터에서 여러 노드들을 유연하게 운용하기에는 한계가 있다. 본 논문에서는 하둡 클러스터에서 노드를 제거할 때 발생하는 문제점을 논의하고 분산 클러스터의 규모를 탄력적으로 관리하기 위한 동적 다운 스케일링 기법을 제안한다. 일시적 다운스케일을 목적으로 노드를 제거할 때 완전히 퇴역시키는 것이 아니라 일시적으로 해제하고 필요시 다시 연결할 수 있도록 함으로써 동적 다운 스케일링을 지원할 수 있도록 시스템과 인터페이스를 설계하고 구현하였다. 실험 결과 성능저하 없이 효과적으로 다운 스케일링을 수행하는 것을 검증하였다.

RDP: A storage-tier-aware Robust Data Placement strategy for Hadoop in a Cloud-based Heterogeneous Environment

  • Muhammad Faseeh Qureshi, Nawab;Shin, Dong Ryeol
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제10권9호
    • /
    • pp.4063-4086
    • /
    • 2016
  • Cloud computing is a robust technology, which facilitate to resolve many parallel distributed computing issues in the modern Big Data environment. Hadoop is an ecosystem, which process large data-sets in distributed computing environment. The HDFS is a filesystem of Hadoop, which process data blocks to the cluster nodes. The data block placement has become a bottleneck to overall performance in a Hadoop cluster. The current placement policy assumes that, all Datanodes have equal computing capacity to process data blocks. This computing capacity includes availability of same storage media and same processing performances of a node. As a result, Hadoop cluster performance gets effected with unbalanced workloads, inefficient storage-tier, network traffic congestion and HDFS integrity issues. This paper proposes a storage-tier-aware Robust Data Placement (RDP) scheme, which systematically resolves unbalanced workloads, reduces network congestion to an optimal state, utilizes storage-tier in a useful manner and minimizes the HDFS integrity issues. The experimental results show that the proposed approach reduced unbalanced workload issue to 72%. Moreover, the presented approach resolve storage-tier compatibility problem to 81% by predicting storage for block jobs and improved overall data block placement by 78% through pre-calculated computing capacity allocations and execution of map files over respective Namenode and Datanodes.

Public Cloud 기반 Hadoop Cluster를 이용한 IoT 데이터 처리 시스템 설계 (IoT Data Processing System Using a Public Cloud based Hadoop Cluster)

  • 이황로;최은미
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.188-191
    • /
    • 2013
  • 인간과 사물, 서비스 세 가지 분산된 환경 요소에 대해 인간의 명시적 개입 없이 상호 협력적으로 센싱, 네트워킹, 정보 처리 등 지능적 관계를 형성하는 사물 공간 연결망인 IoT(Internet of Things)에서 센싱된 정보를 처리하고 서비스하기 위한 환경을 적시적소에 배치(Depolyment) 하기 위하여 클라우드 서비스와의 연동방법에 대해 본 논문에서 연구하였다. Public Cloud환경에서 Hadoop Cluster를 구성하여 IoT 서비스에 적용할 수 있는 통합 환경을 구축하면 폭발적으로 증가하는 IoT 데이터를 저장하고 빠른 시간안에 이를 효과적으로 처리 및 분석하기 위한 시스템 구축이 가능하며 분산 저장소에 저장된 데이터를 분석하고 의미있는 지식을 발견하여 새로운 비즈니스 모델 창출에 기여할 수 있다. 본 논문에서 Public Cloud 환경에서 Hadoop Clouster를 구성하여 IoT에서 생성되는 데이터를 효과적으로 처리하고 분석할 수 있는 방법을 제안한다.

비용 효율적 맵리듀스 처리를 위한 클러스터 규모 설정 (Scaling of Hadoop Cluster for Cost-Effective Processing of MapReduce Applications)

  • 류우석
    • 한국전자통신학회논문지
    • /
    • 제15권1호
    • /
    • pp.107-114
    • /
    • 2020
  • 본 논문에서는 하둡 플랫폼에서 비용 효율적 빅데이터 분석을 수행하기 위한 클러스터 규모의 설정 방안을 연구한다. 의료기관의 경우 진료기록의 병원 외부 저장이 가능해짐에 따라 클라우드 기반 빅데이터 분석 요구가 증가하고 있다. 본 논문에서는 대중적으로 많이 사용되고 있는 클라우드 서비스인 아마존 EMR 프레임워크를 분석하고, 비용 효율적으로 하둡을 운용하기 위해 클러스터의 규모를 산정하기 위한 모델을 제시한다. 그리고, 다양한 조건에서의 실험을 통해 맵리듀스의 실행에 영향을 미치는 요인을 분석한다. 이를 통해 비용 대비 처리시간이 가장 효율적인 클러스터를 설정함으로써 빅데이터 분석시 효율성을 증대시킬 수 있다.

Hadoop 클러스터를 위한 모니터링 툴 (Monitoring Tool for Hadoop Cluster)

  • 금태훈;이원주;전창호
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2010년도 제42차 하계학술발표논문집 18권2호
    • /
    • pp.17-18
    • /
    • 2010
  • 최근 이슈가 되고 있는 클라우드 컴퓨팅은 다수의 노드를 이용한 클러스터를 사용한다. 이러한 클러스터를 효율적으로 관리하기 위해 모니터링 툴을 사용하고 있다. 하지만, 기존의 모니터링 툴은 클러스터를 구성하는 노드의 가용성과 오버헤드, 데이터 수집/전송 방식에 중심을 둔 모니터링 툴이기 때문에 클라우드 클러스터의 세부 정보까지 모니터링 할 수 없다. 따라서 본 논문에서는 클라우드 컴퓨팅을 구축할 수 있는 플랫폼인 Hadoop을 위한 모니터링 툴을 제안한다.

  • PDF