• 제목/요약/키워드: Hadoop Environment

검색결과 91건 처리시간 0.019초

An Adaptively Speculative Execution Strategy Based on Real-Time Resource Awareness in a Multi-Job Heterogeneous Environment

  • Liu, Qi;Cai, Weidong;Liu, Qiang;Shen, Jian;Fu, Zhangjie;Liu, Xiaodong;Linge, Nigel
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제11권2호
    • /
    • pp.670-686
    • /
    • 2017
  • MapReduce (MRV1), a popular programming model, proposed by Google, has been well used to process large datasets in Hadoop, an open source cloud platform. Its new version MapReduce 2.0 (MRV2) developed along with the emerging of Yarn has achieved obvious improvement over MRV1. However, MRV2 suffers from long finishing time on certain types of jobs. Speculative Execution (SE) has been presented as an approach to the problem above by backing up those delayed jobs from low-performance machines to higher ones. In this paper, an adaptive SE strategy (ASE) is presented in Hadoop-2.6.0. Experiment results have depicted that the ASE duplicates tasks according to real-time resources usage among work nodes in a cloud. In addition, the performance of MRV2 is largely improved using the ASE strategy on job execution time and resource consumption, whether in a multi-job environment.

Deep Learning-Based Smart Meter Wattage Prediction Analysis Platform

  • Jang, Seonghoon;Shin, Seung-Jung
    • International journal of advanced smart convergence
    • /
    • 제9권4호
    • /
    • pp.173-178
    • /
    • 2020
  • As the fourth industrial revolution, in which people, objects, and information are connected as one, various fields such as smart energy, smart cities, artificial intelligence, the Internet of Things, unmanned cars, and robot industries are becoming the mainstream, drawing attention to big data. Among them, Smart Grid is a technology that maximizes energy efficiency by converging information and communication technologies into the power grid to establish a smart grid that can know electricity usage, supply volume, and power line conditions. Smart meters are equient that monitors and communicates power usage. We start with the goal of building a virtual smart grid and constructing a virtual environment in which real-time data is generated to accommodate large volumes of data that are small in capacity but regularly generated. A major role is given in creating a software/hardware architecture deployment environment suitable for the system for test operations. It is necessary to identify the advantages and disadvantages of the software according to the characteristics of the collected data and select sub-projects suitable for the purpose. The collected data was collected/loaded/processed/analyzed by the Hadoop ecosystem-based big data platform, and used to predict power demand through deep learning.

오픈 소스 프레임워크를 활용한 검색엔진 구현 (Implement on Search Machine using Open Source Framework)

  • 송현옥;김아용;정회경
    • 한국정보통신학회논문지
    • /
    • 제19권3호
    • /
    • pp.552-557
    • /
    • 2015
  • IT 기술 발전과 스마트 기기들의 사용 증가로 인해 인터넷에서는 많은 데이터가 생산되고 소비된다. 이로 인해 정보 검색 기술의 중요성이 높아지고 있지만 정보 검색 기술은 많은 배경 지식을 요구하여 접근하기 어려운 기술로 인식되고 있다. 그러나 Luene의 등장으로 인해 검색 기술에 대한 배경 지식이 부족해도 Lucene을 사용하여 검색 엔진을 구현할 수 있는 배경을 마련되었다. 본 논문에서는 Lucene 기반으로 개발된 프레임워크들을 사용하여 검색엔진을 구현하는 방법에 대해 제안한다. 제안하는 검색엔진에 사용되는 프레임워크들은 Hadoop과 Nutch, Solr, Zookeeper를 사용하여 분산처리와 분산저장, 그리고 고가용성을 지원하는 서버 환경을 보장한다.

분산병렬처리 환경에서 오토매핑 기법을 통한 NoSQL과 RDBMS와의 연동 (Interoperability between NoSQL and RDBMS via Auto-mapping Scheme in Distributed Parallel Processing Environment)

  • 김희성;이봉환
    • 한국정보통신학회논문지
    • /
    • 제21권11호
    • /
    • pp.2067-2075
    • /
    • 2017
  • 최근 빅데이터가 주목받게 되면서 빅데이터를 처리하기 위한 시스템들도 중요하게 여겨지고 있다. 빅데이터 처리 시스템으로 분산파일시스템인 Hadoop과 비정형 데이터 처리를 위한 NoSQL 데이터 스토어가 주목받고 있다. 하지만 아직까지 NoSQL을 사용함에 있어 어려움이나 불편함도 존재한다. 저용량 데이터인 경우 NoSQL의 MapReduce는 불필요한 작업시간을 소모하게 되며, RDBMS 보다 상대적으로 많은 데이터 탐색 시간이 소요되기도 한다. 본 논문에서는 이러한 NoSQL의 문제점을 해결하기 위해 NoSQL과 RDBMS 간의 연동 기법을 제안하였다. 개발한 오토매핑 기법은 처리할 데이터의 양에 따라 적합한 데이터베이스를 사용하게 하여 결과적으로 검색시간을 빠르게 할 수 있다. 실험 결과 제안한 데이터베이스 연동 기법은 특정 데이터 셋의 경우 검색시간을 최대 35%까지 줄일 수 있다.

RHIPE 플랫폼에서 빅데이터 로지스틱 회귀를 위한 학습 알고리즘 (Learning algorithms for big data logistic regression on RHIPE platform)

  • 정병호;임동훈
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권4호
    • /
    • pp.911-923
    • /
    • 2016
  • 빅데이터 시대에 머신러닝의 중요성은 더욱 부각되고 있고 로지스틱 회귀는 머신러닝에서 분류를 위한 방법으로 의료, 경제학, 마케팅 및 사회과학 전반에 걸쳐 널리 사용되고 있다. 지금까지 R과 Hadoop의 통합환경인 RHIPE 플랫폼은 설치 및 MapReduce 구현의 어려움으로 인해 거의 연구가 이루지 지지 않았다. 본 논문에서는 대용량 데이터에 대해 로지스틱 회귀 추정을 위한 두가지 알고리즘 즉, Gradient Descent 알고리즘과 Newton-Raphson 알고리즘에 대해 MapReduce로 구현하고, 실제 데이터와 모의실험 데이터를 가지고 이들 알고리즘 간의 성능을 비교하고자 한다. 알고리즘 성능 실험에서 Gradient Descent 알고리즘은 학습률에 크게 의존하고 또한 데이터에 따라 수렴하지 않는 문제를 갖고 있다. Newton-Raphson 알고리즘은 학습률이 불필요 할 뿐만 아니라 모든 실험 데이터에 대해 좋은 성능을 보였다.

부산지역 교통관련 기사를 이용한 비정형 빅데이터의 정형화와 시각적 해석 (Structuring of unstructured big data and visual interpretation)

  • 이경준;노윤환;윤상경;조영석
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권6호
    • /
    • pp.1431-1438
    • /
    • 2014
  • 2013년 1월 1일부터 2013년 12월 31일까지의 부산지역지인 국제신문과 부산일보의 기사들 중 제목에 '부산'과 '교통'을 동시에 포함한 2889건의 기사 내용의 관계 또는 관련 있는 데이터에 내재되어 있는 의미 있는 패턴을 찾아내고자한다. 데이터마이닝 (datamining)의 일부인 텍스트마이닝(textmining)의 기법을 이용하여 사회네트워크분석 (SNA; social network analysis)을 실시하였다. 비정형 데이터의 정형화를 위해 빅데이터의 저장, 처리 및 분석을 위해 자바 기반의 오픈소스 프레임워크인 하둡 생태계 (Hadoop ecosystem)의 HDFS와 맵리듀스 (MapReduce)를 Linux (Ubuntu-12.04LTS) 환경에서 이용하였고, 기존의 R패키지에서 제공되는 사회 네트워크 분석보다 효율적인 시각화를 위해 각 노드 및 선에 비율에 따른 가중치를 주어 색상과 굵기로 해석할 수 있도록 새로운 알고리즘을 구현하였다.

이동 평균과 3-시그마를 이용한 하둡 로그 데이터의 이상 탐지 (Anomaly Detection of Hadoop Log Data Using Moving Average and 3-Sigma)

  • 손시운;길명선;문양세;원희선
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권6호
    • /
    • pp.283-288
    • /
    • 2016
  • 최근 빅데이터 처리를 위한 연구들이 활발히 진행 중이며, 관련된 다양한 제품들이 개발되고 있다. 이에 따라, 기존 환경에서는 처리가 어려웠던 대용량 로그 데이터의 저장 및 분석이 가능해졌다. 본 논문은 다수의 서버에서 빠르게 생성되는 대량의 로그 데이터를 Apache Hive에서 분석할 수 있는 데이터 저장 구조를 제안한다. 그리고 저장된 로그 데이터로부터 특정 서버의 이상 유무를 판단하기 위해, 이동 평균 및 3-시그마 기반의 이상 탐지 기술을 설계 및 구현한다. 또한, 실험을 통해 로그 데이터의 급격한 증가폭을 나타내는 구간을 이상으로 판단하여, 제안한 이상 탐지 기술의 유효성을 보인다. 이 같은 결과를 볼 때, 본 연구는 하둡 기반으로 로그 데이터를 분석하여 이상치를 바르게 탐지할 수 있는 우수한 결과라 사료된다.

오픈소스 프레임워크 Storm을 활용한 IoT 환경 스트리밍 데이터 처리 (Handling Streaming Data by Using Open Source Framework Storm in IoT Environment)

  • 강윤희
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권7호
    • /
    • pp.313-318
    • /
    • 2016
  • IoT 환경에서 센싱 정보의 활용을 위해서는 센서로 부터 생성된 정보의 가공 및 처리를 위한 효율적인 소프트웨어 아키텍처 설계가 필수적이다. 특히 IoT 환경에서 사물은 인터넷에 연결되고 각종 센서를 탑재한 디바이스간 통신이 가능하여야 한다. 그러나 MapReduce 기반의 Hadoop과 Twister은 데이터의 배치 처리에 적합하지만, 스트리밍 센서 자료의 이동중 처리에는 제약점을 갖는다. 전통적인 스트리밍 데이터 처리 방법인 MOM 기반의 메시지 큐 시스템을 이용해 메시지 스트림을 처리하는 방식은 프로그래머가 메시지 흐름의 복잡도를 고려해야 상세한 처리를 프로그램 함으로써 유지보수 및 확장성을 갖기 어려움이 있다. 이 논문에서는 IoT 환경에서 수집된 센싱 자료의 처리를 위한 소프트 웨어 아키텍처를 설계하였다. 또한 설계된 소프트아키텍처를 기반으로 오픈소스 프레임워크인 Storm의 응용 구성을 기술한다. 구성응용은 센서게이트웨이(Sensor Gateway)를 통해 자료를 수집한 후 실시간 스트리밍 데이터를 파이프-필터 스타일로서 변환한다.

IoT 환경을 위한 빅데이터 기반 센서 데이터 처리 및 분석 (Big Data-based Sensor Data Processing and Analysis for IoT Environment)

  • 신동진;박지훈;김주호;곽광진;박정민;김정준
    • 한국인터넷방송통신학회논문지
    • /
    • 제19권1호
    • /
    • pp.117-126
    • /
    • 2019
  • IoT 환경에서 발생하는 데이터는 아주 다양하고, 4차 산업혁명의 발전으로 인해 특히 스마트팩토리와 같은 제조 설비 공장에서 발생하는 정형, 비정형 데이터도 확연하게 증가하는 추세이다. 이를 빅데이터 관련 솔루션을 이용하면 다양한 대용량 데이터의 수집, 저장, 처리, 분석 및 시각화 과정을 거쳐 정확한 분석 및 데이터 기반 의사결정을 통한 시스템의 개선 및 확장을 할 수 있다. 따라서 본 논문에서는 IoT 환경에서 사용되는 라즈베리 파이를 이용하여 직접 데이터를 생성하고, 다양한 빅데이터 솔루션을 이용하여 분석한다. 수집에는 Sqoop 솔루션을 이용하여 데이터베이스에서 HDFS로 수집 및 저장하고, 처리에는 Hadoop과 연결되어 병렬 처리가 가능한 Hive 솔루션을 사용하여 데이터를 처리한다. 마지막으로 범용적으로 쓰이는 R 프로그래밍을 통해 처리된 데이터를 분석 및 시각화하여 최종 검증하고자 한다.

USB 하이재킹을 이용한 클라우드 스토리지로의 효율적인 데이터 전송 기법 (An Efficient Data Transmission to Cloud Storage using USB Hijacking)

  • 엄현철;노재춘
    • 전자공학회논문지CI
    • /
    • 제48권6호
    • /
    • pp.47-55
    • /
    • 2011
  • 클라우드 스토리지로 데이터를 전송하는 경우, 데이터의 전송용량 및 속도와 모바일 기기의 배터리 사용량 과다로 인해 많은 제약이 따르게 된다. 특히 스마트폰과 같은 모바일 기기들이 대용량 데이터를 전송할 때, 일정하지 않은 데이터 전송 속도와 배터리 사용량은 신뢰성 있는 고속 통신 환경을 구축하는데 큰 장애가 되고 있다. 본 연구는 하둡(Hadoop) 기반의 클라우드 스토리지로 효율적인 데이터 전송을 실행하기 위한 기법을 제안한다. 본 연구에서 제안하는 기법은 USB Hijacking을 이용하여 모바일 기기와 사용자 PC를 동기화 시키도록 하였으며, 이를 통해 데이터 통신 시 용량이나 배터리의 제한 없이 대용량 데이터 전송이 이루어지도록 구현하였다.