• Title/Summary/Keyword: HADOOP

Search Result 398, Processing Time 0.039 seconds

Design and Development of Big Data Platform based on IoT-based Children's Play Pattern Analysis

  • Jung, Seon-Jin
    • International Journal of Internet, Broadcasting and Communication
    • /
    • v.12 no.4
    • /
    • pp.218-225
    • /
    • 2020
  • The purpose of this paper is to establish an IoT-based big data platform that can check the space and form analysis in various play cultures of children. Therefore, to this end, in order to understand the healthy play culture of children, we are going to build a big data platform that allows IoT and smart devices to work together to collect data. Therefore, the goal of this study is to develop a big data platform linked to IoT first in order to collect data related to observation of children's mobile movements. Using the developed big data platform, children's play culture can be checked anywhere through observation and intuitive UI design, quick information can be automatically collected and real-time feedback, data collected through repeaters can be aggregated and analyzed, and systematic database can be utilized in the form of big data.

Big Data Analysis and Prediction of Traffic in Los Angeles

  • Dauletbak, Dalyapraz;Woo, Jongwook
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • v.14 no.2
    • /
    • pp.841-854
    • /
    • 2020
  • The paper explains the method to process, analyze and predict traffic patterns in Los Angeles county using Big Data and Machine Learning. The dataset is used from a popular navigating platform in the USA, which tracks information on the road using connected users' devices and also collects reports shared by the users through the app. The dataset mainly consists of information about traffic jams and traffic incidents reported by users, such as road closure, hazards, accidents. The major contribution of this paper is to give a clear view of how the large-scale road traffic data can be stored and processed using the Big Data system - Hadoop and its ecosystem (Hive). In addition, analysis is explained with the help of visuals using Business Intelligence and prediction with classification machine learning model on the sampled traffic data is presented using Azure ML. The process of modeling, as well as results, are interpreted using metrics: accuracy, precision and recall.

A Study on the Big Data Analysis System for Searching of the Flooded Road Areas (도로 침수영역의 탐색을 위한 빅데이터 분석 시스템 연구)

  • Song, Youngmi;Kim, Chang Soo
    • Journal of Korea Multimedia Society
    • /
    • v.18 no.8
    • /
    • pp.925-934
    • /
    • 2015
  • The frequency of natural disasters because of global warming is gradually increasing, risks of flooding due to typhoon and torrential rain have also increased. Among these causes, the roads are flooded by suddenly torrential rain, and then vehicle and personal injury are happening. In this respect, because of the possibility that immersion of a road may occur in a second, it is necessary to study the rapid data collection and quick response system. Our research proposes a big data analysis system based on the collected information and a variety of system information collection methods for searching flooded road areas by torrential rains. The data related flooded roads are utilized the SNS data, meteorological data and the road link data, etc. And the big data analysis system is implemented the distributed processing system based on the Hadoop platform.

An Attack-based Filtering Scheme for Slow Rate Denial-of-Service Attack Detection in Cloud Environment

  • Gutierrez, Janitza Nicole Punto;Lee, Kilhung
    • Journal of Multimedia Information System
    • /
    • v.7 no.2
    • /
    • pp.125-136
    • /
    • 2020
  • Nowadays, cloud computing is becoming more popular among companies. However, the characteristics of cloud computing such as a virtualized environment, constantly changing, possible to modify easily and multi-tenancy with a distributed nature, it is difficult to perform attack detection with traditional tools. This work proposes a solution which aims to collect traffic packets data by using Flume and filter them with Spark Streaming so it is possible to only consider suspicious data related to HTTP Slow Rate Denial-of-Service attacks and reduce the data that will be stored in Hadoop Distributed File System for analysis with the FP-Growth algorithm. With the proposed system, we also aim to address the difficulties in attack detection in cloud environment, facilitating the data collection, reducing detection time and enabling an almost real-time attack detection.

The Construction and Utilization of Cloud Computing Environment with Openstack (Openstack을 이용한 Cloud Computing 환경 구축 및 활용)

  • Kim, YoungHoon;Ji, Hoyoung;Moon, BongKyo
    • Annual Conference of KIPS
    • /
    • 2017.04a
    • /
    • pp.60-63
    • /
    • 2017
  • Cloud Computing 환경은 사용자로 하여금 네트워크를 통하여 운영플랫폼, 저장매체 등이 운영 가능한 컴퓨터 자원을 신속하게 이용할 수 있는 컴퓨팅 환경이다. 이 환경을 이용하여 사용자들에게 가상의 컴퓨팅 공간을 만들어 resource를 사용하게 만들어주는 Iaas(Infrastructure as a Service)가 급증하고 있다. OpenStack은 Cloud Computing 환경을 이용하여 사용자로 하여금 *aaS제공을 가능하게 해주는 오픈소스 소프트웨어 프로젝트이다. 이 연구는 Openstack을 활용하여 Cloud환경을 구축하고, 이를 활용 하는 방안에 대한 연구이다. GitLab를 이용한 GitLab Service Launching을 시도하고, Hadoop을 통하여 Cloud 환경을 활용한 분산처리 시스템을 구현, Cloud의 활용 방안을 탐구한다.

Performance evaluation and prediction for number of slave nodes in Spark (스파크 기반 분산 환경에서 슬레이브 노드의 개수에 따른 성능 분석과 예측)

  • Bak, Bongwoo;Myung, Rohyoung;Chung, KwangSik;Yu, Heonchang;Choi, Sukyong
    • Annual Conference of KIPS
    • /
    • 2017.04a
    • /
    • pp.94-96
    • /
    • 2017
  • 최근 빅 데이터를 이용한 시스템들이 여러 분야에서 활발히 이용되기 시작하면서 대표적인 빅 데이터 저장 및 처리 플랫폼인 하둡(Hadoop)의 기술적 단점을 보완할 수 있는 분산 시스템 플랫폼 스파크(Apache Spark)가 등장하였다. 본 플랫폼을 바탕으로 슬레이브 노드들에게 작업을 분산하여 대용량 연산을 수행한다. 하지만 요구하는 성능을 내기 위해 어느 정도 규모의 슬레이브 노드가 필요한지, 각각의 컴퓨팅 능력은 얼마나 필요한지를 예측하는데 어려움이 있다. 본 논문에서는 스파크에서 원하는 성능을 내기 위해 어떤 조건을 충족해야 하는지, 현재 환경에서는 어느 정도 성능을 낼 수 있는지 실험을 통해 모델을 만들어 예측한다.

A JobTracker Fault-tolerant Mechanism for MapReduce Framework (MapReduce 프레임워크를 위한 JobTracker 결함허용 메커니즘)

  • Hwang, Byung-Hyun;Park, Kie-Jin
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2010.06a
    • /
    • pp.317-318
    • /
    • 2010
  • 클라우드 컴퓨팅 서비스를 제공하기 위해서는 클라우드 컴퓨팅에 적합한 데이터 분산 저장 및 병렬 처리가 가능한 IT 인프라 구축이 필수적이다. 이를 위해서 분산 파일 시스템 중 하나인 HDFS(Hadoop File System)와 병렬 데이터 처리를 지원하기 위한 MapReduce 프레임워크 관련 연구가 각광 받고 있다. 하지만 MapReduce 프레임워크를 구성하는 JobTracker 노드는 SPoF(Single Point of Failure)이기 때문에, 작업 도중 JobTracker 노드의 결함이 발생하게 되면 전체 작업이 실패하게 된다. 위와 같은 문제를 해결하기 위해서 본 논문에서는 MapReduce 프레임워크의 JobTracker 노드 결함 발생에 대처할 수 있는 결함허용 메커니즘을 제안하였다.

  • PDF

The MapReduce framework for Large-scale Data Analysis: Overview and Research Trends (대규모 데이터 분석을 위한 MapReduce 기술의 연구 동향)

  • Lee, K.H.;Park, W.J.;Cho, K.S.;Ryu, W.
    • Electronics and Telecommunications Trends
    • /
    • v.28 no.6
    • /
    • pp.156-166
    • /
    • 2013
  • MapReduce는 다양한 형식의 대용량 데이터를 병렬 처리하는데 있어 효과적인 도구로 인식되고 있다. 특히 MapReduce의 오픈 소스 구현인 Hadoop은 여러 분야에서 널리 이용되고 있으며, 가장 대표적인 빅데이터 솔루션으로 현재까지 많은 주목을 받아오고 있다. 하지만, MapReduce는 그 구조적 특정으로 인한 이점과 함께 여러 제약과 단점들을 가진다. 이에 따라 MapReduce의 개선을 위한 많은 연구와 시스템 개량이 학계와 산업계에서 동시에 수행되어 왔다. 본고에서는 대용량 데이터 분석을 위한 MapReduce 프레임워크의 특성과 이를 개선하기 위한 최근의 연구 내용들을 소개한다. 또한 향후의 대용량 데이터 처리는 어떠한 모습을 취하게 될 것인지를 예측해 본다.

스톰을 기반으로 한 실시간 SNS 데이터 분석 시스템

  • Lee, Hyeon-Gyeong;Go, Gi-Cheol;Son, Yeong-Seong;Kim, Jong-Bae
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2015.05a
    • /
    • pp.435-436
    • /
    • 2015
  • In order to analyze and maximize efficiency of advertise, business put more importance on SNS. Especially, keyword extraction analyses based on Hadoop receive attention. The existing keyword extraction analyses have mostly MapReduce processes. Due to that, it causes problems data base would not update in real time like SNS system. In this study, we indicate limitations of the existing model and suggest new model using Storm technique to analyze data in real time.

  • PDF

Improving Performance based on Processing Analysis of Big data log file (벅데이터 로그파일 처리 분석을 통한 성능 개선 방안)

  • Lee, Jaehan;Yu, Heonchang
    • Annual Conference of KIPS
    • /
    • 2016.10a
    • /
    • pp.539-541
    • /
    • 2016
  • 최근 빅데이터 분석을 위해 아파치 하둡(Apache Hadoop) 기반 에코시스템(Ecosystern)이 다양하게 활용되고 있다. 본 논문에서는 수집된 로그 데이터를 가공하여 데이터베이스에 로드하는 과정을 효율적으로 처리하기 위한 성능 평가를 수행한다. 이를 기반으로 텍스트 파일의 로그 데이터를 자바 코드로 개발된 프로그램에서 JDBC를 이용하여 오라클(Oracle) 데이터베이스에 삽입(Insert)하는 과정의 성능을 개선하기 위한 방안을 제안한다. 대용량 로그 파일의 효율적인 처리를 위해 하둡 에코시스템을 이용하여 처리 속도를 개선하고, 최근 인메모리(In-Mernory) 처리 방식으로 빠른 처리 속도로 인해 각광받고 있는 아파치 스파크(Apache Spark)를 이용한 처리와의 성능 평가를 수행한다. 이 연구를 통해 최적의 로그데이터 처리 시스템의 구축 방안을 제안한다.