• 제목/요약/키워드: Big data, Hadoop

검색결과 200건 처리시간 0.061초

하둡 기반의 통합설비 모니터링시스템 설계 및 구현 사례 연구 (Case Study of Design and Implementation for Hadoop-Based Integrated Facility Monitoring System)

  • 김상락;장길상;조지운
    • 대한산업공학회지
    • /
    • 제40권1호
    • /
    • pp.34-42
    • /
    • 2014
  • SCADA and DCS that have performed automatic control and monitoring activities increase the productivity of enterprise in industries. In such systems, although their performance had been improved, there are still many deficiencies in predictive maintenance which can foresee the risk of any kinds of accidents. Because the data acquisition systems of main facilities are being distributed throughout the whole plant and therefore, integration of data obtained from the systems is very difficult. Accordingly, techniques that acquire meaningful information from the gathered data through realtime analysis still need to be improved. This paper introduces a developed facility monitoring system which can predict equipment failure and diagnose facility status through big data analysis to improve equipment efficiency and prevent safety accidents.

하둡 분산 파일시스템의 동적 클러스터 관리 기법 (Dynamic Cluster Management of Hadoop Distributed Filesystem)

  • 류우석
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2016년도 추계학술대회
    • /
    • pp.435-437
    • /
    • 2016
  • 하둡 분산 파일시스템(HDFS)는 빅데이터의 병렬 분산 처리를 위해 다수의 노드에 데이터를 중복 저장하는 파일시스템이다. HDFS의 분산 노드 클러스터는 수천 개 이상의 규모 확장성을 갖추고 있으나 빅데이터 처리를 위한 전용 하드웨어를 가정하고 있으며, 기존의 기업 및 병원에서 사용하고 있는 다양한 유휴 전산 자원을 고려하지는 못하는 문제가 있다. 본 논문에서는 기관 내 존재하는 다양한 유휴 전산 자원을 필요에 따라 동적으로 HDFS에 추가함으로써 빅데이터 저장 및 분석 성능을 향상시킬 수 있는 동적 클러스터 관리 기법을 제시한다.

  • PDF

분산병렬처리 환경에서 오토매핑 기법을 통한 NoSQL과 RDBMS와의 연동 (Interoperability between NoSQL and RDBMS via Auto-mapping Scheme in Distributed Parallel Processing Environment)

  • 김희성;이봉환
    • 한국정보통신학회논문지
    • /
    • 제21권11호
    • /
    • pp.2067-2075
    • /
    • 2017
  • 최근 빅데이터가 주목받게 되면서 빅데이터를 처리하기 위한 시스템들도 중요하게 여겨지고 있다. 빅데이터 처리 시스템으로 분산파일시스템인 Hadoop과 비정형 데이터 처리를 위한 NoSQL 데이터 스토어가 주목받고 있다. 하지만 아직까지 NoSQL을 사용함에 있어 어려움이나 불편함도 존재한다. 저용량 데이터인 경우 NoSQL의 MapReduce는 불필요한 작업시간을 소모하게 되며, RDBMS 보다 상대적으로 많은 데이터 탐색 시간이 소요되기도 한다. 본 논문에서는 이러한 NoSQL의 문제점을 해결하기 위해 NoSQL과 RDBMS 간의 연동 기법을 제안하였다. 개발한 오토매핑 기법은 처리할 데이터의 양에 따라 적합한 데이터베이스를 사용하게 하여 결과적으로 검색시간을 빠르게 할 수 있다. 실험 결과 제안한 데이터베이스 연동 기법은 특정 데이터 셋의 경우 검색시간을 최대 35%까지 줄일 수 있다.

이동 평균과 3-시그마를 이용한 하둡 로그 데이터의 이상 탐지 (Anomaly Detection of Hadoop Log Data Using Moving Average and 3-Sigma)

  • 손시운;길명선;문양세;원희선
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권6호
    • /
    • pp.283-288
    • /
    • 2016
  • 최근 빅데이터 처리를 위한 연구들이 활발히 진행 중이며, 관련된 다양한 제품들이 개발되고 있다. 이에 따라, 기존 환경에서는 처리가 어려웠던 대용량 로그 데이터의 저장 및 분석이 가능해졌다. 본 논문은 다수의 서버에서 빠르게 생성되는 대량의 로그 데이터를 Apache Hive에서 분석할 수 있는 데이터 저장 구조를 제안한다. 그리고 저장된 로그 데이터로부터 특정 서버의 이상 유무를 판단하기 위해, 이동 평균 및 3-시그마 기반의 이상 탐지 기술을 설계 및 구현한다. 또한, 실험을 통해 로그 데이터의 급격한 증가폭을 나타내는 구간을 이상으로 판단하여, 제안한 이상 탐지 기술의 유효성을 보인다. 이 같은 결과를 볼 때, 본 연구는 하둡 기반으로 로그 데이터를 분석하여 이상치를 바르게 탐지할 수 있는 우수한 결과라 사료된다.

농업 빅데이터 수집 및 분석을 위한 플랫폼 설계 (Design of a Platform for Collecting and Analyzing Agricultural Big Data)

  • 뉘엔 반 퀴엣;뉘엔 신 녹;김경백
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권1호
    • /
    • pp.149-158
    • /
    • 2017
  • 빅데이터는 경제개발에서 흥미로운 기회와 도전을 보여왔다. 예를 들어, 농업 분야에서 날씨 데이터 및 토양데이터와 같은 복합데이터의 조합과 이들의 분석 결과는 농업종사자 및 농업경영체들에게 귀중하고 도움되는 정보를 제공한다. 그러나 농업 데이터는 센서들과 농업 웹 마켓 등의 다양한 형태의 장치 및 서비스들을 통해 매 분마다 대규모로 생성된다. 이는 데이터 수집, 저장, 분석과 같은 빅데이터 이슈들을 발생시킨다. 비록 몇몇 시스템들이 이 문제를 해결하기 위해 제안되었으나, 이들은 다루는 데이터 종류의 제약, 저장 방식의 제약, 데이터 크기의 제약 등의 문제를 여전히 가지고 있다. 이 논문에서는 농업데이터의 수집과 분석 플랫폼의 새로운 설계를 제안한다. 제안하는 플랫폼은 (1) Flume과 MapReduce를 이용한 다양한 데이터 소스들로부터의 데이터 수집 방법, (2) HDFS, HBase, 그리고 Hive를 이용한 다양한 데이터 저장 방법, (3) Spark와 Hadoop을 이용한 빅데이터 분석 모듈들을 제공한다.

하둡 환경에 적합한 클러스터 그룹 기반 속성 정보를 이용한 빅 데이터 관리 기법 (Big Data Management Scheme using Property Information based on Cluster Group in adopt to Hadoop Environment)

  • 한군희;정윤수
    • 디지털융복합연구
    • /
    • 제13권9호
    • /
    • pp.235-242
    • /
    • 2015
  • 소셜 네트워크 기술이 발달하면서 빅 데이터 서비스에 대한 관심이 증가하고 있다. 그러나, 중앙 서버가 아닌 분산 서버에 저장된 데이터를 손쉽게 검색 및 추출하기 위한 기술은 부족한 실정이다. 본 논문에서는 빅 데이터 서비스를 제공하는 컨텐츠 서버와 관리 서버에서 사용자가 원하는 정보의 처리시간을 최소화하기 위한 빅 데이터 관리 기법을 제안하다. 제안 기법은 빅 데이터의 종류, 기능, 특성에 따라 데이터를 그룹으로 분류한 후 분류된 그룹내 데이터를 속성정보와 연계하여 해쉬체인에 적용한다. 또한, 분산 서버에 저장된 데이터를 최단 시간에 추출하기 위해서 데이터 인덱스 정보(DII, Data Index Information)를 그룹화하여 데이터에 부여된 다중의 속성 정보를 분류하여 데이터의 처리 속도를 향상시킨다. 실험 결과, 클러스터 그룹 수에 따른 데이터의 평균 검색 시간은 평균 14.6% 향상되었고, 키워드 수에 따른 데이터 처리시간은 평균 13% 단축되었다.

Mi Band와 MongoDB를 사용한 생체정보 빅데이터 시스템의 설계 (Design of Building Biomertic Big Data System using the Mi Band and MongoDB)

  • 이영훈;김용일
    • 스마트미디어저널
    • /
    • 제5권4호
    • /
    • pp.124-130
    • /
    • 2016
  • 빅데이터 기술의 발전에 따라 여러 분야에서 빅데이터의 필요성이 증가하고 있다. 그중 최근 의료 산업은 치료 중심에서 예방과 건강관리 중심으로 변화됨에 따라 질병 발생 가능성 예측 및 개인 맞춤형 의료 서비스의 중요성이 증대되고 있다. 이를 위해서는 개인의 생체정보를 수집할 수 있는 디바이스와 수집된 데이터를 분석할 빅데이터 시스템이 필요하다. 본 논문에서는 저가형 웨어러블 디바이스를 이용한 생체정보 빅데이터 시스템을 설계하였다. 웨어러블 디바이스는 심장 박동수와 걸음 수, 활동량 등의 기본적인 생체정보를 획득할 수 있는 Mi Band를 이용하였고, 수집된 생체정보는 MongoDB를 이용하여 NoSQL 형식으로 저장한 후 분석하였다. 본 연구의 결과를 기반으로 차후에는 Hadoop 등을 사용하여 실제 의료 환경에서 사용이 가능한 빅데이터 시스템을 구축하고 다양한 의료 정보용 웨어러블 디바이스와 연계하여 실제 의료 서비스에서 사용이 가능할 수 있다.

Analysis Model Evaluation based on IoT Data and Machine Learning Algorithm for Prediction of Acer Mono Sap Liquid Water

  • Lee, Han Sung;Jung, Se Hoon
    • 한국멀티미디어학회논문지
    • /
    • 제23권10호
    • /
    • pp.1286-1295
    • /
    • 2020
  • It has been increasingly difficult to predict the amounts of Acer mono sap to be collected due to droughts and cold waves caused by recent climate changes with few studies conducted on the prediction of its collection volume. This study thus set out to propose a Big Data prediction system based on meteorological information for the collection of Acer mono sap. The proposed system would analyze collected data and provide managers with a statistical chart of prediction values regarding climate factors to affect the amounts of Acer mono sap to be collected, thus enabling efficient work. It was designed based on Hadoop for data collection, treatment and analysis. The study also analyzed and proposed an optimal prediction model for climate conditions to influence the volume of Acer mono sap to be collected by applying a multiple regression analysis model based on Hadoop and Mahout.

Job-aware Network Scheduling for Hadoop Cluster

  • Liu, Wen;Wang, Zhigang;Shen, Yanming
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제11권1호
    • /
    • pp.237-252
    • /
    • 2017
  • In recent years, data centers have become the core infrastructure to deal with big data processing. For these big data applications, network transmission has become one of the most important factors affecting the performance. In order to improve network utilization and reduce job completion time, in this paper, by real-time monitoring from the application layer, we propose job-aware priority scheduling. Our approach takes the correlations of flows in the same job into account, and flows in the same job are assigned the same priority. Therefore, we expect that flows in the same job finish their transmissions at about the same time, avoiding lagging flows. To achieve load balancing, two approaches (Flow-based and Spray) using ECMP (Equal-Cost multi-path routing) are presented. We implemented our scheme using NS-2 simulator. In our evaluations, we emulate real network environment by setting background traffic, scheduling delay and link failures. The experimental results show that our approach can enhance the Hadoop job execution efficiency of the shuffle stage, significantly reduce the network transmission time of the highest priority job.

Design and Development of Big Data Platform based on IoT-based Children's Play Pattern Analysis

  • Jung, Seon-Jin
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제12권4호
    • /
    • pp.218-225
    • /
    • 2020
  • The purpose of this paper is to establish an IoT-based big data platform that can check the space and form analysis in various play cultures of children. Therefore, to this end, in order to understand the healthy play culture of children, we are going to build a big data platform that allows IoT and smart devices to work together to collect data. Therefore, the goal of this study is to develop a big data platform linked to IoT first in order to collect data related to observation of children's mobile movements. Using the developed big data platform, children's play culture can be checked anywhere through observation and intuitive UI design, quick information can be automatically collected and real-time feedback, data collected through repeaters can be aggregated and analyzed, and systematic database can be utilized in the form of big data.