• 제목/요약/키워드: Hadoop Distributed File System

검색결과 79건 처리시간 0.026초

생체신호 습득과 건강 모니터링을 위한 스마트 헬스케어 의복 개발 (Development of Smart Healthcare Wear System for Acquiring Vital Signs and Monitoring Personal Health)

  • 주문일;고동희;김희철
    • 한국멀티미디어학회논문지
    • /
    • 제19권5호
    • /
    • pp.808-817
    • /
    • 2016
  • Recently, the wearable computing technology with bio-sensors has been rapidly developed and utilized in various areas such as personal health, care-giving for senior citizens who live alone, and sports activities. In particular, the wearable computing equipment to measure vital signs by means of digital yarns and bio sensors is noticeable. The wearable computing devices help users monitor and manage their health in their daily lives through the customized healthcare service. In this paper, we suggest a system for monitoring and analyzing vital signs utilizing smart healthcare clothing with bio-sensors. Vital signs that can be continuously acquired from the clothing is well-known as unstructured data. The amount of data is huge, and they are perceived as the big data. Vital sings are stored by Hadoop Distributed File System(HDFS), and one can build data warehouse for analyzing them in HDFS. We provide health monitoring system based on vital sings that are acquired by biosensors in smart healthcare clothing. We implemented a big data platform which provides health monitoring service to visualize and monitor clinical information and physical activities performed by the users.

전기 가격 예측을 위한 맵리듀스 기반의 로컬 단위 선형회귀 모델 (MapReduce-based Localized Linear Regression for Electricity Price Forecasting)

  • 한진주;이인규;온병원
    • 전기학회논문지P
    • /
    • 제67권4호
    • /
    • pp.183-190
    • /
    • 2018
  • Predicting accurate electricity prices is an important task in the electricity trading market. To address the electricity price forecasting problem, various approaches have been proposed so far and it is known that linear regression-based approaches are the best. However, the use of such linear regression-based methods is limited due to low accuracy and performance. In traditional linear regression methods, it is not practical to find a nonlinear regression model that explains the training data well. If the training data is complex (i.e., small-sized individual data and large-sized features), it is difficult to find the polynomial function with n terms as the model that fits to the training data. On the other hand, as a linear regression model approximating a nonlinear regression model is used, the accuracy of the model drops considerably because it does not accurately reflect the characteristics of the training data. To cope with this problem, we propose a new electricity price forecasting method that divides the entire dataset to multiple split datasets and find the best linear regression models, each of which is the optimal model in each dataset. Meanwhile, to improve the performance of the proposed method, we modify the proposed localized linear regression method in the map and reduce way that is a framework for parallel processing data stored in a Hadoop distributed file system. Our experimental results show that the proposed model outperforms the existing linear regression model. Specifically, the accuracy of the proposed method is improved by 45% and the performance is faster 5 times than the existing linear regression-based model.

SNS상의 비정형 빅데이터로부터 감성정보 추출 기법 (An Extraction Method of Sentiment Infromation from Unstructed Big Data on SNS)

  • 백봉현;하일규;안병철
    • 한국멀티미디어학회논문지
    • /
    • 제17권6호
    • /
    • pp.671-680
    • /
    • 2014
  • Recently, with the remarkable increase of social network services, it is necessary to extract interesting information from lots of data about various individual opinions and preferences on SNS(Social Network Service). The sentiment information can be applied to various fields of society such as politics, public opinions, economics, personal services and entertainments. To extract sentiment information, it is necessary to use processing techniques that store a large amount of SNS data, extract meaningful data from them, and search the sentiment information. This paper proposes an efficient method to extract sentiment information from various unstructured big data on social networks using HDFS(Hadoop Distributed File System) platform and MapReduce functions. In experiments, the proposed method collects and stacks data steadily as the number of data is increased. When the proposed functions are applied to sentiment analysis, the system keeps load balancing and the analysis results are very close to the results of manual work.

로그 분석 처리율 향상을 위한 맵리듀스 기반 분할 빅데이터 분석 기법 (MapReduce-Based Partitioner Big Data Analysis Scheme for Processing Rate of Log Analysis)

  • 이협건;김영운;박지용;이진우
    • 한국정보전자통신기술학회논문지
    • /
    • 제11권5호
    • /
    • pp.593-600
    • /
    • 2018
  • 인터넷과 스마트기기의 발달로 인해 소셜미디어 등 다양한 미디어의 접근의 용이해짐에 따라 많은 양의 빅데이터들이 생성되고 있다. 특히 다양한 인터넷 서비스를 제공하는 기업들은 고객 성향 및 패턴, 보안성 강화를 위해 맵리듀스 기반 빅데이터 분석 기법들을 활용하여 빅데이터 분석하고 있다. 그러나 맵리듀스는 리듀스 단계에서 생성되는 리듀서 객체의 수를 한 개로 정의하고 있어, 빅데이터 분석할 때 처리될 많은 데이터들이 하나의 리듀서 객체에 집중된다. 이로 인해 리듀서 객체는 병목현상이 발생으로 빅데이터 분석 처리율이 감소한다. 이에 본 논문에서는 로그 분석처리율 향상을 위한 맵리듀스 기반 분할 빅데이터 분석 기법을 제안한다. 제안한 기법은 리듀서 분할 단계와 분석 결과병합 단계로 구분하며 리듀서 객체의 수를 유동적으로 생성하여 병목현상을 감소시켜 빅데이터 처리율을 향상시킨다.

비용절감 측면에서 클라우드, 빅데이터 서비스를 위한 대용량 데이터 처리 아키텍쳐 (Data Processing Architecture for Cloud and Big Data Services in Terms of Cost Saving)

  • 이병엽;박재열;유재수
    • 한국콘텐츠학회논문지
    • /
    • 제15권5호
    • /
    • pp.570-581
    • /
    • 2015
  • 최근 많은 기관들로부터 클라우드 서비스, 빅 데이터가 향후 대세적인 IT 트렌드 및 확고한 기술로서 예견되고 있다. 또한 현재 IT를 선도하는 많은 벤더를 중심으로 클라우드, 빅데이터에 대한 실질적인 솔루션과 서비스를 제공하고 있다. 이러한 기술들은 기업의 비용절감 측면에서, 클라우드는 인터넷 기반의 다양한 기술들을 기반으로 비즈니스 모델에 대한 자원의 사용을 자유스럽게 선택할 수 있는 장점을 가지고 있어 능동적인 자원 확장을 위한 프로비져닝 기술과 가상화 기술들이 주요한 기술로 주목 받고 있다. 또한 빅데이터는 그동안 분석하지 못했던 새로운 비정형 데이터들에 대한 분석 환경을 제공함으로서 데이터 예측모델의 차원을 한층 높이고 있다. 하지만 클라우드 서비스, 빅데이터의 공통점은 대용량 데이터를 기반으로 서비스 또는 분석을 요하고 있어, 초기 발전 모델부터 대용량 데이터의 효율적인 운영 및 설계가 중요하게 대두 되고 있다. 따라서 본 논문에 클라우드, 빅데이터 서비스를 위한 대용량 데이터 기술 요건들을 토대로 데이터 처리 아키텍처를 정립하고자 한다. 특히, 클라우드 컴퓨팅을 위해 분산 파일 시스템이 갖추어야 할 사항들과 클라우드 컴퓨팅에서 활용 가능한 오픈소스 기반의 하둡 분산 파일 시스템, 메모리 데이터베이스 기술요건을 소개하고, 빅데이터, 클라우드의 대용량 데이터를 비용절감 측면에서 효율적인 압축기술 요건들을 제시한다.

에너지신산업을 위한 에너지 빅데이터 전처리 시스템 (Energy Big Data Pre-processing System for Energy New Industries)

  • 양수영;김요한;김상현;김원중
    • 한국전자통신학회논문지
    • /
    • 제16권5호
    • /
    • pp.851-858
    • /
    • 2021
  • 재생에너지 및 분산자원의 증가로 에너지신산업에서는 전통적인 데이터뿐만 아니라 다양한 에너지 관련 데이터들이 생성되고 있다. 즉 다양한 재생에너지 설비와 발전 데이터, 계통 운영 데이터, 계량 및 요금 관련 데이터뿐만 아니라 새로운 서비스와 분석을 위해 필요한 기상 및 에너지 효율화 데이터 등이 있다. 에너지 빅데이터 처리 기술은 분산자원, 계통, AMI(: Advanced Metering Infrastructure)를 포함한 전력 생산·소비 인프라의 전반기에서 발생하는 데이터를 체계적으로 분석 ·진단할 수 있다. 이를 통해 ICT(: Information and Communications Technology)산업과 에너지 산업 간 융복합의 새로운 비즈니스 창출을 지원하는 기술이 될 수 있을 것이다. 이를 위해서 수집된 데이터의 항목별 특성 분석 및 연관관계 표본 추출과 각 특징들의 범주화 및 요소 정의 등 데이터 분석 시스템에 대한 연구가 필요하다. 또한 데이터의 손실 및 이상 상태 처리를 위한 데이터 정제 기술에 대한 연구가 이루어져야 한다. 그리고 에너지 데이터를 실시간으로 저장 및 관리할 수 있도록 Apache NIFI, Spark, HDFS(: Hadoop Distributed File System)에 대한 개발 및 구축이 필요하다. 본 연구에서는 위와 같은 다양한 전력거래를 위한 전반적인 에너지 데이터 처리 기술과 시스템를 제안하였다.

클라우드 컴퓨팅을 이용한 유시티 비디오 빅데이터 분석 (An Analysis of Big Video Data with Cloud Computing in Ubiquitous City)

  • 이학건;윤창호;박종원;이용우
    • 인터넷정보학회논문지
    • /
    • 제15권3호
    • /
    • pp.45-52
    • /
    • 2014
  • 유비쿼터스 시티(유시티)에서는 수많은 비디오 카메라들이 설치된다. 이렇게 설치된 많은 카메라로부터 대용량의 비디오 데이터가 실시간으로 끊임없이 발생하고 유시티의 관리 시스템으로 전달된다. 유시티의 다양한 서비스들을 뒷받침하기 위해서는 이러한 비디오 데이터를 저장하고, 이렇게 저장된 대용량의 비디오 데이터를 분석할 수 있는 방법과 관리 시스템이 요구된다. 그래서, 이 논문에서는 클라우드 컴퓨팅을 기반으로 한 유시티 비디오 관리 시스템을 제안한다. 또한, 근래 주목받고 있는 데이터 병렬처리 프레임워크인 Hadoop MapReduce를 이용하여 이러한 빅데이터 비디오를 분석하는 방법을 제안하고, 이에 따른 우리의 성능 평가를 소개한다.

빅데이터 처리율 향상을 위한 인-메모리 기반 하이브리드 빅데이터 처리 기법 연구 (Study of In-Memory based Hybrid Big Data Processing Scheme for Improve the Big Data Processing Rate)

  • 이협건;김영운;김기영
    • 한국정보전자통신기술학회논문지
    • /
    • 제12권2호
    • /
    • pp.127-134
    • /
    • 2019
  • IT기술의 발달로 인해 생성되는 데이터의 양은 매년 기하급수적으로 증가하고 있으며, 이에 대한 대안으로 분산시스템과 인-메모리 기반 빅데이터 처리 기법의 연구가 활발히 이루어지고 있다. 기존 빅데이터 처리 기법들의 처리 성능은 노드의 수와 메모리 용량이 증가될수록 보다 빠르게 빅데이터 처리한다. 그러나 노드의 수의 증가는 빅데이터 인프라 환경에서 장애발생 빈도가 높아지며, 인프라 관리 포인트 및 인프라 운영비용도 증가된다. 또한 메모리 용량의 증가는 노드 구성에 대한 인프라 비용이 증가된다. 이에 본 논문에서는 빅데이터 처리율 향상을 위한 인-메모리 기반 하이브리드 빅데이터 처리 기법을 제안한다. 제안하는 기법은 분산시스템 처리기법에 Combiner 단계를 추가하고, 그 단계에서 인-메모리 기반 처리 기술을 적용하여 기존 분산시스템 기반 빅데이터 처리기법에 비해 빅데이터 처리시간을 약 22% 감소시켰다. 향후, 제안하는 기법의 실질적인 검증을 위해 더 많은 노드로 구성된 빅데이터 인프라 환경에서의 현실적 성능평가가 필요하다.

도로 주행환경 분석을 위한 빅데이터 플랫폼 구축 정보기술 인프라 개발 (Development of Information Technology Infrastructures through Construction of Big Data Platform for Road Driving Environment Analysis)

  • 정인택;정규수
    • 한국산학기술학회논문지
    • /
    • 제19권3호
    • /
    • pp.669-678
    • /
    • 2018
  • 본 연구는 차량센싱데이터, 공공데이터 등 다종의 빅데이터를 활용하여 주행환경 분석 플랫폼 구축을 위한 정보기술 인프라를 개발하였다. 정보기술 인프라는 H/W 기술과 S/W 기술로 구분할 수 있다. 먼저, H/W 기술은 빅데이터 분산 처리를 위한 병렬처리 구조의 소형 플랫폼 서버를 개발하였다. 해당 서버는 1대의 마스터 노드와 9대의 슬래이브 노드로 구성하였으며, H/W 결함에 따른 데이터 유실을 막기 위하여 클러스터 기반 H/W 구성으로 설계하였다. 다음으로 S/W 기술은 빅데이터 수집 및 저장, 가공 및 분석, 정보시각화를 위한 각각의 프로그램을 개발하였다. 수집 S/W의 경우, 실시간 데이터는 카프카와 플럼으로 비실시간 데이터는 스쿱을 이용하여 수집 인터페이스를 개발하였다. 저장 S/W는 데이터의 활용 용도에 따라 하둡 분산파일시스템과 카산드라 DB로 구분하여 저장하는 인터페이스를 개발하였다. 가공 S/W는 그리드 인덱스 기법을 적용하여 수집데이터의 공간 단위 매칭과 시간간격 보간 및 집계를 위한 프로그램을 개발하였다. 분석 S/W는 개발 알고리즘의 탐재 및 평가, 장래 주행환경 예측모형 개발을 위하여 제플린 노트북 기반의 분석 도구를 개발하였다. 마지막으로 정보시각화 S/W는 다양한 주행환경 정보제공 및 시각화를 위하여 지오서버 기반의 웹 GIS 엔진 프로그램을 개발하였다. 성능평가는 개발서버의 메모리 용량과 코어개수에 따른 연산 테스트를 수행하였으며, 타 기관의 클라우드 컴퓨팅과도 연산성능을 비교하였다. 그 결과, 개발 서버에 대한 최적의 익스큐터 개수, 메모리 용량과 코어 개수를 도출하였으며, 개발 서버는 타 시스템 보다 연산성능이 우수한 것으로 나타났다.