• 제목/요약/키워드: Hadoop System

검색결과 237건 처리시간 0.026초

교통 빅데이터의 효율적 저장 및 검색 기술의 설계와 구현 (Design and Implementation of Efficient Storage and Retrieval Technology of Traffic Big Data)

  • 김기수;이재진;김홍회;장유림;함유근
    • 한국빅데이터학회지
    • /
    • 제4권2호
    • /
    • pp.207-220
    • /
    • 2019
  • 최근 정보통신기술의 발달은 센서를 바탕으로 수많은 데이터를 구축하고 이를 이용하여 실시간 서비스를 제공할 수 있게 한다. 교통안전공단에서는 디지털 운행기록계를 통해 전국의 상용차의 운행 정보를 수집하고 있다. 전국 상용자의 운행 정보는 교통 분야에서 다방면으로 활용이 가능하다. 그 중 특히 자율주행 분야에서는 실시간으로 운행정보를 분석하여 위험 운전에 대응을 하거나 방지하는데 도움을 줄 수 있다. 그러나 전통적인 데이터베이스 시스템을 이용하여 대용량의 데이터를 실시간 서비스에 적합한 수준의 성능으로 처리하는 데는 한계가 존재한다. 특히 국내에서는 이와 같은 기술적인 문제로 상용차 운행정보의 실시간 분석을 위한 대규모 교통 빅데이터의 처리가 이전에 시도된 적이 없다. 이런 문제를 해결하기 위해 본 연구에서는 새로운 방식의 데이터베이스 서버 시스템 최적화를 진행하였고 실시간 서비스가 가능한 수준임을 확인하였다. 구축된 데이터베이스 시스템을 이용하여 디지털 트윈, 자율주행환경을 마련하기 위한 기반 데이터를 확보할 수 있을 것으로 기대된다.

  • PDF

DETECTING VARIABILITY IN ASTRONOMICAL TIME SERIES DATA: APPLICATIONS OF CLUSTERING METHODS IN CLOUD COMPUTING ENVIRONMENTS

  • 신민수;변용익;장서원;김대원;김명진;이동욱;함재균;정용환;윤준연;곽재혁;김주현
    • 천문학회보
    • /
    • 제36권2호
    • /
    • pp.131.1-131.1
    • /
    • 2011
  • We present applications of clustering methods to detect variability in massive astronomical time series data. Focusing on variability of bright stars, we use clustering methods to separate possible variable sources from other time series data, which include intrinsically non-variable sources and data with common systematic patterns. We already finished the analysis of the Northern Sky Variability Survey data, which include about 16 million light curves, and present candidate variable sources with their association to other data at different wavelengths. We also apply our clustering method to the light curves of bright objects in the SuperWASP Data Release 1. For the analysis of the SuperWASP data, we exploit a elastically configurable Cloud computing environments that the KISTI Supercomputing Center is deploying. Two quite different configurations are incorporated in our Cloud computing test bed. One system uses the Hadoop distributed processing with its distributed file system, using distributed processing with data locality condition. Another one adopts the Condor and the Lustre network file system. We present test results, considering performance of processing a large number of light curves, and finding clusters of variable and non-variable objects.

  • PDF

MapReduce와 시공간 데이터를 이용한 빅 데이터 크기의 이동객체 갱신 횟수 감소 기법 (Update Frequency Reducing Method of Spatio-Temporal Big Data based on MapReduce)

  • 최용권;백성하;김경배;배해영
    • Spatial Information Research
    • /
    • 제20권2호
    • /
    • pp.137-153
    • /
    • 2012
  • 지금까지 대규모의 이동객체 관리를 위해 갱신 비용을 감소시킬 수 있는 인덱스 기법들이 제안되었다. 이동객체 인덱스는 빈번하게 위치정보가 변화하는 이동객체를 관리하기 위해 주기적으로 갱신 되어야 하기 때문이다. 그러나 이러한 기법들은 이동객체의 수가 현저히 증가하는 경우 인덱스의 갱신 가능범위를 초과하는 부하가 발생한다. 본 논문에서는 이처럼 기존의 처리 가용량을 초과하는 빅 데이터 크기의 이동객체에서 발생하는 갱신요청들을 MapReduce와 기존 인덱스기법을 조합하여 감소시키는 기법을 제안한다. 이 기법에서는 수많은 이동객체에서 발생하는 갱신요청들을 MapReduce를 이용하여 각각의 이동객체 별로 그룹화하는 방법을 사용한다. 각 이동객체 별로 그룹화 데이터들의 최신의 데이터와 가장 오래된 데이터를 비교하여 갱신여부를 판단하고 최신의 요청만 갱신하도록 하여 전체 갱신 횟수를 크게 감소시킨다. 갱신이 지연된 경우 기존의 갱신요청들을 가지고 있는 해시 테이블에 일정기간 보관하여 지연된 갱신요청이 분실되지 않고 지속적으로 갱신되도록 한다. 실험을 통해 제안한 기법을 적용한 경우와 적용하지 않은 경우를 비교해 전체 갱신 횟수 및 갱신 비용이 감소되는 것을 알 수 있다.

빅데이터 로그를 이용한 실시간 예측분석시스템 설계 및 구현 (Real time predictive analytic system design and implementation using Bigdata-log)

  • 이상준;이동훈
    • 정보보호학회논문지
    • /
    • 제25권6호
    • /
    • pp.1399-1410
    • /
    • 2015
  • 기업들은 다가오는 데이터 경쟁시대를 이해하고 이에 대비해야 한다며 가트너는 기업의 생존 패러다임에 많은 변화를 요구하고 있다. 또한 통계 알고리즘 기반의 예측분석을 통한 비즈니스 성공 사례들이 발표되면서, 과거 데이터 분석에 따른 사후 조치에서 예측 분석에 의한 선제적 대응으로의 전환은 앞서가고 있는 기업의 필수품이 되어 가고 있다. 이러한 경향은 보안 분석 및 로그 분석 분야에도 영향을 미치고 있으며, 실제로 빅데이터화되고 있는 대용량 로그에 대한 분석과 지능화, 장기화되고 있는 보안 분석에 빅데이터 분석 프레임워크를 활용하는 사례들이 속속 발표되고 있다. 그러나 빅데이터 로그 분석 시스템에 요구되는 모든 기능 및 기술들을 하둡 기반의 빅데이터 플랫폼에서 수용할 수 없는 문제점들이 있어서 독자적인 플랫폼 기반의 빅데이터 로그 분석 제품들이 여전히 시장에 공급되고 있다. 본 논문에서는 이러한 독자적인 빅데이터 로그 분석 시스템을 위한 실시간 및 비실시간 예측 분석 엔진을 탑재하여 사이버 공격에 선제적으로 대응할 수 있는 프레임워크를 제안하고자 한다.

맵리듀스에서의 구조적 RDF 데이터 변경 탐지 기법 (Structural Change Detection Technique for RDF Data in MapReduce)

  • 이태휘;임동혁
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권8호
    • /
    • pp.293-298
    • /
    • 2014
  • RDF 데이터의 변경 내용을 탐지하고 이해하는 것은 데이터 웹의 진화 프로세스, 동기화 시스템, 버전 관리 시스템에서 매우 중요한 역할을 한다. 하지만 현재의 연구들은 대용량 데이터를 고려하지 않거나 정확하게 변경 내용을 탐지하지 못한다는 점에서 여전히 미흡하다. 본 논문에서는 대용량 데이터의 처리, 분석을 위해 여러 분야에서 사용되는 맵리듀스 프레임워크 기반의 확장가능하며 효과적인 변경 탐지 기법을 제안한다. 특히, RDF 데이터의 공노드를 비교하는 구조적인 변경 탐지에 초점을 둔다. 이를 위해, 두 개의 맵리듀스 작업으로 이루어진 방법을 사용한다. 첫 번째 작업에서는 공노드에 부여된 내부 아이디가 같은 트리플들을 그룹화하여 공노드에 연결된 경로를 계산한다. 두 번째 작업에서는 같은 경로를 가지는 트리플들을 그룹화하여 헝가리안 메소드를 이용하여 공노드 매칭을 수행한다. 실험을 통해 제안한 방법이 기존 방법보다 더 정확하고 효과적임을 보인다.

Estimation of ship operational efficiency from AIS data using big data technology

  • Kim, Seong-Hoon;Roh, Myung-Il;Oh, Min-Jae;Park, Sung-Woo;Kim, In-Il
    • International Journal of Naval Architecture and Ocean Engineering
    • /
    • 제12권1호
    • /
    • pp.440-454
    • /
    • 2020
  • To prevent pollution from ships, the Energy Efficiency Design Index (EEDI) is a mandatory guideline for all new ships. The Ship Energy Efficiency Management Plan (SEEMP) has also been applied by MARPOL to all existing ships. SEEMP provides the Energy Efficiency Operational Indicator (EEOI) for monitoring the operational efficiency of a ship. By monitoring the EEOI, the shipowner or operator can establish strategic plans, such as routing, hull cleaning, decommissioning, new building, etc. The key parameter in calculating EEOI is Fuel Oil Consumption (FOC). It can be measured on board while a ship is operating. This means that only the shipowner or operator can calculate the EEOI of their own ships. If the EEOI can be calculated without the actual FOC, however, then the other stakeholders, such as the shipbuilding company and Class, or others who don't have the measured FOC, can check how efficiently their ships are operating compared to other ships. In this study, we propose a method to estimate the EEOI without requiring the actual FOC. The Automatic Identification System (AIS) data, ship static data, and environment data that can be publicly obtained are used to calculate the EEOI. Since the public data are of large capacity, big data technologies, specifically Hadoop and Spark, are used. We verify the proposed method using actual data, and the result shows that the proposed method can estimate EEOI from public data without actual FOC.

다음 장소 예측을 위한 맵리듀스 기반의 이동 패턴 마이닝 시스템 설계 (Design of a MapReduce-Based Mobility Pattern Mining System for Next Place Prediction)

  • 김종환;이석준;김인철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권8호
    • /
    • pp.321-328
    • /
    • 2014
  • 본 논문에서는 모바일 기기 사용자들의 다음 방문 장소를 효율적으로 예측할 수 있는 맵리듀스 기반의 이동 패턴 마이닝 시스템을 소개한다. 이 시스템은 대용량의 사용자 이동 궤적 데이터 집합으로부터 은닉 마코프 모델로 표현되는 각 사용자의 이동 패턴을 학습해내고, 이 모델을 현재 이동 궤적에 적용함으로써 다음 방문 장소를 예측한다. 본 시스템은 사용자별 이동 패턴 모델을 학습하는 후단부와 실시간으로 다음 방문 장소를 예측하는 전단부 등 크게 두 부분으로 구성된다. 이 중에서 후단부는 주요 장소 추출, 이동 궤적 변환, 이동 패턴 모델 학습 등 총 3개의 맵리듀스 작업 모듈들로 구성된다. 이에 반해, 본 시스템의 전단부는 이동 경로 후보군 생성, 다음 장소 예측 등 총 2개의 작업 모듈들로 구성된다. 그리고 본 시스템을 구성하는 각 작업 모듈의 맵과 리듀스 함수들은 하둡 인프라를 효과적으로 활용하여 병렬 처리를 극대화할 수 있도록 설계하였다. 대용량의 공개 벤치마크 데이터 집합인 GeoLife를 이용하여 본 논문에서 소개한 시스템의 성능을 분석하기 위한 실험들을 수행하였고, 실험 결과를 통해 본 시스템의 높은 성능을 확인할 수 있었다.

바이오센싱 융합 빅데이터 컴퓨팅 아키텍처 (Bio-Sensing Convergence Big Data Computing Architecture)

  • 고명숙;이태규
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제7권2호
    • /
    • pp.43-50
    • /
    • 2018
  • 생체정보 컴퓨팅은 생체신호 센서와 컴퓨터 정보처리를 융합한 정보시스템에 기초하여 컴퓨팅시스템 뿐만 아니라 빅데이터 시스템에 크게 영향을 미치고 있다. 이러한 생체정보는 지금까지의 텍스트, 이미지, 동영상 등의 전통적인 데이터 형식과는 달리 생체신호의 의미를 부여하는 값은 텍스트 기반으로 표현되고, 중요한 이벤트 순간은 이미지 형식으로 저장하며, 시계열 분석을 통한 데이터 변화 예측 및 분석을 위해서는 동영상 형식 등 비정형데이터를 포함하는 복합적인 데이터 형식을 구성한다. 이러한 복합적인 데이터 구성은 개별 생체정보 응용서비스에서 요구하는 데이터의 특징에 따라 텍스트, 이미지, 영상 형식 등으로 각각 분리되어 요청되거나, 상황에 따라 복잡 데이터 형식을 동시에 요구할 수 있다. 기존 생체정보 컴퓨팅 시스템들은 전통적인 컴퓨팅 구성요소, 컴퓨팅 구조, 데이터 처리 방법 등에 의존하므로 데이터 처리성능, 전송능력, 저장효율성, 시스템안전성 등의 측면에서 많은 비효율성을 내포하고 있다. 본 연구에서는 생체정보 처리 컴퓨팅을 효과적으로 지원하는 생체정보 빅데이터 플랫폼을 구축하기 위해 개선된 바이오센싱 융합 빅데이터 컴퓨팅 아키텍처를 제안한다. 제안 아키텍처는 생체신호관련 데이터의 저장 및 전송 효율성, 컴퓨팅 성능, 시스템 안정성 등을 효과적으로 지원하며, 향후 생체정보 컴퓨팅에 최적화된 시스템 구현 및 생체정보 서비스 구축을 위한 기반을 제공할 수 있다.

스마트팩토리를 위한 운영빅데이터 분석 플랫폼 (Operational Big Data Analytics platform for Smart Factory)

  • 배혜림;박상혁;최유림;주병준;리스카;풀샤시;푸트라;타오픽;이상화;원석래
    • 한국빅데이터학회지
    • /
    • 제1권2호
    • /
    • pp.9-19
    • /
    • 2016
  • ICT 융합에 대한 관심이 높아진 가운데 독일의 Industry 4.0을 시작으로 제조업과 ICT 융합에 대한 연구가 활발하게 진행되고 있다. 이를 통해 전통적인 제조업의 제조단가를 낮추고 극적인 품질향상을 기대할 수 있게 되었다. 최근 정부의 제조업 3.0 전략 등에 힘입어 국내에서도 제조업에 대한 고도화가 진행되고 있으며, 이러한 추세에 발맞추어 제조업 운영에서 발생하는 빅데이터에 대한 주문맞춤형 분석 플랫폼을 개발하고 이를 통해 제조 현장의 경쟁력을 높이고자 한다. 주문맞춤형 분석 플랫폼은 확장성을 고려하여 스프링 프레임워크를 기반으로 웹에서 실행되도록 설계되었으며, 제조업 현장에서 발생하는 다량의 데이터를 빠르게 처리하기 위하여 스파크와 하둡 파일 시스템을 이용한다. 실시간으로 스트리밍 된 데이터를 프로세스 마이닝 기반 알고리즘을 통해 처리하고 공장의 현황을 분석하여 제조업 현장의 문제를 파악하고 신속한 의사결정을 지원할 수 있다.

  • PDF

공공 빅데이터의 시각화를 위한 InfograaS의 아이디어 제안 (Idea proposal of InfograaS for Visualization of Public Big-data)

  • 차병래;이형호;심수정;김종원
    • 한국항행학회논문지
    • /
    • 제18권5호
    • /
    • pp.524-531
    • /
    • 2014
  • 본 논문에서는 클라우드 컴퓨팅 자원을 이용하여 빅데이터의 일종인 LOD (linked open data)를 가공 및 분석하는 방법을 제안한다. LOD는 공공 데이터를 공유 및 재활용하기 위한 웹기반의 오픈 데이터이다. 특히 BA(business analytics)와 Info-graphic을 위한 시각화 (visualization) 기술을 제공하는 새로운 SaaS (software as a service) 비즈니스 영역을 InforgraaS (Info-graphic as a service)라고 정의한다. 본 연구의 목표는 시각화 및 비즈니스 전문가 없이 비전문가 또는 초보자가 사용할 수 있도록 하는 것이다. 데이터 시각화 (data visualization)는 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달되는 과정을 말한다. 데이터 시각화의 목적은 챠트와 그래프를 통해 정보를 명확하고 효과적으로 전달하는 것이다. 공공기관의 빅데이터를 클라우드 컴퓨팅 자원과 오픈 소스인 하둡, R, 기계학습, 데이터 마이닝 등을 이용하여 다양한 처리 결과를 이해하기 쉬운 그래픽 또는 챠트로 표현하고 공유한다.