• Title/Summary/Keyword: 하둡 환경

Search Result 95, Processing Time 0.42 seconds

맵리듀스 온라인 프레임워크에서 공간 데이터 스트림 처리를 위한 동적 부하 관리 기법 (Dynamic Load Management Method for Spatial Data Stream Processing on MapReduce Online Frameworks)

  • 정원일
    • 한국산학기술학회논문지
    • /
    • 제19권8호
    • /
    • pp.535-544
    • /
    • 2018
  • 다양한 센서를 내장하고 고품질의 무선 네트워크 통신 기능을 탑재한 이동 장치의 보급이 확대됨에 따라 다양한 서비스 환경에서 이동 장치로부터 생성되는 시공간 데이터 량도 빠르게 증가하고 있다. 이와 같이 실시간 특성을 갖는 대량의 공간 데이터 스트림을 처리하기 위한 기존의 연구에서 하둡 기반의 공간 빅 데이터 시스템은 일괄 처리 방식의 플랫폼으로 공간 데이터 스트림에 대한 실시간 서비스에 적용하기에는 매우 어렵다. 이에 본 논문에서는 맵리듀스 온라인 프레임워크를 확장하여 연속적으로 입력되는 공간 데이터 스트림에 대한 실시간 질의 처리를 지원하고, 질의 처리 과정에서 야기될 수 있는 부하 문제를 효과적으로 분산하는 부하 관리 기법을 제안한다. 제안 기법에서는 공간 분할 영역을 기반으로 입력 데이터의 유입율과 부하율을 이용하여 노드들에 대해 동적으로 부하를 분산하는 기법을 제시하였다. 실험에서는 특정 공간 영역에서의 부하 관리가 요구될 때 해당 영역에서의 공간 데이터 스트림을 공유하는 자원들에게 분배함으로써 효과적인 질의 처리를 지원할 수 있음을 보인다.

클라우드 환경에서 문서의 유형 분류를 위한 시맨틱 클러스터링 모델 (Semantic Clustering Model for Analytical Classification of Documents in Cloud Environment)

  • 김영수;이병엽
    • 한국콘텐츠학회논문지
    • /
    • 제17권11호
    • /
    • pp.389-397
    • /
    • 2017
  • 최근 시맨틱 웹 문서는 클라우드 기반으로 생성 및 유통되고 문서유형 분류에 따른 쉽고 신속한 정보 검색을 위해 지능형 시맨틱 에이전트를 요구하고 있다. 기존의 웹 문서의 검색은 키워드를 이용하여 해당하는 질의어가 포함된 문서 목록을 결과로 가져오며 사용자의 요구시에 내용을 제시하는 것이 일반적인 형태이다. 이는 웹 문서의 유사도와 시맨틱 관련성을 고려하지 않음으로써 사용자가 내용 검색과 분석에 많은 시간과 노력을 요구한다. 이의 해결을 위해서 빅 데이터 요소 기술인 하둡과 NoSQL을 활용하여 시맨틱 웹 문서에 포함된 키워드 빈도에 기반한 웹 문서의 유형 분류와 유사도를 제시하는 시맨틱 클러스터링 모델을 제안한다. 제안 모델은 실시간 데이터 처리가 요청되는 이종 모델을 가진 공공 데이터와 웹 데이터를 취합하여 일반 사용자가 쉽게 질의할 수 있는 대용량 지식 기반 시스템을 구축하는데 응용 모델로 활용될 수 있다.

오픈 소스 프레임워크를 활용한 검색엔진 구현 (Implement on Search Machine using Open Source Framework)

  • 송현옥;김아용;정회경
    • 한국정보통신학회논문지
    • /
    • 제19권3호
    • /
    • pp.552-557
    • /
    • 2015
  • IT 기술 발전과 스마트 기기들의 사용 증가로 인해 인터넷에서는 많은 데이터가 생산되고 소비된다. 이로 인해 정보 검색 기술의 중요성이 높아지고 있지만 정보 검색 기술은 많은 배경 지식을 요구하여 접근하기 어려운 기술로 인식되고 있다. 그러나 Luene의 등장으로 인해 검색 기술에 대한 배경 지식이 부족해도 Lucene을 사용하여 검색 엔진을 구현할 수 있는 배경을 마련되었다. 본 논문에서는 Lucene 기반으로 개발된 프레임워크들을 사용하여 검색엔진을 구현하는 방법에 대해 제안한다. 제안하는 검색엔진에 사용되는 프레임워크들은 Hadoop과 Nutch, Solr, Zookeeper를 사용하여 분산처리와 분산저장, 그리고 고가용성을 지원하는 서버 환경을 보장한다.

분산병렬처리 환경에서 오토매핑 기법을 통한 NoSQL과 RDBMS와의 연동 (Interoperability between NoSQL and RDBMS via Auto-mapping Scheme in Distributed Parallel Processing Environment)

  • 김희성;이봉환
    • 한국정보통신학회논문지
    • /
    • 제21권11호
    • /
    • pp.2067-2075
    • /
    • 2017
  • 최근 빅데이터가 주목받게 되면서 빅데이터를 처리하기 위한 시스템들도 중요하게 여겨지고 있다. 빅데이터 처리 시스템으로 분산파일시스템인 Hadoop과 비정형 데이터 처리를 위한 NoSQL 데이터 스토어가 주목받고 있다. 하지만 아직까지 NoSQL을 사용함에 있어 어려움이나 불편함도 존재한다. 저용량 데이터인 경우 NoSQL의 MapReduce는 불필요한 작업시간을 소모하게 되며, RDBMS 보다 상대적으로 많은 데이터 탐색 시간이 소요되기도 한다. 본 논문에서는 이러한 NoSQL의 문제점을 해결하기 위해 NoSQL과 RDBMS 간의 연동 기법을 제안하였다. 개발한 오토매핑 기법은 처리할 데이터의 양에 따라 적합한 데이터베이스를 사용하게 하여 결과적으로 검색시간을 빠르게 할 수 있다. 실험 결과 제안한 데이터베이스 연동 기법은 특정 데이터 셋의 경우 검색시간을 최대 35%까지 줄일 수 있다.

교통 빅데이터의 효율적 저장 및 검색 기술의 설계와 구현 (Design and Implementation of Efficient Storage and Retrieval Technology of Traffic Big Data)

  • 김기수;이재진;김홍회;장유림;함유근
    • 한국빅데이터학회지
    • /
    • 제4권2호
    • /
    • pp.207-220
    • /
    • 2019
  • 최근 정보통신기술의 발달은 센서를 바탕으로 수많은 데이터를 구축하고 이를 이용하여 실시간 서비스를 제공할 수 있게 한다. 교통안전공단에서는 디지털 운행기록계를 통해 전국의 상용차의 운행 정보를 수집하고 있다. 전국 상용자의 운행 정보는 교통 분야에서 다방면으로 활용이 가능하다. 그 중 특히 자율주행 분야에서는 실시간으로 운행정보를 분석하여 위험 운전에 대응을 하거나 방지하는데 도움을 줄 수 있다. 그러나 전통적인 데이터베이스 시스템을 이용하여 대용량의 데이터를 실시간 서비스에 적합한 수준의 성능으로 처리하는 데는 한계가 존재한다. 특히 국내에서는 이와 같은 기술적인 문제로 상용차 운행정보의 실시간 분석을 위한 대규모 교통 빅데이터의 처리가 이전에 시도된 적이 없다. 이런 문제를 해결하기 위해 본 연구에서는 새로운 방식의 데이터베이스 서버 시스템 최적화를 진행하였고 실시간 서비스가 가능한 수준임을 확인하였다. 구축된 데이터베이스 시스템을 이용하여 디지털 트윈, 자율주행환경을 마련하기 위한 기반 데이터를 확보할 수 있을 것으로 기대된다.

  • PDF

클라우드 서비스를 위한 고가용성 대용량 데이터 처리 아키텍쳐 (Implementation of Data processing of the High Availability for Software Architecture of the Cloud Computing)

  • 이병엽;박준호;유재수
    • 한국콘텐츠학회논문지
    • /
    • 제13권2호
    • /
    • pp.32-43
    • /
    • 2013
  • 최근 많은 기관들로부터 클라우드 서비스가 향후 대세적인 IT서비스로의 확고한 기술로서 예견하고 있고, 실질적으로 IT를 리딩하는 많은 벤더 기업들을 주축으로 실질적인 클라우드 서비스를 제공 하고 있다. 따라서 클라우드 사용자는 서비스의 물리적인 위치나, 시스템 환경과 같은 부분들을 관여하지 않고, 스토리지 서비스, 데이터의 사용, 소프트웨어의 사용들을 제공하는 획기적인 서비스로 거듭나고 있다. 한편, 클라우드 컴퓨팅 기술들은 인프라스트럭처에서 요구되는 서비스의 수준, 다양한 시스템에서 요구되는 하드웨어적인 문제들을 벗어서 자유스럽게 원하는 만큼의 IT 리소스를 쉽게 사용할 수 있는 장점을 가지고 있지만, 고가용성 측면에서 반드시 기술적인 해결 방안을 모색하여야 한다. 따라서 본 논문 에서는 고가용성 측면에서의 클라우드 컴퓨팅을 위해 분산 파일 시스템이 갖추어야 할 사항들과 클라우드 컴퓨팅에서 활용 가능한 오픈소스 기반의 하둡 분산 파일 시스템, 메모리 데이터베이스 기술, 고가용성 데이터베이스 시스템을 소개하고 현재 클라우드 컴퓨팅 시장에서 활용되고 있는 분산 파일 시스템을 통한 분산처리 기술을 참고하여 고가용성 대용량 분산 데이터 처리 아키텍처를 클라우드 서비스 측면에서 구현하였다.

MapReduce 분산 데이터처리 플랫폼에 기반한 모바일 디바이스 UX 분석 (UX Analysis for Mobile Devices Using MapReduce on Distributed Data Processing Platform)

  • 김성숙;김성규
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권9호
    • /
    • pp.589-594
    • /
    • 2013
  • 웹의 특징인 개방과 공유의 사고방식이 더욱 일반화 되면서 개발자 뿐 만 아니라 사용자가 직접 발생시키는 데이터도 복합적으로 늘어나고 있는 실정이다. 이러한 상황에서 모바일 디바이스 User eXperience(UX) 분석에서 다른 무엇보다도 디바이스에 기록되는 대용량의 로그 기록에서 필요한 데이터들을 자동으로 요약 정리해 주는 기법이 필요하다. 이에, 본 논문에서는 분석하고자 하는 모바일 디바이스 특성에 맞게 사전에 로그 데이터 속성에 대한 정의를 먼저하고, 직접 이를 반영한 사용자의 로그를 수집하여 저장하였다. 또한, 발생되는 대용량의 로그 기록에 기초한 UX를 분석하고자 다양한 로그 데이터 타입을 설정 및 처리할 수 있는 Hadoop(하둡)에서 제공하는 MapReduce 기법을 활용하여 데이터를 분산 처리하였다. 이를 통해, Map과 Reduce의 다양한 조합으로 대용량의 모바일 디바이스에서 발생되는 로그 데이터 셋에서 복잡한 스키마를 단순화시켜 분산 데이터 처리 환경에 맞게 UX 분석 방안을 제시하였다.

확장형 실시간 데이터 파이프라인 시스템 아키텍처 설계 (Design of Extended Real-time Data Pipeline System Architecture)

  • 신호승;강성원;이지현
    • 정보과학회 논문지
    • /
    • 제42권8호
    • /
    • pp.1010-1021
    • /
    • 2015
  • 빅데이터 시스템은 대규모 로그 데이터를 수집하는 용도로 광범위하게 사용되고 있기 때문에 높은 성능을 갖는 것이 매우 중요하지만, 현재의 Hadoop 기반의 빅데이터 시스템은 중복 처리로 인하여 낮은 성능을 갖는 아키텍처적인 문제를 가지고 있다. 본 논문은 아키텍처 설계 개선을 통하여 Hadoop 기반 시스템의 낮은 성능 문제를 해결한다. 새로운 제안 아키텍처는 기존 아키텍처의 배치(Batch) 기반의 데이터 수집 방식을 개별처리 방식과 혼합한 수집 방법을 사용하고, 수집하는 데이터를 In-Memory 상에서 직접 분석하여 중복 처리를 배제하여 높은 성능을 제공하게 한다. 또한 제안 아키텍처는 기존 Hadoop 기반 아키텍처의 장점인 시스템 확장성을 가진다. 본 논문은 제안 아키텍처가 테스트 베드 환경에서 기존 아키텍처보다 데이터의 분석 처리 속도가 30%~35% 빠르고 확장성도 가진다는 것을 확인하였다.

전문용어 인식 시스템을 위한 분산 병렬 처리 플랫폼 최적화 및 성능평가 (Optimization and Performance Analysis of Distributed Parallel Processing Platform for Terminology Recognition System)

  • 최윤수;이원구;이민호;최동훈;윤화묵;송사광;정한민
    • 한국콘텐츠학회논문지
    • /
    • 제12권10호
    • /
    • pp.1-10
    • /
    • 2012
  • 과학기술 문헌의 전문용어 인식 분야는 지금까지 다양한 통계적 방법론을 사용하여 용어 인식 정확률을 향상시키기 위하여 연구되어 왔다. 하지만 기존의 연구는 단일-코어 또는 단일 머신 상에서 수행되었기 때문에, 폭발적으로 증가하는 문헌들에 대한 실시간 분석 요구를 처리할 수 없는 상황에 직면하고 있다. 본 논문에서는 전문용어를 인식하는 과정에서 병목현상이 발생하는 작업을 '후보용어 추출 과정'의 언어처리부분과 '용어 가중치 할당 과정'에서 통계정보를 취합하는 부분으로 분류하고, 각 작업을 분산병렬 처리 기반의 맵리듀스 작업을 이용하여 해결하는 전문용어 인식 방법을 구현하고 실험하였다. 실험은 확장성과 분산 병렬 처리 환경 최적화 두 가지로 수행하였고, 첫 번째 실험에서 12개의 노드를 사용하여 분산 병렬 처리하였을 때 단일 머신을 사용한 경우보다 11.27배의 처리속도 향상을 보였다. 두 번째 실험에서 1)기본 환경, 2)복수 리듀서, 3)컴바이너, 4) 2)와 3)의 조합에 대하여 수행하였고, 3)컴바이너 사용이 가장 우수한 성능을 보여 주었다. 본 논문에서 구현된 전문용어 인식 시스템은 대용량 과학기술 문헌에 대한 지식 추출 작업속도 개선에 기여하였다.

HBase에 대한 디지털 포렌식 조사 기법 연구 (Digital Forensic Investigation of HBase)

  • 박아란;정두원;이상진
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제6권2호
    • /
    • pp.95-104
    • /
    • 2017
  • 최근 스마트 기기의 발전과 소셜 네트워크 서비스(SNS)의 대중화로 기존 관계형 데이터베이스(RDBMS)에서는 처리하기 어려운 데이터들이 증가하고 있다. 이러한 대용량의 비정형 데이터를 실시간으로 처리하기 위한 대안으로 비관계형 데이터베이스(NoSQL DBMS)가 각광 받고 있다. 데이터베이스 디지털 포렌식 조사 기법은 대부분 관계형 데이터베이스를 대상으로 연구되어왔으나, 최근 NoSQL DBMS를 도입하는 기업이 증가하면서 NoSQL DBMS에 대한 디지털 포렌식 기법의 수요도 증가하고 있다. NoSQL DBMS는 정규화할 스키마가 존재하지 않고, 데이터베이스 종류나 운영환경에 따라 저장방식이 상이하기 때문에 디지털 포렌식 조사 시 이를 고려한 새로운 기법들이 필요하다. NoSQL DBMS 중 문서형 데이터베이스에 대한 연구는 진행되어 왔지만, 이를 다른 종류의 NoSQL DBMS에 그대로 적용하기엔 한계가 있다. 이에 본 논문에서는 NoSQL DBMS 중 컬럼형 데이터베이스인 HBase의 구동 방식과 데이터 모델을 소개하고, 운영환경 파악과 아티팩트 수집 및 분석, 삭제된 데이터의 복구 방안에 대해 제안하여 이를 바탕으로 HBase에 대한 디지털 포렌식 조사 기법에 대해 연구하였다. 또한 실험 시나리오를 통해 제안된 HBase에 대한 디지털 포렌식 조사 기법을 검증한다.