• 제목/요약/키워드: Hadoop System

검색결과 237건 처리시간 0.022초

비용절감 측면에서 클라우드, 빅데이터 서비스를 위한 대용량 데이터 처리 아키텍쳐 (Data Processing Architecture for Cloud and Big Data Services in Terms of Cost Saving)

  • 이병엽;박재열;유재수
    • 한국콘텐츠학회논문지
    • /
    • 제15권5호
    • /
    • pp.570-581
    • /
    • 2015
  • 최근 많은 기관들로부터 클라우드 서비스, 빅 데이터가 향후 대세적인 IT 트렌드 및 확고한 기술로서 예견되고 있다. 또한 현재 IT를 선도하는 많은 벤더를 중심으로 클라우드, 빅데이터에 대한 실질적인 솔루션과 서비스를 제공하고 있다. 이러한 기술들은 기업의 비용절감 측면에서, 클라우드는 인터넷 기반의 다양한 기술들을 기반으로 비즈니스 모델에 대한 자원의 사용을 자유스럽게 선택할 수 있는 장점을 가지고 있어 능동적인 자원 확장을 위한 프로비져닝 기술과 가상화 기술들이 주요한 기술로 주목 받고 있다. 또한 빅데이터는 그동안 분석하지 못했던 새로운 비정형 데이터들에 대한 분석 환경을 제공함으로서 데이터 예측모델의 차원을 한층 높이고 있다. 하지만 클라우드 서비스, 빅데이터의 공통점은 대용량 데이터를 기반으로 서비스 또는 분석을 요하고 있어, 초기 발전 모델부터 대용량 데이터의 효율적인 운영 및 설계가 중요하게 대두 되고 있다. 따라서 본 논문에 클라우드, 빅데이터 서비스를 위한 대용량 데이터 기술 요건들을 토대로 데이터 처리 아키텍처를 정립하고자 한다. 특히, 클라우드 컴퓨팅을 위해 분산 파일 시스템이 갖추어야 할 사항들과 클라우드 컴퓨팅에서 활용 가능한 오픈소스 기반의 하둡 분산 파일 시스템, 메모리 데이터베이스 기술요건을 소개하고, 빅데이터, 클라우드의 대용량 데이터를 비용절감 측면에서 효율적인 압축기술 요건들을 제시한다.

전문용어 인식 시스템을 위한 분산 병렬 처리 플랫폼 최적화 및 성능평가 (Optimization and Performance Analysis of Distributed Parallel Processing Platform for Terminology Recognition System)

  • 최윤수;이원구;이민호;최동훈;윤화묵;송사광;정한민
    • 한국콘텐츠학회논문지
    • /
    • 제12권10호
    • /
    • pp.1-10
    • /
    • 2012
  • 과학기술 문헌의 전문용어 인식 분야는 지금까지 다양한 통계적 방법론을 사용하여 용어 인식 정확률을 향상시키기 위하여 연구되어 왔다. 하지만 기존의 연구는 단일-코어 또는 단일 머신 상에서 수행되었기 때문에, 폭발적으로 증가하는 문헌들에 대한 실시간 분석 요구를 처리할 수 없는 상황에 직면하고 있다. 본 논문에서는 전문용어를 인식하는 과정에서 병목현상이 발생하는 작업을 '후보용어 추출 과정'의 언어처리부분과 '용어 가중치 할당 과정'에서 통계정보를 취합하는 부분으로 분류하고, 각 작업을 분산병렬 처리 기반의 맵리듀스 작업을 이용하여 해결하는 전문용어 인식 방법을 구현하고 실험하였다. 실험은 확장성과 분산 병렬 처리 환경 최적화 두 가지로 수행하였고, 첫 번째 실험에서 12개의 노드를 사용하여 분산 병렬 처리하였을 때 단일 머신을 사용한 경우보다 11.27배의 처리속도 향상을 보였다. 두 번째 실험에서 1)기본 환경, 2)복수 리듀서, 3)컴바이너, 4) 2)와 3)의 조합에 대하여 수행하였고, 3)컴바이너 사용이 가장 우수한 성능을 보여 주었다. 본 논문에서 구현된 전문용어 인식 시스템은 대용량 과학기술 문헌에 대한 지식 추출 작업속도 개선에 기여하였다.

Splunk 플랫폼을 활용한 유해 정보 탐지를 위한 빅데이터 분석 시스템 설계 (Design of Splunk Platform based Big Data Analysis System for Objectionable Information Detection)

  • 이협건;김영운;김기영;최종석
    • 한국정보전자통신기술학회논문지
    • /
    • 제11권1호
    • /
    • pp.76-81
    • /
    • 2018
  • 미래 경제 성장 동력으로 부상하고 있는 사물인터넷은 이미 생활과 밀접한 분야에서는 도입이 활발하게 이루어지고 있으나, 잠재된 보안위협은 여전히 잔존하고 있다. 특히 인터넷 상의 유해 정보는 스마트홈 및 스마트시티의 활성화로 인해 폭발적으로 설치된 CCTV에 할당된 IP 정보 및 심지어 접속 포트 번호들이 포털 검색 결과 및 페이스북, 트위터와 같은 소셜 미디어 등에 공개되어 간단한 툴로도 보다 쉽게 해킹이 가능하다. 사용자들이 많이 사용하는 포털 검색 데이터 및 소셜 미디어 데이터의 보안취약점 및 불법 사이트 정보들을 데이터 분석하여, 보안취약성 같은 위험 요소가 내포된 데이터 및 사회적 문제를 야기하는 불법 사이트에 대한 대응을 신속하게 수행할 수 있게 지원하는 빅데이터 분석 시스템이 필요하다. 본 논문에서는 빅데이터 분석 시스템 설계를 위해 하둡 기반 빅데이터 분석 시스템과 스파크 기반 빅데이터 분석 시스템 연구를 통해 요구사항을 도출하여 요구사항에 맞게 Splunk 플랫폼을 활용한 유해 정보 탐지를 위한 빅데이터 분석 시스템을 설계하였다.

실시간 웹 크롤링 분산 모니터링 시스템 설계 및 구현 (Design and Implemention of Real-time web Crawling distributed monitoring system)

  • 김영아;김계희;김현주;김창근
    • 융합정보논문지
    • /
    • 제9권1호
    • /
    • pp.45-53
    • /
    • 2019
  • 급변하는 정보화 시대에서 웹사이트에 서비스되는 정보 과잉에 대한 문제들을 접하곤 한다. 정보가 많아도 쓸모 있는 정보는 없고, 필요한 정보를 선택하는데 불필요한 시간이 많이 소비 된다. 검색 엔진과 같은 여러 사이트에서는 데이터의 최신 상태 유지를 위해 웹 크롤링을 한다. 웹 크롤링은 대부분 방문한 사이트의 모든 페이지의 복사본을 생성하는 데 사용되며 검색 엔진은 이렇게 생성된 페이지를 더욱 빠른 검색을 위해 인덱싱 한다. 많은 데이터 중에 정보가 실시간으로 변경되는 도매정보, 주문정보 등의 제한된 웹 데이터 수집은 일반적인 주제 중심의 웹 데이터 수집으로 무리가 있다. 현재 제한적 웹 정보를 실시간으로 수집하고 저장하는 방법에 대한 대안이 제시되고 있지 않다. 본 논문에서는 제한된 웹 사이트의 정보를 수집하고, 데이터의 상세분석을 통한 수집 시간 예측과 분류 작업을 통해 병렬 시스템에 저장하는 웹 크롤링 분산 모니터링 시스템(R-WCMS)을 제안한다. 실험 결과 웹 사이트 정보 검색을 제안모델에 적용하여 15-17% 시간이 감소됨을 입증했다.

빅데이터 처리율 향상을 위한 인-메모리 기반 하이브리드 빅데이터 처리 기법 연구 (Study of In-Memory based Hybrid Big Data Processing Scheme for Improve the Big Data Processing Rate)

  • 이협건;김영운;김기영
    • 한국정보전자통신기술학회논문지
    • /
    • 제12권2호
    • /
    • pp.127-134
    • /
    • 2019
  • IT기술의 발달로 인해 생성되는 데이터의 양은 매년 기하급수적으로 증가하고 있으며, 이에 대한 대안으로 분산시스템과 인-메모리 기반 빅데이터 처리 기법의 연구가 활발히 이루어지고 있다. 기존 빅데이터 처리 기법들의 처리 성능은 노드의 수와 메모리 용량이 증가될수록 보다 빠르게 빅데이터 처리한다. 그러나 노드의 수의 증가는 빅데이터 인프라 환경에서 장애발생 빈도가 높아지며, 인프라 관리 포인트 및 인프라 운영비용도 증가된다. 또한 메모리 용량의 증가는 노드 구성에 대한 인프라 비용이 증가된다. 이에 본 논문에서는 빅데이터 처리율 향상을 위한 인-메모리 기반 하이브리드 빅데이터 처리 기법을 제안한다. 제안하는 기법은 분산시스템 처리기법에 Combiner 단계를 추가하고, 그 단계에서 인-메모리 기반 처리 기술을 적용하여 기존 분산시스템 기반 빅데이터 처리기법에 비해 빅데이터 처리시간을 약 22% 감소시켰다. 향후, 제안하는 기법의 실질적인 검증을 위해 더 많은 노드로 구성된 빅데이터 인프라 환경에서의 현실적 성능평가가 필요하다.

도로 주행환경 분석을 위한 빅데이터 플랫폼 구축 정보기술 인프라 개발 (Development of Information Technology Infrastructures through Construction of Big Data Platform for Road Driving Environment Analysis)

  • 정인택;정규수
    • 한국산학기술학회논문지
    • /
    • 제19권3호
    • /
    • pp.669-678
    • /
    • 2018
  • 본 연구는 차량센싱데이터, 공공데이터 등 다종의 빅데이터를 활용하여 주행환경 분석 플랫폼 구축을 위한 정보기술 인프라를 개발하였다. 정보기술 인프라는 H/W 기술과 S/W 기술로 구분할 수 있다. 먼저, H/W 기술은 빅데이터 분산 처리를 위한 병렬처리 구조의 소형 플랫폼 서버를 개발하였다. 해당 서버는 1대의 마스터 노드와 9대의 슬래이브 노드로 구성하였으며, H/W 결함에 따른 데이터 유실을 막기 위하여 클러스터 기반 H/W 구성으로 설계하였다. 다음으로 S/W 기술은 빅데이터 수집 및 저장, 가공 및 분석, 정보시각화를 위한 각각의 프로그램을 개발하였다. 수집 S/W의 경우, 실시간 데이터는 카프카와 플럼으로 비실시간 데이터는 스쿱을 이용하여 수집 인터페이스를 개발하였다. 저장 S/W는 데이터의 활용 용도에 따라 하둡 분산파일시스템과 카산드라 DB로 구분하여 저장하는 인터페이스를 개발하였다. 가공 S/W는 그리드 인덱스 기법을 적용하여 수집데이터의 공간 단위 매칭과 시간간격 보간 및 집계를 위한 프로그램을 개발하였다. 분석 S/W는 개발 알고리즘의 탐재 및 평가, 장래 주행환경 예측모형 개발을 위하여 제플린 노트북 기반의 분석 도구를 개발하였다. 마지막으로 정보시각화 S/W는 다양한 주행환경 정보제공 및 시각화를 위하여 지오서버 기반의 웹 GIS 엔진 프로그램을 개발하였다. 성능평가는 개발서버의 메모리 용량과 코어개수에 따른 연산 테스트를 수행하였으며, 타 기관의 클라우드 컴퓨팅과도 연산성능을 비교하였다. 그 결과, 개발 서버에 대한 최적의 익스큐터 개수, 메모리 용량과 코어 개수를 도출하였으며, 개발 서버는 타 시스템 보다 연산성능이 우수한 것으로 나타났다.

HBase에 대한 디지털 포렌식 조사 기법 연구 (Digital Forensic Investigation of HBase)

  • 박아란;정두원;이상진
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제6권2호
    • /
    • pp.95-104
    • /
    • 2017
  • 최근 스마트 기기의 발전과 소셜 네트워크 서비스(SNS)의 대중화로 기존 관계형 데이터베이스(RDBMS)에서는 처리하기 어려운 데이터들이 증가하고 있다. 이러한 대용량의 비정형 데이터를 실시간으로 처리하기 위한 대안으로 비관계형 데이터베이스(NoSQL DBMS)가 각광 받고 있다. 데이터베이스 디지털 포렌식 조사 기법은 대부분 관계형 데이터베이스를 대상으로 연구되어왔으나, 최근 NoSQL DBMS를 도입하는 기업이 증가하면서 NoSQL DBMS에 대한 디지털 포렌식 기법의 수요도 증가하고 있다. NoSQL DBMS는 정규화할 스키마가 존재하지 않고, 데이터베이스 종류나 운영환경에 따라 저장방식이 상이하기 때문에 디지털 포렌식 조사 시 이를 고려한 새로운 기법들이 필요하다. NoSQL DBMS 중 문서형 데이터베이스에 대한 연구는 진행되어 왔지만, 이를 다른 종류의 NoSQL DBMS에 그대로 적용하기엔 한계가 있다. 이에 본 논문에서는 NoSQL DBMS 중 컬럼형 데이터베이스인 HBase의 구동 방식과 데이터 모델을 소개하고, 운영환경 파악과 아티팩트 수집 및 분석, 삭제된 데이터의 복구 방안에 대해 제안하여 이를 바탕으로 HBase에 대한 디지털 포렌식 조사 기법에 대해 연구하였다. 또한 실험 시나리오를 통해 제안된 HBase에 대한 디지털 포렌식 조사 기법을 검증한다.