• 제목/요약/키워드: 맵리듀스 프레임워크

검색결과 54건 처리시간 0.018초

타원곡선기반 하둡 분산 시스템의 초기 인증 프로토콜 (Initial Authentication Protocol of Hadoop Distribution System based on Elliptic Curve)

  • 정윤수;김용태;박길철
    • 디지털융복합연구
    • /
    • 제12권10호
    • /
    • pp.253-258
    • /
    • 2014
  • 최근 스마트폰 사용이 증가하면서 빅 데이터 서비스를 제공하는 클라우드 컴퓨팅 기술이 발달하고 있으며, 빅 데이터 서비스를 제공받으려는 사용자 또한 증가하고 있다. 빅 데이터 서비스 중 하둡 프레임워크는 데이터 집약적인 분산 어플리케이션을 지원하는 하둡 파일 시스템과 하둡 맵리듀스로 서비스를 제공하고 있으나, 하둡 시스템을 이용하는 스마트폰 서비스는 데이터 인증시 보안에 매우 취약한 상태이다. 본 논문에서는 스마트폰 서비스를 제공하는 하둡 시스템의 초기 과정의 인증 프로토콜을 제안한다. 제안 프로토콜은 하둡 시스템의 안전한 다중 데이터 처리를 지원하기 위해서 대칭키 암호 기술과 함께 ECC 기반의 알고리즘을 조합하였다. 특히, 제안 프로토콜은 사용자가 하둡 시스템에 접근하여 데이터를 처리할 때, 초기 인증키를 대칭키 대신 타원 곡선 기반의 공개키를 사용함으로써 안전성을 향상시켰다.

부산지역 교통관련 기사를 이용한 비정형 빅데이터의 정형화와 시각적 해석 (Structuring of unstructured big data and visual interpretation)

  • 이경준;노윤환;윤상경;조영석
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권6호
    • /
    • pp.1431-1438
    • /
    • 2014
  • 2013년 1월 1일부터 2013년 12월 31일까지의 부산지역지인 국제신문과 부산일보의 기사들 중 제목에 '부산'과 '교통'을 동시에 포함한 2889건의 기사 내용의 관계 또는 관련 있는 데이터에 내재되어 있는 의미 있는 패턴을 찾아내고자한다. 데이터마이닝 (datamining)의 일부인 텍스트마이닝(textmining)의 기법을 이용하여 사회네트워크분석 (SNA; social network analysis)을 실시하였다. 비정형 데이터의 정형화를 위해 빅데이터의 저장, 처리 및 분석을 위해 자바 기반의 오픈소스 프레임워크인 하둡 생태계 (Hadoop ecosystem)의 HDFS와 맵리듀스 (MapReduce)를 Linux (Ubuntu-12.04LTS) 환경에서 이용하였고, 기존의 R패키지에서 제공되는 사회 네트워크 분석보다 효율적인 시각화를 위해 각 노드 및 선에 비율에 따른 가중치를 주어 색상과 굵기로 해석할 수 있도록 새로운 알고리즘을 구현하였다.

분산 메모리 시스템에서의 SPARQL 질의 처리 (SPARQL Query Processing in Distributed In-Memory System)

  • 작바랄 바트셀렘;이완곤;김강필;박영택
    • 정보과학회 논문지
    • /
    • 제42권9호
    • /
    • pp.1109-1116
    • /
    • 2015
  • 본 논문에서는 functional 프로그래밍과 분산 메모리 환경인 Spark를 통해 SPARQL 질의문 처리의 오버헤드를 줄일 수 있는 방법을 제안한다. 최근 몇 년간 시멘팁웹의 RDF 온톨로지 데이터는 폭발적으로 증가하고 있기 때문에, 대용량 온톨로지 데이터에 대한 질의문을 효율적으로 처리할 수 있는 방법이 주요 쟁점으로 떠오르고 있다. SPARQL 질의문 처리에 대한 기존의 연구들은 하둡의 맵리듀스 프레임워크에 초점을 맞추고 있다. 그러나 하둡은 분산 파일 처리를 기반의 작업을 수행하므로 성능 저하가 발생할 수 있다. 따라서 질의문 처리 속도를 향상 시키기 위해 본 논문에서는 분산 메모리 시스템을 통해 질의문을 처리할 수 있는 방법을 제안한다. 또한 SPARQL 질의어 사이의 Binding 값을 Propagation하기 위해서 Spark의 Join방식, Functional 프로그램의 Map, Filter 방식, Spark의 캐시 기능을 활용 하는 방식을 제안하고 있다. 본 논문의 실험 결과는 다른 기법들과 비교하여 높은 성능을 얻었다. 특히 현재 가장 빠른 성능을 보이는 SPARQL 질의 엔진인 Sempala와 유사하다는 결과를 얻었다.

클라우드 컴퓨팅을 이용한 유시티 비디오 빅데이터 분석 (An Analysis of Big Video Data with Cloud Computing in Ubiquitous City)

  • 이학건;윤창호;박종원;이용우
    • 인터넷정보학회논문지
    • /
    • 제15권3호
    • /
    • pp.45-52
    • /
    • 2014
  • 유비쿼터스 시티(유시티)에서는 수많은 비디오 카메라들이 설치된다. 이렇게 설치된 많은 카메라로부터 대용량의 비디오 데이터가 실시간으로 끊임없이 발생하고 유시티의 관리 시스템으로 전달된다. 유시티의 다양한 서비스들을 뒷받침하기 위해서는 이러한 비디오 데이터를 저장하고, 이렇게 저장된 대용량의 비디오 데이터를 분석할 수 있는 방법과 관리 시스템이 요구된다. 그래서, 이 논문에서는 클라우드 컴퓨팅을 기반으로 한 유시티 비디오 관리 시스템을 제안한다. 또한, 근래 주목받고 있는 데이터 병렬처리 프레임워크인 Hadoop MapReduce를 이용하여 이러한 빅데이터 비디오를 분석하는 방법을 제안하고, 이에 따른 우리의 성능 평가를 소개한다.