• 제목/요약/키워드: 맵리듀스

검색결과 140건 처리시간 0.027초

데이터 샘플링 기반 프루닝 기법을 도입한 효율적인 각도 기반 공간 분할 병렬 스카이라인 질의 처리 기법 (An Efficient Angular Space Partitioning Based Skyline Query Processing Using Sampling-Based Pruning)

  • 최우성;김민석;;정재화;정순영
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제6권1호
    • /
    • pp.1-8
    • /
    • 2017
  • 다기준 의사결정 시 활용할 수 있는 스카이라인 질의는 다수의 선택지 중에서 사용자가 '선호하지 않을 만한'(uninteresting) 선택지를 제거함으로써 사용자가 검토해야 하는 선택지의 수를 대폭 감소시키기 때문에 대용량 데이터 분석 시 매우 유용하게 활용될 수 있다. 이러한 배경에서 대용량 데이터에 대한 스카이라인 질의를 분산 병렬 처리하는 기법이 각광을 받고 있으며, 특히 맵리듀스(MapReduce) 기반의 분산 병렬 처리 기법 연구가 활발히 진행되어 왔다. 맵리듀스 기반 알고리즘의 병렬성 제고를 위해서는 부하 불균등 문제 중복 계산 문제 과다한 네트워크 비용 발생 문제를 해소해야 한다. 본 논문에서는 부하 불균등 문제와 중복 계산 문제를 해소하면서도 데이터 샘플링 기반 프루닝을 통해 네트워크 비용 절감 시킬 수 있는 맵리듀스 기반 병렬 스카이라인 질의 처리 기법인 MR-SEAP(MapReduce sample Skyline object Equality Angular Partitioning)을 소개한다. 또한 다양한 관점에서의 실험 평가함으로써 제안 기법의 효용성을 다방면으로 검증했다.

맵리듀스를 이용한 다중 중심점 집합 기반의 효율적인 클러스터링 방법 (An Efficient Clustering Method based on Multi Centroid Set using MapReduce)

  • 강성민;이석주;민준기
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권7호
    • /
    • pp.494-499
    • /
    • 2015
  • 데이터 사이즈가 증가함에 따라서 대용량 데이터를 분석하여 데이터의 특성을 파악하는 것이 매우 중요해졌다. 본 논문에서는 분산 병렬 처리 프레임워크인 맵리듀스를 활용한 k-Means 클러스터링 기반의 효과적인 클러스터링 기법인 MCSK-Means (Multi centroid set k-Means)알고리즘을 제안한다. k-Means 알고리즘은 임의로 정해지는 k개의 초기 중심점들의 위치에 따라서 클러스터링 결과의 정확도가 많은 영향을 받는 문제점을 가지고 있다. 이러한 문제를 해결하기 위하여, 본 논문에서 제안하는 MCSK-Means 알고리즘은 k개의 중심점들로 이루어진 m개의 중심점 집합을 사용하여 임의로 생성되는 초기 중심점의 의존도를 줄였다. 또한, 클러스터링 단계를 거친 m개의 중심점 집합들에 속한 중심점들에 대하여 직접 계층 클러스터링 알고리즘을 적용하여 k개의 클러스터 중심점들을 생성하였다. 본 논문에서는 MCSK-Means 알고리즘을 맵리듀스 프레임워크 환경에서 개발하여 대용량 데이터를 효율적으로 처리할 수 있도록 하였다.

맵리듀스를 이용한 클라우드 컴퓨팅 기반의 클러스터링 시스템 (Cloud based Clustering System using MapReduce)

  • 김기현;정인용;한병전;정창성
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 춘계학술발표대회
    • /
    • pp.159-160
    • /
    • 2013
  • 데이터마이닝 분야에 있어서 클러스터링 시스템은 데이터를 조직하고 통합하는 중요한 시스템이다. 이러한 시스템의 해결 과제인 복잡한 인스톨 과정, 높은 설비 투자 비용, 지속적인 사후 관리 등의 문제를 갖고 있다. 이에 주요 IT 벤더들은 클라우드 컴퓨팅을 이용하여 설치 과정 생략, 운용비용 절감, 사전 관리 강화 등에 중점을 두고 있다. 이에 본 논문에서는 맵 리듀스를 이용한 클라우드 컴퓨팅 기반의 클러스터링 시스템을 구현하였다. 이 시스템은 클라우드 컴퓨팅 기술을 이용하여 하둡 및 클러스터링 시스템 설치를 자동화 하였고, 맵리듀스를 사용해 데이터 처리를 여러 머신들이 분담하도록 하여 속도 향상을 꾀하였다.

맵리듀스의 데이터 로컬리티 향상을 위한 데이터 복제기법 (Data Replication Technique for Improving Data Locality of MapReduce)

  • 이정하;유헌창;이은영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(A)
    • /
    • pp.218-220
    • /
    • 2012
  • 인터넷 활용과 웹 어플리케이션의 개발이 증가함에 따라 처리해야하는 데이터의 양도 또한 증가하고 있다. 대량의 데이터를 효과적으로 처리하기 위한 방법 중 하나로 병렬처리 프로그래밍 모델인 맵리듀스가 있다. 하둡은 맵리듀스의 오픈소스 구현으로 대량의 데이터를 병렬로 처리하는 무료 자바 소프트웨어 프레임워크이다. 분산 파일 시스템을 사용하는 하둡에서는 처리하는 데이터가 다른 노드에 위치하는 데이터 로컬리티 문제가 전체 작업 수행시간의 증가를 야기하는 문제가 있다. 본 논문에서는 하둡에서의 데이터 로컬리티 문제를 해결하기 위한 데이터 복제기법을 제안한다. 제안하는 데이터 복제기법에서는 1) 라그랑지 보간법을 사용하여 과거 접근수를 이용한 미래 접근수를 예측하고, 2) 예측된 값을 Threshold값으로 설정하고, 3) 데이터 로컬리티 문제가 발생하였을 때, 복제사본을 생성할 것인지 캐시를 생성할 것인지를 결정하여 복제 사본의 수를 최적화 한다. 실험을 통해 단순히 복제사본 수를 증가시킴으로써 데이터 로컬리티를 향상을 이루어도 작업 완료시간이 감소하는 것이 아니라는 결과를 볼 수 있었고, 오버 런치로 인한 작업 완료시간 증가를 줄이기 위해 데이터 복제사본 수 최적화의 필요성을 확인할 수 있었다.

비용 효율적 맵리듀스 처리를 위한 클러스터 규모 설정 (Scaling of Hadoop Cluster for Cost-Effective Processing of MapReduce Applications)

  • 류우석
    • 한국전자통신학회논문지
    • /
    • 제15권1호
    • /
    • pp.107-114
    • /
    • 2020
  • 본 논문에서는 하둡 플랫폼에서 비용 효율적 빅데이터 분석을 수행하기 위한 클러스터 규모의 설정 방안을 연구한다. 의료기관의 경우 진료기록의 병원 외부 저장이 가능해짐에 따라 클라우드 기반 빅데이터 분석 요구가 증가하고 있다. 본 논문에서는 대중적으로 많이 사용되고 있는 클라우드 서비스인 아마존 EMR 프레임워크를 분석하고, 비용 효율적으로 하둡을 운용하기 위해 클러스터의 규모를 산정하기 위한 모델을 제시한다. 그리고, 다양한 조건에서의 실험을 통해 맵리듀스의 실행에 영향을 미치는 요인을 분석한다. 이를 통해 비용 대비 처리시간이 가장 효율적인 클러스터를 설정함으로써 빅데이터 분석시 효율성을 증대시킬 수 있다.

감성분석을 위한 병렬적 HDFS와 맵리듀스 함수 (A Parallel HDFS and MapReduce Functions for Emotion Analysis)

  • 백봉현;류윤규
    • 한국정보컨버전스학회논문지
    • /
    • 제7권2호
    • /
    • pp.49-57
    • /
    • 2014
  • 최근 대량의 SNS(Social Network Service) 데이터로부터 유용한 정보를 추출하고 사용자의 진의 정보를 평가하기 위한 오피니언 마이닝(opinion mning)이 소개되고 있다. 오피니언 마이닝은 대량의 SNS 데이터로부터 빠른 기간 내에 데이터를 수집하고 분석하여 목적에 적합한 정보를 추출하는 효율적인 기법이 필요하다. SNS에서 발생되는 다양한 비정형 데이터로부터 감성정보를 추출하기 위해, 본 논문에서는 하둡(Hadoop) 시스템 기반의 병렬적 HDFS(Hadoop Distributed File System)와 맵리듀스(MapReduce) 기반 감성분석 함수를 제안한다. 실험결과로 제안한 시스템과 함수는 데이터 수집과 적재시간에 대해 O(n)보다 빠르게 처리하며, 메모리와 CPU 자원에 대해 안정적인 부하분산이 이루어지는 것을 확인하였다.

  • PDF

공간 소셜 분석을 위한 마이크로블로그 데이터의 맵리듀스 기반 공간 집계 알고리즘 (A MapReduce based Algorithm for Spatial Aggregation of Microblog Data in Spatial Social Analytics)

  • 조현구;양평우;유기현;남광우
    • 정보과학회 논문지
    • /
    • 제42권6호
    • /
    • pp.781-790
    • /
    • 2015
  • 인터넷과 모바일 환경의 발전에 따라 최근에는 마이크로블로그가 성행하고 있다. 마이크로블로그에는 부가적인 데이터가 담겨있다. 그 중 위치 정보에 대한 데이터를 포함하는 마이크로블로그 데이터를 공간 소셜 웹 객체라고 지칭한다. 이러한 마이크로블로그 데이터에 대한 일반 집계는 사용자별 데이터 집계 등이 있으나, 단일 정보에 대한 집계만 가능하다. 본 연구는 공간 소셜 웹 객체의 특성을 갖는 마이크로블로그 데이터의 공간 소셜 분석을 위해, 일반 집계와 공간 데이터를 결합하고 지오해시와 맵리듀스를 이용한 공간 집계에 대한 알고리즘을 제시한다. 이를 통해 의미있는 공간 소셜에 대한 분석의 기반을 마련하였다.

맵리듀스와 대응분석을 활용한 비정형 빅 데이터의 정형화와 시각적 해석 (Standardizing Unstructured Big Data and Visual Interpretation using MapReduce and Correspondence Analysis)

  • 최요셉;최용석
    • 응용통계연구
    • /
    • 제27권2호
    • /
    • pp.169-183
    • /
    • 2014
  • 오늘날, 다양한 분야에서 다양한 형태의 빅 데이터들이 축적되고 있다. 이에, 빅 데이터를 분석하고 그 속에서 가치 있는 정보를 찾아내는 것은 매우 중요해지고 있다. 또한, 비정형 빅 데이터를 정형화하여 통계적 기법을 적용할 수 있게 하는 것은 매우 중요해지고 있다. 본 연구에서는 분산처리 시스템인 맵리듀스를 활용하여 비정형 빅 데이터를 정형화하고, 통계적 분석 기법인 단순 대응분석과 다중 대응분석을 적용하여, 한국 경제 신문의 지면에 실린 기사를 이용해 삼성전자와 애플을 언급하고 있는 단어들의 관계와 특성을 각각 파악하였다.

러스터 파일 시스템 기반 하둡 맵리듀스 실행 환경 구현 및 성능 분석 (Implementation and Performance Analysis of Hadoop MapReduce over Lustre Filesystem)

  • 곽재혁;김상완;허태상;황순욱
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권8호
    • /
    • pp.561-566
    • /
    • 2015
  • 하둡은 오픈소스 기반의 분산 데이터 처리 프레임워크로서 과학 및 상용 분야에서 널리 사용되고 있는데 최근에 대규모 데이터의 실시간 처리 및 분석을 위해 고성능 컴퓨팅(HPC) 기술을 활용하여 하둡을 고성능화하기 위한 연구가 시도되고 있다. 본 논문에서는 하둡의 기본 파일시스템 구현인 하둡 분산파일시스템(HDFS)을 고성능 병렬 분산파일시스템인 러스터 파일시스템으로 대체하여 사용할 수 있도록 하둡 파일시스템 라이브러리를 확장하여 구현하였고 하둡이 제공하는 표준 벤치마크 도구를 사용하여 성능을 분석하였다. 실험 결과 러스터 파일시스템 기반으로 하둡 맵리듀스 응용을 수행하는 경우에 2-13배의 성능 향상이 있음을 확인할 수 있었다.

대용량 데이터 분석을 위한 맵리듀스 기반의 이상치 탐지 (Outlier Detection Based on MapReduce for Analyzing Big Data)

  • 홍예진;나은희;정용환;김양우
    • 인터넷정보학회논문지
    • /
    • 제18권1호
    • /
    • pp.27-35
    • /
    • 2017
  • 가까운 미래에는 빅데이터의 많은 부분을 IoT 데이터가 차지할 것이라는 전망이 나오고 있다. 그에 따라, IoT 데이터의 많은 부분을 차치하는 센서 데이터에 관한 관심과 연구 또한 활발하게 진행되고 있다. 여러 분야에서 활용되고 있는 센서 데이터는 분석할 때 실제와는 다른 값인 이상치를 포함하게 되면 정확한 분석이 어려우며, 왜곡된 결과가 도출되어 활용할 수 없는 경우가 생긴다. 따라서 본 논문에서는 정확한 결과를 도출하기 위해 수집된 원자료를 분석하기 전에 이상치 탐지 및 제거를 하였다. 또한, 점점 늘어나고 있는 대용량의 데이터를 빠르게 처리하기 위해 메모리 접근방식인 스파크를 사용한 분산처리환경에서 처리하였다. 맵리듀스 기반의 이상치 탐지 및 제거는 총 4단계로 나누어 구현하였으며, 각 단계를 매퍼와 리듀스로 구현하였다. 제안한 기법의 평가를 위해서 3가지 환경에서 비교하였으며, 그 결과 이상치 탐지 및 제거를 하고자 하는 데이터의 용량이 커질수록 스파크를 이용한 분산처리환경에서의 처리가 가장 빠르다는 결과를 얻었다.