• 제목/요약/키워드: 맵/리듀스 모델

검색결과 13건 처리시간 0.022초

맵리듀스에서 리듀스 단계 성능 향상을 위한 적응적 리듀스 태스크 스케줄링 기법 (Adaptive Reduce Task Scheduling Technique for Improving Reduce Phase in MapReduce)

  • 이정하;최숙경;박지수;이은영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.160-163
    • /
    • 2012
  • 맵리듀스는 데이터 집약적인 어플리케이션에서 대량의 데이터를 분산 병렬 처리하기 위한 프로그래밍 모델이다. 하둡은 맵리듀스의 오픈소스 구현으로 맵리듀스를 사용하기 위한 도구로 많이 알려져 있다. 실제 하둡을 이용하여 맵리듀스를 적용할 때 맵 태스크 단계는 병렬로 수행되어 순차처리에 비해 시간이 단축된다. 그러나 맵 태스크의 결과물인 중간 단계의 데이터는 단일 리듀스 태스크에서 처리됨으로써 시간 지연이 발생한다. 따라서 본 논문에서는 단일 리듀스 태스크 처리에서 발생하는 오버로드 및 시간 지연 문제를 해결하기 위해 적응적으로 리듀스 태스크를 할당하는 스케줄링 기법을 제안하고 실험을 통해 이 기법의 성능을 검증한다.

비-전용 분산 컴퓨팅 환경에서 맵-리듀스 처리 성능 최적화를 위한효율적인 데이터 재배치 알고리즘 (An Efficient Data Replacement Algorithm for Performance Optimization of MapReduce in Non-Dedicated Distributed Computing Environments)

  • 류은경;손인국;박준호;복경수;유재수
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2013년도 춘계 종합학술대회 논문집
    • /
    • pp.39-40
    • /
    • 2013
  • 최근 소셜 미디어의 성정과 모바일 장치와 같은 디지털 기기의 활용이 증가함에 따라 데이터가 기하급수적으로 증가하였다. 이러한 대용량의 데이터를 처리하기 위한 대표적인 프레임워크로 맵-리듀스가 등장하였다. 하지만 전용 분산 컴퓨팅 환경에서의 균등한 데이터 배치를 기반으로 수행되는 기존 맵-리듀스는 가용성이 다른 비-전용 분산 컴퓨팅 환경에서는 적합하지 않다. 이를 고려한 비-전용 분산 컴퓨팅 환경에 최적화된 데이터 재배치 알고리즘이 제안되었지만, 데이터 재배치 알고리즘을 수행함으로써 재배치에 많은 시간을 필요로 하고, 불필요한 데이터 전송에 의한 네트워크 부하가 발생한다. 본 논문에서는 비-전용 분산 컴퓨팅 환경에서 맵-리듀스의 성능 최적화를 위한 효율적인 데이터 재배치 알고리즘을 제안한다. 제안하는 기법에서는 노드의 가용성 분석 모델을 기반으로 노드의 데이터 블록 비율을 연산하고, 기존의 데이터 배치를 고려하여 전송함으로써 네트워크 부하를 감소시킨다. 성능평가 결과 기존 기법에 비해 데이터 재배치 블록 비율이 약 75% 감소하였다.

  • PDF

비-전용 분산 컴퓨팅 환경에서 맵-리듀스 처리 성능 최적화를 위한 효율적인 데이터 재배치 알고리즘 (An Efficient Data Replacement Algorithm for Performance Optimization of MapReduce in Non-dedicated Distributed Computing Environments)

  • 류은경;손인국;박준호;복경수;유재수
    • 한국콘텐츠학회논문지
    • /
    • 제13권9호
    • /
    • pp.20-27
    • /
    • 2013
  • 최근 소셜 미디어의 성장과 모바일 장치와 같은 디지털 기기의 활용이 증가함에 따라 데이터가 기하급수적으로 증가하였다. 이러한 대용량의 데이터를 처리하기 위한 대표적인 프레임워크로 맵-리듀스가 등장하였다. 하지만 전용 분산 컴퓨팅 환경에서 균등한 데이터 배치를 기반으로 수행되는 기존 맵-리듀스는 가용성이 다른 비-전용 분산 컴퓨팅 환경에서는 적합하지 않다. 이러한 비-전용 분산 컴퓨팅 환경을 고려한 데이터 재배치 알고리즘이 제안되었지만, 재배치에 많은 시간을 필요로 하고, 불필요한 데이터 전송에 의한 네트워크 부하가 발생한다. 본 논문에서는 비-전용 분산 컴퓨팅 환경에서 맵-리듀스의 성능 최적화를 위한 효율적인 데이터 재배치 알고리즘을 제안한다. 제안하는 기법에서는 노드의 가용성 분석 모델을 기반으로 노드의 데이터 블록 비율을 연산하고, 기존의 데이터 배치를 고려하여 전송함으로써 네트워크 부하를 감소시킨다. 성능평가 결과, 제안하는 기법이 기존 기법에 비해 성능이 우수함을 확인하였다.

K-means를 이용한 아파치 스파크 및 맵 리듀스 성능 분석 (Apache Spark and Map Reduce with Performance Analysis using K-Means)

  • 정영교;정동영;송준석;윤희용
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2016년도 제53차 동계학술대회논문집 24권1호
    • /
    • pp.77-78
    • /
    • 2016
  • 빅 데이터의 데이터 수집 및 분석 기술에 대한 연구는 컴퓨터 과학 분야에서 각광 받고 있다. 또한 소셜 미디어로 인한 대량의 비정형 데이터 분석을 요구하는 다양한 분야에 접목되어 효용성을 인정받고 있다. 그러나 빅 데이터 개념을 기반으로 하는 하둡과 스파크는 유즈케이스에 따라 성능이 크게 달라진다는 문제점이 있다. 이러한 문제점을 해결하기 위해 본 논문에서는 하둡의 맵리듀스를 줄이고 아파치 스파크를 이용한 빅 데이터 분석을 위하여 머신러닝 알고리즘인 K-Means 알고리즘을 이용하여 프로세싱 모델의 성능을 비교한다.

  • PDF

이동 사용자의 다음 장소 예측을 위한 맵리듀스 기반의 분산 데이터 마이닝 (A MapReduce-Based Distributed Data Mining Approach to Next Place Prediction for Mobile Users)

  • 김종환;이석준;김인철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 춘계학술발표대회
    • /
    • pp.777-780
    • /
    • 2014
  • 본 논문에서는 휴대용 기기 사용자들의 이동 궤적을 기록한 대용량의 GPS 위치 데이터 집합으로부터 각 사용자의 이동 패턴 모델을 학습해내고, 이 모델을 적용하여 각 사용자의 다음 방문 장소를 효율적으로 예측할 수 있는 맵리듀스 기반의 분산 데이터 마이닝 시스템을 소개한다. 본 시스템은 크게 사용자별 이동 패턴 모델을 학습하는 후단부와 실시간으로 다음 방문 장소를 예측하는 전단부로 구성된다. 이 중에서 후단부는 주요 장소 추출, 이동 궤적 변환, 이동 패턴 모델 학습 등 총 3개의 맵리듀스 작업 모듈들로 구성된다. 이에 반해, 본 시스템의 전단부는 이동 경로 후보군 생성, 다음 장소 예측 등 총 2개의 맵리듀스 작업 모듈들로 구성된다. 그리고 본 시스템을 구성하는 각각의 작어마다 분산처리를 극대화할 수 있도록 맵과 리듀스 함수를 설계하였다. 끝으로, 대용량의 GeoLife 벤치마크 데이터 집합을 이용하여 본 논문에서 소개한 시스템의 예측 성능을 분석하기 위한 실험을 수행하였고, 이를 통해 본 시스템의 높은 성능을 확인할 수 있었다.

Map-Reduce 프로그래밍 모델 기반의 나이브 베이스 학습 알고리즘 (Naive Bayes Learning Algorithm based on Map-Reduce Programming Model)

  • 강대기
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2011년도 추계학술대회
    • /
    • pp.208-209
    • /
    • 2011
  • 본 논문에서는, 맵-리듀스 모델 기반에서 나이브 베이스 알고리즘으로 학습과 추론을 수행하는 방안에 대해 소개하고자 한다. 이를 위해 Apache Mahout를 이용하여 분산 나이브 베이스 (Distributed Naive Bayes) 학습 알고리즘을 University of California, Irvine (UCI)의 벤치마크 데이터 집합에 적용하였다. 실험 결과, Apache Mahout의 분산 나이브 베이스 학습 알고리즘은 일반적인 WEKA의 나이브 베이스 학습 알고리즘과 그 성능면에서 큰 차이가 없음을 알 수 있었다. 이러한 결과는, 향후 빅 데이터 환경에서 Apache Mahout와 같은 맵-리듀스 모델 기반 시스템이 기계 학습에 큰 기여를 할 수 있음을 나타내는 것이다.

  • PDF

Framework for Efficient Web Page Prediction using Deep Learning

  • Kim, Kyung-Chang
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권12호
    • /
    • pp.165-172
    • /
    • 2020
  • 웹에서 접근하는 정보의 폭발적인 증가에 따라 사용자의 다음 웹 페이지 사용을 예측하는 문제의 중요성이 증가되었다. 사용자의 다음 웹 페이지 접근을 예측하는 방법 중 하나가 딥 러닝 기법이다. 웹 페이지 예측 절차는 데이터 전처리 과정을 통해 웹 로그 정보들을 분석하고 딥 러닝 기법을 이용하여 분석된 웹 로그 결과를 가지고 사용자가 접근할 다음 웹 페이지를 예측한다. 본 논문에서는 웹 페이지 예측을 위한 효율적인 웹 로그 전처리 작업과 분석을 위해 딥 러닝 기법을 사용하는 웹 페이지 예측 프레임워크를 제안한다. 대용량 웹 로그 정보의 전처리 작업 속도를 높이기 위하여 Hadoop 기반 맵/리듀스(MapReduce) 프로그래밍 모델을 사용한다. 또한 웹 로그 정보의 전처리 결과를 이용한 학습과 예측을 위한 딥 러닝 기반 웹 예측 시스템을 제안한다. 실험을 통해 논문에서 제안한 방법이 기존의 방법과 비교하여 성능 개선이 있다는 사실을 보였고 아울러 다음 페이지 예측의 정확성을 보였다.

데이터 분배 및 태스크 진행 스케쥴링을 통한 맵/리듀스 모델의 성능 향상 (Improving the Map/Reduce Model through Data Distribution and Task Progress Scheduling)

  • 황인성;정경용;임기욱;이정현
    • 한국콘텐츠학회논문지
    • /
    • 제10권10호
    • /
    • pp.78-85
    • /
    • 2010
  • Map/Reduce 는 최근에 많은 주목을 받고 있는 클라우드 컴퓨팅을 구현하는 프로그래밍 모델이다. 이 모델은 여러 대의 컴퓨터를 이용해서 규모가 큰 데이터를 처리하는 어플리케이션에서 사용된다. 따라서 구성된 컴퓨터들을 효율적으로 사용하기 위해서 데이터를 적당한 크기로 나눈 다음 각각의 컴퓨터에 효율적으로 분배시키는 과정을 결정하는 것이 중요하다. 또한 모델을 구성하고 있는 Map 단계와 Reduce 단계를 실행하는 계획도 성능에 많은 영향을 줄 수 있다. 본 논문에서는 대용량의 데이터를 분리해서 Map 태스크를 실행하는 클라우드 컴퓨팅 노드의 성능과 네트워크의 상태를 고려한 후 각각의 컴퓨팅 노드에게 효율적으로 분배하는 방법을 제안한다. 그리고 Map 단계와 Reduce 단계에서 진행하는 방식을 튜닝하여 Reduce 작업의 처리속도를 향상시켰다. 제안된 방법은 대표적인 두 개의 Map/Reduce 어플리케이션을 이용하여 실험하고 조건에 따라 성능에 어떠한 결과를 미치는지 평가했다.

SSD 타입 저장장치를 포함하는 Hadoop 시스템의 Iterative Processing 처리 성능 분석 (Performance Analysis on Hadoop with SSD for Interative Process)

  • 오상윤;권성민;이수경
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2016년도 제54차 하계학술대회논문집 24권2호
    • /
    • pp.191-193
    • /
    • 2016
  • 본 논문에서는 SSD 저장장치를 포함하는 하둡의 Iterative Processing에 대한 성능 분석 결과를 소개한다. 하둡은 맵 리듀스 병렬 프로그래밍 모델을 통해 Batch Processing에 특화된 구조를 가지고 있는 프레임 워크이다. 이는 병렬/분산 환경에서 큰 성능향상을 보장하지만, 반복 작업을 수행하는 Iterative Processing에 대하여는 성능이 낮아지는 문제가 존재하고 있다. 이에 본 논문에서는 점차 낮아지는 가격으로 인해 하둡시스템에 적용 가능성이 타진되는 SSD를 통해 반복 작업의 성능이슈를 해결할 수 있는지 확인하고, SSD를 통한 성능향상의 요소가 존재하는지 알아보고자 실험을 진행하였다. 실험에서는 Batch Processing인 word count와 Iterative Processing인 Page Rank 알고리즘을 MapReduce로 구현하고 데이터 크기에 따른 성능 향상도를 측정하였고, SSD 추가와 같은 하드웨어적인 성능을 통한 하둡의 반복 작업은 큰 효율을 기대하기가 어렵다는 결론을 보였다.

  • PDF

다음 장소 예측을 위한 맵리듀스 기반의 이동 패턴 마이닝 시스템 설계 (Design of a MapReduce-Based Mobility Pattern Mining System for Next Place Prediction)

  • 김종환;이석준;김인철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권8호
    • /
    • pp.321-328
    • /
    • 2014
  • 본 논문에서는 모바일 기기 사용자들의 다음 방문 장소를 효율적으로 예측할 수 있는 맵리듀스 기반의 이동 패턴 마이닝 시스템을 소개한다. 이 시스템은 대용량의 사용자 이동 궤적 데이터 집합으로부터 은닉 마코프 모델로 표현되는 각 사용자의 이동 패턴을 학습해내고, 이 모델을 현재 이동 궤적에 적용함으로써 다음 방문 장소를 예측한다. 본 시스템은 사용자별 이동 패턴 모델을 학습하는 후단부와 실시간으로 다음 방문 장소를 예측하는 전단부 등 크게 두 부분으로 구성된다. 이 중에서 후단부는 주요 장소 추출, 이동 궤적 변환, 이동 패턴 모델 학습 등 총 3개의 맵리듀스 작업 모듈들로 구성된다. 이에 반해, 본 시스템의 전단부는 이동 경로 후보군 생성, 다음 장소 예측 등 총 2개의 작업 모듈들로 구성된다. 그리고 본 시스템을 구성하는 각 작업 모듈의 맵과 리듀스 함수들은 하둡 인프라를 효과적으로 활용하여 병렬 처리를 극대화할 수 있도록 설계하였다. 대용량의 공개 벤치마크 데이터 집합인 GeoLife를 이용하여 본 논문에서 소개한 시스템의 성능을 분석하기 위한 실험들을 수행하였고, 실험 결과를 통해 본 시스템의 높은 성능을 확인할 수 있었다.