• 제목/요약/키워드: 맵리듀스

검색결과 140건 처리시간 0.052초

하둡 맵리듀스 성능 향상을 위한 데이터 프리패칭과 스트리밍 (Data Prefetching and Streaming for Improving the Performance of Mapreduce of Hadoop)

  • 이정준;김경태;윤희용
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2015년도 제51차 동계학술대회논문집 23권1호
    • /
    • pp.151-154
    • /
    • 2015
  • 최근 소셜 네트워크, 바이오 컴퓨팅, 사물 인터넷 등의 출현으로 인해 기존의 IT환경보다 많은 데이터가 생성되고 있고, 이로 인해 효율적인 대용량 데이터 처리기법에 대한 연구가 진행 되고 있다. 맵리듀스는 데이터 집약적인 연산 어플리케이션에 효과적인 프로그래밍 모델로써, 대표적인 맵리듀스 어플리케이션으로는 아파치 소프트웨어 재단에서 개발 지원중인 하둡이 있다. 본 논문은 하둡 맵리듀스의 성능 향상을 위해 데이터 프리패칭 기법과 스트리밍 기법을 제안한다. 하둡 맵리듀스의 성능 이슈 중 하나는 맵리듀스 과정에서 입력 데이터 전송에 의한 작업 지연이다. 이러한 데이터 전송 시간을 최소화하기 위해, 기존 맵리듀스와는 달리 데이터 전송을 담당하는 프리패칭 스레드를 별도로 생성하였다. 그 결과 데이터의 맵리듀스 작업 중에도 데이터 전송이 가능하게 되어 전체 데이터 처리 시간을 줄일 수 있었다. 이러한 프리패칭 기법을 사용해도 하둡 맵리듀스의 특성상 최초 데이터 전송 시에는 작업대기를 하게 되는데, 이 대기시간을 줄이고자 스트리밍 기법을 사용하여 데이터 전송에 의한 대기시간을 추가로 줄일 수 있었다. 제안하는 기법의 성능을 측정하기 위해 수학적인 모델링을 하였으며, 성능 측정결과 기존의 하둡 맵리듀스 및 프리패칭 기법만 적용된 맵리듀스 보다 스트리밍 기법이 추가 적용된 맵리듀스의 성능이 향상되었음을 확인 할 수 있었다.

  • PDF

맵리듀스에서 리듀스 단계 성능 향상을 위한 적응적 리듀스 태스크 스케줄링 기법 (Adaptive Reduce Task Scheduling Technique for Improving Reduce Phase in MapReduce)

  • 이정하;최숙경;박지수;이은영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.160-163
    • /
    • 2012
  • 맵리듀스는 데이터 집약적인 어플리케이션에서 대량의 데이터를 분산 병렬 처리하기 위한 프로그래밍 모델이다. 하둡은 맵리듀스의 오픈소스 구현으로 맵리듀스를 사용하기 위한 도구로 많이 알려져 있다. 실제 하둡을 이용하여 맵리듀스를 적용할 때 맵 태스크 단계는 병렬로 수행되어 순차처리에 비해 시간이 단축된다. 그러나 맵 태스크의 결과물인 중간 단계의 데이터는 단일 리듀스 태스크에서 처리됨으로써 시간 지연이 발생한다. 따라서 본 논문에서는 단일 리듀스 태스크 처리에서 발생하는 오버로드 및 시간 지연 문제를 해결하기 위해 적응적으로 리듀스 태스크를 할당하는 스케줄링 기법을 제안하고 실험을 통해 이 기법의 성능을 검증한다.

맵리듀스를 이용한 다중 조인의 효율적인 처리 기법 (Efficient Processing of Multi-Way Joins using MapReduce)

  • 최연정;박진경;이기용
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 추계학술발표대회
    • /
    • pp.779-782
    • /
    • 2014
  • 맵리듀스(MapReduce)는 대용량 데이터의 병렬 처리에 사용되는 프로그래밍 모델이다. 조인(join)은 둘 이상의 테이블에서 동일한 애트리뷰트 값을 가지는 레코드들을 결합하는 연산으로, 데이터베이스 분야에서 가장 중요한 연산 중 하나이다. 본 논문은 맵리듀스를 이용하여 다중 조인(multi-way)을 효율적으로 처리하는 방법을 제안한다. n개 테이블의 다중 조인을 처리하기 위해 기존 방법은 2-way 조인을 수행하는 맵리듀스 잡을 (n-1)번 수행하거나, 레코드들을 중복시켜 n개 테이블의 조인을 1 개의 맵리듀스 잡으로 한 번에 처리한다. 하지만 전자는 맵리듀스 잡을 (n-1)번 수행해야 하며, 후자는 레코드들을 상당히 많이 중복시켜야 한다는 단점이 있다. 본 논문은 레코드를 전혀 중복시키지 않고도 ${\lceil}{\log}_2n{\rceil}$개의 맵리듀스 잡만으로 다중 조인을 효율적으로 처리하는 방법을 제안한다. 실험을 통해 제안 방법은 기존 방법에 대해 다중 조인을 더 빠르게 처리함을 보인다.

맵리듀스 프레임워크의 중간 데이터가 성능에 미치는 영향에 관한 연구 (A Study on the Effects of Intermediate Data on the Performance of the MapReduce Framework)

  • 김신규;엄현상;염헌영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 춘계학술발표대회
    • /
    • pp.130-133
    • /
    • 2012
  • 맵리듀스 프레임워크는 개발의 편의성, 높은 확장성, 결함 내성 기능을 제공하며 다양한 대용량 데이터 처리에 사용되고 있다. 또한, 최근의 데이터의 폭발적 증가는 높은 확장성을 제공하는 맵리듀스 프레임워크의 도입의 필요성을 더욱 증가시키고 있다. 이 경우 하나의 단일 클러스터에서 처리할 수 있는 계산 용량을 넘어설 수 있으며, 이를 위하여 클라우드 컴퓨팅 서비스 등에서 계산자원을 빌려오게 된다. 하지만 현재의 맵리듀스 프레임워크는 단일 클러스터 환경을 가정하고 설계되었기에 여러 개의 클러스터로 이루어진 환경에서 수행시킬 경우 전체 계산자원의 이용률이 떨어져서 투입된 자원에 비해 전체적인 성능이 낮아지는 경우가 발생하게 된다. 본 연구에서는 이의 원인이 맵과 리듀스 단계 사이에 존재하는 중간결과의 전송에 있음을 밝히고, 이의 전체 맵리듀스 프레임웍의 성능에 미치는 영향에 대하여 분석해보았다.

맵리듀스 함수 지원을 위한 SQL 질의의 확장 방법 (SQL Extension for Supporting MapReduce Functions)

  • 정문영;이태휘;김성수;원종호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 추계학술발표대회
    • /
    • pp.1128-1130
    • /
    • 2015
  • SQL 질의와 분산 처리를 위한 맵리듀스 함수를 통합 제공하면 쉽고 인터렉티브한 SQL 질의에서 맵리듀스 프로그래밍의 풍부한 표현력을 이용할 수 있다. 본 논문에서는 SQL 질의와 맵리듀스 함수를 통합하기 위해서 확장연산자를 이용하여 SQL 질의를 확장하는 방법을 제안한다.

맵리듀스를 이용한 멀티웨이 조인 알고리즘의 비교 (A Comparison of Multi- Way Join Algorithms in MapReduce)

  • 명재석;이상구
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(C)
    • /
    • pp.127-130
    • /
    • 2011
  • 맵리듀스는 데이터의 분산 및 병렬 처리를 돕는 프레임워크로서, 하둡과 같은 오픈 소스 맵리듀스 구현이 배포되면서 많은 연구가 이루어지고 있다. 맵리듀스를 이용한 조인은 대용량 데이터 분석을 위한 필수적인 연산이며, 여러 개의 테이블을 한 번의 맵리듀스로 조인하기 위한 멀티웨이 조인 알고리즘에 대한 연구도 계속 진행되고 있다. 이 논문에서는 반복(iteration) 기반 멀티웨이 조인과 중복(replication) 기반 멀티웨이 조인 알고리즘의 장단점을 분석한다. 또한 두 가지 방식의 조인 알고리즘의 단점을 보완하여 하나의 통합적인 2단계 멀티웨이 세미조인을 제시하고, 이를 기존의 방식과 비교한다. 결과적으로, 2단계 멀티웨이 세미조인은 반복 기반의 조인에 비하여 입출력 비용을 절감하고, 중복 기반의 조인에 비하여 커뮤니케이션 비용을 절감한다.

빅데이터 처리를 위한 맵리듀스 연구 (A study of MapReduce Algorithm for Bigdata)

  • 김만윤;윤희용
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2014년도 제50차 하계학술대회논문집 22권2호
    • /
    • pp.341-342
    • /
    • 2014
  • 지난 10년간 데이터의 폭발적인 증가로 우리는 빅데이터 시대를 맞이하게 되었다. 특히, 최근 몇 년 사이 소셜 네트워크의 발전으로 인해 발생하는 데이터의 양이 증가하면서, 이를 처리하기 위한 시스템으로 하둡이 등장하였다. 이전에는 저장 및 처리할 수 없었던 대용량 데이터를 오픈소스인 하둡의 등장으로 누구나가 대용량 데이터를 처리할 수 있는 시스템을 운영할 수 있게 된 것이다. 대규모 처리 분석을 위한 소프트웨어 프레임워크인 하둡은 클라우드 컴퓨팅의 대표적인 기술로 널리 사용되고 있다. 하둡은 크게 데이터의 저장을 담당하는 HDFS(Hadoop Distribute File System)와 데이터를 처리하는 맵리듀스로 나뉜다. 본 논문에서는 기존의 MapReduce와 차세대 맵리듀스로 불리는 YARN을 비교 분석하고 맵리듀스의 용도와 효율적인 활용방안을 제시한다.

  • PDF

맵리듀스에서 Grouping Sets 질의의 효율적인 계산 기법 (Efficient Computation of Grouping Sets Queries Using MapReduce)

  • 박소정;박은주;이기용
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 추계학술발표대회
    • /
    • pp.783-786
    • /
    • 2014
  • 맵리듀스(MapReduce)는 대용량의 데이터를 여러 컴퓨터에서 분산, 병렬 처리하는 프레임워크이다. Grouping sets 질의는 사용자가 지정한 여러 개의 group-by들을 모두 구하는 질의로서, 롤업(rollup)과 큐브(cube)가 너무 많은 결과를 반환하는 단점을 보완하여 원하는 group-by들에 대한 결과만 얻을 수 있도록 한다. 본 논문은 맵리듀스 환경에서 grouping sets 질의를 효율적으로 계산하는 방법을 제안한다. 제안 방법은 grouping sets 질의를 2개의 맵리듀스 잡(job)을 통해 단계적으로 계산한다. 첫 번째 맵리듀스 잡은 grouping sets 질의에 포함된 group-by들이 모두 계산될 수 있는 '부모' group-by를 먼저 계산한다. 두 번째 맵리듀스 잡은 부모 group-by를 입력으로 하여 grouping sets 질의에 포함된 group-by들을 각각 계산한다. 부모 group-by의 크기가 입력 데이터의 크기에 비해 매우 작은 경우, 제안 방법은 입력 데이터로부터 각 group-by를 독립적으로 구하는 단순 방법보다 좋은 성능을 보인다. 실험을 통해 제안 방법이 각 group-by를 독립적으로 구하는 단순 방법보다 좋은 성능을 가짐을 보인다.

맵리듀스 프레임워크를 이용한 대용량 공간 추론 방식 (Large-scale Spatial Reasoning using MapReduce Framework)

  • 남상하;김인철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 춘계학술발표대회
    • /
    • pp.769-772
    • /
    • 2014
  • Jeopardy 퀴즈쇼와 같은 DeepQA 환경에서 인간을 대신해 컴퓨터가 효과적으로 답하기 위해서는 인물, 지리, 사건, 역사 등을 포함하는 광범위한 지식베이스와 이를 토대로 한 빠른 시공간 추론 능력이 필요하다. 본 논문에서는 대표적인 병렬 분산 컴퓨팅 환경인 하둡/맵리듀스 프레임워크를 이용하여 방향 및 위상 관계를 추론하는 효율적인 대용량의 공간 추론 알고리즘을 제시한다. 본 알고리즘에서는 하둡/맵리듀스 프레임워크의 특성을 고려하여 병렬 분산처리의 효과를 높이기 위해, 지식 분할 문제를 맵 단계에서 해결하고, 이것을 토대로 리듀스 단계에서 효과적으로 새로운 공간 지식을 유도하도록 설계하였다. 또한, 본 알고리즘은 초기 공간 지식베이스로부터 새로운 지식을 유도할 수 있는 기능뿐만 아니라 초기 공간 지식베이스의 불일치성도 미연에 감지함으로써 불필요한 지식 유도 작업을 계속하지 않도록 설계하였다. 본 연구에서는 하둡/맵리듀스 프레임워크로 구현한 대용량 공간 추론기와 샘플공간 지식베이스를 이용하여 성능 분석 실험을 수행하였고, 이를 통해 본 논문에서 제시한 공간 추론 알고리즘과 공간 추론기의 높은 성능을 확인 할 수 있었다.

클라우드에서 SPARQL 질의 처리를 위한 조인 성능 향상 (Improving Join Performance for SPARQL Query Processing in the Clouds)

  • 최규진;손윤희;이규철
    • 정보과학회 논문지
    • /
    • 제43권6호
    • /
    • pp.700-709
    • /
    • 2016
  • 최근 LOD 데이터의 급격한 증가로 인해 기존의 싱글 머신 시스템을 통한 대량의 LOD 처리는 성능의 한계를 가진다. 이러한 문제를 해결하기 위해 최근 연구들은 분산, 병렬 프레임워크인 맵리듀스를 활용한다. 하지만 맵리듀스를 통해 SPARQL 질의를 처리하기 위해서는 다수의 맵리듀스 잡이 필요하고, 이로 인해 추가적인 비용이 발생하게 된다. 또한, 조인을 위해 불필요한 데이터를 처리해야 하는 문제가 있다. 본 논문에서는 이를 해결하기 위해 SPARQL 질의 처리 시 발생하는 맵리듀스 잡의 개수를 줄이고 Bitmap을 기반으로 조인 인덱스를 작성 후 이용하여 불필요한 데이터 처리를 최소화 하는 방법을 제안한다.