• 제목/요약/키워드: 맵리듀스

검색결과 140건 처리시간 0.028초

맵리듀스 프레임웍 상에서 맵리듀스 함수 호출을 최적화하는 순차 패턴 마이닝 기법 (Sequential Pattern Mining with Optimization Calling MapReduce Function on MapReduce Framework)

  • 김진현;심규석
    • 정보처리학회논문지D
    • /
    • 제18D권2호
    • /
    • pp.81-88
    • /
    • 2011
  • 시퀀스(sequence) 데이터가 주어졌을 때 그 중에서 빈번(frequent)한 순차 패턴을 찾는 순차 패턴 마이닝(sequential pattern mining)은 여러 어플리케이션(application)에 사용되는 중요한 데이터마이닝 문제이다. 순차 패턴 마이닝은 웹 접속 패턴, 고객 구매 패턴, 특정 질병의 DNA 시퀀스를 찾는 등 광범위한 분야에서 사용된다. 본 논문에서는 맵리듀스(MapReduce) 프레임웍 상에서 맵리듀스 함수 호출을 최적화하는 순차 패턴 마이닝 알고리즘을 개발하였다. 이 알고리즘은 여러 대의 기계에 데이터들을 분산시켜 병렬적으로 빈번한 순차 패턴을 찾는다. 실험적으로 다양한 데이터를 이용하여 파라미터 값을 변화시켜가며 제안된 알고리즘의 성능을 종합적으로 확인하였다. 그리고 실험 결과를 통해 제안된 알고리즘은 기계 수에 대해 선형적인 속도 개선을 보인다는 것을 확인하였다.

맵리듀스를 사용한 디컴바인드 분산 VQ 코드북 생성 방법 (Decombined Distributed Parallel VQ Codebook Generation Based on MapReduce)

  • 이현진
    • 디지털콘텐츠학회 논문지
    • /
    • 제15권3호
    • /
    • pp.365-371
    • /
    • 2014
  • 빅 데이터(Big Data)시대로 접어들면서 기존의 IT 환경에서 만들어진 알고리즘들은 하둡과 같은 분산 아키텍처에 그대로 적용할 수 없거나 효율이 떨어진다. 따라서, 맵리듀스와 같은 분산 프레임워크를 적용한 새로운 알고리즘들이 필요하다. 벡터 양자화에 많이 사용되는 Lloyd의 알고리즘도 맵리듀스를 사용하여 개발이 이루어지고 있다. 본 논문에서는 기존의 맵리듀스를 사용한 분산 VQ 코드북 생성 알고리즘을 수정하여 좀 더 빠른 분석 결과를 보일 수 있는 디컴바인드 분산 VQ 코드북 생성 알고리즘을 제안하였다. 제안하는 알고리즘을 빅 데이터에 적용한 결과 기존 방법보다 높은 성능을 보인 것을 확인할 수 있었다.

MapReduce 환경에서의 실시간 LBS를 위한 이동궤적 데이터 색인 및 검색 시스템 설계 (Design of Trajectory Data Indexing and Query Processing for Real-Time LBS in MapReduce Environments)

  • 정재화
    • 디지털콘텐츠학회 논문지
    • /
    • 제14권3호
    • /
    • pp.313-321
    • /
    • 2013
  • 최근 모바일 스마트 기기의 보급으로 스마트 기기에 탑재된 다양한 센서에서 수집되는 대량이 데이터를 분석하여 처리하는 빅 데이터의 시대는 위치기반 서비스(LBSs: Location-Based Services)에 까지 확대대고 있다. 이동궤적에 대한 데이터도 초 대용량으로 증가하고 있다. 초 대용량 이동궤적 데이터 처리를 위해서는 클라우드 컴퓨팅 기술 및 맵리듀스와 같은 병행처리 플랫폼에 대한 연구가 필요하다. 최근 대용량 데이터의 병렬처리를 위해 맵리듀스 기반의 연구는 진행되고 있으나, 일괄처리 및 키-값 데이터 구조에 적합한 맵리듀스는 실시간 LBS에 적용에 적합하지 않다. 따라서 본 연구는 맵리듀스 특성을 면밀히 분석하고 실시간적 서비스에 적합하도록 모듈 단위로 효율적인 색인 기법 및 검색에 대한 시스템 설계를 제시한다.

맵리듀스 환경에서 유전자 알고리즘 기반의 동적 무기할당 알고리즘 (A Dynamic Weapon Allocation Algorithm using Genetic Algorithm in Mapreduce Environments)

  • 박준호;김지은;조길석
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2014년도 추계 종합학술대회 논문집
    • /
    • pp.469-470
    • /
    • 2014
  • 동적 무기할당 문제는 전형적인 NP-완전 문제로써 위협하는 표적에 대해 아군의 무기를 적절히 할당하는 문제이다. 이는 매우 시간 제약적인 문제로써 가능한 단 시간 내에 적절한 무기할당 및 대응을 도출하여야 하지만 매우 유동적인 전장 환경에서 이는 쉽지 않다. 최근 이와 같이 높은 복잡성을 가진 빅데이터를 기반으로 하는 응용에서 분산 처리 시스템을 활용한 분석 및 처리에 대한 연구가 큰 주목을 받고 있고, 대표적인 프레임워크로써 맵리듀스가 활용되고 있다. 그러나 맵리듀스는 전체 데이터에 대한 일괄 처리 기능만을 제공하므로 동적 데이터에 대한 유전자 알고리즘의 수행이 쉽지 않고, 최종 결과 도출에 여전히 많은 시간을 필요로 한다. 본 논문에서는 맵리듀스 환경에서 유전자 알고리즘 기반의 동적 무기할당 알고리즘을 제안한다. 제안하는 기법에서는 맵리듀스 환경에서 유전자 알고리즘의 연속적인 데이터 처리의 지원을 위해 새롭게 추가 및 제거된 무기-표적 데이터만을 분석하고, 이를 기 분석 완료된 데이터와 결합하여 최종 결과를 도출한다. 이를 통해, 신속한 동적무기할당의 수행이 가능하다.

  • PDF

맵리듀스에서 데이터 큐브의 효율적인 계산 기법 (Efficient Computation of Data Cubes in MapReduce)

  • 이기용;박소정;박은주;박진경;최연정
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 춘계학술발표대회
    • /
    • pp.715-718
    • /
    • 2014
  • 맵리듀스(MapReduce)는 대용량 데이터의 병렬 처리에 사용되는 프로그래밍 모델이다. 데이터 큐브(data cube)는 대용량 데이터의 다차원 분석에 널리 사용되는 연산자로서, 주어진 차원 애트리뷰트들의 모든 가능한 조합에 대한 group-by 를 계산한다. 차원 애트리뷰트가 n 개일 때, 데이터 큐브는 총 $2^n$ 개의 group-by 를 계산한다. 본 논문은 맵리듀스 환경에서 데이터 큐브를 효율적으로 계산하는 방법을 제안한다. 제안 방법은 $2^n$ 개의 group-by 를 분할하고 이들을 ${\lceil}n/2{\rceil}$개의 맵리듀스 잡(job)을 통해 단계적으로 계산한다. 제안 방법은 각 맵리듀스 잡에서 맵 함수가 출력하는 중간결과의 크기를 최소화함으로써 총 계산 비용을 크게 줄인다. 실험을 통해 제안 방법은 기존 방법에 비해 데이터 큐브를 더 빠르게 계산함을 보인다.

맵리듀스에서 집계 질의 스트림의 효율적인 처리 기법 (Efficient Processing of an Aggregate Query Stream in MapReduce)

  • 최현진;이기용
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권2호
    • /
    • pp.73-80
    • /
    • 2014
  • 맵리듀스는 빅데이터 분석 및 처리에 널리 사용되는 프로그래밍 모델이다. 빅데이터 분석을 위해 흔히 사용되는 질의 중 하나는 집계 질의(aggregate query)이다. 본 논문에서는 여러 사용자가 동시에 여러 집계 질의를 계속해서 요청하는 경우, 맵리듀스를 사용하여 이들 질의를 효율적으로 처리하는 방법을 제안한다. 제안 방법은 각 집계 질의를 개별적으로 처리하지 않고, 여러 집계 질의를 묶어 하나의 최적화된 맵리듀스 잡(job)으로 만들어 일괄 처리한다. 그 결과로 제안 방법은 단순 방법에 비해 시간당 처리하는 질의 수를 크게 증가시킨다. 성능 평가를 통해, 제안 방법은 단순 방법에 비해 질의 처리 속도를 크게 향상시킴을 보인다.

실시간 모바일 클라우드 컴퓨팅을 위한 맵리듀스 응용 처리 기법 분석 (An analysis of MapReduce application processing schemes for realtime mobile cloud computing)

  • 김희재;윤찬현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 추계학술발표대회
    • /
    • pp.122-125
    • /
    • 2014
  • 본 논문에서는 실시간 모바일 클라우드 컴퓨팅(mobile cloud computing)을 위한 맵리듀스(Map Reduce) 응용 처리 기법으로써 데이터 전송 경로 관리, 노드(nod) 간 다른 처리 속도로 인한 문제점 개선을 통한 성능 향상 기법들과 맵리듀스 작업의 효과적인 반복적 및 스트리밍(streaming)실행 기법들을 분석한다.

MapReduce 프레임워크에서 균등한 작업 부하 분산를 위한 키 분배 기법에 대한 연구 (A Key Distribution Method for load balancing in MapReduce Framework)

  • 손지훈;최현식;정연돈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(A)
    • /
    • pp.53-56
    • /
    • 2011
  • 맵리듀스는 대용량의 데이터를 병렬로 처리하기 위해 제안된 프레임워크이다. 맵리듀스 프레임워크는 대용량의 데이터를 처리하기에 적합하기 때문에 많은 응용에서 사용되고 있다. 하지만 이것은 불균등한 데이터 분포에 대해 취약하다는 단점이 있다. 본 논문에서 우리는 맵리듀스 프레임워크에서 균등한 작업 부하 분산을 위한 키 분배 기법을 제안한다. 우리는 실험을 통해 제안 기법이 기존의 맵리듀스보다 불균등한 분포를 갖는 데이터를 효율적으로 처리한다는 것을 보였다.

맵리듀스에서 집계 질의 스트림의 효율적인 처리 기법 (Efficient Processing of an Aggregate Query Stream in MapReduce)

  • 최현진;이기용
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1207-1210
    • /
    • 2013
  • 최근 들어 맵리듀스는 빅데이터 처리의 표준 기술로 자리잡고 있다. 빅데이터 분석에 널리 쓰이는 질의 중 하나는 집계(aggregate) 질의이다. 본 논문에서는 서로 다른 집계 질의가 계속적으로 요청되는 환경에서, 맵리듀스를 사용하여 이들 질의를 효율적으로 처리하는 방법을 제안한다. 제안 방법은 여러 집계 질의를 하나의 효율적인 맵리듀스 잡(job)으로 묶어 일괄 처리함으로써, 단순 방법에 비해 시간당 처리되는 질의 수를 크게 증가시킨다. 성능 평가를 통해, 제안 방법은 단순 방법에 비해 처리 성능을 크게 향상시킴을 확인하였다.

하둡 맵리듀스와 페이지 랭크를 이용한 서울시 대중 교통 인구 이동 분석 (Analysis of the population flow of public transportation in Seoul using Hadoop MapReduce and PageRank algorithm)

  • 백민석;오상윤
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.354-356
    • /
    • 2022
  • 소셜 네트워크 및 웹 데이터와 같은 대규모 그래프 데이터를 처리하기 위해 병렬 처리 기반의 기법들이 많이 사용되어 왔다. 본 연구에서는 그래프 형식의 대규모 교통 데이터를 하둡 맵리듀스를 이용하여 처리하는 효과적인 기법을 제안한다. 제안하는 방식에서는 도시의 유동 인구 흐름을 가중치로 고려할 수 있도록 Weighted PageRank 알고리즘을 기반으로 하는 병렬 그래프 알고리즘을 사용하며, 해당 알고리즘을 하둡 맵리듀스에 적용하여 주거 및 근무지 등의 지역을 분류하도록 결과를 분석하였다. 제안 기법을 통한 분석 결과를 기반으로 지역 간 유동 인구 그래프 데이터에서 각 도시의 영향력을 측정하는 페이지랭크, 하둡 맵리듀스 기반의 기법을 제시한다.