• 제목/요약/키워드: 맵리듀스

검색결과 140건 처리시간 0.031초

맵리듀스 환경에서 규칙 기반 분류화를 이용한 궤적 데이터 주행 시간 예측 알고리즘 (Travel Time Prediction Algorithm for Trajectory data by using Rule-Based Classification on MapReduce)

  • 김재원;이현조;장재우
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 추계학술발표대회
    • /
    • pp.798-801
    • /
    • 2014
  • 여행 정보 시스템(ATIS), 교통 관리 시스템 (ITS) 등 궤적 기반 서비스에서, 서비스 품질을 향상시키기 위해서는 주어진 궤적 질의에 대한 정확한 주행시간을 예측하는 것이 필수적이다. 이를 위한 대표적인 공간 데이터 분석 기법으로는 데이터 분류에서 높은 정확도를 보장하는 규칙 기반 분류화 기법이 존재한다. 그러나 기존 규칙 기반 분류화 기법은 단일 컴퓨터 환경만을 고려하기 때문에, 대용량 공간 데이터 처리에 적합하지 않은 문제점이 존재한다. 이를 해결하기 위해, 본 연구에서는 맵리듀스 환경에서 규칙 기반 분류화를 이용한 궤적 데이터 주행 시간 예측 알고리즘을 개발하고자 한다. 제안하는 알고리즘은 첫째, 맵리듀스를 이용하여 대용량 공간 데이터를 병렬적으로 분석함으로써, 활용도 높은 궤적 데이터 규칙을 생성한다. 이를 통해 대용량 공간 데이터 기반의 규칙 생성 시간을 감소시킨다. 둘째, 그리드 구조 기반의 지도 데이터 분할을 통해, 사용자 질의처리 시 탐색 성능을 향상시킨다. 즉, 주행 시간 예측을 위한 규칙 그룹을 탐색 시 질의를 포함하는 그리드 셀만을 탐색하기 때문에, 질의처리 성능이 향상된다. 마지막으로 맵리듀스 구조에 적합한 질의처리 알고리즘을 설계하여, 효율적인 병렬 질의처리를 지원한다. 이를 위해 맵 함수에서는 선정된 그리드 셀에 대해, 질의에 포함된 도로 구간에서의 주행 시간을 병렬적으로 측정한다. 아울러 리듀스 함수에서는 출발 시간 및 구간별 주행 시간을 바탕으로 맵 함수의 결과를 병합함으로써, 최종 결과를 생성한다. 이를 통해 공간 빅데이터 분석을 통한 주행 시간 예측 기법의 처리 시간 및 결과 정확도를 향상시킨다.

맵리듀스 프레임워크를 이용한 대용량 공간 추론기의 설계 및 구현 (Design and Implementation of a Large-Scale Spatial Reasoner Using MapReduce Framework)

  • 남상하;김인철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권10호
    • /
    • pp.397-406
    • /
    • 2014
  • 미국의 Jeopardy! 퀴즈쇼와 같은 DeepQA 환경에서 인간을 대신해 컴퓨터가 효과적으로 답하기 위해서는, 광범위한 지식베이스와 빠른 시공간 추론 능력이 요구된다. 본 논문에서는 대표적인 병렬 분산 컴퓨팅 환경인 맵리듀스 프레임워크를 이용해, 새로운 방향 및 위상 관계를 효율적으로 추론할 수 있는 대용량 공간 추론 알고리즘을 제시한다. 이 추론 알고리즘은 CSD-9 방향 관계들과 RCC-8 위상 관계들을 포함한 대용량 공간 지식베이스를 입력으로 가정하며, 이로부터 새로운 방향 관계와 위상 관계들을 추론해내기 위해 지식베이스에 대한 경로 일관성 검사와 교차 일관성 검사를 수행한다. 맵리듀스 프레임워크의 원리에 따라 추론 계산의 병렬성을 극대화하기 위해, 맵 단계에서는 대용량의 지식베이스를 다수의 노드들에 효과적으로 분할하여 분산시키고, 리듀스 단계에서는 분산된 지식베이스들로부터 새로운 공간 지식을 유도하도록 공간 추론 알고리즘을 설계하였다. 본 연구에서는 맵리듀스 프레임워크로 구현한 대용량 공간 추론기와 샘플 공간 지식 베이스를 이용한 실험들을 수행하고, 이를 통해 본 논문에서 제안한 대용량 공간 추론기의 높은 성능을 확인할 수 있었다.

맵리듀스를 이용한 정렬 기반의 데이터 큐브 분산 병렬 계산 알고리즘 (Sort-Based Distributed Parallel Data Cube Computation Algorithm using MapReduce)

  • 이수안;김진호
    • 전자공학회논문지
    • /
    • 제49권9호
    • /
    • pp.196-204
    • /
    • 2012
  • 최근 많은 응용 분야에서 대규모 데이터에 대해 온라인 다차원 분석(OLAP)을 사용하고 있다. 다차원 데이터 큐브는 OLAP 분석에서 핵심 도구로 여긴다. 본 논문에서는 맵리듀스 분산 병렬 처리를 이용하여 효율적으로 데이터 큐브를 계산하는 방법을 연구하고자 한다. 이를 위해, 맵리듀스 프레임워크에서 데이터 큐브 계산 방법으로 잘 알려진 PipeSort 알고리즘을 구현하는 효율적인 방법에 대해서 살펴본다. PipeSort는 데이터 큐브의 한 큐보이드에서 동일한 정렬 순서를 갖는 여러 큐보이드를 한 파이프라인으로 한꺼번에 계산하는 효율적인 방식이다. 이 논문에서는 맵리듀스 프레임워크에서 PipeSort의 파이프라인을 구현한 네 가지 방법을 20대의 서버에서 수행하였다. 실험 결과를 보면, 고차원 데이터에 대해서는 PipeMap-NoReduce 알고리즘이 우수한 성능을 보였으며, 저차원 데이터에 대해서는 Post-Pipe 알고리즘이 더 우수함을 보였다.

2-계층 그리드 블록을 이용한 효과적인 맵리듀스 기반 스카이라인 질의 처리 기법 (An Efficient MapReduce-based Skyline Query Processing Method with Two-level Grid Blocks)

  • 유형철;정성원
    • 정보과학회 논문지
    • /
    • 제44권6호
    • /
    • pp.613-620
    • /
    • 2017
  • 스카이라인 질의는 사용자들의 다양한 기준을 만족하는 데이터를 찾기 때문에 의사 결정 문제 등에서 폭넓게 사용되고 있다. 최근의 스카이라인 질의는 대용량 데이터베이스 처리를 위해 맵리듀스 프레임워크를 사용하는 연구들이 많이 진행되었으며 특히 맵리듀스에 기존의 색인 구조를 적용하는 방식으로 연구가 활발히 진행되고 있다. 스카이라인의 특징 중 하나는 원점에서 가까운 데이터일수록 더 많은 영역을 지배한다는 점이다. 하지만 기존의 색인 구조는 이와 같은 스카이라인의 특징을 반영하지 못하는 단점이 있었다. 본 논문에서는 그리드의 셀들을 스카이라인의 특징을 고려하여 묶는 그리드 블록 구조와 원점과 가까운 데이터가 없을 때도 사용 가능한 2계층 그리드 블록 구조, 그리고 2계층 그리드 블록 구조를 사용한 효율적인 스카이라인 질의 기법을 제안하였다.

맵리듀스에서의 구조적 RDF 데이터 변경 탐지 기법 (Structural Change Detection Technique for RDF Data in MapReduce)

  • 이태휘;임동혁
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권8호
    • /
    • pp.293-298
    • /
    • 2014
  • RDF 데이터의 변경 내용을 탐지하고 이해하는 것은 데이터 웹의 진화 프로세스, 동기화 시스템, 버전 관리 시스템에서 매우 중요한 역할을 한다. 하지만 현재의 연구들은 대용량 데이터를 고려하지 않거나 정확하게 변경 내용을 탐지하지 못한다는 점에서 여전히 미흡하다. 본 논문에서는 대용량 데이터의 처리, 분석을 위해 여러 분야에서 사용되는 맵리듀스 프레임워크 기반의 확장가능하며 효과적인 변경 탐지 기법을 제안한다. 특히, RDF 데이터의 공노드를 비교하는 구조적인 변경 탐지에 초점을 둔다. 이를 위해, 두 개의 맵리듀스 작업으로 이루어진 방법을 사용한다. 첫 번째 작업에서는 공노드에 부여된 내부 아이디가 같은 트리플들을 그룹화하여 공노드에 연결된 경로를 계산한다. 두 번째 작업에서는 같은 경로를 가지는 트리플들을 그룹화하여 헝가리안 메소드를 이용하여 공노드 매칭을 수행한다. 실험을 통해 제안한 방법이 기존 방법보다 더 정확하고 효과적임을 보인다.

아파치 스파크 기반 검색엔진의 설계 및 구현 (Design and Implementation of a Search Engine based on Apache Spark)

  • 박기성;최재현;김종배;박제원
    • 한국정보통신학회논문지
    • /
    • 제21권1호
    • /
    • pp.17-28
    • /
    • 2017
  • 최근 데이터의 활용가치가 높아지면서 데이터에 관한 연구가 활발히 진행되고 있다. 데이터의 수집, 저장, 활용을 위한 대표적인 프로그램으로 웹 크롤러, 데이터베이스, 분산처리 등이 있으며, 최근에는 웹 크롤러가 다양한 분야에 활용할 수 있는 유용성으로 인해 크게 각광받고 있는 실정이다. 웹 크롤러란 자동화된 방법으로 웹서버를 순회하여 웹 페이지를 분석하고 URL을 수집하는 도구라고 정의할 수 있다. 인터넷 사용량의 증가로 매일 대량으로 생성되는 웹 페이지의 처리를 위해 하둡의 맵리듀스를 기반으로 하는 분산 웹 크롤러가 많이 사용되고 있다. 그러나 맵리듀스는 사용이 어렵고 성능에 제약이 있는 단점이 있다. 이러한 맵리듀스의 한계를 보완하여 제시된 인메모리 기반 연산 플랫폼인 아파치 스파크가 그 대안이 되고 있다. 웹 크롤러의 주요용도 중 하나인 검색엔진은 웹 크롤러로 수집한 정보 중 특정 검색어에 맞는 결과를 보여준다. 검색엔진을 기존 맵리듀스 기반의 웹 크롤러 대신 스파크 기반 웹 크롤러로 구현할 경우 더욱 빠른 데이터 수집이 가능할 것이다.

빅데이터 환경에서 연속 질의 처리를 위한 리버스 k-최근접 질의 처리 기법 (Reverse k-Nearest Neighbor Query Processing Method for Continuous Query Processing in Bigdata Environments)

  • 임종태;박선용;서기원;이민호;복경수;유재수
    • 한국콘텐츠학회논문지
    • /
    • 제14권10호
    • /
    • pp.454-462
    • /
    • 2014
  • 최근 위치 측정 기술과 모바일 기기들의 발달과 함께 위치 기반 서비스가 중요하게 연구되고 있다. 위치기반서비스를 제공하기 위해 많은 연구자들이 맵리듀스를 활용한 다양한 질의 처리 기법을 제안하였다. 그 중에 하나가 맵리듀스를 활용한 리버스 k-최근접 질의 처리 기법이다. 하지만 기존 기법들은 연속 리버스 k-최근접 질의 처리를 수행하기 위해 많은 처리 비용이 요구된다. 본 논문에서는 맵리듀스를 활용한 효율적인 연속 리버스 k-최근접 질의 처리 기법을 제안한다. 제안하는 기법은 60도 가지치기 기법을 이용한다. 제안하는 기법은 60도 가지치기 기법을 활용하여 모니터링 영역을 생성하고 모니터링을 수행하여 결과 업데이트을 수행하기 때문에 효율적으로 결과 업데이트를 수행한다. 또한, 본 논문에서는 제안하는 기법의 우수성을 보이기 위해 기존 기법과의 성능평가를 수행한다.

그리디 알고리즘을 이용한 맵리듀스 세타조인 M-Bucket-I 휴리스틱의 개선 (Using a Greedy Algorithm for the Improvement of a MapReduce, Theta join, M-Bucket-I Heuristic)

  • 김우열;심규석
    • 정보과학회 논문지
    • /
    • 제43권2호
    • /
    • pp.229-236
    • /
    • 2016
  • 세타조인은 데이터베이스에 있어서 가장 기본적이면서도 중요한 질의 중 하나이다. 최근 처리해야 하는 데이터의 양이 증가함에 따라, 맵리듀스와 같은 분산 병렬 처리 프레임워크를 사용한 데이터베이스의 질의처리가 많이 연구되고 있다. 대표적인 연구로 M-Bucket-I 휴리스틱을 이용한 세타조인이 있으나, 이 알고리즘은 수행시간이 입력 데이터의 크기를 n이라 할 때, 각 레코드를 $r_{max}$개의 리듀서 중 어느 리듀서로 보낼지 정하는 리듀서맵핑을 구하는데 O(n)의 시간이 걸려 쉽게 사용할 수 없다는 문제가 있다. 본 논문에서는 기존의 M-Bucket-I 휴리스틱을 개선하여, 같은 리듀서 매핑 결과를 내놓더라도 수행시간이 $O(r_{max}log\;n)$으로 보다 짧은 새로운 알고리즘을 제시한다. 다양한 실험을 통하여 기존의 맵리듀스를 이용한 세타조인보다 성능을 10% 정도 향상시킬 수 있음을 보였다.

이미지 빅데이터를 고려한 하둡 플랫폼 환경에서 GPU 기반의 얼굴 검출 시스템 (A GPU-enabled Face Detection System in the Hadoop Platform Considering Big Data for Images)

  • 배유석;박종열
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권1호
    • /
    • pp.20-25
    • /
    • 2016
  • 디지털 빅데이터 시대가 도래함에 따라 다양한 분야에서 하둡 플랫폼이 널리 사용되고 있지만, 하둡 맵리듀스 프레임워크는 대량의 작은 파일들을 처리하는데 있어서 네임노드의 메인 메모리와 맵 태스크 수가 증가하는 문제점을 안고 있다. 또한, 맵리듀스 프레임워크에서 하드웨어 기반 데이터 병렬성을 지원하는 GPU를 활용하기 위해서는 C++ 언어 기반의 태스크를 맵리듀스 프레임워크에서 수행하기 위한 방식이 필요하다. 따라서, 본 논문에서는 이미지 빅데이터를 처리하기 위해 하둡 플랫폼 환경에서 이미지 시퀀스 파일을 생성하고 하둡 파이프를 이용하여 GPU 기반의 얼굴 검출 태스크를 맵리듀스 프레임워크에서 처리하는 얼굴 검출 시스템을 제시하고 단일 CPU 프로세스 대비 약 6.8배의 성능 향상을 보여준다.

효율적인 각 기반 공간 분할 병렬 스카이라인 질의 처리를 위한 데이터 샘플링 기반 프루닝 기법 (A Sampling based Pruning Approach for Efficient Angular Space Partitioning based Skyline Query Processing)

  • 최우성;민종현;정재화;정순영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 춘계학술발표대회
    • /
    • pp.55-58
    • /
    • 2016
  • 스카이라인 질의란 다수의 선택지 중 '선호될 만한(preferable)' 선택지를 요청하는 질의이다. 사용자가 검토해야하는 선택지의 수를 대폭 감소시키는 스카이라인 질의는 데이터가 폭증하는 빅데이터 환경에서 매우 유용하게 활용된다. 이러한 배경에서 대용량 데이터에 대한 스카이라인 질의를 분산 병렬 처리하는 기법이 각광을 받고 있으며, 특히 맵리듀스(MapReduce) 기반의 분산 병렬 처리 기법 연구가 활발히 진행 중이다. 맵리듀스 기반 알고리즘의 병렬성 제고를 위해서는 부하 불균등 문제 중복 계산 문제 과다한 네트워크 비용 발생 문제를 해소해야 한다. 최근 각 기반 공간분할 기법을 사용하여 부하 불균등 문제와 중복 계산 문제를 해소하는 맵리듀스 기반 스카이라인 질의 처리 기법이 제안되었으나 해당 기법은 네트워크 비용 관점에서 최적화되어있지 않다. 본 논문에서는 부하 불균등 문제와 중복 계산 문제를 해소하면서도 프루닝을 통해 네트워크 비용 절감 시킬 수 있는 새로운 맵리듀스 기반 병렬 스카이라인 질의 처리 기법인 MR-SEAP(MapReduce sample Skyline object Equality Angular Partitioning)을 제안한다. MR-SEAP에서는 데이터를 샘플링하여 샘플 스카이라인 객체를 추출한 뒤 해당 객체들을 균등 분배하는 각도를 기준으로 공간을 분할하여 스카이라인 질의를 병렬 계산하되, 샘플 스카이라인을 이용하여 다수의 객체를 사전에 프루닝함으로써 네트워크 비용을 절감한다. 본 논문에서는 다양한 데이터 수량(cardinality) 및 분포(distribution)에 따른 제안 기법의 성능을 실험 평가함으로써 제안 기법의 우수성을 검증한다.