• 제목/요약/키워드: Mapreduce

검색결과 22건 처리시간 0.016초

분산 클러스터 메모리 기반 대용량 OWL Horst Lite 온톨로지 추론 기법 (A Scalable OWL Horst Lite Ontology Reasoning Approach based on Distributed Cluster Memories)

  • 김제민;박영택
    • 정보과학회 논문지
    • /
    • 제42권3호
    • /
    • pp.307-319
    • /
    • 2015
  • 현재 대용량 온톨로지를 추론하기 위해 하둡 기반의 분산 클러스터 환경을 구축한 후, 맵-리듀스 알고리즘을 기반으로 추론을 수행하는 방식이 활발히 연구되고 있다. 그러나 본 논문에서는 분산 클러스터의 메모리 환경에서 대용량 OWL Horst Lite 온톨로지 추론을 위한 기법을 제안한다. 대용량 온톨로지 추론에 사용되는 규칙 기반 추론 방식은 데이터가 더 이상 추론 되지 않을 때까지 트리플 형식으로 표현된 온톨로지에 추론 규칙을 반복적으로 수행한다. 따라서 컴퓨터 디스크에 적재된 대용량의 온톨로지를 대상으로 추론을 수행하면 추론 시스템의 성능이 상당히 저하된다. 이러한 단점을 극복하기 위해서 본 논문에서는 메모리 기반의 분산 클러스터 프레임워크인 Spark를 기반으로 온톨로지를 메모리에 적재한 후, 추론을 수행하는 기법을 제안한다. Spark에 적합한 OWL Horst Lite 온톨로지 추론 시스템을 구현하기 위해서 대용량 온톨로지를 적절한 크기의 블록으로 분할한 후, 각각의 블록을 분산 클러스터를 구성하는 각 노드의 메모리에 분산 적재하여 작업을 수행하는 방법론을 제안하였다. 제안하는 기법의 효율성을 검증하기 위해, 온톨로지 추론과 검색 속도를 평가하는 공식 데이터인 LUBM을 대상으로 실험하였다. 대표적인 맵-리듀스 기반 온톨로지 추론 엔진인 WebPIE와 비교 실험한 결과, LUBM8000(11억개 트리플, 155GB)에 대해서 WebPIE의 추론 처리량이 19k/초보다 3.2배 개선된 62k/초의 성능 향상이 있었다.

대용량 데이터 분석을 위한 맵리듀스 기반 kNN join 질의처리 알고리즘 (A MapReduce-based kNN Join Query Processing Algorithm for Analyzing Large-scale Data)

  • 이현조;김태훈;장재우
    • 정보과학회 논문지
    • /
    • 제42권4호
    • /
    • pp.504-511
    • /
    • 2015
  • 최근 모바일 기술의 발달 및 소셜 네트워크 서비스의 활성화를 통해 사용자 데이터가 급격히 증대되고 있다. 이에 따라 대용량 데이터에 대한 효율적인 데이터 분석 기법에 대한 연구가 활발히 이루어지고 있다. 대표적인 대용량 데이터 분석 기법으로는 맵리듀스 환경에서 보로노이 다이어그램을 이용한 k 최근접점 조인(VkNN-join) 알고리즘이 존재한다. 데이터집합 R, S에 대해, VkNN-join 알고리즘은 부분집합 Ri에 연관된 부분집합 Sj만을 후보탐색 영역으로 선정하여 질의처리를 수행하기 때문에, 대용량 데이터에 대한 join 질의처리 시간을 감소시키는 장점이 존재한다. 그러나 VkNN-join은 보로노이 다이어그램을 사용하기 때문에, 색인 구축 비용이 높은 단점이 존재한다. 아울러 kNN 질의처리를 위한 후보 영역 선정 시 k값에 비례하여 후보영역의 크기가 증가하기 때문에, kNN 연산 오버헤드가 증가하는 문제점이 존재한다. 이를 해결하기 위해 본 논문에서는 대용량 데이터 분석을 위한 맵리듀스 기반 kNN join 질의처리 알고리즘을 제안한다. 제안하는 질의처리 알고리즘은 시드 기반의 동적 분할을 통해 색인구조 구축비용을 절감한다. 또한 시드 간 평균 거리를 기반으로 질의 처리 후보 영역을 선정함으로써, kNN-join 질의를 위한 연산 오버헤드를 감소시킨다. 아울러, 성능 평가를 통해 제안하는 기법이 질의처리 시간 측면에서 기존 기법에 비해 우수함을 보인다.