• 제목/요약/키워드: k최근접점 조인 질의처리

검색결과 1건 처리시간 0.017초

대용량 데이터 분석을 위한 맵리듀스 기반 kNN join 질의처리 알고리즘 (A MapReduce-based kNN Join Query Processing Algorithm for Analyzing Large-scale Data)

  • 이현조;김태훈;장재우
    • 정보과학회 논문지
    • /
    • 제42권4호
    • /
    • pp.504-511
    • /
    • 2015
  • 최근 모바일 기술의 발달 및 소셜 네트워크 서비스의 활성화를 통해 사용자 데이터가 급격히 증대되고 있다. 이에 따라 대용량 데이터에 대한 효율적인 데이터 분석 기법에 대한 연구가 활발히 이루어지고 있다. 대표적인 대용량 데이터 분석 기법으로는 맵리듀스 환경에서 보로노이 다이어그램을 이용한 k 최근접점 조인(VkNN-join) 알고리즘이 존재한다. 데이터집합 R, S에 대해, VkNN-join 알고리즘은 부분집합 Ri에 연관된 부분집합 Sj만을 후보탐색 영역으로 선정하여 질의처리를 수행하기 때문에, 대용량 데이터에 대한 join 질의처리 시간을 감소시키는 장점이 존재한다. 그러나 VkNN-join은 보로노이 다이어그램을 사용하기 때문에, 색인 구축 비용이 높은 단점이 존재한다. 아울러 kNN 질의처리를 위한 후보 영역 선정 시 k값에 비례하여 후보영역의 크기가 증가하기 때문에, kNN 연산 오버헤드가 증가하는 문제점이 존재한다. 이를 해결하기 위해 본 논문에서는 대용량 데이터 분석을 위한 맵리듀스 기반 kNN join 질의처리 알고리즘을 제안한다. 제안하는 질의처리 알고리즘은 시드 기반의 동적 분할을 통해 색인구조 구축비용을 절감한다. 또한 시드 간 평균 거리를 기반으로 질의 처리 후보 영역을 선정함으로써, kNN-join 질의를 위한 연산 오버헤드를 감소시킨다. 아울러, 성능 평가를 통해 제안하는 기법이 질의처리 시간 측면에서 기존 기법에 비해 우수함을 보인다.