Proceedings of the Korea Information Processing Society Conference (한국정보처리학회:학술대회논문집)
- 2014.11a
- /
- Pages.767-770
- /
- 2014
- /
- 2005-0011(pISSN)
- /
- 2671-7298(eISSN)
DOI QR Code
Efficient k-Nearest Neighbor Join Query Processing Algorithm using MapReduce
맵리듀스를 이용한 효율적인 k-NN 조인 질의처리 알고리즘
- Yun, Deulnyeok (Dept of Computer Science, Chonbuk National University) ;
- Jang, Miyoung (Dept of Computer Science, Chonbuk National University) ;
- Chang, Jaewoo (Dept of Information Technology, Chonbuk National University)
- Published : 2014.11.05
Abstract
대용량 데이터를 분석하기 위한 맵리듀스 기반 k-NN 조인 질의처리 알고리즘은 최근 데이터 마이닝 및 분석을 기반으로 하는 응용 분야에서 매우 중요하게 활용되고 있다. 그러나, 대표적인 연구인 보로노이 기반 k-NN 조인 질의처리 알고리즘은 보로노이 인덱스 구축 비용이 매우 크기 때문에 대용량 데이터에 적합하지 못하다. 아울러 보로노이 셀 정보를 저장하기 위해 사용하는 R-트리는 맵리듀스 환경의 분산 병렬 처리에 적합하지 않다. 따라서 본 논문에서는 새로운 그리드 인덱스 기반의 k-NN 조인 질의 처리 알고리즘을 제안한다. 첫째, 높은 인덱스 구축 비용 문제를 해결하기 위해, 데이터 분포를 고려한 동적 그리드 인덱스 생성 기법을 제안한다. 둘째, 맵리듀스 환경에서 효율적으로 k-NN 조인 질의를 수행하기 위해, 인접셀 정보를 시그니처로 활용하는 후보영역 탐색 및 필터링 알고리즘을 제안한다. 마지막으로 성능 평가를 통해 제안하는 기법이 질의 처리 시간 측면에서 기존 기법에 비해 최대 3배 높은 질의 처리 성능을 나타냄을 보인다.
Keywords