Design and Implementation of an Efficient Bulk Loading Algorithm for CIR-Tree

CIR-Tree를 위한 효율적인 대량적재 알고리즘의 설계 및 구현

  • Pi, Jun-Il (Dept. of Information Communication Engineering, Chungbuk National University) ;
  • Song, Seok-Il (Dept. of Information Communication Engineering, Chungbuk National University) ;
  • Yu, Jae-Su
  • 피준일 (충북대학교 정보통신공학과) ;
  • 송석일 (충북대학교 정보통신공학과) ;
  • 유재수 (충북대학교 정보통신공학과 및 컴퓨터정보통신연구소)
  • Published : 2002.06.01

Abstract

In this paper, we design and implement an efficient bulk-loading algorithm for CIR-Tree. Bulk-loading techniques increase node utilization, improve query performance and reduce index construction time. The CIR-tree has variable size of internal node entries since it only maintains minimal dimensions to decriminate child nodes. This property increases fan-out of internal nodes and improves search performance. Even though several bulk-loading algorithms for multi/high-dimensional index structures have been proposed, we cannot apple them to CIR-tree because of the variable size of internal node entries. In this paper, we propose an efficient bulk- loading algorithm for CIR-tree that improves the existing bulk-loading algorithm and accomodates the property of CIR-tree. We also implement it on a storage system MiDAS-III and show superiority of our algorithm through various experiments.

이 논문에서는 고차원 색인 구조인 CIR-트리를 위한 효율적인 벌크로딩 알고리즘을 설계하고 구현한다. 벌크로딩 기법은 대량의 고차원 데이타가 색인 구성 시 함께 주어지는 경우 색인의 구성을 빠르게 하고 구축한 색인의 검색 성능을 향상시킨다. CIR-트리는 반드시 필요한 차원만 이용해서 비단말 노드의 엔트리를 구성하기 때문에 엔트리 크기가 일정하지 않다. 이 특성은 비단말 노드의 분기율을 높이고 탐색 성능을 향상시키는 효과가 있다. 기존에 다차원 및 고차원 색인구조를 위한 벌크로딩 기법이 제안되었지만 이러한 CIR-트리의 특징을 제대로 살릴 수 있는 방법은 없다. 이 논문에서는 기존의 벌크로딩 알고리즘을 개선하면서 CIR-트리의 특징을 효과적으로 색인 구성에 반영할 수 있는 알고리즘을 제안한다. 또한 이를 BADA-III의 하부 저장 시스템인 MiDAS-III에서 구현하고 다양한 실험을 통해 그 성능을 입증한다.

Keywords

References

  1. 이석희, 최길성, 유재수, 조기형, 'CIR-트리 : 내용기반 이미지 검색을 위한 효율적인 고차원 색인기법', 한국정보과학회 97 가을 학술발표(I), pp. 349-352, 1997
  2. 이석희, 송석일, 유재수, '내용기반 이미지 검색을 위한 고차원 색인구조', 한국정보과학회 데이타베이스 연구회 논문지, 제 14권, 제 4호, pp. 53-68, 1998
  3. Roussopoulos N. and Keifker D., 'Direct Spatial Search On Pictorial Databases Using Packed R-Trees,' In Proc. ACM SIGMOD, pp. 17-31, 1985 https://doi.org/10.1145/318898.318900
  4. Kamel I. and Falousos C., 'On Packing R-Trees,' In Proc. CKIM, pp. 490-499, 1993 https://doi.org/10.1145/170088.170403
  5. Leutenegger S. T., Lopez M. A. and Edgington J., 'STR : A Simple and Efficient Algorithm for R-Tree Packing,' In Proc. ICDE, pp. 497-506, 1997 https://doi.org/10.1109/ICDE.1997.582015
  6. Garcia Y. J., Lopez M. A. and Leutenegger S. T., 'A Greedy Algorithm for Bulk Loading R-Trees,' In Proc. ACM GIS, pp. 47-57, 1998 https://doi.org/10.1145/288692.288723
  7. Van Den Bercken J. and Seeger B. Widmayer, 'A General Approach to Bulk Loading Mutidimensional Index Structures,' In Proc. VLDB, pp. 406-415, 1997
  8. Berchtold S., Bohm C. and Kriegel H. P., 'Improving the Query performance of High-Dimensional Index Structure by Bulk Load Operation,' In Proc. EDBT, pp. 216-230, 1998
  9. Bohm C. and Kriegel H. P. 'Efficient Bulk Loading of Large High-Dimensional Indexes,' In Proc. Dawak, pp. 251-260, 1999