DOI QR코드

DOI QR Code

수평 분할 방식을 이용한 병렬 셀-기반 필터링 기법의 설계 및 성능 평가

Design and Performance Analysis of a Parallel Cell-Based Filtering Scheme using Horizontally-Partitioned Technique

  • 장재우 (전북대학교 컴퓨터공학과) ;
  • 김영창 (전북대학교 대학원 컴퓨터공학과)
  • 발행 : 2003.06.01

초록

데이터웨어하우징의 애트리뷰트 벡터나 멀티미디어 데이터베이스의 특징 벡터는 모두 고차원 데이터를 이루고 있기 때문에, 이러한 고차원 데이터를 효율적으로 검색하기 위해서는 고차원 색인 기법이 요구된다. 이를 위하여 다수의 고차원 색인 기법들이 제안되었는데, 제안된 대부분의 색인 기법들이 차원의 수가 증가할수록 검색 성능이 급격히 저하되는 ‘차원 저주(dimensional curse)’ 문제를 지니고 있다. 셀-기반 필터링(Cell-Based Filtering : CBF) 기법은 이러한 차원 저주 문제를 해결하기 위해 제안되었다. 그러나 CBF 기법은 데이터의 양이 증가할수록 선형적으로 검색 성능이 감소하며, 이를 극복하기 위해 병렬 처리 기법을 사용하는 것이 필요하다. 본 논문에서는 데이터 디클러스터링(declustering) 방법으로 수평 분할 방식을 사용한 병렬 CBF 기법을 제안한다. 아울러 제안한 병렬 CBF 기법의 성능을 최대화하기 위하여, 병렬 CBF 기법을 다수의 서버로 구성된 Shared Nothing(SN) 구조의 클러스터 아키텍쳐 하에서 구축한다. 또한 SN 구조의 클러스터 아키텍쳐에 적합한 데이타 삽입 알고리즘, 범위질의 처리 알고리즘, k-최근접 질의 처리 알고리즘을 제시한다. 마지막으로 제안하는 병렬 CBF 기법이 기존 CBF 기법과 비교하여 서버 개수에 비례하여 우수한 검색 성능을 달성함을 보인다.

It is required to research on high-dimensional index structures for efficiently retrieving high-dimensional data because an attribute vector in data warehousing and a feature vector in multimedia database have a characteristic of high-dimensional data. For this, many high-dimensional index structures have been proposed, but they have so called ‘dimensional curse’ problem that retrieval performance is extremely decreased as the dimensionality is increased. To solve the problem, the cell-based filtering (CBF) scheme has been proposed. But the CBF scheme show a linear decreasing on performance as the dimensionality. To cope with the problem, it is necessary to make use of parallel processing techniques. In this paper, we propose a parallel CBF scheme which uses a horizontally-partitioned technique as declustering. In order to maximize the retrieval performance of the proposed parallel CBF scheme, we construct our parallel CBF scheme under a SN (Shared Nothing) cluster architecture. In addition, we present a data insertion algorithm, a rage query processing one, and a k-NN query processing one which are suitable for the SN cluster architecture. Finally, we show that our parallel CBF scheme achieves better retrieval performance in proportion to the number of servers in the SN cluster architecture, compared with the conventional CBF scheme.

키워드

참고문헌

  1. J. T. Robinson, 'The K-D-B-tree: A Search Structure for Large Multidimensional Dynamic Indexes,' Proc. ACM SIGMOD Int. Conf. on Management of Data, pp.10-18, 1981 https://doi.org/10.1145/582318.582321
  2. D. A. White and R. Jain, 'Similarity Indexing : Algorithms and Performance,' In Proc. of the SPIE : Storage and Retrieval for Image and Video Databases IV, Vol.2670, pp.62-75, 1996 https://doi.org/10.1117/12.234810
  3. H. I. Lin, H. Jagadish and C. Faloutsos, 'The TV-tree : An Index Structure for High Dimensional Data,' VLDB Journal, Vol.3, pp.517-542, 1995 https://doi.org/10.1007/BF01231606
  4. S. Berchtold, D. A. Keim, H.-P. Kriegel, 'The X-tree : An Index Structure for High-Dimensional Data,' Proceedings of the 22nd VLDB Conference, pp.28-39, 1996
  5. S. Arya, D. M. Mount, O. Narayan, 'Accounting for Boundary Effects in Nearest Neighbor Searching,' Proc. 11th Annaual Symp. on Computational Geometry, Vancouver, Canada, pp.336-344, 1995 https://doi.org/10.1145/220279.220315
  6. Berchtold, S., Bohm, C., Keim, D., Kriegel, H.-P., 'A Cost Model for Nearest Neighbor Search in High-Dimensional Data Space,' ACM PODS Symposium on Principles of Databases Systems, Tucson, Arizona, 1997 https://doi.org/10.1145/263661.263671
  7. Roger Weber, Hans-Jorg Schek, Stephen Blott, 'A Quantitative Analysis and Performance Study for Similarity-Search Methods in High-Dimensional Spaces,' Proceedings of 24rd International Conference on Very Large Data Bases, pp.24-27, 1998
  8. S.-G. Han and J.-W. Chang, 'A New High-Dimensional Index Structure Using a Cell-based Filtering Technique,' In Lecture Notes in Computer Science 1884(Current Issues in Databases and Information Systems), Springer, pp.79-92, 2000
  9. C. Faloutsos, 'Design of a Signature File Method that Accounts for Non-Uniform Occurrence and Query Frequencies,' ACM SIGMOD, pp.165-170, 1985
  10. J.-K. Kim and J.-W. Chang, 'Horizontally-divided Signature File on a Parallel Machine Architecture,' Journal of Systems Architecture, Vol.44, No.9-10, pp.723-735, June, 1998 https://doi.org/10.1016/S1383-7621(97)00015-5
  11. J.-K. Kim and J.-W. Chang, 'Vertically-partitioned Parallel Signature File Method,' Journal of Systems Architecture, Vol.46, No.8, pp.655-673, June, 2000 https://doi.org/10.1016/S1383-7621(99)00035-1
  12. N. Roussopoulos, S. Kelley, F. Vincent, 'Nearest Neighbor Queries,' Proc. ACM Int. Conf. on Management of Data(SIGMOD), pp.71-79, 1995 https://doi.org/10.1145/223784.223794