Abstract
Recently, the filtering approach using vector approximation such as VA-file[1] or LPC-file[2] have been proposed to support similarity search in high dimensional data space. This approach filters out many irrelevant vectors by calculating the approximate distance from a query vector using the compact approximations of vectors in database. Accordingly, the total elapsed time for similarity search is reduced because the disk I/O time is eliminated by reading the compact approximations instead of original vectors. However, the search time of the VA-file or LPC-file is not much lessened compared to the brute-force search because it requires a lot of computations for calculating the approximate distance. This paper proposes a new bitmap index structure in order to minimize the calculating time. To improve the calculating speed, a specific value of an object is saved in a bit pattern that shows a spatial position of the feature vector on a data space, and the calculation for a distance between objects is performed by the XOR bit calculation that is much faster than the real vector calculation. According to the experiment, the method that this paper suggests has shortened the total searching time to the extent of about one fourth of the sequential searching time, and to the utmost two times of the existing methods by shortening the great deal of calculating time, although this method has a longer data reading time compared to the existing vector approximation based approach. Consequently, it can be confirmed that we can improve even more the searching performance by shortening the calculating time for filtering of the existing vector approximation methods when the database speed is fast enough.
고차원 데이터 공간에서의 효과적인 검색을 위해 최근 VA-file[1], LPC-file[2] 등과 같이 벡터 근사에 기반을 둔 필터링 색인 방법들이 연구되었다. 필터링 색인 방법은 벡터를 근사한 작은 크기의 색인 정보를 사용하여 근사 거리를 계산하고, 이를 사용하여 질의 벡터와 유사하지 않은 대부분의 벡터들을 빠른 시간 안에 검색 대상에서 제외한다. 즉, 실제 벡터 대신 근사 벡터를 읽어 디스크 I/O 시간을 줄여 전체 검색 속도를 향상시키는 것이다. 하지만 VA-file 이나 LPC-file은 근사 거리를 구하는 방법이 순차 검색과 같거나 복잡하기 때문에 검색 속도 향상 효과가 그리 크지 않다는 문제점을 가지고 있다. 본 논문은 이러한 근사 거리 계산 시간을 줄이기 위하여 새로운 비트맵 색인 구조를 제안한다. 근사 거리 계산속도의 향상을 위하여, 각 객체의 값을 특성 벡터 공간상의 위치를 나타내는 비트 패턴으로 저장하고, 객체 사이의 거리를 구하는 연산은 실제 벡터 값의 연산보다 속도가 훨씬 빠른 XOR 비트 연산으로 대체한다. 실험에 의하면 본 논문이 제안하는 방법은 기존 벡터 근사 접근 방법들과 비교하여 데이터 읽기시간은 더 크지만, 계산 시간을 크게 줄임으로써 전체 검색 속도는 순차 검색의 약 4배, 기존의 방법들보다는 최대 2배의 성능이 향상되었다. 결과적으로, 데이터베이스의 속도가 충분히 빠른 경우 기존의 벡터 근사 접근법의 필터링을 위한 계산 시간을 줄임으로써 더욱 검색 성능을 향상 시킬 수 있음을 확인할 수 있다.