• Title/Summary/Keyword: 다차원 인덱싱

Search Result 25, Processing Time 0.026 seconds

A DNA Index Structure using Frequency and Position Information of Genetic Alphabet (염기문자의 빈도와 위치정보를 이용한 DNA 인덱스구조)

  • Kim Woo-Cheol;Park Sang-Hyun;Won Jung-Im;Kim Sang-Wook;Yoon Jee-Hee
    • Journal of KIISE:Databases
    • /
    • v.32 no.3
    • /
    • pp.263-275
    • /
    • 2005
  • In a large DNA database, indexing techniques are widely used for rapid approximate sequence searching. However, most indexing techniques require a space larger than original databases, and also suffer from difficulties in seamless integration with DBMS. In this paper, we suggest a space-efficient and disk-based indexing and query processing algorithm for approximate DNA sequence searching, specially exact match queries, wildcard match queries, and k-mismatch queries. Our indexing method places a sliding window at every possible location of a DNA sequence and extracts its signature by considering the occurrence frequency of each nucleotide. It then stores a set of signatures using a multi-dimensional index, such as R*-tree. Especially, by assigning a weight to each position of a window, it prevents signatures from being concentrated around a few spots in index space. Our query processing algorithm converts a query sequence into a multi-dimensional rectangle and searches the index for the signatures overlapped with the rectangle. The experiments with real biological data sets revealed that the proposed method is at least three times, twice, and several orders of magnitude faster than the suffix-tree-based method in exact match, wildcard match, and k- mismatch, respectively.

A Large-scale RDF Storage and Retrieval System for Linked Data (링크드 데이터를 위한 대용량 RDF 저장 및 검색 시스템)

  • Lee, Yong-Ju
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2016.10a
    • /
    • pp.523-524
    • /
    • 2016
  • 본 논문에서는 링크드 데이터를 위한 대용량 RDF 저장 및 검색 시스템을 제안한다. 현재 링크드 데이터에 대한 핵심 이슈는 링크드 데이터의 효율적인 저장과 검색, 그리고 활용 애플리케이션 개발이다. 제안 시스템은 저장 관리자, 인덱스 구조, 그리고 질의 처리기로 구성되어 있다. 저장 관리자는 대용량 RDF 데이터를 처리하기 위해 그래프 데이터베이스에 데이터를 분산 저장하며, 인덱스 구조는 다차원 히스토그램, 보조 인덱싱, 그리고 그래프 인덱싱 기법이 구현된다. 질의 처리기는 SPARQL 또는 NoSQL 질의를 사용하여 질의 최적화 및 랭킹기법이 적용된 RDF 트리플 검색을 수행한다.

Effective Subsequence Matching Supporting Time Warping in Sequence Databases (시퀸스 데이터베이스를 위한 타임 워핑을 지원하는 효과적인 서브시퀸스 매칭)

  • 박상현;김상옥;조준서
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10a
    • /
    • pp.181-183
    • /
    • 2001
  • 본 논문에서는 대용량 시퀸스 데이터베이스에서 타임 워핑을 지원하는 인텍스 기반 서브시퀸스 매칭에 관하여 논의한다. 타임 워핑은 시퀸스의 길이가 서로 다른 경우에도 유사한 패턴을 갖는 시퀸스들을 찾을 수 있도록 해 준다. 최근의 연구에서 타임 워핑을 지원하는 효과적인 전체 매칭 기법이 제안된 바 있다. 본 연구에서는 이 기존의 연구에 슬라이딩 윈도우 개념을 결합하는 새로운 기법을 제안한다. 인덱싱을 위하여, 각 슬라이딩 윈도우와 대응되는 서브시퀸스로부터 특징 벡터를 추출하고, 이 특징 벡터를 인덱싱 애트리뷰트로 사용하는 다차원 인덱스를 구성한다. 질의 처리를 위하여, 조건을 만족하는 질의 접두어들에 대한 특징 벡터들을 이용하여 인덱스 검색을 수행한다. 제안된 기법은 대용량의 데이터베이스에서도 효과적인 서브시퀸스 매칭을 지원한다. 본 연구에서는 제안된 기법이 착오 기각을 유발시키지 않음을 증명하고, 실험을 통하여 제안된 기법의 우수성을 규명한다.

  • PDF

Polar Wavelet Method for Efficient Similarity Search in Time Series Databases (시계열 데이터 베이스에서의 효율적인 유사 검색을 위한 Polar Wavelet 기법)

  • 이범기;강성구;이상준;이석호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10b
    • /
    • pp.85-87
    • /
    • 2004
  • 유클리드 거리에 기반하여 유사한 시퀀스 검색을 하는 기법들은 각 시퀀스에서 특징을 추출하여 차원을 감소시킨 후, R-tree 같은 다차원 인덱싱 기법을 사용하여 검색을 수행한다. 본 논문에서는 시계열 데이터 베이스에서의 유사 검색 성능 향상을 위한 새로운 특징 추출 기법인 Polar Wavelet 기법을 제안한다. 이 기법은 유사 검색 시 후보 시퀀스의 개수를 줄임으로써 검색 성능을 향상시킬 수 있고, 특징 추출을 위해 시퀀스의 길이를 2$^n$으로 만들 필요가 없는 장점을 갖고 있다.

  • PDF

Efficient Image Search Technique Using Color and Shape Feature (색상과 모양 특징을 이용한 효율적인 이미지 검색기법)

  • 조범석;박영배
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.163-165
    • /
    • 2000
  • 내용기반 이미지 검색을 위한 기존의 대부분의 기법들은 이미지 데이터에 효과적으로 적용할 수 있는 고차원의 색인구조를 고려하지 않았다. 이 연구에서는 이미지 데이터베이스에서 보다 효율적이며 정확도가 높은 검색결과를 기대할 수 있는 색상 특징 데이터 표현방법인 ECCV기법, 모양 특징 데이터 표현방법인 EPA기법을 소개한다. 또한 고차원 데이터에 대해서도 검색속도를 향상시킬 수 있는 새로운 다차원 공간 인덱스 구조인 XS-트리를 제안한다. 이 방법을 이용하면 특징표현단계에서는 차원의 수가 증가되어 저장에 필요한 공간을 많이 요구하지만 인덱싱 단계를 거치면 이미지 검색 속도가 향상되며 정확한 이미지를 검색 할 수 있는 장점이 있다.

  • PDF

An Efficient Bitmap Indexing Method for Multimedia Data Reflecting the Characteristics of MPEG-7 Visual Descriptors (MPEG-7 시각 정보 기술자의 특성을 반영한 효율적인 멀티미디어 데이타 비트맵 인덱싱 방법)

  • Jeong Jinguk;Nang Jongho
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.32 no.1
    • /
    • pp.9-20
    • /
    • 2005
  • Recently, the MPEG-7 standard a multimedia content description standard is wide]y used for content based image/video retrieval systems. However, since the descriptors standardized in MPEG-7 are usually multidimensional and the problem called 'Curse of dimensionality', previously proposed indexing methods(for example, multidimensional indexing methods, dimensionality reduction methods, filtering methods, and so on) could not be used to effectively index the multimedia database represented in MPEG-7. This paper proposes an efficient multimedia data indexing mechanism reflecting the characteristics of MPEG-7 visual descriptors. In the proposed indexing mechanism, the descriptor is transformed into a histogram of some attributes. By representing the value of each bin as a binary number, the histogram itself that is a visual descriptor for the object in multimedia database could be represented as a bit string. Bit strings for all objects in multimedia database are collected to form an index file, bitmap index, in the proposed indexing mechanism. By XORing them with the descriptors for query object, the candidate solutions for similarity search could be computed easily and they are checked again with query object to precisely compute the similarity with exact metric such as Ll-norm. These indexing and searching mechanisms are efficient because the filtering process is performed by simple bit-operation and it reduces the search space dramatically. Upon experimental results with more than 100,000 real images, the proposed indexing and searching mechanisms are about IS times faster than the sequential searching with more than 90% accuracy.

A Z-Index based MOLAP Cube Storage Scheme (Z-인덱스 기반 MOLAP 큐브 저장 구조)

  • Kim, Myung;Lim, Yoon-Sun
    • Journal of KIISE:Databases
    • /
    • v.29 no.4
    • /
    • pp.262-273
    • /
    • 2002
  • MOLAP is a technology that accelerates multidimensional data analysis by storing data in a multidimensional array and accessing them using their position information. Depending on a mapping scheme of a multidimensional array onto disk, the sliced of MOLAP operations such as slice and dice varies significantly. [1] proposed a MOLAP cube storage scheme that divides a cube into small chunks with equal side length, compresses sparse chunks, and stores the chunks in row-major order of their chunk indexes. This type of cube storage scheme gives a fair chance to all dimensions of the input data. Here, we developed a variant of their cube storage scheme by placing chunks in a different order. Our scheme accelerates slice and dice operations by aligning chunks to physical disk block boundaries and clustering neighboring chunks. Z-indexing is used for chunk clustering. The efficiency of the proposed scheme is evaluated through experiments. We showed that the proposed scheme is efficient for 3~5 dimensional cubes that are frequently used to analyze business data.

Indexing and Searching for Reduced-Dimensional Vectors (차원 축소 벡터들을 위한 인덱싱 및 검색)

  • Jeong, Seung-Do;Kim, Sang-Wook;Choi, Byung-Uk
    • Journal of KIISE:Databases
    • /
    • v.37 no.1
    • /
    • pp.44-49
    • /
    • 2010
  • In this paper, we first address the problems associated with indexing and searching for reduced-dimensional vectors, which are reduced by using a combination of angle approximation and dimension grouping. Then, we propose a novel method to solve the problems. We also show the superiority of the proposed method by performing extensive experiments with synthetic and real-life data sets.

Design and Implementation of a 3D Spatial Operation Processor for GIS (GIS를 위한 3차원 공간 연산 처리기 설계 및 구현)

  • 이진열;김대중;지정희;류근호;이성호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10c
    • /
    • pp.247-249
    • /
    • 2002
  • 최근 3D 공간 객체의 효율적인 표현을 위해, 3D 연산 및 다차원 인덱싱 기법에 관한 연구가 활발히 진행되고 있다. 또한 이러한 인덱스나 연산을 기반으로 많은 응용프로그램들이 개발되고 있다. 그러나, 대부분의 응용프로그램들은 단순히 비공간 속성에 대한 질의를 기반으로 한 3D 객체의 시각화에만 치중하고 있기 때문에, 3D 공간 객체에 관한 분석 기능을 제대로 지원하지 못하고 있다. 따라서, 이 논문에서는 3D 공간 객체에 관한 효율적 분석 기능을 제공할 수 있는 3D 공간 연산 처리기를 설계 및 구현하였다. 기존 시스템과의 상호운용을 위해서, 제안한 연산 처리기는 OpenGIS의 2차원 기하 객체 모텔을 3차원으로 확장한 3D 기하 객체 모델을 기반으로 하였다. 또한 빠른 공간 연산을 수행하기 위해 인덱스와 연동하여 구현하였다. 이 연산 처리기는 3D GIS에 적용될 경우, 효율적인 공간 분석 기능을 제공할 수 있다.

  • PDF

An Index-Based Approach for Subsequence Matching Under Time Warping in Sequence Databases (시퀀스 데이터베이스에서 타임 워핑을 지원하는 효과적인 인덱스 기반 서브시퀀스 매칭)

  • Park, Sang-Hyeon;Kim, Sang-Uk;Jo, Jun-Seo;Lee, Heon-Gil
    • The KIPS Transactions:PartD
    • /
    • v.9D no.2
    • /
    • pp.173-184
    • /
    • 2002
  • This paper discuss an index-based subsequence matching that supports time warping in large sequence databases. Time warping enables finding sequences with similar patterns even when they are of different lengths. In earlier work, Kim et al. suggested an efficient method for whole matching under time warping. This method constructs a multidimensional index on a set of feature vectors, which are invariant to time warping, from data sequences. For filtering at feature space, it also applies a lower-bound function, which consistently underestimates the time warping distance as well as satisfies the triangular inequality. In this paper, we incorporate the prefix-querying approach based on sliding windows into the earlier approach. For indexing, we extract a feature vector from every subsequence inside a sliding window and construct a multidimensional index using a feature vector as indexing attributes. For query processing, we perform a series of index searches using the feature vectors of qualifying query prefixes. Our approach provides effective and scalable subsequence matching even with a large volume of a database. We also prove that our approach does not incur false dismissal. To verify the superiority of our approach, we perform extensive experiments. The results reveal that our approach achieves significant speedup with real-world S&P 500 stock data and with very large synthetic data.