• Title/Summary/Keyword: 다차원 인덱스

Search Result 51, Processing Time 0.023 seconds

Similar Sequence Searching under Time Warping with Window constraint (윈도우 제약 조건을 가지는 시간 왜곡 변환 기반 유사 시퀸스 검색)

  • 김인태;송병호;이석호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10a
    • /
    • pp.214-216
    • /
    • 2001
  • 유사 시퀸스 검색에서 시간 왜곡 변환을 지원하기 위한 연구가 최근 활발히 이루어지고 있다. 음성 인식과 같은 몇몇 응용에서는 시간 왜곡 변환을 적용할 때 과도한 타이밍의 차이는 허용하지 않을 필요가 있다. 그래서 대부분의 경우 윈도우라는 제약 조건을 추가하게 된다. 이 논문에서는 윈도우 제약 조건이 있을 때 시간 왜곡 변환을 지원하는 유사 검색 방법으로 세그먼트 분할 기법(Segment Partition Approach:SFA)을 제안한다. SFA는 각 시퀸스를 세그먼트로 분할한 뒤 특징을 추출하여 다차원 인덱스를 구성한다. 유사 검색 질의를 수행할 때 이 인덱스를 검색하여 질의 시퀸스와 유사할 가능성이 큰 후보들을 빠르게 찾아낼 수 있고 찾아낸 후보들에 대해서만 정확한 시간 왜곡 변환 거리를 계산하기 때문에 전체 질의 처리 시간을 단축할 수 있다. SPA는 순차 검색에 비하여 좋은 성능을 보이며, 특히 거리 허용치가 작을 때 더욱 우수한 성능을 보인다.

  • PDF

Design and Implementation of a 3D Spatial Operation Processor for GIS (GIS를 위한 3차원 공간 연산 처리기 설계 및 구현)

  • 이진열;김대중;지정희;류근호;이성호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10c
    • /
    • pp.247-249
    • /
    • 2002
  • 최근 3D 공간 객체의 효율적인 표현을 위해, 3D 연산 및 다차원 인덱싱 기법에 관한 연구가 활발히 진행되고 있다. 또한 이러한 인덱스나 연산을 기반으로 많은 응용프로그램들이 개발되고 있다. 그러나, 대부분의 응용프로그램들은 단순히 비공간 속성에 대한 질의를 기반으로 한 3D 객체의 시각화에만 치중하고 있기 때문에, 3D 공간 객체에 관한 분석 기능을 제대로 지원하지 못하고 있다. 따라서, 이 논문에서는 3D 공간 객체에 관한 효율적 분석 기능을 제공할 수 있는 3D 공간 연산 처리기를 설계 및 구현하였다. 기존 시스템과의 상호운용을 위해서, 제안한 연산 처리기는 OpenGIS의 2차원 기하 객체 모텔을 3차원으로 확장한 3D 기하 객체 모델을 기반으로 하였다. 또한 빠른 공간 연산을 수행하기 위해 인덱스와 연동하여 구현하였다. 이 연산 처리기는 3D GIS에 적용될 경우, 효율적인 공간 분석 기능을 제공할 수 있다.

  • PDF

Effective Subsequence Matching Supporting Time Warping in Sequence Databases (시퀸스 데이터베이스를 위한 타임 워핑을 지원하는 효과적인 서브시퀸스 매칭)

  • 박상현;김상옥;조준서
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10a
    • /
    • pp.181-183
    • /
    • 2001
  • 본 논문에서는 대용량 시퀸스 데이터베이스에서 타임 워핑을 지원하는 인텍스 기반 서브시퀸스 매칭에 관하여 논의한다. 타임 워핑은 시퀸스의 길이가 서로 다른 경우에도 유사한 패턴을 갖는 시퀸스들을 찾을 수 있도록 해 준다. 최근의 연구에서 타임 워핑을 지원하는 효과적인 전체 매칭 기법이 제안된 바 있다. 본 연구에서는 이 기존의 연구에 슬라이딩 윈도우 개념을 결합하는 새로운 기법을 제안한다. 인덱싱을 위하여, 각 슬라이딩 윈도우와 대응되는 서브시퀸스로부터 특징 벡터를 추출하고, 이 특징 벡터를 인덱싱 애트리뷰트로 사용하는 다차원 인덱스를 구성한다. 질의 처리를 위하여, 조건을 만족하는 질의 접두어들에 대한 특징 벡터들을 이용하여 인덱스 검색을 수행한다. 제안된 기법은 대용량의 데이터베이스에서도 효과적인 서브시퀸스 매칭을 지원한다. 본 연구에서는 제안된 기법이 착오 기각을 유발시키지 않음을 증명하고, 실험을 통하여 제안된 기법의 우수성을 규명한다.

  • PDF

Multi-Dimensional Keyword Search and Analysis of Hotel Review Data Using Multi-Dimensional Text Cubes (다차원 텍스트 큐브를 이용한 호텔 리뷰 데이터의 다차원 키워드 검색 및 분석)

  • Kim, Namsoo;Lee, Suan;Jo, Sunhwa;Kim, Jinho
    • Journal of Information Technology and Architecture
    • /
    • v.11 no.1
    • /
    • pp.63-73
    • /
    • 2014
  • As the advance of WWW, unstructured data including texts are taking users' interests more and more. These unstructured data created by WWW users represent users' subjective opinions thus we can get very useful information such as users' personal tastes or perspectives from them if we analyze appropriately. In this paper, we provide various analysis efficiently for unstructured text documents by taking advantage of OLAP (On-Line Analytical Processing) multidimensional cube technology. OLAP cubes have been widely used for the multidimensional analysis for structured data such as simple alphabetic and numberic data but they didn't have used for unstructured data consisting of long texts. In order to provide multidimensional analysis for unstructured text data, however, Text Cube model has been proposed precently. It incorporates term frequency and inverted index as measurements to search and analyze text databases which play key roles in information retrieval. The primary goal of this paper is to apply this text cube model to a real data set from in an Internet site sharing hotel information and to provide multidimensional analysis for users' reviews on hotels written in texts. To achieve this goal, we first build text cubes for the hotel review data. By using the text cubes, we design and implement the system which provides multidimensional keyword search features to search and to analyze review texts on various dimensions. This system will be able to help users to get valuable guest-subjective summary information easily. Furthermore, this paper evaluats the proposed systems through various experiments and it reveals the effectiveness of the system.

Efficient Image Search Technique Using Color and Shape Feature (색상과 모양 특징을 이용한 효율적인 이미지 검색기법)

  • 조범석;박영배
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.163-165
    • /
    • 2000
  • 내용기반 이미지 검색을 위한 기존의 대부분의 기법들은 이미지 데이터에 효과적으로 적용할 수 있는 고차원의 색인구조를 고려하지 않았다. 이 연구에서는 이미지 데이터베이스에서 보다 효율적이며 정확도가 높은 검색결과를 기대할 수 있는 색상 특징 데이터 표현방법인 ECCV기법, 모양 특징 데이터 표현방법인 EPA기법을 소개한다. 또한 고차원 데이터에 대해서도 검색속도를 향상시킬 수 있는 새로운 다차원 공간 인덱스 구조인 XS-트리를 제안한다. 이 방법을 이용하면 특징표현단계에서는 차원의 수가 증가되어 저장에 필요한 공간을 많이 요구하지만 인덱싱 단계를 거치면 이미지 검색 속도가 향상되며 정확한 이미지를 검색 할 수 있는 장점이 있다.

  • PDF

Index-based Searching on Timestamped Event Sequences (타임스탬프를 갖는 이벤트 시퀀스의 인덱스 기반 검색)

  • 박상현;원정임;윤지희;김상욱
    • Journal of KIISE:Databases
    • /
    • v.31 no.5
    • /
    • pp.468-478
    • /
    • 2004
  • It is essential in various application areas of data mining and bioinformatics to effectively retrieve the occurrences of interesting patterns from sequence databases. For example, let's consider a network event management system that records the types and timestamp values of events occurred in a specific network component(ex. router). The typical query to find out the temporal casual relationships among the network events is as fellows: 'Find all occurrences of CiscoDCDLinkUp that are fellowed by MLMStatusUP that are subsequently followed by TCPConnectionClose, under the constraint that the interval between the first two events is not larger than 20 seconds, and the interval between the first and third events is not larger than 40 secondsTCPConnectionClose. This paper proposes an indexing method that enables to efficiently answer such a query. Unlike the previous methods that rely on inefficient sequential scan methods or data structures not easily supported by DBMSs, the proposed method uses a multi-dimensional spatial index, which is proven to be efficient both in storage and search, to find the answers quickly without false dismissals. Given a sliding window W, the input to a multi-dimensional spatial index is a n-dimensional vector whose i-th element is the interval between the first event of W and the first occurrence of the event type Ei in W. Here, n is the number of event types that can be occurred in the system of interest. The problem of‘dimensionality curse’may happen when n is large. Therefore, we use the dimension selection or event type grouping to avoid this problem. The experimental results reveal that our proposed technique can be a few orders of magnitude faster than the sequential scan and ISO-Depth index methods.hods.

A DNA Index Structure using Frequency and Position Information of Genetic Alphabet (염기문자의 빈도와 위치정보를 이용한 DNA 인덱스구조)

  • Kim Woo-Cheol;Park Sang-Hyun;Won Jung-Im;Kim Sang-Wook;Yoon Jee-Hee
    • Journal of KIISE:Databases
    • /
    • v.32 no.3
    • /
    • pp.263-275
    • /
    • 2005
  • In a large DNA database, indexing techniques are widely used for rapid approximate sequence searching. However, most indexing techniques require a space larger than original databases, and also suffer from difficulties in seamless integration with DBMS. In this paper, we suggest a space-efficient and disk-based indexing and query processing algorithm for approximate DNA sequence searching, specially exact match queries, wildcard match queries, and k-mismatch queries. Our indexing method places a sliding window at every possible location of a DNA sequence and extracts its signature by considering the occurrence frequency of each nucleotide. It then stores a set of signatures using a multi-dimensional index, such as R*-tree. Especially, by assigning a weight to each position of a window, it prevents signatures from being concentrated around a few spots in index space. Our query processing algorithm converts a query sequence into a multi-dimensional rectangle and searches the index for the signatures overlapped with the rectangle. The experiments with real biological data sets revealed that the proposed method is at least three times, twice, and several orders of magnitude faster than the suffix-tree-based method in exact match, wildcard match, and k- mismatch, respectively.

최근접 질의를 위한 고차원 인덱싱 방법

  • Kim, Sang-Uk;Aggarwal, Charu;Yu, Philip
    • Journal of KIISE:Databases
    • /
    • v.28 no.4
    • /
    • pp.632-642
    • /
    • 2001
  • The nearest neighbor query is an important operation widely used in multimedia databases for finding the object that is most similar to a given object Most of techniques for processing nearest neighbor queries employ multidimensional indexes for effective indexing of objects. However, the performance of previous multidimensional indexes, which use N-dimensional rectangles or spheres for representing the capsule of the object cluster, deteriorates seriously as th number of dimensions gets higher, In this paper we first point out the fact that the simple representation of capsuler incurs performance degradation in processing nearest neighbor queries. For alleviating this problem,. we propose(1) adopting new axis systems appropriate to a given cluster (2) representing various shapes of capsules by combining rectangles and spheres, and (3) maintaining outliers separately, We also verify the superiority of our approach through performance evaluation by performing extensive experiments.

  • PDF

A Performance Analysis on the M-tree with the Earth Mover's Distance (Earth Mover's Distance 기반 M-트리의 성능 분석)

  • Lee, Won-Jo;Ha, Sung-Dae;Jung, Kyo-Sung;Jang, Min-Hee;Kim, Sang-Wook
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.11a
    • /
    • pp.1232-1233
    • /
    • 2011
  • Earth mover's distance(EMD)는 내용 기반 데이터 검색을 위한 거리 함수로서 정확도가 매우 높은 검색 결과를 가져오지만, 계산 복잡도가 높아 대용량 데이터베이스에서 사용하기 어렵다. 이러한 문제를 해결하기 위한 방법으로 다차원 인덱스인 M-트리를 사용하여 데이터 비교 횟수를 크게 줄일 수 있다. 그러나 고차원의 데이터에 인덱스를 사용하면 차원의 저주 문제로 인해 검색 성능이 크게 저하될 수 있다. 본 논문에서는 이러한 문제를 정량적으로 검증하기 위하여 고차원 데이터를 대상으로 EMD 기반 M-트리를 구축한 후 다양한 실험을 수행한다. 실험 결과, 고차원 데이터에서도 차원의 저주는 일어나지 않는 것으로 나타났다. 이러한 공헌은 EMD의 검색 성능 개선을 위한 정책을 고안하는데, 중요한 실마리를 제공할 수 있을 것이다.

Cloud P2P OLAP: Query Processing Method and Index structure for Peer-to-Peer OLAP on Cloud Computing (Cloud P2P OLAP: 클라우드 컴퓨팅 환경에서의 Peer-to-Peer OLAP 질의처리기법 및 인덱스 구조)

  • Joo, Kil-Hong;Kim, Hun-Dong;Lee, Won-Suk
    • Journal of Internet Computing and Services
    • /
    • v.12 no.4
    • /
    • pp.157-172
    • /
    • 2011
  • The latest active studies on distributed OLAP to adopt a distributed environment are mainly focused on DHT P2P OLAP and Grid OLAP. However, these approaches have its weak points, the P2P OLAP has limitations to multidimensional range queries in the cloud computing environment due to the nature of structured P2P. On the other hand, the Grid OLAP has no regard for adjacency and time series. It focused on its own sub set lookup algorithm. To overcome the above limits, this paper proposes an efficient central managed P2P approach for a cloud computing environment. When a multi-level hybrid P2P method is combined with an index load distribution scheme, the performance of a multi-dimensional range query is enhanced. The proposed scheme makes the OLAP query results of a user to be able to reused by other users' volatile cube search. For this purpose, this paper examines the combination of an aggregation cube hierarchy tree, a quad-tree, and an interval-tree as an efficient index structure. As a result, the proposed cloud P2P OLAP scheme can manage the adjacency and time series factor of an OLAP query. The performance of the proposed scheme is analyzed by a series of experiments to identify its various characteristics.