• 제목/요약/키워드: Query Index

검색결과 412건 처리시간 0.027초

방향 그래프 기반 XML 데이터 모델과 대수 구현 (Implementation of Algebra and Data Model based on a Directed Graph for XML)

  • 박성희;최은선;류근호
    • 정보처리학회논문지D
    • /
    • 제8D권6호
    • /
    • pp.799-812
    • /
    • 2001
  • 데이터 교환을 위한 표준 형식으로 XML 활용 증가에 따라 데이터베이스 분야에서 XML 처리의 중요성이 증가하고있다. 현재까지 XML 데이터모델과 정규표현 질의 같은 복잡한 질의처리를 위한 XML대수에 관한 연구가 수행되고 있지만 미디에이터 시스템처럼 XML질의 처리 시 기능이 제한적이다. 따라서 이 논문에서는 반 구조데이터 모델을 확장한 방향 그래프 기반 XML 모델을 설계하고 XML 질의를 위한 XML 대수 연산을 정의하며 그 구현기법을 제시한다. XML 대수 연산 구현을 위해 물리적 저장소인 RDBMS를 접근하기 위한 접근 메소드와 패스 인덱스를 이용하여 알고리즘을 구현한다. 아울러 제안 알고리즘의 효율성을 보이기 위하여 반 구조 특성을 가지는 EST유전체 서열에 대한 XML 문서를 대상으로 성능을 평가한다.

  • PDF

비순서화된 스트림 처리를 위한 슬라이딩 윈도우 기법 (Processing Sliding Windows over Disordered Streams)

  • 김현규;김철기;김명호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권6호
    • /
    • pp.590-599
    • /
    • 2006
  • 비순서화된 스트림은 슬라이딩 윈도우의 생성에 있어서 두 가지 문제점을 야기한다. 첫째는 스트림을 효율적으로 정렬하는 문제이며, 둘째는 정렬된 스트림으로부터 윈도우를 언제 생성할지 결정하는 문제이다. 본 논문에서는 이러한 문제를 해결하기 위한 윈도우 오퍼레이터의 구조와 방법에 대해 제안한다. 먼저 입력 튜플을 효율적으로 정렬하고 저장하기 위해 인덱스를 이용한 오퍼레이터의 구조를 소개한다. 그리고 윈도우의 생성 시점을 결정하기 위한 평균-기반 추정 방식을 제안한다. 제안하는 기법에서는 추정에 필요한 매개변수를 질외문에서 정의할 수 있으며, 이를 통해 사용자가 어플리케이션의 요구사항에 따라 정확성이나 응답 시간과 같은 질의 결과의 특성을 조절할 수 있도록 지원한다. 본 논문의 실험 결과는 제안한 평균-기반 방식이 기존의 연구에서 이용한 방식보다 적응성과 안정성이 우수하다는 것을 보인다.

최근접 질의를 위한 고차원 인덱싱 방법

  • 김상욱
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제28권4호
    • /
    • pp.632-642
    • /
    • 2001
  • 최근접 질의(nearest neighbor query)는 멀티미디어 데이타베이스에서 주어진 질의 객체와 가장 유사한 객체를 찾기 위한 매우 중요한 연산으로 사용된다. 대부분의 최근접 질의 처리 기법들은 객체의 효과 적인 인덱싱을 위하여 다차원 인덱스(multidimensional index)를 사용한다. 그러나 N차원 사각형 혹은 원을 사용하여 객체 클러스터의 캡슐 표현하는 기존의 다차원 인덱스들은 타원 수가 높아짐에 따라 검색 성능이 크게 떨어진다. 본 논문에서는 이러한 단순한 캡슐 표현 방식이 최근접 질의 처리의 성능을 저하시키는 주요 원인임을 지적하고, (1) 클러스터에 적합한 새로운 축 시스템(axis system)의 채택, (2) 원과 사각형의 조합 에 의한 다양한 캡슐 형태의 표현. (3) 아웃 라이어(outlier)의 별도 관리 등의 해결 방안을 제안한다. 또한, 이러한 개념들을 채택하는 인덱싱 구조를 제시하고. 이를 이용하는 최근접 질의 처리 방안을 제안한다. 끝으 로, 다양한 실험에 의한 성능 평가를 통하여 제안된 기법의 우수성을 검증한다.

  • PDF

다중 키워드 검색에 적합한 동등조인 연산 결과의 동적 관리 기법 (Dynamic Management of Equi-Join Results for Multi-Keyword Searches)

  • 임성채
    • 정보처리학회논문지A
    • /
    • 제17A권5호
    • /
    • pp.229-236
    • /
    • 2010
  • 인터넷이나 기업체 안에서 생성되는 문서의 수가 빠르게 증가하고 있고 이에 따라 효율적인 문서 검색 서비스의 중요성도 함께 커지고 있다. 이런 검색 환경에서 사용자의 검색 질의를 미리 예측할 수 없기 때문에 문서 내의 키워드를 자동 추출하여 색인어로 사용하는 전문검색(full-text search)이 일반적으로 적용된다. 전문검색을 위해 생성된 색인 파일의 크기는 문서 수 증가로 대용량화 되고, 이런 대용량 색인에 대한 다중 키워드 질의 처리에는 과도한 디스크 비용이 초래될 수 있다. 논문에서는 이런 비용 문제를 해결하기 위해 대용량 문서의 전문검색 시스템에서 다중 키워드 질의를 효율적으로 처리할 수 있게 하는 색인 파일 구조 및 관리 기법을 제안한다. 제안된 방법은 다중 키워드 검색에 적합한 것으로 알려진 역파일을 기본 색인 구조로 하며, 질의 처리의 조인 연산과 랭킹 연산에 적합하도록 색인 파일을 계층화한다. 이를 바탕으로 다중 키워드 질의를 구성할 확률이 높은 키워드 쌍에 대한 조인 연산 결과를 주기억장치 공간에 동적으로 저장함으로써 디스크 사용량을 크게 줄일 수 있다. 논문에서는 제안된 기법의 우수성을 보이기 위해 디스크 비용 모델에 기반한 성능 비교도 수행한다.

변환공간 뷰를 기반으로한 공간 조인 (Spatial Join based on the Transform-Space View)

  • 이민재;한욱신;황규영
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제30권5호
    • /
    • pp.438-450
    • /
    • 2003
  • 공간 조인이란 서로 겹치는 관계를 가지는 공간 객체의 쌍들을 찾는 질의이다. 색인 기반 공간 조인에는 원공간 색인인 R 트리가 널리 사용된다. 원공간 색인이란 원공간상에서 표현된 공간 객체를 색인하는 구조로, 이를 활용한 조인은 크기를 가지는 공간 객체를 다루기 때문에 정형적인 방법이 아닌 휴리스틱에 의존하는 단점을 가진다. 반면, 변환공간 색인은 원공간 상의 공간 객체를 변환공간 상의 크기가 없는 점 객체로 변환하여 색인한 후에 이들을 다루기 때문에, 이를 활용한 공간 조인은 상대적으로 단순하고 정형적인 방법을 사용하는 장점을 가진다. 그러나, 이 방법은 R 트리와 같이 원공간 객체를 색인하는 원공간 색인에는 적용될 수 없는 문제점을 가진다. 본 논문에서는 이 두 방법의 장점만을 취하는 새로운 방법을 제안한다. 즉, 변환공간 뷰(transform-space view)라는 새로운 개념과 이를 사용한 공간 조인 알고리즘인 변환공간 뷰 조인 알고리즘(transform-space view join algorithm)을 제안한다. 변환공간 뷰란 원공간 색인에 대한 가상의 변환공간 색인으로서, 이미 구축된 원공간 색인을 구조적으로 변경하지 않고서 별도의 추가비용 없이 가상의 변환공간 색인으로 해석할 수 있게 한다. 실험 결과, 변환공간 뷰 조인알고리즘은 R 트리를 원공간에서 조인하는 알고리즘들과 비교하여 디스크 액세스 횟수 측면에서 최대 43.1%까지 더 좋은 성능을 보인다. 본 논문의 가장 중요한 공헌은 R 트리와 같이 널리 사용되는 원공간 색인을 변환공간 뷰라는 새로운 개념을 통하여 변환공간에서 해석하여 사용할 수 있음을 보인 것이다. 우리는 이 새로운 개념이 다양한 공간 질의 처리 알고리즘들이 변환공간에서 새롭게 개발될 수 있는 프레임워크를 마련했다고 믿는다.

효율적인 웨이블렛 기반 오디오 데이터 검색 시스템 구현 (Implementation of an Efficient Wavelet Based Audio Data Retrieval System)

  • 이배호;조용춘;김광희
    • 한국음향학회지
    • /
    • 제21권1호
    • /
    • pp.82-88
    • /
    • 2002
  • 본 논문은 오디오 데이터의 검색을 위해 웨이블렛 (wavelet) 변환을 이용한 효율적인 인덱싱 방법을 제안하였다. 오디오 데이터는 그 자신이 가지고 있는 많은 저장공간의 필요, 전송에 있어서의 실시간 필요성, 큰 대역폭등의 다양한 특성 때문에 좋은 검색효율을 위한 인덱스를 구성하기가 쉽지 않다. 신호 및 영상처리에서 각광받고 있는 웨이블렛을 이용한 인덱스는 웨이블렛 변환이 가지고 있는 여러 특징들로 인해 데이터를 블록으로 나누지 않은 상태에서의 인덱싱과 검색을 가능케 한다. 오디오 데이터의 인덱싱은 웨이블렛의 마지막 단계의 고주파 부분과 저주파 부분의 계수를 이용하여 고주파부분은 스트링 매칭 알고리즘에 의해 스트링의 연속으로 변환하고, 저주파 부분은 영점 교차 히스토그램으로 변환한다. 구축된 인덱스를 이용한 오디오 데이터 검색은 질의 데이터와 데이터 베이스안의 인덱스 각 부분, 즉 고주파 부분과 저주파 부분의 스트링을 비교하여 가장 적은 편차를 갖는 결과를 검색 결과로 한다. 본 논문은 적절한 비교 계수 결정, 질의 길이의 변화에 따른 검색율의 변화, 데이터 각 분류별 유사도 검색 효율에 대한 실험을 하였으며, 본 논문에서 제안한 방법이 기존의 방법보다 우수한 성능 향상을 보였다.

Fast Search with Data-Oriented Multi-Index Hashing for Multimedia Data

  • Ma, Yanping;Zou, Hailin;Xie, Hongtao;Su, Qingtang
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제9권7호
    • /
    • pp.2599-2613
    • /
    • 2015
  • Multi-index hashing (MIH) is the state-of-the-art method for indexing binary codes, as it di-vides long codes into substrings and builds multiple hash tables. However, MIH is based on the dataset codes uniform distribution assumption, and will lose efficiency in dealing with non-uniformly distributed codes. Besides, there are lots of results sharing the same Hamming distance to a query, which makes the distance measure ambiguous. In this paper, we propose a data-oriented multi-index hashing method (DOMIH). We first compute the covariance ma-trix of bits and learn adaptive projection vector for each binary substring. Instead of using substrings as direct indices into hash tables, we project them with corresponding projection vectors to generate new indices. With adaptive projection, the indices in each hash table are near uniformly distributed. Then with covariance matrix, we propose a ranking method for the binary codes. By assigning different bit-level weights to different bits, the returned bina-ry codes are ranked at a finer-grained binary code level. Experiments conducted on reference large scale datasets show that compared to MIH the time performance of DOMIH can be improved by 36.9%-87.4%, and the search accuracy can be improved by 22.2%. To pinpoint the potential of DOMIH, we further use near-duplicate image retrieval as examples to show the applications and the good performance of our method.

Index based on Constraint Network for Spatio-Temporal Aggregation of Trajectory in Spatial Data Warehouse

  • Li Jing Jing;Lee Dong-Wook;You Byeong-Seob;Oh Young-Hwan;Bae Hae-Young
    • 한국멀티미디어학회논문지
    • /
    • 제9권12호
    • /
    • pp.1529-1541
    • /
    • 2006
  • Moving objects have been widely employed in traffic and logistic applications. Spatio-temporal aggregations mainly describe the moving object's behavior in the spatial data warehouse. The previous works usually express the object moving in some certain region, but ignore the object often moving along as the trajectory. Other researches focus on aggregation and comparison of trajectories. They divide the spatial region into units which records how many times the trajectories passed in the unit time. It not only makes the storage space quite ineffective, but also can not maintain spatial data property. In this paper, a spatio-temporal aggregation index structure for moving object trajectory in constrained network is proposed. An extended B-tree node contains the information of timestamp and the aggregation values of trajectories with two directions. The network is divided into segments and then the spatial index structure is constructed. There are the leaf node and the non leaf node. The leaf node contains the aggregation values of moving object's trajectory and the pointer to the extended B-tree. And the non leaf node contains the MBR(Minimum Bounding Rectangle), MSAV(Max Segment Aggregation Value) and its segment ID. The proposed technique overcomes previous problems efficiently and makes it practicable finding moving object trajectory in the time interval. It improves the shortcoming of R-tree, and makes some improvement to the spatio-temporal data in query processing and storage.

  • PDF

Trie 구조를 이용한 비디오 인덱스 생성 및 검색 (Video Index Generation and Search using Trie Structure)

  • 현기호;김정엽;박상현
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권7_8호
    • /
    • pp.610-617
    • /
    • 2003
  • 비디오 데이타베이스에서 유사도 정합은 비디오 클러스터링과 비디오 라이브러리 등과 같은 많은 새로운 응용분야에서 중요성이 증가하고 있다. 대용량 데이타베이스에서 효과적인 접근을 제공하기 위하여 다양한 공간과 시간에 대한 특징치를 이용한 비디오 인덱싱 분야의 많은 연구노력이 있어왔다. 그러나 대부분의 기존 방법들은 순차적인 정합방법 또는 메모리 기반의 역 파일 기법 등에 의존하므로 대용량 데이타베이스에는 적합하지 않다. 이러한 문제를 해결하기 위하여 본 논문에서는 효과적이고 스케일 조정가능한 인덱싱 기법을 제안하기 위하여, 문자열 정합을 위해 제안된 trio를 인덱스 구조로 이용하였다. 인덱스 구성을 위하여 윈도우 순서 휴리스틱을 이용하여 각 프레임을 기호 시퀀스로 변환하고, 기호 시퀀스의 집합으로부터 디스크 상주 trio를 구성하였다 질의 처리를 위하여 trio 상에서 깊이-우선 검색과 시간 축분할을 실시하였으며, 제안한 방법의 성능을 검증하기 위하여 실제와 합성 데이터 집합에 대한 실험을 수행하였다. 제안한 방법은 지속적으로 순차적 스캔 방법보다 우수한 성능을 보였고, 성능이득은 대용량 비디오 데이타베이스에서도 유지되었다.

이동체를 위한 R-트리 기반 색인에서의 궤적 클러스터링 정책 (Policies of Trajectory Clustering in Index based on R-trees for Moving Objects)

  • 반재훈;김진곤;전봉기;홍봉희
    • 정보처리학회논문지D
    • /
    • 제12D권4호
    • /
    • pp.507-520
    • /
    • 2005
  • 이동체 데이터베이스를 위한 과거 궤적 색인으로 R-tree계열이 많이 사용되었다. 그러나 R-tree계열의 색인은 공간 근접성만을 고려하였기 때문에 동일 궤적을 검색을 할 때 많은 노드 접근이 필요하다. 즉 기존의 이동체 색인들은 공간 근접성과 궤적 연결성이 서로 상반된 특징을 가지므로 함께 고려하지 못했다. 이동체 색인에서 영역 질의의 성능개선을 위해서는 노드 간의 심한 중복과 사장 공간(Dead space)을 줄여야하고, 궤적 질의의 성능 개선을 위해서는 이동체의 궤적 보존이 이루어져야 한다. 이와 같은 요구 조건을 만족하기 위해, 이 논문에서는 R-tree 기반의 색인 구조에서 궤적 클러스터링 정책을 제안한다. 노드 분할 정책에서는 궤적 클러스터링을 위해서 동일 궤적을 그룹화해서 분할하는 공간 축 분할 정책과 공간 활용도를 높이는 시간 축 분할 정책을 제안한다. 또한 비단말 노드의 연결 정보를 저장하여 개선된 복합 질의 알고리즘을 제안하였다. 이 논문에서는 제안한 R-tree기반 색인 구조의 구현 및 성능 평가를 통해서 검색성능이 우수함을 보였다.