• 제목/요약/키워드: Query length

검색결과 67건 처리시간 0.025초

인덱스 보간법에 기반한 효율적인 서브시퀀스 매칭 기법 (An Efficient Subsequence Matching Method Based on Index Interpolation)

  • 노웅기;김상욱
    • 정보처리학회논문지D
    • /
    • 제12D권3호
    • /
    • pp.345-354
    • /
    • 2005
  • 서브시퀀스 매칭은 데이터 마이닝 분야에서 중요한 연산 중의 하나이다. 기존의 서브시퀀스 매칭 알고리즘들은 하나의 인덱스만을 사용하여 검색을 수행하며, 인덱스를 생성하기 위하여 데이터 시퀀스로부터 추출한 윈도우의 크기와 질의 시퀀스의 길이 간의 차이가 커질수록 검색 성능이 급격히 저하된다. 본 논문에서는 이러한 문제점을 해결하기 위하여 인덱스 보간법에 기반한 새로운 서브시퀀스 매칭 기법을 제안한다. 인덱스 보간법이란 하나 이상의 인덱스를 구축하고 주어진 질의 시퀀스의 길이에 따라 적절한 인덱스를 선택하여 검색을 수행하는 기법이다. 본 논문에서는 먼저 사전 실험을 통하여 서브시퀀스 매칭을 수행하는 데에 있어 질의 시퀀스 길이와 윈도우 크기 간의 차이로 인한 성능의 변화를 관찰하고, 이 관찰을 통하여 물리적 데이터베이스 설계 관점에서 질의 시퀀스의 길이 분포에 따른 검색 비용 공식을 산출한다. 다음에, 윈도우 크기 효과에 의한 성능 저하를 개선하기 위해 인덱스 보간법에 기반한 새로운 검색 기법을 제안한다. 또한, 검색 비용 공식에 기반하여 제안된 검색 기법의 성능을 최적화할 수 있도록 다수의 인덱스를 구성하는 알고리즘을 제시한다. 마지막으로, 실제 데이터와 합성 데이터를 이용한 여러 가지 실험을 통하여 제안된 기법의 우수성을 검증한다.

음악 정보검색 시스템을 위한 효율적인 특징 벡터 추출에 관한 연구 (A Study on the Efficient Feature Vector Extraction for Music Information Retrieval System)

  • 윤원중;이강규;박규식
    • 한국음향학회지
    • /
    • 제23권7호
    • /
    • pp.532-539
    • /
    • 2004
  • 본 논문에서는 Classic, Hiphop, Jazz, Rock 4개의 장르로 곡을 구분하여 각 장르별 60곡씩 총 240곡의 음악 DB를 대상으로 예제 질의 (QBE) 방식의 음악 정보 검색 시스템을 제안하였다. 제안된 시스템은 입력 질의로부터 spectral centroid, rolloff, flux등 STFT기반의 특징들과 MFCC, LPC, Beat 정보 등의 총 60차의 특징 벡터들을 추출한후 Euclidean 유사도를 측정해서 DB내의 해당 음악을 검색한다. 실제 검색에 사용되는 특징 벡터는 SFS (Sequential Forward Selection) 기법을 사용하여 10차 특징 벡터로 최적화 되며 검색 실험결과 평균 84% Hit Rate 와 0.63 MRR의 성공률을 보이고 있어 기존의 연구 결과보다 약 10%이상의 성능 향상을 보였다. 한편 본 논문에서는 실제 시스템 사용 환경을 고려하여 임의 질의 구간과 임의 질의 길이에 대한 시스템 성능 평가를 수행하였으며 실험 결과 이러한 임의성에 기인한 검색 성능의 불안정성을 지적하였다.

빠른 XML질의 처리를 위한 세그먼트 조인 기법 (Segment Join Technique for Processing in Queries Fast)

  • 배진옥;문봉기;이석호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권3호
    • /
    • pp.334-343
    • /
    • 2005
  • XML 데이타를 대상으로 선형 질의나 가지모양 질의 같은 복잡한 질의가 많이 연구되고 있다. 이와 같은 질의를 처리하기 위해 XML 데이타를 구조정보에 의해 미리 인코딩한 후, 질의 처리시 구조정보를 이용하여 빠르게 질의를 수행하는 구조 조인 알고리즘들이 제안되었다. 그 중 최근에 제안된 TwigStack 알고리즘과 TSGeneric 알고리즘은 각각 인덱스가 없는 환경과 있는 환경에서 수행시간이 입력 데이타의 양과 비례하는 최적의 성능을 보여주었다. 하지만 이들 알고리즘은 질의의 길이(질의에 나타난 엘리먼트 개수)에 비례하여 입력데이타의 양이 증가하고, 따라서 수행시간이 길어진다는 제한점이 있다. 이 논문에서는 기존의 구조 조인 알고리즘들에 구조 인덱스를 결함한 세그먼트 조인 기법을 제안한다. 이 기법은 질의 노드와 노드 간의 구조 조인과는 달리, 구조 인덱스를 이용하여 일련의 질의 노드들을 하나의 세그먼트로 식별한 후 세그먼트와 세그먼트 사이의 조인을 수행한다. 그 결과 세그먼트마다 하나의 질의 노드만을 읽음에 의해 질의를 처리할 수 있게 되어 수행성능이 향상된다. 다양한 데이타셋에 대해 인덱스가 없는 환경에서 실험 결과, 세그먼트 조인 기법을 적용한 SegmentTwig 알고리즘은 TwigStack 알고리즘보다 우수한 성능을 보였다.

VRTEC : 내용 기반 비디오 질의를 위한 다단계 검색 모델 (VRTEC : Multi-step Retrieval Model for Content-based Video Query)

  • 김창룡
    • 전자공학회논문지T
    • /
    • 제36T권1호
    • /
    • pp.93-102
    • /
    • 1999
  • 본 논문은 내용 기반 비디오 질의를 위한 데이터 모델과 검색 방법을 제안한다. 하나의 비디오를 같은 길이의 프레임(frame)들의 집합 즉 비디오-윈도우로 나눈 후에 각각의 비디오-윈도우를 다차원 공간의 한 점으로 사상시킨다. 인접한 비디오-윈도우를 연결하면 하나의 비디오는 다차원 공간에서의 하나의 궤적(trajectory)이된다. 두 비디오-윈도우의 유서성은 두 점의 유클리디안 거리로 정의되며, 비디오 단편(segment)의 유사성 비교는 궤적을 비교함으로써 검사한다. 여과(filtering), 정제(refinement)과정을 가지는 새로운 검색 방법을 개발한다. 새로운 검색 방법을 여과/정제 과정이 없는 질의 결과가 정확하고, 질의 처리 속도는 약 4.7배 향상되었다.

  • PDF

Efficient Processing of All-farthest-neighbors Queries in Spatial Network Databases

  • Cho, Hyung-Ju
    • 한국멀티미디어학회논문지
    • /
    • 제22권12호
    • /
    • pp.1466-1480
    • /
    • 2019
  • This paper addresses the efficient processing of all-farthest-neighbors (AFN) queries in spatial network databases. Given a set of data points P={p1,p2,…,p|p|} in a spatial network, where the distance between two data points p and s, denoted by dist (p,s), is the length of the shortest path between them, an AFN query is defined as follows: find the farthest neighbor ω(p)∈P of each data point p such that dist(p,ω(p)) ≥ dist(p,s) for all s∈P. In this paper, we propose a shared execution algorithm called FAST (for All-Farthest-neighbors Search in spatial neTworks). Extensive experiments on real-world roadmaps confirm the efficiency and scalability of the FAST algorithm, while demonstrating a speedup of up to two orders of magnitude over a conventional solution.

Efficient Processing of Spatial Preference Queries in Spatial Network Databases

  • Cho, Hyung-Ju;Attique, Muhammad
    • 한국멀티미디어학회논문지
    • /
    • 제22권2호
    • /
    • pp.210-224
    • /
    • 2019
  • Given a positive integer k as input, a spatial preference query finds the k best data objects based on the scores (e.g., qualities) of feature objects in their spatial neighborhoods. Several solutions have been proposed for spatial preference queries in Euclidean space. A few algorithms study spatial preference queries in undirected spatial networks where each edge is undirected and the distance between two points is the length of the shortest path connecting them. However, spatial preference queries have not been thoroughly investigated in directed spatial networks where each edge has a particular orientation that makes the distance between two points noncommutative. Therefore, in this study, we present a new method called ALPS+ for processing spatial preference queries in directed spatial networks. We conduct extensive experiments with different setups to demonstrate the superiority of ALPS+ over conventional solutions.

생물학 서열 데이타베이스에서 부분 문자열의 선적도 추정 (Estimation of Substring Selectivity in Biological Sequence Database)

  • 배진욱;이석호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제30권2호
    • /
    • pp.168-175
    • /
    • 2003
  • 지금까지 문자열 데이타에 대한 선택도 추정은 문자열들의 등장 회수에 대한 정보를 저장하고 있는 '카운트 서픽스 트리'를 생성한 뒤, 이 트리를 이용하여 부분 문자열들의 선택도를 추정하는 방법으로 이루어졌다. 그런데, 문자열 데이타가 생물학 서열처럼 매우 길어질 경우 카운트 서픽스 트리를 생성하는 일은 거의 불가능해진다는 문제점이 발생한다. 이 논문에서는 길이가 q인 부분 문자열들만을 삽입한 '카운트 큐그램 트리'를 제안한다. 카운트 큐그램 트리는 서열 내의 길이가 q 이하인 모든 부분 문자열(큐그램) 들의 정확한 등장 회수를 저장하고 있으며, 문자열의 전체 길이 N에 상관없는 크기로, O(N) 시간에 생성 가능하다. 또한, 이 논문에서는 카운트 큐그램 트리를 이용한 'k번째 최대겹침' 추정 방법을 제시한다. 이 추정 방법은 질의 문자열을 길이 q인 부분 문자열로 나눌 때 부분 문자열들의 겹치는 정도 k를 선택할 수 있도록 한 방법으로 이전 연구에서 제시한 '최대겹침' 방법을 확장하였다. q와 k를 변화시키며 진행한 실험 올 통해 대부분의 경우에 매우 정확하게 선택도를 추정할 수 있음을 확인하였다.

공간 효율적인 DNA 시퀀스 인덱싱 방안 (A Space Efficient Indexing Technique for DNA Sequences)

  • 송혜주;박영호;노웅기
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제36권6호
    • /
    • pp.455-465
    • /
    • 2009
  • 서픽스 트리는 공통의 프리픽스의 빈도수가 높을 때 효과적인 알고리즘으로, 한정된 문자로만 구성된 DNA 유사성 검색을 위한 연구에서 널리 활용되고 있다. 그러나, 서픽스 트리는 인덱스 특성상 메모리 공간을 많이 차지하며, 트리의 분할 시 DNA 시퀀스의 비율로 인한 쏠림현상이 발생한다는 문제점을 가진다. 따라서, 본 논문에서는 공통의 프리픽스를 가지는 가변길이의 파티셔닝 방법으로 합병하지 않는 인덱싱 방안인 SENoM을 제안한다. SENoM은 전체 시퀀스에서 공통의 프리픽스를 가지는 서픽스들의 발생 빈도수가 임계치 이하인 경우 디스크에 저장하고, 임계치 이상인 경우 임계치 이하가 될 때까지 프리픽스를 확장한다. 모든 파티션은 서브트리로 구축한 후 디스크에 저장하며, 질의처리를 위해, 구축된 파티션의 프리픽스를 서픽스로 가지는 트리를 구축한다. 제안하는 기법은 복잡한 합병과정을 제거하고, 많은 파티션 발생으로 인한 디스크 I/O 발생을 줄인다. 실험을 통해, SENoM이 Trellis 알고리즘에 비해 메모리 사용량을 약 35%, 인덱스 크기를 약 20% 감소시켰음을 보인다. 또한, 질의길이가 긴 경우에도 프리픽스 트리를 이용하여 효과적인 질의처리가 가능함을 보인다.

Multi-Feature Clustering을 이용한 강인한 내용 기반 음악 장르 분류 시스템에 관한 연구 (A Study on the Robust Content-Based Musical Genre Classification System Using Multi-Feature Clustering)

  • 윤원중;이강규;박규식
    • 대한전자공학회논문지SP
    • /
    • 제42권3호
    • /
    • pp.115-120
    • /
    • 2005
  • 본 논문에서는 multi-feature clustering(MFC) 방법을 이용한 강인한 내용 기반 음악 장르 분류 알고리즘을 제안한다. 기존 연구와 비교하여 본 논문에서는 입력 질의 패턴(또는 구간)과 입력 질의 길이의 변화에 따라 나타나는 불안정한 시스템 성능을 개선하는데 노력하였고, k-means clustering 기법에 기반한 multi-feature clustering(MFC)이라는 새로운 알고리즘을 제안하였다. 제안된 시스템의 성능을 검증하기 위해 질의 음악 파일의 서로 다른 여러 구간에서 질의 길이를 다변화하여 음악 특징 계수를 추출하였고, MFC 방법을 사용한 시스템과 MFC 방법을 사용하지 않은 시스템에 대한 장르 분류 성공률을 비교하여 제안 알고리즘의 성능을 비교${\cdot}$분석하였다. 모의실험 결과 MFC 방법을 사용한 시스템의 장르 분류 성공률이 높게 나타났고, 시스템의 안정성 역시 높게 나타났다.

n-gram/2L: 공간 및 시간 효율적인 2단계 n-gram 역색인 구조 (n-Gram/2L: A Space and Time Efficient Two-Level n-Gram Inverted Index Structure)

  • 김민수;황규영;이재길;이민재
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권1호
    • /
    • pp.12-31
    • /
    • 2006
  • n-gram 기반 역색인 구조는 언어 중립적이고 에러 허용적인 장점들로 인해 일부 아시아권 언어에 대한 정보 검색이나 단백질과 DNA의 sequence의 근사 문자열 매칭에 유용하게 사용되고 있다. 그러나, n-gram 기반의 역색인 구조는 색인의 크기가 크고 질의 처리 시간이 오래 걸린다는 단점들을 가지고 있다. 이에 본 논문에서는 n-gram 기반 역색인의 장점을 그대로 유지하면서 색인의 크기를 줄이고 질의 처리 성능을 향상시킨 2단계 n-gram 역색인(간단히 n-gram/2L 역색인이라 부른다)을 제안한다. n-gram/2L 역색인은 n-gram 기반 역색인에 존재하던 위치 정보의 중복을 제거한다. 이를 위해 문서로부터 길이 m의 m-subsequence들을 추출하고, 그 m-subsequence들로부터 n-gram을 추출하여 2단계로 역색인을 구성한다. 이러한 2단계 구성 방법은 이론적으로 의미 있는 다치 종속성이 존재하는 릴레이션을 정규화하여 중복을 제거하는 것과 동일하며, 이를 본문에서 정형적으로 증명한다. n-gram/2L 역색인은 데이타의 크기가 커질 수록 n-gram 역색인에 비해 색인 크기가 줄어들며 질의 처리 성능이 향상되고, 질의 문자열의 길이가 길어져도 질의 처리 시간이 거의 증가하지 않는 좋은 특성을 가진다. 1GByte 크기의 데이타에 대한 실험을 통하여, n-gram/2L 역색인은 n-gram 기반 역색인에 비해 최대 1.9${\~}$2.7배 더 작은 크기를 가지면서, 동시에 질의 처리 성능은 3${\~}$18 범위의 길이를 가지는 질의들에 대해 최대 13.1배 향상됨을 보였다.