• 제목/요약/키워드: Query Tree Algorithm

검색결과 85건 처리시간 0.022초

공간 효율적인 DNA 시퀀스 인덱싱 방안 (A Space Efficient Indexing Technique for DNA Sequences)

  • 송혜주;박영호;노웅기
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제36권6호
    • /
    • pp.455-465
    • /
    • 2009
  • 서픽스 트리는 공통의 프리픽스의 빈도수가 높을 때 효과적인 알고리즘으로, 한정된 문자로만 구성된 DNA 유사성 검색을 위한 연구에서 널리 활용되고 있다. 그러나, 서픽스 트리는 인덱스 특성상 메모리 공간을 많이 차지하며, 트리의 분할 시 DNA 시퀀스의 비율로 인한 쏠림현상이 발생한다는 문제점을 가진다. 따라서, 본 논문에서는 공통의 프리픽스를 가지는 가변길이의 파티셔닝 방법으로 합병하지 않는 인덱싱 방안인 SENoM을 제안한다. SENoM은 전체 시퀀스에서 공통의 프리픽스를 가지는 서픽스들의 발생 빈도수가 임계치 이하인 경우 디스크에 저장하고, 임계치 이상인 경우 임계치 이하가 될 때까지 프리픽스를 확장한다. 모든 파티션은 서브트리로 구축한 후 디스크에 저장하며, 질의처리를 위해, 구축된 파티션의 프리픽스를 서픽스로 가지는 트리를 구축한다. 제안하는 기법은 복잡한 합병과정을 제거하고, 많은 파티션 발생으로 인한 디스크 I/O 발생을 줄인다. 실험을 통해, SENoM이 Trellis 알고리즘에 비해 메모리 사용량을 약 35%, 인덱스 크기를 약 20% 감소시켰음을 보인다. 또한, 질의길이가 긴 경우에도 프리픽스 트리를 이용하여 효과적인 질의처리가 가능함을 보인다.

Cloud P2P OLAP: 클라우드 컴퓨팅 환경에서의 Peer-to-Peer OLAP 질의처리기법 및 인덱스 구조 (Cloud P2P OLAP: Query Processing Method and Index structure for Peer-to-Peer OLAP on Cloud Computing)

  • 주길홍;김훈동;이원석
    • 인터넷정보학회논문지
    • /
    • 제12권4호
    • /
    • pp.157-172
    • /
    • 2011
  • 최근 분산 OLAP은 분산 환경에 적용하기 위하여 DHT기반의 P2P OLAP과 그리드 OLAP연구가 활발하게 진행되고 있다. 그러나 클라우드 컴퓨팅 환경에 적용하기 위하여 P2P OLAP은 structured P2P 특성 때문에 다차원 범위 질의에 문제점이 있고, Grid OLAP은 인접성 및 시계열 고려가 없기 때문에 쿼리 자체의 서브 �V 조회 알고리즘 연구에 치중되어 있다. 따라서 본 논문은 클라우드 컴퓨팅에 적합한 환경 제공을 위해 사용자의 조회 결과가 시계열적 특성으로 여러 사용자에 의해 재사용이 가능하고, 서버상의 휘발성 조회 큐브가 사용자 로컬 메모리에서 직접 분석 질의 시 효율이 좋다는 것에 초점을 두어 중앙관리 P2P방식을 제안하였다. 또한 빠른 질의 결과 및 다차원 범위질의를 위한 다단계 Hybrid P2P방식에 인덱스 부하 분산 및 성능 향상을 위한 클라우드 시스템을 접목하여 Cloud P2P OLAP을 제안하였다. 이를 위한 인덱스 구조로는 큐브 위상관계 트리와 인접성 2차원 Quadtree에, 시계열 Interval-트리를 접목하였으며, 이는 조회나 갱신 시에 일반 OLAP에 비해 큰 효율성을 보였다.

CS-트리 : 고차원 데이터의 유사성 검색을 위한 셀-기반 시그니쳐 색인 구조 (CS-Tree : Cell-based Signature Index Structure for Similarity Search in High-Dimensional Data)

  • 송광택;장재우
    • 정보처리학회논문지D
    • /
    • 제8D권4호
    • /
    • pp.305-312
    • /
    • 2001
  • 최근 고차원 색인 구조들이 멀티미디어 데이터베이스, 데이터 웨어하우징과 같은 데이터베이스 응용에서 유사성 검색을 위해 요구된다. 본 논문에서는 고차원 특징벡터에 대한 효율적인 저장과 검색을 지원하는 셀-기반 시그니쳐 트리(CS-트리)를 제안한다. 제안하는 CS-트리는 고차원 특징 벡터 공간을 셀로써 분할하여 하나의 특징 벡터를 그에 해당되는 셀의 시그니쳐로 표현한다. 특징 벡터 대신 셀의 시그니쳐를 사용함으로써 트리의 깊이를 줄이고, 그 결과 효율적인 검색 성능을 달성한다. 또한 셀에 기반하여 탐색 공간을 효율적으로 줄이는 유사성 검색 알고리즘을 제시한다. 마지막으로 우수한 고차원 색인 기법으로 알려져 있는 X-트리와 삽입시간, k-최근접 질의에 대한 검색 시간 그리고 부가저장 공간 측면에서 성능 비교를 수행한다. 성능비교 결과 CS-트리가 검색 성능에서 우수함을 보인다.

  • PDF

능동형 RFID시스템에서 태그 인식 속도 향상을 위한 고속 태그 충돌 방지 알고리즘 (High-Tag anti-collision algorithm to improve the efficiency of tag Identification in Active RFID System)

  • 이한영
    • 한국전자통신학회논문지
    • /
    • 제7권2호
    • /
    • pp.235-242
    • /
    • 2012
  • 현재 RFID 시스템에서 해결하여야 할 가장 큰 문제 중 하나는 태그간의 충돌로 인해 인식 효율이 떨어진다는 것이다. 기존의 충돌 방식 중 BS 충돌 방지 알고리즘 방식은 구현이 간단하다는 장점이 있으나, 태그 수가 많아짐에 따라서 태그간 충돌에 의해 전체 태그를 읽는데 요구되는 단계별 스케줄 횟수가 증가하는 단점을 가지고 있다. 본 논문에서는 이 문제를 해결하기 위해서 충돌 예상을 최소화 하기 위해 사전에 '0'과 '1'의 결정 비트를 통해 복수의 응답 프레임(MF)을 제안한 방식을 제안하였다. 시뮬레이션 결과 복수 응답 프레임 (MF) 알고리즘은 기존의 알고리즘보다 30~50% 성능이 향상됨을 보인다는 것을 알 수 있었다.

해마와 피질의 상호 관계를 이용한 객체 기반 영상 검색 기법 (An Object-Based Image Retrieval Techniques using the Interplay between Cortex and Hippocampus)

  • 홍종선;강대성
    • 대한전자공학회논문지SP
    • /
    • 제42권4호
    • /
    • pp.95-102
    • /
    • 2005
  • 본 논문에서는 해마와 피질 사이의 상호 작용을 이용하여 사용자 친화적인 객체 기반 영상 검색 시스템을 제안한다. 내용기반 영상 검색 시스템은 대부분 예제(example) 질의 혹은 스케치 질의 등을 이용하고 있고 이러한 방법들은 비교적 사용하기 불편하고 방법이 편중되어 있어서 일반 사용자들의 다양한 질의 요구에 적합하지 못하다. 제안하는 알고리즘은 CSB 트리맵 (Color and Spatial based Binary tree map)을 이용하여 객체를 추출하고 지역 라벨링 알고리즘을 이용하여 객체의 색상의 상관관계, 객체의 크기와 위치 정보를 비트 스트림 형태로 변환하고 이것을 해마와 피질 사이의 상호 작용의 관계를 이용한 해마 신경망을 사용하여 학습시킨다. 사람의 뇌 속에서 어떤 패턴을 인식을 하는 경우 해당 패턴의 특이한 특징에 대해 흥분하는 세포들이 특정 신호를 발생시킨다. 이것은 흥분학습에 의해 단기기억에서 장기기억으로 저장하는 해마의 기능으로 기존의 신경망에서는 입력되는 패턴의 특성과는 상관없이 특징 개수가 모두 동일하게 비교된다. 제안하는 해마 신경망은 호감도 조정에 의해서 입력되는 영상 패턴의 특징들을 흥분학습과 억제학습을 이용하여 불필요한 특징은 억제시키고 중요한 특징은 장기 기억 시켜서 적응성 있는 고속 검색 시스템을 구현한다.

4비트 패턴에 따른 슬롯 할당 기법을 이용한 RFID 태그 충돌 방지 알고리즘 (A RFID Tag Anti-Collision Algorithm Using 4-Bit Pattern Slot Allocation Method)

  • 김영백;김성수;정경호;안광선
    • 인터넷정보학회논문지
    • /
    • 제14권4호
    • /
    • pp.25-33
    • /
    • 2013
  • RFID 시스템에서는 다중 태그가 동일한 주파수로 동시에 리더의 요청에 응답하기 때문에 발생하는 태그 충돌을 중재하는 절차가 필수적이다. 이 절차를 충돌 방지 알고리즘이라 하며 RFID 시스템에서 가장 핵심적인 기술이다. 본 논문에서는 다중 태그의 고속 식별을 위한 4-BPSA(4-Bit Pattern Slot Allocation) 알고리즘을 제안한다. 제안한 알고리즘은 슬롯을 사용하는 트리 기반의 알고리즘으로서 4비트 패턴에 따른 슬롯 할당 기법을 이용하여 정확한 예측을 통해 빠르고 효율적으로 태그를 식별한다. 알고리즘에 대한 수학적 성능 분석을 통해 worst-case에서 4-BPSA의 시간 복잡도가 O(n)이며 기존의 알고리즘에 비해 성능이 개선되었음을 보인다. 또한 MATLAB을 이용한 시뮬레이션 실험을 통한 알고리즘의 성능 평가 결과에 의거해 4-BPSA 알고리즘이 태그당 평균 0.7회의 질의를 수행하며 태그의 개수와 상관없이 안정적인 성능을 보이는 것을 검증하였다.

염기문자의 빈도와 위치정보를 이용한 DNA 인덱스구조 (A DNA Index Structure using Frequency and Position Information of Genetic Alphabet)

  • 김우철;박상현;원정임;김상욱;윤지희
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권3호
    • /
    • pp.263-275
    • /
    • 2005
  • 대규모 DNA 데이타베이스를 대상으로 원하는 서열을 빠르게 검색하기 위해 인덱싱 기법을 많이 사용하고 있다. 그러나 대부분의 인덱싱 기법은 원래 데이타베이스보다 더 큰 저장공간을 사용하고 DBMS와의 밀 결합이 어렵다는 문제점을 가지고 있다. 본 논문에서는 완전 매치, 와일드카드 매치, k-미스매치와 같은 근사 매치 질의 처리를 위해 작은 공간을 사용하는 디스크 기반의 효율적인 인덱싱 기법과 질의 처리 기법을 제안한다 인덱싱을 위해서 DNA 염기서열에 일정 크기의 슬라이딩 윈도우를 위치시킨 후, 윈도우 내에서 각 문자의 출현 빈도를 이용해 서명을 추출해서 R*-트리와 같은 다차원 공간 인덱스에 저장한다. 특히 윈도우 내의 각 위치에 따라서 가중치를 줌으로써 서명들이 인덱스 공간에 집중되는 현상을 억제한다. 제안된 질의 처리방법은 질의 시퀀스를 다차원 사각형으로 변환하고 그 사각형과 중첩되는 서명들을 인덱스로부터 찾아낸다 제안된 방법을 실제 생물학자들이 사용하는 데이타를 이용해 실험한 결과 서픽스 트리 기반의 방법에 비해서 완전 매치인 경우 3배 이상, 와일드카드 매치인 경우 2배 이상, k-미스매치인 경우 수십 배 이상의 성능향상을 보였다.

융합 인덱싱 방법에 의한 조인 쿼리 성능 최적화 (Join Query Performance Optimization Based on Convergence Indexing Method)

  • 짜오티엔이;이용주
    • 한국전자통신학회논문지
    • /
    • 제16권1호
    • /
    • pp.109-116
    • /
    • 2021
  • RDF(Resource Description Framework) 데이터 구조는 그래프로 모델링하기 때문에, 관계형 데이터베이스와 XML 기술의 기존 솔루션은 RDF 모델에 바로 적용하기 어렵다. 우리는 링크 데이터를 더욱 효과적으로 저장하고, 인덱스하고, 검색하기 위해 융합 인덱싱 방법을 제안한다. 이 방법은 HDD(Hard Disk Drive) 와 SSD(Solid State Drive) 디바이스에 기반한 하이브리드 스토리지 시스템을 사용하고, 불필요한 데이터를 필터하고 중간 결과를 정제하기 위해 분리된 필터 및 정제 인덱스 구조를 사용한다. 우리는 3개의 표준 조인 검색알고리즘에 대한 성능 비교를 수행했는데, 실험 결과 제안된 방법이 Quad와 Darq와 같은 다른 기존 방법들에 비해 뛰어난 성능을 보인다.

DNA 시퀀스 데이타베이스를 위한 실용적인 유사 서브 시퀀스 검색 기법 (A Practical Approximate Sub-Sequence Search Method for DNA Sequence Databases)

  • 원정임;홍상균;윤지희;박상현;김상욱
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권2호
    • /
    • pp.119-132
    • /
    • 2007
  • 유사 서브 시퀀스 검색은 분자 생물학 분야에서 사용되는 매우 중요한 연산이다. 본 논문에서는 대규모 DNA 시퀀스 데이타베이스를 처리 대상으로 하여 효율성과 정확도를 보장하는 실용적인 유사 서브 시퀀스 검색 기법을 제안한다. 제안된 기법은 이진 트라이를 인덱스 구조로 채택하여 DNA 시퀀스로부터 추출한 일정 길이의 윈도우 서브 시퀀스를 인덱싱 대상으로 한다. 유사 서브 시퀀스 검색 알고리즘은 기본적으로 다이나믹 프로그래밍 기법에 근거하여 이진 트라이를 루트로부터 너비 우선(breadth-first)방식으로 운행하며, 경로 상에 존재하는 모든 유사 서브 시퀀스를 검색해 낸다. 그러나 질의 길이가 윈도우의 크기보다 큰 일반적인 경우에는 질의를 일정 길이의 서브 시퀀스로 분해하여 각 서브 시퀀스에 대하여 유사 서브 시퀀스 검색을 수행한 후, 후처리 과정에 의하여 정확도에 손상 없이 이들 결과를 결합하는 분할 질의 처리 방식을 채택한다. 제안된 기법의 우수성을 검증하기 위하여, 실험을 통한 성능 평가를 수행한다. 실험 결과에 의하면 제안된 인덱스 기법은 접미어 트리에 비하여 약 40%의 작은 저장 공간을 가지고도 약 4-17배의 검색 성능의 개선 효과를 나타낸다. 또한 분할 질의 처리 방식에 의한 유사 서브 시퀀스 검색 알고리즘은 질의 길이가 긴 경우에도 효율적으로 동작하여 Suffix와 Smith-Waterman 알고리즘에 비하여 각각 수배에서 수십배의 검색 성능의 개선 효과를 나타낸다.

페이지 실행시간 동기화를 이용한 다중 파이프라인 해쉬 결합 (Multiple Pipelined Hash Joins using Synchronization of Page Execution Time)

  • 이규옥;원영선;홍만표
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제27권7호
    • /
    • pp.639-649
    • /
    • 2000
  • 관계형 데이타베이스 시스템에서 결합 연산자는 데이타베이스 질의를 구성하는 연산자들 중 가장 많은 처리시간을 요구한다. 따라서 이러한 결합 연산자를 효율적으로 처리하기 위해 많은 병렬 알고리즘들이 소개되었다. 그 중 다중 해쉬 결합 질의의 처리를 위해 할당 트리를 이용한 방법이 가장 우수한 것으로 알려져 왔다. 그러나 이 방법은 할당 트리의 각 노드에서 필연적인 지연이 발생되는 데 이는 튜플-시험 단계에서 외부 릴레이션을 디스크로부터 페이지 단위로 읽는 비용과 이미 읽는 페이지에 대한 해쉬 결합 비용간의 차이에 의해 발생하게 된다. 본 논문에서는 이 비용 차이로 인해 발생되는 전체 시스템의 성능 저하를 방지하기 위해 페이지 실행시간 동기화 기법을 제안하였고 이 기법을 통해 각 노드에서의 처리시간을 줄이고 나아가 전체 시스템의 성능을 향상시켰다. 또한 분석적 비용 모형을 세우고 기존 방식과의 다양한 성능 분석을 통해 비용 모형의 타당성을 입증하였다.

  • PDF