• 제목/요약/키워드: Tree index search

검색결과 115건 처리시간 0.022초

시계열 데이터베이스에서 서브시퀀스 매칭을 위한 후처리 과정의 최적화 (Optimization of Post-Processing for Subsequence Matching in Time-Series Databases)

  • 김상욱
    • 정보처리학회논문지D
    • /
    • 제9D권4호
    • /
    • pp.555-560
    • /
    • 2002
  • 서브시퀀스 매칭은 주어진 질의 시퀀스와 변화의 추세가 유사한 서브시퀀스들을 시계열 데이터베이스로부터 검색하는 연산이며, 인덱스 검색 과정과 후처리 과정으로 구성된다. 본 논문에서는 서브시퀀스 매칭을 위한 후처리 과정의 최적화 방안에 관하여 논의한다. 기존의 서브시퀀스 매칭 기법들의 후처리 과정에서 발생하는 공통적인 문제점은 인덱스 검색 과정에서 각 후보 서브시퀀스가 반환될 때마다 이들이 최종 결과에 포함되는가에 대한 여부를 판별하기 위하여 질의 시퀀스와 비교한다는 것이다. 이러한 처리 방식은 후보 서브시퀀스들을 포함하는 동일한 시퀀스를 디스크로부터 여러 번 액세스되도록 할 뿐만 아니라 동일한 후보 서브시퀀스를 질의 시퀀스와 여러 번 비교하도록 한다. 따라서 이러한 중복 작업은 서브시퀀스 매칭의 처리 성능을 심각하게 저하시키는 중요한 원인이 된다. 본 연구에서는 이러한 문제점을 해결하는 새로운 최적의 기법을 제안한다. 제안된 기법은 인덱스 검색 과정에서 반환되는 모든 후보 서브시퀀스들을 이진 탐색 트리 내에 저장하고, 인덱스 검색 과정이 완료된 후에 일괄 처리 방식으로 후처리 작업을 수행한다. 이와 같은 일괄 처리 방식을 채택함으로써 제안된 기법은 위에서 언급한 중복 작업을 완전히 제거할 수 있다. 제안된 기법의 성능 개선 효과를 검증하기 위하여 실제 주식 데이터를 위한 다양한 실험을 수행한다. 실험 결과에 의하면, 제안된 기법은 기존의 기법과 비교하여 55배에서 156배까지의 성능 개선 효과가 있는 것으로 나타났다.

화학 데이타베이스에서 부분구조 검색을 위한 인덱스 구조 (An Index Structure for Substructure Searching In Chemical Databases)

  • 이환구;차재혁
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권6호
    • /
    • pp.641-649
    • /
    • 2004
  • 약물의 화학적 구조와 그 약물의 약리작용간의 연관성은, 'Medicinal Chemistry' 분야에서 활발히 연구된다. 이는 화학구조를 기반으로 하여 신약을 설계하려는 시도로서, 약학자는 신약 개발 시 만들고자 하는 약물과 비슷한 화학구조를 가지고 있는 기존 약물들에는 어떠한 것들이 있는지 조사하며, 특정 화학구조가 어떤 약물들에서 나타나는지 신속히 검색하기를 원한다. 이처럼 어떤 화차구조에서, 특정한 부분구조가 존재하는지를 검사하는 것을 부분구조검색(Substructure Searching)이라 하며, 이는 그래프 이론에서 NP-complete인 동형성 판정(Subgraph Isomorphism) 문제로 귀결된다. 검색 시간을 단축시키고자 여러 다른 전근방법들이 연구되었는데, 1990년대에는 구조에 대한 인덱스를 미리 만들어 RDBMS에 저장한 후, 검색시 이론 이용하여 성능을 높이는 방법으로 미국 특허를 획득한 RS3 시스템(http://www.acelrys.com/rs3)이 현재 상용화되어 쓰이고 있다. 본 논문에서는 RS3 시스템의 문제점을 규명하고, 이의 개선방안으로서 새로운 인덱스를 제안한다 RS3 시스템은 각 원자를 중심으로 다른 원자와의 구조를 문자연로 표현하고, 부분구조검색 쿼리를 부분문자열 검색을 실행함으로써 수행하는데, 이의 화학구조를 기술하는 인덱스에는 동일 원자, 동릴 결합에 대한 정렬이 불가능하여 재현율(Recall)과 정도(Precision)가 낮다. 이론 개선하기 위하여 본 논문에서는 2차원의 화학구조를 나누어 1차원의 구조 단편으로 만들고 이를 문자열로 기술하는 방안을 제시하며 구체적인 방법으로 한 인자를 중심으로 최소비용신장트리를 구성한 다음 레벨별로 경로를 나누어 기술하는 방안을 제안하며, 이와 같은 방법의 새로운 인덱스로 재현율과 정도가 급격히 향상됨을 보인다.

다이나믹 데이터 웨어하우스 환경에서 OLAP 영역-합 질의의 효율적인 처리 방법 (Efficient Processing method of OLAP Range-Sum Queries in a dynamic warehouse environment)

  • 전석주;이주홍
    • 정보처리학회논문지D
    • /
    • 제10D권3호
    • /
    • pp.427-438
    • /
    • 2003
  • 데이터 웨어하우스에서 사용자는 전형적으로 상호작용적으로 질의를 부여함으로서 추세와 패턴 또는 예외적인 데이터의 행위를 검색한다. OLAP 영역-합 질의는 데이터 웨어하우스에서 추세를 발견하거나 또는 애트리뷰트들간의 관계를 발견하는데 폭 넓게 사용되고 있다. 최근의 기업환경은 데이터 큐브의 데이터 요소들이 자주 바뀌게 된다. 문제는 프리픽스 섬 큐브를 업데이트하는 비용이 매우 크다는 것이다. 이 논문에서는Δ-트리로 불리는 인덱싱 구조를 사용하여 업데이트 비용을 상당히 줄이는 참신한 알고리즘을 제안한다. 또한, 근사 또는 정확한 해를 제공하므로 질의의 전체비용을 줄일 수 있는 하이브리드 방법을 제안한다. 이는 의사 결정 지원 시스템과 같이 시간을 많이 소비하는 정확한 해보다는 빠른 근사 해를 필요로 하는 다양한 응용들에 큰 장점이 있다. 폭 넓은 실험은 우리의 방법이 다른 방법들과 비교하여 다양한 차원에서 매우 효율적으로 수행됨을 보여준다.

Morphometric and genetic diversity of Rasbora several species from farmed and wild stocks

  • Bambang Retnoaji;Boby Muslimin;Arif Wibowo;Ike Trismawanti
    • Fisheries and Aquatic Sciences
    • /
    • 제26권9호
    • /
    • pp.569-581
    • /
    • 2023
  • The morphology and genetic identification of Rasbora lateristriata and Rasbora argyrotaenia between cultivated and wild populations has never been reported. This study compares morphology and cytochrome c oxidase (COI) genes between farmed and wild stock Rasbora spp. in Java and Sumatra island, Indonesia. We analyzed the truss network measurement (TNM) characters of 80 fish using discriminant function analysis statistical tests. DNA was extracted from muscle tissue of 24 fish specimens, which was then followed by polymerase chain reaction, sequencing, phylogenetic analysis, fixation index analysis, and statistical analysis of haplotype networks. Basic Local Alignment Search Tool analysis validated the following species: R. lateristriata and R. argyrotaenia from farming (Jogjakarta); Rasbora agryotaenia (Purworejo), R. lateristriata (Purworejo and Malang), Rasbora dusonensis (Palembang), and Rasbora einthovenii (Riau) from natural resources. Based on TNM characters, Rasbora spp. were divided into four groups, referring to four distinct characters in the middle of the body. The phylogenetic tree is divided into five clades. The genetic distance between R. argyrotaenia (Jogjakarta) and R. lateristriata (Malang) populations (0.66) was significantly different (p < 0.05). R. lateristriata (Purworejo) has the highest nucleotide diversity (0.43). R. argyrotaenia from Jogjakarta and Purworejo shared the same haplotype. The pattern of gene flow among them results from the two populations' close geographic proximity and environmental effects. R. argyrotaenia had low genetic diversity, therefore, increasing heterozygosity in cultivated populations is necessary to avoid inbreeding. Otherwise, R. lateristriata (Purworejo) had a greater gene variety that could be used to develop breeding. In conclusion, the middle body parts are a distinguishing morphometric character of Rasbora spp., and the COI gene is more heterozygous in the wild population than in farmed fish, therefore, enrichment of genetic variation is required for sustainable Rasbora fish farming.

중복을 허용한 계층적 클러스터링에 의한 복합 개념 탐지 방법 (Hierarchical Overlapping Clustering to Detect Complex Concepts)

  • 홍수정;최중민
    • 지능정보연구
    • /
    • 제17권1호
    • /
    • pp.111-125
    • /
    • 2011
  • 클러스터링(Clustering)은 유사한 문서나 데이터를 묶어 군집화해주는 프로세스이다. 클러스터링은 문서들을 대표하는 개념별로 그룹화함으로써 사용자가 자신이 원하는 주제의 문서를 찾기 위해 모든 문서를 검사할 필요가 없도록 도와준다. 이를 위해 유사한 문서를 찾아 그룹화하고, 이 그룹의 대표되는 개념을 도출하여 표현해주는 기법이 요구된다. 이 상황에서 문제점으로 대두되는 것이 복합 개념(Complex Concept)의 탐지이다. 복합 개념은 서로 다른 개념의 여러 클러스터에 속하는 중복 개념이다. 기존의 클러스터링 방법으로는 문서를 클러스터링할 때 동일한 레벨에 있는 서로 다른 개념의 클러스터에 속하는 중복된 복합 개념의 클러스터를 찾아서 표현할 수가 없었고, 또한 복합 개념과 각 단순 개념(Simple Concept) 사이의 의미적 계층 관계를 제대로 검증하기가 어려웠다. 본 논문에서는 기존 클러스터링 방법의 문제점을 해결하여 복합 개념을 쉽게 찾아 표현하는 방법을 제안한다. 기존의 계층적 클러스터링 알고리즘을 변형하여 동일 레벨에서 중복을 허용하는 계층적 클러스터링(Hierarchical Overlapping Clustering, HOC) 알고리즘을 개발하였다. HOC 알고리즘은 문서를 클러스터링하여 그 결과를 트리가 아닌 개념 중복이 가능한 Lattice 계층 구조로 표현함으로써 이를 통해 여러 개념이 중복된 복합 개념을 탐지할 수 있었다. HOC 알고리즘을 이용해 생성된 각 클러스터의 개념이 제대로 된 의미적인 계층 관계로 표현되었는지는 특징 선택(Feature Selection) 방법을 적용하여 검증하였다.