• 제목/요약/키워드: multi-dimensional query

검색결과 74건 처리시간 0.016초

PubMine: An Ontology-Based Text Mining System for Deducing Relationships among Biological Entities

  • Kim, Tae-Kyung;Oh, Jeong-Su;Ko, Gun-Hwan;Cho, Wan-Sup;Hou, Bo-Kyeng;Lee, Sang-Hyuk
    • Interdisciplinary Bio Central
    • /
    • 제3권2호
    • /
    • pp.7.1-7.6
    • /
    • 2011
  • Background: Published manuscripts are the main source of biological knowledge. Since the manual examination is almost impossible due to the huge volume of literature data (approximately 19 million abstracts in PubMed), intelligent text mining systems are of great utility for knowledge discovery. However, most of current text mining tools have limited applicability because of i) providing abstract-based search rather than sentence-based search, ii) improper use or lack of ontology terms, iii) the design to be used for specific subjects, or iv) slow response time that hampers web services and real time applications. Results: We introduce an advanced text mining system called PubMine that supports intelligent knowledge discovery based on diverse bio-ontologies. PubMine improves query accuracy and flexibility with advanced search capabilities of fuzzy search, wildcard search, proximity search, range search, and the Boolean combinations. Furthermore, PubMine allows users to extract multi-dimensional relationships between genes, diseases, and chemical compounds by using OLAP (On-Line Analytical Processing) techniques. The HUGO gene symbols and the MeSH ontology for diseases, chemical compounds, and anatomy have been included in the current version of PubMine, which is freely available at http://pubmine.kobic.re.kr. Conclusions: PubMine is a unique bio-text mining system that provides flexible searches and analysis of biological entity relationships. We believe that PubMine would serve as a key bioinformatics utility due to its rapid response to enable web services for community and to the flexibility to accommodate general ontology.

영상 색인용 VP-tree의 검색 범위 압축법의 개선에 관한 연구 (Study of Improvement of Search Range Compression Method of VP-tree for Video Indexes)

  • 박길양;이상곤;황재정
    • 한국멀티미디어학회논문지
    • /
    • 제15권2호
    • /
    • pp.215-225
    • /
    • 2012
  • 멀티미디어 데이터베이스에서는 검색 효율을 높이기 위해 다차원 공간에 기초한 색인 방법이 사용되고 있다. 그러나 이 방법은 거리 계산의 척도로 유클리드 거리를 이용하여야 한다는 전제가 있어 범용성이 떨어진다. 한편, 거리 공리의 성립을 전제로 하는 거리 공간에 기반한 색인 방법은 유클리드 거리 이외의 거리 척도를 이용할 수 있기 때문에 범용성이 높다. 본 논문에서는 거리 공간을 색인화하는 방법 중 하나인 VP-tree의 방법을 개선하고자 한다. VP-tree는 검색 시에 루트 노드로부터 검색 범위에 적합한 노드를 따라 최종에 이르는 리프 노드에 링크되어 있는 오브젝트와의 거리를 계산하고, 검색 범위에 적합한가를 검사한다. 그러나 리프 노드에서 거리 계산 횟수가 증가하면 검색 속도가 떨어지기 때문에 리프 노드에서 삼각 부등식을 이용한 범위 압축 방법에 주목하고 그 개량 방법으로서 질의 오브젝트에 대한 최근접점을 삼각 부등식의 기준점으로 이용하는 방법을 제안한다. 이 개량 방법에 의해 검색 범위를 크게 좁힐 수 있으며, 또한 거리 계산의 횟수도 꽤 줄일 수 있다. 실제로 10,000 건의 영상 데이터를 이용하여 시스템의 성능 평가를 진행해 본 결과 기존 방법에 비해 유사 영상의 검색 시간을 5%~12%까지 절감할 수 있었다.

한국 전통음악 (국악)에 대한 자동 장르 분류 시스템 구현 (An Implementation of Automatic Genre Classification System for Korean Traditional Music)

  • 이강규;윤원중;박규식
    • 한국음향학회지
    • /
    • 제24권1호
    • /
    • pp.29-37
    • /
    • 2005
  • 본 논문은 한국의 전통 음악, 즉 국악 장르를 자동으로 분류하는 시스템을 제안한다. 제안된 시스템은 입력 음악의 내용기반 분석을 통하여 궁중음악, 풍류방음악, 민속성악, 민속기악, 불교음악, 무속음악 등 6가지 장르중 하나로 자동분류하여 해당 음악의 장르 결과를 보여준다. 국악 장르 분류에 사용된 내용기반 알고리즘은 크게 음악의 특징 벡터 추출 그리고 장르 분류를 위한 패턴인식 과정 2가지로 구성된다. 음악의 특징 벡터 추출은 디지탈 신호 처리기술을 이용하여 해당 음악의 spectral centroid, rolloff, flux 등 STFT (Short Time Fourier Transform) 기반의 특징 계수들과 MFCC (Mel frequency cepstral coefficient), LPC (Linear predictive coding) 등의 계수들을 구한 후 SFS (Sequential Forward Selection) 최적 특징 벡터 열을 선별하여 사용하였으며 패틴 분류 알고리즘으로는 k-NN (k -Nearest Neighbor), Gaussian, GMM (Gaussian Mixture Model), SVM (Support Vector Machine) 분류기를 사용하였다. 특히 본 연구에서는 입력 질의의 패턴 (혹은 구간) 변화에 따른 시스템의 불확실성을 개선하기 위하여 MFC (Multi Feature Clustring) 방법을 이용하여 DB를 구축하였다. 모의실험 결과 k-NN 과 SVM 분류기 모두 $97{\%}$ 이상의 장르 분류 성공률을 보였으나, SVM 이 k-NN에 비해 약 3배 이상의 빠른 분류 성능을 가지고 있음을 확인하였다.

히포크라테스 XML 데이터베이스: 모델 및 액세스 통제 방법 (Hippocratic XML Databases: A Model and Access Control Mechanism)

  • 이재길;한욱신;황규영
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권6호
    • /
    • pp.684-698
    • /
    • 2004
  • 최근에 Agrawal 등이 제안한 히포크라테스 데이타베이스(Hippocratic database)는 관계형 데이타베이스에 프라이버시 보호 기능을 추가한 데이타베이스 모델이다 히포크라테스 데이타베이스는 관계형 데이타베이스에 기반한 모델이므로 최근에 널리 사용되는 XML 데이타베이스에 적용하기 위해서는 확장이 필요하다. 본 논문에서는 히포크라테스 데이타베이스 모델을 XML 데이타베이스에 적용할 수 있도록 확장한 히포크라데스 XML 데이타베이스(Hippocratic XML database) 모델과 이 모델에서의 효과적인 액세스 통제 방법을 제안한다. XML 데이타는 관계형 모델과 달리 트리 형태의 계층 구조를 가진다. 따라서, 히포크라테스 데이타베이스의 모델에서 제시한 개념들인 프라이버시 선호 및 정책, 프라이버시 권한, 데이타 레코드의 사용목적을 트리 형태의 계층 구조에 맞게 확장하며, 확장된 개념들을 정형적으로 정의한다. 다음으로, 본 모델의 액세스 통제 방법에 사용되는 새로운 방법인 다차원 인덱스를 사용한 권한 인덱스(authorization index)를 제안한다. 이 권한 인덱스는 최근접 질의(nearest neighbor search) 기법을 활용하여 가장 가까운 조상 엘리먼트에 부여된 권한에 의해 내포되는 권한을 효율적으로 찾을 수 있게 해준다. 합성 데이타와 실제 데이타를 사용하여 기존의 액세스 통제 방법과 질의 처리 시간을 비교하는 다양한 실험을 수행한 결과, 본 논문에서 제안한 액세스 통제 방법은 하향식(top-down) 액세스 통제 방법에 비하여 최대 13.6배, 상향식(bottom-up) 액세스 통제 방법에 비하여 최대 20.3배 성능을 향상시킴을 보였다. 본 논문의 주요 공헌은 1) 히포크라테스 데이타베이스 모델을 히포크라테스 XML 데이타베이스 모델로 확장하고 2) 제안한 모델 상에서 권한 인덱스와 최근접 질의 기법을 사용하는 효과적인 액세스 통제방법을 제안한 것이다.