• Title/Summary/Keyword: 색인화

Search Result 272, Processing Time 0.024 seconds

Development of Audio Feature Sequence Data Indexing Method for Query by Singing and Humming (허밍 기반 음원 검색을 위한 오디오 특징 시퀀스 데이터 색인 기법 개발)

  • Song, Chai-Jong;Lim, Tea-Buem
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2013.06a
    • /
    • pp.381-384
    • /
    • 2013
  • 본 논문에서는 허밍기반 음원 검색 시스템을 위한 오디오 특징 시퀀스 데이터 색인 기법을 제안한다. 우선 Query-by-Singing/Humming (QbSH) 시스템의 특징 데이터베이스를 생성하기 위하여 MP3 와 같은 다성음원에서 주요 멜로디를 추출하여 시퀀스데이터를 생성하고, 고속 검색을 지원하기 위한 시퀀스데이터를 색인화한다. 본 논문에서는 최소 Dynamic Time Warping (DTW) 거리 기법, 시퀀스 추상화 기법, 상한 값 기반 DTW 기법과 같이 세 가지의 시퀀스 데이터의 색인화 기술을 제시하고 각각에 대한 문제점을 파악하고, 성능을 평가한다. 이를 통하여 향상된 검색 시간과 검색 정확도를 얻을 수 있다.

  • PDF

Term Clustering and Interleaving for Parallel Information Retrieval (색인어 군집화를 이용한 효율적인 병렬정보검색시스템)

  • 강재호;양재완;정성원;류광렬;권혁철;정상화
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2002.05a
    • /
    • pp.401-409
    • /
    • 2002
  • 인터넷과 같은 대량의 정보에 대응할 수 있는 고성능 정보검색시스템을 구축하기 위해서는 지금까지 고가의 중대형 컴퓨터를 주로 활용하여 왔으나, 최근 가격대 성능비가 높은 PC 클러스터 시스템을 활용하는 방안이 경제적인 대안으로 떠오르고 있다. PC 클러스터 상에서의 병렬정보검색시스템을 효율적으로 운영하기 위해서는 사용자가 입력한 질의를 처리하는데 요구되는 개별 PC의 디스크 I/O 및 검색관련 연산을 모든 PC에 가능한 균등하게 분배할 필요가 있다. 본 논문에서는 같은 질의에 동시에 등장할 가능성이 높은 색인어들끼리 군집 화하고 생성된 군집을 활용하여 색인어들을 각 PC에 분산저장함으로써 보다 높은 수준의 병렬화를 달성할 수 있는 방안을 제시한다. 대용량 말뭉치를 활용한 실험결과 본 논문에서 제시하는 분산저장기법이 충분한 효율성을 가지고 있음을 확인하였다.

  • PDF

Summary Indexing Scheme for Subgraph Matching Considering Structural Differences (구조적 차이를 고려한 서브 그래프 매칭을 위한 요약 색인 기법)

  • Choi, do-jin;Bok, kyoung-soo;Yoo, jae-soo
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2019.05a
    • /
    • pp.447-448
    • /
    • 2019
  • 생명 공학 분야에서는 노이즈가 많고 불완전한 데이터 집합의 사용이 많이 이루어진다. 불완전한 그래프에서 구조적 차이를 고려한 근사 서브 그래프 매칭에 대한 활용이 이루어지고 있다. 본 논문에서는 기존 기법에서 모든 데이터 및 경우의 수를 색인하는 과도한 색인 문제와 계산 비용 감소를 위한 요약 색인 기법을 제안한다. 구조적 차이 정보를 저장하기 위해서 특정 정점간의 최단 거리 값을 관리하고, 색인 부하 감소 및 일관성을 위해 요약 색인에 대한 간결화 작업을 수행한다.

  • PDF

A Study on the Automatic Descriptor Assignment for Scientific Journal Articles Using Rocchio Algorithm (로치오 알고리즘을 이용한 학술지 논문의 디스크 립터 자동부여에 관한 연구)

  • Kim, Pan-Jun
    • Journal of the Korean Society for information Management
    • /
    • v.23 no.3 s.61
    • /
    • pp.69-89
    • /
    • 2006
  • Several performance factors which have applied to the automatic indexing with controlled vocabulary and text categorization based on Rocchio algorithm were examined, and the simple method for performance improvement of them were tried. Also, results of the methods using Rocchio algorithm were compared with those of other learning based methods on the same conditions. As a result, keeping with the strong points which are implementational easiness and computational efficiency, the methods based Rocchio algorithms showed equivalent or better results than other learning based methods(SVM, VPT, NB). Especially, for the semi-automatic indexing(computer-aided indexing), the methods using Rocchio algorithm with a high recall level could be used preferentially.

Efficient Range Query on Moving Object Trajectories (이동객체궤적에 대한 효율적인 범위질의)

  • Park, Young-Hee;Kim, Kyu-Jae;Cho, Woo-Hyun
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2013.10a
    • /
    • pp.336-339
    • /
    • 2013
  • Location-Based services that collect location information for moving object and utilize in real life are being used in many aspects by the development of wireless network technology. Accordingly, new index structures are required to efficiently retrieve the consecutive location of moving objects. This paper addresses algorithms that make index structure by using Douglas-Peucker Algorithm and process range query efficiently on moving objects trajectories. Our algorithms are going to make smaller size of index structure and process more efficiently.

  • PDF

Content based Image retrieval using Object Shape Token Clustering (객체 외형의 토큰 군집화를 통한 내용 기반 영상 검색)

  • Jeong Seok-hyun;KIM Gae-Young
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.880-882
    • /
    • 2005
  • 내용기반 영상 검색 시스템은 데이터베이스에 저장된 정지영상의 색이나, 질감, 형태 등의 특징을 이용한다. 본 연구는 실험 영상 집합에서 주요 객체를 추출하여, 객체들의 외형으로부터 분리된 토큰들을 군집화 한 후, 그 군집단위를 색인어로 사용하여 검색하는 방법이다. 기존의 내용기반 영상 검색 시스템에서 모양 정보는 그 표현과 색인 정합 등의 문제로 처리 방법이 명확하지 않았고, 회전, 크기 변화, 폐색 등에 민감했다. 따라서 기존 방법의 문제점을 해결하기 위해서 토큰을 이용한 색인을 이용하여 지역 정보와, 이들 지역 정보들의 관계에 의한 전역 정보를 복합적으로 이용한 방법을 제안한다.

  • PDF

Design of a Multi-dimensional Index Structure based on Main Memory (주기억장치 상주형 다차원 색인 구조 설계)

  • 심정민;송석일;유재수
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10b
    • /
    • pp.1-3
    • /
    • 2003
  • 최근 중앙처리장치와 주기억장치간의 병목 현상에 의한 성능 저하를 극복하기 위해 캐시를 고려한 색인 구조들이 제안되었다. 이런 색인 구조들의 궁극적인 목표는 엔트리 크기를 줄여 팬-아웃(fan-out)을 증가시키고, 캐시 접근 실패를 최소화하여 시스템의 성능을 높이는 것이다. 엔트리의 크기를 줄이는 기법에 따라 기존의 색인 구조들을 두 가지로 구분할 수 있다. 하나는 좌표 값을 고정된 비트로 양자화 함으로써, MBR 키를 압축하는 것이다. 또 다른 하나는 MBR들의 각 좌표 값 중에 그들의 부모 MBR과 같지 않은 좌표 값만을 저장하는 것이다. 본 논문에서는 두 기법의 특성들을 적절히 합한 새로운 색인 구조를 제안하고, 기존에 제시된 두 접근법을 따르는 주기억장치 상주형 다차원 색인 구조를 다양한 환경에서 성능 평가한다. 또한, 기존의 색인 구조와 비교를 통해 제안하는 색인 구조의 우수성을 보인다.

  • PDF

Splitting policies using trajectory clusters in R-tree based index structures for moving objects databases (이동체 데이터베이스를 위한 R-tree 기반 색인구조에서 궤적 클러스터를 사용한 분할 정책)

  • 김진곤;전봉기;홍봉희
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10b
    • /
    • pp.37-39
    • /
    • 2003
  • 이동체 데이터베이스를 위한 과거 궤적 색인으로 R-tree계열이 많이 사용된다. 그러나 R-tree계열의 색인은 공간 근접성만을 고려하였기 때문에 동일 궤적을 검색하기에는 많은 노드 접근이 필요하다. 이동체 색인의 검색에서 영역 질의와 궤적 질의는 공간 근접성과 궤적 연결성과 같이 상반된 특징으로 인하여 함께 고려되지 않았다. 이동체 색인에서 영역 질의의 성능개선을 위해서는 노드 간의 심한 중복과 사장 공간(Dead Space)을 줄여야 하고, 궤적 질의의 성능 개선을 위해서는 이동체의 궤적 보존이 이루어져야 한다. 이와 같은 요구 조건을 만족하기 위해, 이 논문에서는 R-tree 기반의 색인 구조에서 새로운 분할 정책을 제안한다. 제안하는 색인 구조의 노드 분할 정책은 궤적 클러스터링을 위한 동일 궤적을 그룹화해서 분할하는 공간 축 분할 정책과 공간 활용도를 높이는 시간 축 분할 정책을 제안한다. 본 논문에서는 R-tree기반의 색인 구조에서 변경된 분할 정책을 구현하고, 실험 평가를 수행한다. 이 성능 평가를 통해서 검색성능이 우수함을 보인다.

  • PDF

Acceleration of Range Query in R-tree Using GPU Parallel Processing (GPU를 이용한 R-tree의 질의처리 병렬화)

  • Kim, Min-Cheol;Choi, Won-Ik
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06c
    • /
    • pp.37-40
    • /
    • 2011
  • 계층적 색인 구조는 대용량의 다차원 데이터에 대한 범위질의를 가장 효율적으로 처리하는 색인 구조이다. 계층적 색인 구조에서 범위질의의 속도를 향상시키기 위해서 색인 구조의 구성 시 발생하는 인접노드간의 겹치는 영역을 줄이는 기법들과 다량의 데이터를 한 번에 읽어 상향식 방식으로 색인 구조의 공간 활용도를 증가시키는 벌크 로딩 기법들이 제안되었다. 하지만 CPU기반에서 개별의 노드들을 순차적으로 질의처리 하는 계층적 색인 구조는 공간 활용도의 증가와 노드 간의 중첩 영역을 줄이는 것만으로는 질의 처리 성능 향상에 한계가 있다. 따라서 본 논문에서는 기존의 CPU기반 계층적 색인 구조 중의 대표적인 예인 R-tree의 저장 구조를 GPU 메모리에 적합하도록 변경을 하였다. 또한 기존 CPU기반 계층적 색인 구조의 순차적인 노드 검색을 GPU를 이용해 병렬적으로 노드를 검사하여 성능을 향상시켰다. 이와 같은 방식으로 질의 영역의 크기에 따라서 성능 향상정도가 다르지만 최대 100배 이상의 성능을 향상시켰다.

A Study on Information Resource Evaluation for Text Categorization (문서범주화 효율성 제고를 위한 정보원 평가에 관한 연구)

  • Chung, Eun-Kyung
    • Journal of the Korean Society for information Management
    • /
    • v.24 no.4
    • /
    • pp.305-321
    • /
    • 2007
  • The purpose of this study is to examine whether the information resources referenced by human indexers during indexing process are effective on Text Categorization. More specifically, information resources from bibliographic information as well as full text information were explored in the context of a typical scientific journal article data set. The experiment results pointed out that information resources such as citation, source title, and title were not significantly different with full text. Whereas keyword was found to be significantly different with full text. The findings of this study identify that information resources referenced by human indexers can be considered good candidates for text categorization for automatic subject term assignment.