• 제목/요약/키워드: 역 색인기법

검색결과 27건 처리시간 0.024초

구조화된 비디오 문서의 데이터 모델 및 질의어와 색인 기법 (Data Model, Query Language, and Indexing Scheme for Structured Video Documents)

  • 류은숙;이규철
    • 한국멀티미디어학회논문지
    • /
    • 제1권1호
    • /
    • pp.1-17
    • /
    • 1998
  • 비디오 정보는 전자 도서관이나 WWW 및 주문형 비디오 (VOD) 시스템과 같은 다양한 응용분야에서 중요한 요소로 부각되고 있다. 비디오 정보는 특성상 계층적으로 구조화된 문서 형태를 가지기 때문에 본 논문에서는 이를 “구조화된 비디오 문서”라 부른다. 본 논문에서는 구조화된 비디오 문서를 데이터베이스에 효율적으로 저장하고, 검색하기 위한 데이터 모델과 질의어 및 색인 기법을 제안한다. 구조화된 비디오 문서는 논리적인 계층 구조 특성을 지니기 때문에, 본 논문에서는 객체 지향 데이터 모델을 이용하여 비디오 문서를 복합 객체로 모델링하고, 이를 저장하기 위한 객체 타입들을 정의한다. 또한 본 논문에서는 비디오 데이터의 캡션이나 주석을 기반으로 한 내용 기반 검색과 비디오 문서의 논리적 구조를 기반으로 한 구조 기반 검색을 제공하며, 비디오 문서의 시공간 관계 연산을 이용한 검색도 지원한다. 그리고, 구조화된 비디오 문서의 효율적인 질의와 색인 공간의 오버헤드를 줄이기 위해 최적화된 역 색인 기법을 제시한다.

  • PDF

구조 유사도를 이용한 경로 기반의 색인 기법 (An Indexing Method based on the Path using Structure Similarity)

  • 김연혜;이재민;황병연
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (2)
    • /
    • pp.58-60
    • /
    • 2003
  • 기존의 웹 문서나 컨텐츠의 한계를 극복하기 위해 메타데이터에 대한 연구가 활발히 이루어진 가운데 그 산물로 등장한 XML은 현재 다양한 분야에서 그 활용에 관한 연구가 활발히 진행되고 있다. 그리고 그 중에서 XML문서 자체를 저장 및 검색하는 부분에 대한 연구도 많은 성과가 있었다. XML의 대표적인 특징은 기존의 다른 컨텐츠와는 달리 문서의 구조를 기술할 수 있다는 것이며 이런 구조적 정보는 활용 방법에 따라 XML문서의 다양한 처리에 있어 성능을 향상시키는 핵심적인 요소가 될 수 있다. 이에 본 논문에서는 기존의 비트맵 인덱스(Bitmap Index)를 확장하여 역파일 색인 방법과 결합시켜 P_INDEX를 제안하고, P_INDEX를 활용한 다양한 경로 중심의 검색 방법을 제시한다.

  • PDF

GORank: Gene Ontology를 이용한 유전자 산물의 의미적 유사성 검색 (GORank: Semantic Similarity Search for Gene Products using Gene Ontology)

  • 김기성;유상원;김형주
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권7호
    • /
    • pp.682-692
    • /
    • 2006
  • 유사한 생물학적 특성을 가진 유전자 산물을 검색하는 것은 생물정보학 연구에 필수적인 기술이다. 현재 대부분의 생물학 데이타베이스에서 Gene Ontology의 용어를 사용하여 유전자 산물의 생물학적 특성을 기술하고 있다. 본 논문에서는 이런 유전자 산물의 주석 정보를 사용해 의미적으로 유사한 유전자 산물을 검색하는 방법을 제안한다. 이를 위해 우선 정보 이론에 기반한 유전자 산물간의 의미적 유사도를 정의하였다. 그리고 이 유사도를 이용한 의미적 유사성 검색 알고리즘을 제안하였다. 의미적 유사성 검색을 처리하기 위해 Fagin의 문턱값 알고리즘(threshold algorithm)을 다음과 같이 변형한 기법을 사용하였다. 우선 사용하는 유사도 함수가 단조 증가 성질을 갖지 않기 때문에 유사도 함수에 맞는 문턱값을 재정의 하였다. 또 역색인 리스트의 구조를 사용하여 중간 검색을 생략할 수 있는 클러스터 스키핑 기법과 역색인 리스트 액세스 순서를 제안하였다. 실제 GO와 주석 정보를 이용하여 성능 평가를 했으며 제안한 알고리즘은 효율적인 알고리즘임을 보였다.

피벗 역문헌빈도 가중치 기법에 대한 연구 (A Study on the Pivoted Inverse Document Frequency Weighting Method)

  • 이재윤
    • 정보관리학회지
    • /
    • 제20권4호통권50호
    • /
    • pp.233-248
    • /
    • 2003
  • 역문헌빈도 가중치 기법은 문헌 집단에서 출현빈도가 낮을수록 색인어의 중요도가 높다는 가정에 근거하고 있다. 그런데 이는 중간빈도어를 중요하게 여기는 여타 이론과는 일치하지 않는 것이다. 이 연구에서는 저빈도어보다 중간빈도어가 더 중요하다는 가정에 근거하여 역문헌빈도 가중치 공식을 수정한 피벗 역문헌번도 가중치 기법을 제안하였다. 제안된 기법을 검증하기 위해서 세 실험집단을 대상으로 검색실험을 수행한 결과, 피벗 역문헌빈도 가중치기법이 역문헌빈도 가중치 기법에 비해서 특히 검색결과 상위에서의 성능을 향상시키는 것으로 나타났다.

분할된 역 인덱스 테이블에서 부모노드의 정보를 이용한 질의 처리 (Query Processing using Information of Parent Nodes in Partitioned Inverted Index Tables)

  • 김명수;황병연
    • 한국멀티미디어학회논문지
    • /
    • 제11권7호
    • /
    • pp.905-913
    • /
    • 2008
  • 최근 XML(Extensible Markup Language) 사용의 증가와 함께 다량의 이질적 구조를 가진 XML문서들이 이용되고 있으며, 이러한 XML문서들의 효율적인 관리를 위해 데이터 저장 구조에 대한 연구의 필요성이 증가하고 있다. 이에 따라 본 논문에서는 이들 XML 문서들의 효율적인 관리를 위하여 분할된 역 인덱스 테이블에서 부모노드의 정보를 이용하여 질의를 처리하는 방법을 제안한다. 이질적 구조를 가진 대규모의 문서들에 대한 질의 처리 횟수와 처리 데이터 량은 검색 성능에 큰 영향을 주기 때문에 데이터 구조를 설계할 때에 이 두 가지 요소들을 신중히 고려해야 한다. 제안된 방법은 부모 노드의 정보를 이용하여 선형 경로 질의를 위한 질의 처리 횟수를 반감시키고, 역 인덱스 테이블을 XML 트리의 깊이에 따라 적절히 분할하여 탐색 대상이 되는 데이터의 양을 줄이기 때문에 XML 문서에 대한 검색 성능을 향상시킨다. 제안하는 방법의 효율성을 입증하기 위해 인터넷에서 수집한 XML 문서들에 대한 XPath 질의 처리 성능이 기존의 역 색인 기법들에 비해 우수함을 보인다.

  • PDF

공간 웹 객체의 효율적인 검색 기법 (An Efficient Retrieval Technique for Spatial Web Objects)

  • 양평우;남광우
    • 정보과학회 논문지
    • /
    • 제42권3호
    • /
    • pp.390-398
    • /
    • 2015
  • 공간 웹 객체는 웹 문서에 지리정보를 포함하고 있는 문서들을 말한다. 최근 스마트폰과 같은 장치의 발달로 인하여 공간 웹 객체를 생성하는 서비스가 많이 늘어났다. 트위터나 페이스북 같은 서비스에서는 사용자가 게시한 간단한 글이 게시한 위치정보와 함께 저장된다. 이러한 공간 웹 객체의 검색을 위해서는 공간 정보와 문자 정보를 동시에 이용하는 검색이 필요하다. 기존의 공간 웹 객체 검색 방식은 R트리와 역색인 파일(inverted file) 방법을 많이 사용했다. 하지만 이 방법은 인덱스를 구축하는데 많은 공간을 필요로 한다는 단점이 있다. 또한 검색하는 키워드가 많을 때는 효율적이지만, 검색하는 키워드가 적을 때는 비효율적이다. 본 논문에서는 쿼드 트리(quad-tree)와 패트리샤 트라이(patricia trie)를 이용하는 공간 웹 객체 검색 방식을 제안한다. 제안하는 기법은 검색하는 키워드가 적을 때 기존의 기법보다 좋다는 것을 보여준다. 또한 인덱스를 저장하는 공간이 기존의 기법보다 훨씬 적게 사용된다는 것을 실험을 통하여 증명하였다.

CORE-Dedup: 내용보존 접근 지역성 활용한 IO 크기 분할 기반 중복제거 (CORE-Dedup: IO Extent Chunking based Deduplication using Content-Preserving Access Locality)

  • 김명식;원유집
    • 한국컴퓨터정보학회논문지
    • /
    • 제20권6호
    • /
    • pp.59-76
    • /
    • 2015
  • 고성능 내장형 기기의 대중화 및 광대역 통신기술의 발달로 생성-관리되는 데이터가 증가하고 있다. 중복제거 기법은 중복된 저장 요청을 판별하여 유일한 데이터만을 저장함으로써 저장 공간을 절약하는 방법으로 폭증하는 데이터의 저장과 처리 시스템을 경제적으로 구축 할 수 있다. 본 연구는 입출력 크기 (IO Extent) 단위 기반 분할 방법을 사용한 CORE-Dedup을 제안한다. CORE-Dedup의 Extent 단위 분할은 접근한 Content가 보존하는 접근 단위의 속성을 활용 한다. 가상머신에서 IO 경향을 수집하고 고정 크기 분할과 새로운 Extent 분할 방법에 대해 중복제거 성능을 비교 평가하였다. 동일 크기 워크로드 경우 4 KB 고정 분할 대비 적은 색인 버퍼를 가지고 유사한 수준의 중복 비교를 성능을 얻을 수 있다. 특히 다수 유저의 유사 IO 중복 접근을 가정한 워크로드 경우에는 CORE-Dedup이 Extent 단위 분할의 넓은 워크로드 Coverage에 의해 고정 크기 분할을 사용한 동일 조건의 Inline-Dedup에 비해 1/10 수준 버퍼를 가지고도 유사 중복제거 성능을 얻었다. 10명 사용자의 동일 compile 입출력을 가정한 병합 워크로드에서 4 KB 고정 크기 분할에서는 14,500개 분할 색인에서 최대 60.4%의 중복 발견율을 얻었으나 Extent 분할에서는 1,700개 색인만으로 57.6%를 얻었다.