• 제목/요약/키워드: Inverted File

검색결과 42건 처리시간 0.029초

화일조직을 위한 인덱싱 기법의 성능 특성 비교 (Some Characteristics of the Performance in Comparison with Indexing techniques for File Organization)

  • 이구남
    • 정보교육학회논문지
    • /
    • 제1권1호
    • /
    • pp.49-59
    • /
    • 1997
  • 이 논문은 자료접근 방법중 신속한 자료접근 및 갱신작업을 위해 일반적으로 많이 사용되는 인덱스(INDEX) 기법을 분석 비교함으로써 효율적인 데이타베이스 시스템을 위한 기초를 제공하고자 한다. 이를 위해 기존의 자료접근 기법들을 편의에 의해 자료 군집형태와 검출 형태에 따라 분류하고 인덱스 기법을 단일키와 다중키로 구분하였다. 단일키 인덱싱 기법을 동적 인덱스와 정적 인덱스 기법으로 나누어 비교 설명하고, 다중키 인덱스 기법중에서 K-d 트리, K-d-B 트리 및 역 화일과 그리드 화일의 자료 구조 특성을 비교 분석한 다음 각 기범들의 구조적 특성과 추출 질의어에 의한 일반적인 성능 특성을 비교 분석하였다.

  • PDF

공간 웹 객체의 효율적인 검색 기법 (An Efficient Retrieval Technique for Spatial Web Objects)

  • 양평우;남광우
    • 정보과학회 논문지
    • /
    • 제42권3호
    • /
    • pp.390-398
    • /
    • 2015
  • 공간 웹 객체는 웹 문서에 지리정보를 포함하고 있는 문서들을 말한다. 최근 스마트폰과 같은 장치의 발달로 인하여 공간 웹 객체를 생성하는 서비스가 많이 늘어났다. 트위터나 페이스북 같은 서비스에서는 사용자가 게시한 간단한 글이 게시한 위치정보와 함께 저장된다. 이러한 공간 웹 객체의 검색을 위해서는 공간 정보와 문자 정보를 동시에 이용하는 검색이 필요하다. 기존의 공간 웹 객체 검색 방식은 R트리와 역색인 파일(inverted file) 방법을 많이 사용했다. 하지만 이 방법은 인덱스를 구축하는데 많은 공간을 필요로 한다는 단점이 있다. 또한 검색하는 키워드가 많을 때는 효율적이지만, 검색하는 키워드가 적을 때는 비효율적이다. 본 논문에서는 쿼드 트리(quad-tree)와 패트리샤 트라이(patricia trie)를 이용하는 공간 웹 객체 검색 방식을 제안한다. 제안하는 기법은 검색하는 키워드가 적을 때 기존의 기법보다 좋다는 것을 보여준다. 또한 인덱스를 저장하는 공간이 기존의 기법보다 훨씬 적게 사용된다는 것을 실험을 통하여 증명하였다.

대용량 멀티미디어 객체를 위한 객체저장엔진의 설계 및 구현 (Design and Implementation of Object Storage Engine for Large Multimedia Objects)

  • 진기성;장재우
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제8권4호
    • /
    • pp.376-388
    • /
    • 2002
  • 최근 멀티미디어 객체를 다루는 연구는 국내외적으로 활발하게 진행되고 있으나, 이러한 멀티미디어 객체들을 효율적으로 저장 및 검색하기 위한 하부저장 시스템에 대한 연구는 미흡한 실정이다. 본 연구에서는 이러한 대용량 멀티미디어 객체들을 효율적으로 저장 및 검색하기 위한 객체 저장 엔진을 구현한다. 이를 위해, 비정형 멀티미디어 객체의 저장을 위한 객체 관리자와, 비정형 텍스트 객체의 색인을 위한 역화일 관리자를 설계한다. 아울러, 설계된 객체 관리자와 역화일 관리자를 기존의 하부저장 구조인 SHORE 저장시스템에 통합하여 DBMS 측면에서 제공하는 동시성 제어, 회복기법 등을 지원할 수 있는 객체 저장 엔진을 구현한다. 마지막으로, 구현된 객체저장엔진의 유용성을 검증하기 위해 논문검색시스템 TIROS(Thesis Information Retrieval system using Object Storage engine)를 구축한다.

SSD에 적합한 동적 색인 저장 구조 : SPM (Efficient Dynamic Index Structure for SSD (SPM))

  • 진두석;김진숙;류범종;정회경
    • 한국콘텐츠학회논문지
    • /
    • 제10권2호
    • /
    • pp.54-62
    • /
    • 2010
  • 역파일 인덱스 구조는 대용량 텍스트 데이터의 색인저장 기법을 위한 효율적인 데이터 구조로 널리 활용 되고 있다. 특히, 최근 이슈가 되고 있는 온라인 색인관리 측면에서는 동적 검색 환경에 적합한 In-Place 방식과 Merge-based 색인 방식이 주로 사용 되고 있다. 위 방법들의 핵심은 검색 처리시간을 줄이기 위해서 포스팅 정보의 저장 연속성(Contiguity)을 보장하면서 동시에 색인정보 관리(Index Maintenance) 시간을 최소화 하기위한 색인저장 구조에 중점을 두고 연구가 진행 되었다. 그러나 최근 기존 저장장치(HDD)와 근본적으로 구조가 다른 새로운 저장장치(SSD, SCRAM)가 데이터 저장소로 이용되면서 이러한 장치들의 특성을 효과적으로 활용할 수 있는 새로운 형태의 색인저장 기법 또한 필요하게 되었다. 따라서 본 논문에서는 새로운 저장장치의 빠른 접근 속도(Low access latency) 특성을 최대한 활용할 수 있는 분할(Segmentation) 포스팅 구조를 기반으로 새로운 저장장치에 적합하도록 변형된 In-Place 방식(Pulsing)과 수정된 Merge-based 방식(Merging)을 혼합하여 검색 처리시간 및 색인정보관리시간을 크게 향상시킬 수 있는 새로운 색인저장 구조(SPM)를 제안한다.

XML 문서 검색을 위한 경로 역 색인 기법 (The Path Inverted Index Technique for XML Document Retrieval)

  • 문경원;황병연
    • 정보처리학회논문지D
    • /
    • 제17D권2호
    • /
    • pp.103-110
    • /
    • 2010
  • 최근에 관계형 데이터베이스 관리 시스템(RDBMS)의 장점을 이용하여 XML로 표현된 문서를 효과적으로 저장, 관리, 검색하는 XML 문서관리 시스템에 대한 많은 연구들이 활발하게 진행되어 왔다. 그러나 경로 질의 중에서 LIKE 연산과 같은 부분 패턴 매칭 질의의 경우는 비효율적인 비교 연산으로 인해 검색 성능이 현저하게 떨어지기 때문에 RDBMS의 색인의 효과를 볼 수 없다. 본 논문에서는 XML 문서를 RDBMS에 효율적으로 저장하는 계층형 XML 저장 기법과 경로 역 색인 기법을 제안한다. 제안하는 기법은 XML문서의 엘리먼트를 키워드로 보고 해당 키워드가 속한 경로의 식별자와 시퀀스로 포스팅 파일을 구성하여 경로 기반 질의의 검색 속도를 향상하는데 주안점을 둔다. 검색 성능에 관한 실험을 통해서 제안된 기법이 기존의 RDBMS를 이용한 기법보다 약 60% 우수한 성능을 가지고 있음을 입증한다.

KNetIRS : 키워드망을 이용한 정보검색 시스템 (KNetIRS : Information Retrieval System using Keyword Network)

  • 우선미;유춘식;이종득;김용성
    • 한국정보처리학회논문지
    • /
    • 제4권9호
    • /
    • pp.2185-2196
    • /
    • 1997
  • 기존의 정보검색 시스템들은 질의가 정확하지 않더라도 원하는 정보를 검색할 수 있도록 하기 위해 시소리스 (thesaurus)를 사용했다. 그러나 시소러스를 구축하고 유지하는데 드는 비용이 매우 높고 검색에 있어서도 완전하다고 볼 수 없다. 그래서 본 논문에서는 이러한 문제점들을 해결하기 위하여 키워드망을 이용한 정보검색 시스템인 KNetIRS를 설계 및 구현한다. 키워드망은 문서로부터 직접 추출한 키워드들로 구성된다. KNetIRS는 역파일 (Iinverted file)의 개념에 기반을 둔 키워드망을 이용하여 데이터베이스에서 적합한 문서만을 탐색한다. 그리고 KNetIRS는 역파일 (Iinverted file)의 개념에 기반을 둔 키워드망을 이용하여 데이터베이스에서 적합한 문서만을 탐색한다. 그리고 KNetIRS는 키워드망 브라우저(Keyword Network Browser)를 사용하여 질의를 확장하고, 분할 연산(spilt function)을 정의하여 "정보 검색", "정보", 그리고 "검색"과 같은 복합어에 관한 처리를 한다.

  • PDF

Relational 데이타 모형을 구현하는 씨스템 설계

  • 趙廷完;嚴基賢 = Um Ki Hyun
    • 정보과학회지
    • /
    • 제4권2호
    • /
    • pp.34-44
    • /
    • 1986
  • 본 연구에서는 mini computer를 이용하는 relational data base 관리 운영 체제의 실현적인 구현을 위한 시스템 설계를 소개한다.이 시스템은 독자적으로 개발한 간단한 operating system을 이용하며, assembly 언어로 쓰여졌으므로 기 존 assembler를 사용하였다. 시스템 설계방법에 data base가 차지하는 공간 (memory space)의 효율을 주로 고려하였으며, mini computer로는 No.A 840 system을 이용하였다.

허브 단어에 기반한 온톨러지의 반자동 구축 (Semi-automatic Ontology construction based on Hub word)

  • 임수연;구상옥;송무희;이상조
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.377-379
    • /
    • 2003
  • 본 논문은 문서검 색을 위한 온톨러지(Ontology)의 반자동 구축방안을 제시한다. 이를 위하여 우리는 다른 단어들과 특히 많은 관련이 있는 단어를 허브 단어(hub word)라고 정의하며 경제분야에 특정적인 온톨러지의 구축을 위하여 TREC 문서집합의 Wall Street Journal 문서들을 분석하였다. 문서집합 내의 모든 단어들의 tf, idf 값를 이용하여 허브 단어를 결정짓고 이렇게 선택된 허브 단어들을 중심으로 온톨러지를 구축하였다. 우리는 허브 단어와 다른 단어들간의 관계를 문서로부터 자동으로 추출하고 그 정보를 이용하여 온톨러지를 확장해나간다. 제안된 온톨러지는 전통적인 문서 검색의 인덱스 파일과 같은 역할을 하게 되며, 간단한 역파일(inverted file) 구조보다 더 많은 의미정보(semantic information)를 제공할 수 있다.

  • PDF

무선인터넷 서비스를 위한 멀티미디어 통계사서함 구축에 관한 연구 (A Study on Construction of Multimedia Statistic Post Office Box for Wireless Internet Services)

  • 이종득;김대경
    • 한국컴퓨터산업학회논문지
    • /
    • 제5권1호
    • /
    • pp.1-8
    • /
    • 2004
  • 많은 정보들이 디지털 형태로 처리되고 저장됨에 따라 무선 인터넷상에서 멀티미디어 정보들을 서비스하기 위한 새로운 기법들이 개발되고 있다. 본 논문에서는 통계 데이터들간의 유사도를 바탕으로 서로 관련 있는 데이터들을 그룹화 하여 문서들을 주제별로 서비스하기 위한 멀티미디어 통계 사서함(MSPOB)구조를 제안한다. 제안된 구조는 카운트 인덱스구조와 역파일구조를 기반으로 하여 데이터들의 관계성을 결정하게 되며, 객체들간의 의미적 유사도에 따라 제안된 구조가 결정되게 된다.

  • PDF

디지털 도서관을 위한 분산색인 기법에 대한 연구 (A Study on Distributed Indexing Technique for Digital Library)

  • 유춘식;이종득;김용성
    • 한국정보처리학회논문지
    • /
    • 제6권2호
    • /
    • pp.315-325
    • /
    • 1999
  • Indexing techniques for distributed resources have much effect on an information service system based on distributed environment like digital library. There is a centralized indexing technique, a distributed technique, and a mixed technique for distributed indexing techniques. In this paper, we propose new distributed indexing technique using EIF(extended Inverted File) structure that mix the centralized technique and t도 distributed technique. And we propose management techniques using EIF structure and retrieval technique using EIF structure. This distributed indexing technique proposed is able to fast process retrieval request and reduce network overload and select servers relevant to query terms. This paper investigated performance of a proposed distributed indexing technique.

  • PDF