• Title/Summary/Keyword: 텍스트 인덱스

Search Result 46, Processing Time 0.025 seconds

An Embedded Text Index System for Mass Flash Memory (대용량 플래시 메모리를 위한 임베디드 텍스트 인덱스 시스템)

  • Yun, Sang-Hun;Cho, Haeng-Rae
    • Journal of the Korea Society of Computer and Information
    • /
    • v.14 no.6
    • /
    • pp.1-10
    • /
    • 2009
  • Flash memory has the advantages of nonvolatile, low power consumption, light weight, and high endurance. This enables the flash memory to be utilized as a storage of mobile computing device such as PMP(Portable Multimedia Player). Potable device with a mass flash memory can store various multimedia data such as video, audio, or image. Typical index systems for mobile computer are inefficient to search a form of text like lyric or title. In this paper, we propose a new text index system, named EMTEX(Embedded Text Index). EMTEX has the following salient features. First, it uses a compression algorithm for embedded system. Second, if a new insert or delete operation is executed on the base table. EMTEX updates the text index immediately. Third, EMTEX considers the characteristics of flash memory to design insert, delete, and rebuild operations on the text index. Finally, EMTEX is executed as an upper layer of DBMS. Therefore, it is independent of the underlying DBMS. We evaluate the performance of EMTEX. The Experiment results show that EMTEX can outperform th conventional index systems such as Oracle Text and FT3.

Performance Analysis of Construction Algorithms for Compressed Suffix Arrays (압축된 써픽스 배열 구축 알고리즘의 성능 분석)

  • Park Chi-Seong;Jo Jun-Ha;Sim Jeong-Seop;Kim Dong-Kyue
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06a
    • /
    • pp.409-411
    • /
    • 2006
  • 써픽스 배열은 사전적 순서로 정렬된 써픽스들의 인덱스를 저장한 인덱스 자료구조로서, 긴 텍스트에서 반복되는 패턴 검색 시 효율적으로 사용 될 수 있다. 하지만 O($n\;log{\Sigma}$) 비트의 텍스트보다 큰 O(n log n) 비트 공간을 차지하기 때문에 대용량의 텍스트에 대해서는 큰 공간을 필요로 하는 문제점이 있다. 이를 해결하기 위해 압축된 써픽스 배열이 제안되었지만, 구축 시 이미 만들어진 써픽스 배열을 이용하기 때문에 실제 사용 공간을 줄이지는 못했다. 최근 써픽스 배열 없이 텍스트에서 직접 압축된 써픽스 배열을 구축할 수 있는 두 가지 알고리즘이 개발되었다. 본 논문에서는 이 두 가지 알고리즘을 구현한 후, 구축 시간과 사용 공간 등의 실험을 통해 기존의 써픽스 배열들과의 성능을 비교하고 분석한다.

  • PDF

Comparisons of Practical Performance for Constructing Compressed Suffix Arrays (압축된 써픽스 배열 구축의 실제적인 성능 비교)

  • Park, Chi-Seong;Kim, Min-Hwan;Lee, Suk-Hwan;Kwon, Ki-Ryong;Kim, Dong-Kyue
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.34 no.5_6
    • /
    • pp.169-175
    • /
    • 2007
  • Suffix arrays, fundamental full-text index data structures, can be efficiently used where patterns are queried many times. Although many useful full-text index data structures have been proposed, their O(nlogn)-bit space consumption motivates researchers to develop more space-efficient ones. However, their space efficient versions such as the compressed suffix array and the FM-index have been developed; those can not reduce the practical working space because their constructions are based on the existing suffix array. Recently, two direct construction algorithms of compressed suffix arrays from the text without constructing the suffix array have been proposed. In this paper, we compare practical performance of these algorithms of compressed suffix arrays with that of various algorithms of suffix arrays by measuring the construction times, the peak memory usages during construction and the sizes of their final outputs.

File Content Retrieval Program Using HashMap-based Trie (HashMap 기반의 트라이를 이용한 파일 내용 검색 프로그램)

  • Kim, Sung Wan;Lee, Woosoon
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2014.01a
    • /
    • pp.467-468
    • /
    • 2014
  • 본 논문에서는 파일 내용 기반 검색 프로그램을 설계하고 구현하였다. 역 인덱스 구조를 이용하여 설계하였으며 별도의 정보 검색 라이브러리 사용 없이 구현하였다. 인덱스 파일은 트라이 자료 구조를 직접 설계 및 구현 하였으며 자바 언어의 HashMap 구조를 중첩 형태로 구현하였다. 개발 시스템의 유용성을 테스트하기 위해 GRE 단어집에 수록된 약 3,300개의 단어를 사용하여 임의 생성한 텍스트 파일 집합을 사용하였다.

  • PDF

An Efficient Index Structure Supporting Structure Queries for Video Documents (비디오 문서의 구조 질의를 위한 효율적 인덱스 구조)

  • Lee, Yong-Kyu
    • The Transactions of the Korea Information Processing Society
    • /
    • v.5 no.5
    • /
    • pp.1109-1118
    • /
    • 1998
  • Recently, much attention has been focused on video databases. Video documents also have a hierarchical logical structure like text documents. By exploiting this structure using structure queries, users can obtain greater benefits than by using only content queries. In order to process structure queries efficiently, an index structure supporting fast video element access must be provided. However, there has been little attention to the index structure for video documents. In this paper, we present a tree-structured video document model and a new inverted index structure for video documents. We evaluate the storage requirement and the disk access time of the scheme and present the analytical results.

  • PDF

Constructing the Compressed Suffix Array via Efficient Implementation of Succinct Representation (Succinct 표현의 효율적인 구현을 통한 압축된 써픽스 배열 생성)

  • Park, Chi-Seong;Jo, Jun-Ha;Kim, Dong-Kyue
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11a
    • /
    • pp.955-957
    • /
    • 2005
  • 대용량의 텍스트에 대해 빠른 패턴 검색의 필요성이 증가함에 따라 써픽스 트리, 써픽스 배열 등의 인덱스 자료구조에 대해 다양한 연구들이 진행되었다. 또한 써픽스 배열을 대용량의 인덱스 자료구조로 사용하기 위해 저장 공간을 O(n log n) 비트 이하로 줄이는 문제에 대한 연구들도 많이 수행되었다. 이들 중 Grossi & Vitter 는 써픽스 배열을 압축하여, 기존의 써픽스 배열보다 작은 저장 공간을 사용할 수 있는 알고리즘을 제안하였다. Grossi & Vitter 알고리즘은 압축된 써픽스 배열에서 실제 써픽스 배열의 정보를 찾기 위하여, succinct 표현에서 기본적으로 사용되는 rank와 select 함수를 필요로 한다. 본 논문은 다양한 rank와 select 알고리즘을 각각 사용하는 압축된 써픽스 배열들의 성능 비교를 통해, succinct 표현의 효율적인 구현이 압축된 써픽스 배열의 성능에 미치는 영향을 실험적으로 보인다.

  • PDF

Direct Construction Algorithms for Compressed Suffix Arrays in Linear Time (압축된 써픽스 배열을 직접 구축하는 선형시간 알고리즘)

  • 성종희;전정은;김동규
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04a
    • /
    • pp.809-811
    • /
    • 2003
  • 써픽스 배열은 써픽스 트리와 더불어 바이오인포매틱스(bioinformatics) 등에 널리 사용되는 전체 텍스트(full-text)의 인덱스 자료구조이다. 여러 응용분야에서 처리해야하는 데이터양의 기하급수적인 증가에 따라, 써픽스 배열을 압축하여 저장해야 하는 필요성이 커지고 있다. Grossi와 Vitter는 주어진 스트링의 써픽스 배열이 있을 경우, 작은 저장 공간을 사용하는 압축된 써픽스 배열(compressed suffix arrays)을 정의하였다. 본 논문에서는 주어진 스트링에서 써픽스 배열을 구축할 필요 없이, 직접적으로 압축된 써픽스 배열을 구축하는 선형시간 알고리즘을 제시한다.

  • PDF

A Fast Algorithm for Constructing Suffix Arrays (써픽스 배열을 구축하는 빠른 알고리즘)

  • 조준하;박희진;김동규
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10a
    • /
    • pp.736-738
    • /
    • 2004
  • 써픽스 배열은 정렬된 모든 써픽스들의 인덱스를 저장한 자료구조이며, 긴 문자열에서 임의의 패턴을 효율적으로 검색을 할 수 있는 자료구조이다. 비슷한 자료구조인 써픽스 트리에 비해 적은 공간을 사용하기 때문에 대용량의 텍스트에 대한 처리에 더 적합하다. 본 논문에서는 써픽스 배열을 빠르게 구축하는 방법을 제안하고, 써픽스 배열 구축 알고리즘들 중에서 빠르다고 알려진 Larsson and Sadakane 알고리즘, 대표적인 선형 시간 알고리즘인 Karkkainen and Sanders 알고리즘 및 최근에 발표된 고정길이 문자집합에 효율적인 Kim et al. 알고리즘과 성능을 비교한다. 실험 결과 본 논문에서 제안한 알고리즘이 전반적으로 빠르게 써픽스 배열을 구축하였다.

  • PDF

A Study on Access Control of the Multimedia Text Data Retrieval (멀티미디어 텍스트 데이터 검색을 위한 접근기법 연구)

  • Yang, Chang-Ho;Jung, Yoon-Ki;Lee, Bae-Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.05a
    • /
    • pp.95-98
    • /
    • 2003
  • 컴퓨터와 통신의 급속한 발전으로 인하여 하루에도 수십 기가바이트의 정보가 매일매일 업데이트 되고 있다. 하지만 이러한 유용한 정보의 증가에도 불구하고 우리가 사용의 어려움과 검색시간이 길어진다면 엄청난 정보의 낭비를 초래할 것이다. 멀티미디어 정보에 대한 접근을 데이터의 특성상 매우 신속해야 하므로 검색시간 또한 최소화되어야 한다. 하지만 대용량의 멀티미디어 데이터베이스에서 데이터 접근은 막대한 시간을 낭비할 소지가 다분하다. 멀티미디어 데이터 접근은 데이터베이스를 구성하는 여러 미디어에 대해 생성되는 메타데이터에 기본을 둔다. 또한 사용되는 인덱스 구조는 미디어, 메타데이터, 질의 형식에 기반을 두고 생성된다. 즉 인덱싱의 기법에 따라 탁월한 검색성능의 향상을 보일 수 있다. 본 논문에서는 멀티미디어 데이터 중 텍스트 데이터 접근에 이용 가능한 여러 가지 인덱싱 기법들을 살펴보고 그에 따른 적용방법들을 제안한다.

  • PDF

Models of XML Update Processing for Refreshing XML Cache Incrementally (XML캐쉬의 점진적 갱신을 위한 XML변경 처리 모델)

  • 한승철;황대현;강현철
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.64-66
    • /
    • 2004
  • XML이 웹 상에서 데이터 교환의 표준으로 부각된 이래 XML데이터의 효율적 관리 기법에 관한 연구가 활발히 수행되고 있다. XML 질의의 표준화 작업도 활발히 이루어져 현재 XQuery가 유력한 표준으로 부각되었다. 그러나 XQuery 등이 완전한 XML 질의어가 되기 위해서는 변경 연산을 제공해야 하는데 XML변경어의 표준화 작업이나 XML 변경 처리 기법에 대한 연구는 아직 미미한 실정이다. 본 논문에서는 e-Commerce 등 XML 데이터베이스 기반 웹 응용의 효율적 지원을 위한 XML 캐쉬를 점진적으로 갱신하는 과정에서 발생하는 XML 변경 연산 처리의 세 가지 기본 모델. TD (텍스트/DOM 기반). PD(PDOM 기반), 그리고 IT (인덱스된 텍스트 기반)를 제안한다. 캐쉬된 XML 문서를 어떤 포맷으로 저장하는가는 이후 XML 변경 연산의 처리 및 요청된 XML문서 반환의 효율성에 영향을 미친다. 이들 모델들은 캐쉬된 XML 문서의 저장 포맷에 따라 구분한 것이다. 이들 모델 각각에 대하여 캐쉬된 XML문서의 갱신 및 반환 기능을 제공하는 XML캐쉬 관리 시스템을 구현하여 이들 기능의 성능 및 공간 부담을 평가한 결과를 기술한다.

  • PDF