Efficient Storing of Suffix Arrays using Block-Sorting Compression

블록정렬압축을 이용한 접미사배열의 효율적인 저장

  • 이건호 (서울대학교 컴퓨터공학부) ;
  • 박근수 (서울대학교 컴퓨터공학부)
  • Published : 2001.08.01

Abstract

블록정렬압축은 빠른 속도로 동작하면서 높은 압축률을 나타내는 압축 방법이다. 또한 블록정렬방식으로 압축된 텍스트는 원래 텍스트를 복원하는 과정에서 접미사배열을 0(n) 시간만에 구할 수 있다. 그러나 접미사배열을 이용하여 효율적인 검색을 수행하려면 lcp(longest common prefix)정보가 추가적으로 필요하다. 본 논문에서는 텍스트와 접미사배열이 주어졌을 때 lcp정보를 0(n) 시간만에 구할 수 있는 알고리즘을 제시한다.

Keywords

References

  1. U. Manber and G. Myers, 'Suffix arrays a new method for on-line string searches,' SIAM Journal on Computing; Vol.22, No.5, pp.935-948, 1993 https://doi.org/10.1137/0222058
  2. 이시은, 박근수, 'Suffix Array를 구축하는 새로운 알고리즘', 정보과학회논문지(A), 제24권, 제7호, pp.697-704, 1997
  3. M. Burrows and D. J. Wheeler, 'A Block-sorting Lossless Data Compression Algorithm,' Digital Systems Research Center Research Report 124, 1994
  4. P. Fenwick, 'Block Sorting Text Compression,' Australian Computer Science Communications, Vol.18, No.1, pp.193-202, 1996
  5. J. Seward, http://sources.redhat.com/bzip2
  6. K. Sadakane and H. Imai, 'A Cooperative Distributed Text Database Management Method Unifying Search and Compression Based on the Burrows-Wheeler Transformation,' Proc. of International Workshop on New Database Technologies for Collaborative Work Support and Spatio-Temporal Data Management (NewDB'98), pp.434-445, 1998
  7. K. Sadakane, 'A Modified Burrows-Wheeler Transformation for Case-insensitive Search with Application to Suffix Array Compression,' Proc. of Data Compression Conference (DCC'99), p.548, 1999