An Electronic Dictionary Structure supporting Truncation Search

절단검색을 지원하는 전자사전 구조

  • 김철수 (서남대학교 전산정보학과)
  • Published : 2003.02.01

Abstract

In an Information Retrieval System(IRS) based on an inverted file as a file structure it is possible to retrieve related documents when the searcher know the complete words of searching fields. however, there are many cases in which the searcher may not know the complete words but a partial string of words with which to search. In this case, if the searcher can search indexes that include the known partial string, it is possible to retrieve related documents. Futhermore, when the retrieved documents are few, we need a method to find all documents having indexes which include known the partial string. To satisfy these requests, the searcher should be able to construct a query formulation that uses the term truncation method. Also the IRS should have an electronic dictionary that can support a truncated search term. This paper designs and implements an electronic dictionary(ED) structure to support a truncation search efficiently. The ED guarantees very fast and constant searching time for searching a term entry and the inversely alphabetized entry of it, regardless of the number of inserted words. In order to support a truncation search efficiently, we use the Trie structure and in order to accommodate fast searching time we use a method using array. In the searching process of a truncated term, we can reduce the searching time by minimizing the length of string to be expanded.

역화일을 파일구조로 이용하는 정보 검색 시스템에서는 검색자가 검색할 분야의 완전 단어를 알고 있어야 검색이 가능하다. 그러나 검색자가 완전 단어가 아닌 단어의 부분 문자열을 알고 있는 경우가 많다. 이럴 경우 부분 문자열을 포함하는 색인어들을 검색할 수 있다면 관련 문서들을 검색할 수 있다. 또한 검색된 문헌 수가 너무 적을 경우 부분 문자열을 포함하는 단어를 색인어로 가지는 모든 문서들을 검색하기 위한 방법이 필요하다. 이런 요건들을 충족시키기 위해서는 사용자는 용어 절단 방법을 이용하여 질의어를 구성할 수 있어야 하고, 검색 시스템은 절단 검색을 지원할 수 있는 전자 사전이 필요하다. 본 논문에서는 절단검색을 효율적으로 지원할 수 있는 전자 사전 구조를 설계하고 구현한다. 이 전자 사전은 저장된 단어 수에 관계없이 주어진 한 개의 단어 검색 시간 및 역 문자열로 구성된 단어 검색 시간이 빠르고 일정하다. 절단검색을 효율적으로 지원하기 위하여 트라이 구조를 이용하였으며, 빠른 검색 시간을 지원하기 위해 배열을 이용한 방법을 사용하였다. 절단된 용어의 검색 과정에서 확장할 문자열의 길이를 최소화하여 검색 시간을 줄였다.

Keywords

References

  1. 정영미, 정보검색론, 구미무역출판부, 1993
  2. Salton, G. and M. J. McGill, Introduction to modern Information Retrieval, New York: McGraw-Hill, 1983
  3. 김판구, 조유근, '상호 정보에 기반한 한국어 텍스트의 복합어 자동색인', 한국정보과학회 논문지, 21권 7호, pp.1333-1340, 1994
  4. 최재혁, '형태소 분석을 통한 한 · 영 자동 색인어 추출 시스템', 한국정보과학회 논문지, 23권 12호, pp. 1279-1288, 1996
  5. Salton, G., E. A. Fox and Hwu 'Extended Boolean Information Retrieval', CACM VOL. 26, No. 11, pp.1022-1036, 1983 https://doi.org/10.1145/182.358466
  6. 강현규, 박세영, 최기선, '자연어 정보 검색에서 상호정보를 이용한 2단계 문서 순위 결정 방법', 한국정보과학회 논문지, 23권 8호, pp.852-861, 1996
  7. 고미영, P-NORM 검색의 문헌 순위화 기법에 관한 실험적 연구, 연세대학교 박사학위 논문, 1992,2
  8. Harman D. 'An Experimental study of factors important in document ranking,' Paper presented at ACM Conference on Research and Development in information Retrieval, Pisa, Italy, 1986, pp. 186-193
  9. Belkin, N.J. and W. P. Cropt, 'Retrieval technique,' Annual Review of Information Science and Technology, 22, pp. 109-145
  10. E. Fredkim B. Beranek and Newman, 'Trie memory', CACM, Vol 3, pp.490-499, 1960 https://doi.org/10.1145/367390.367400
  11. T. G. Lewis and C. R. Cook, 'Hashing for dynamic and static internal tables', IEEE Computer, pp. 45-56, Oct. 1988 https://doi.org/10.1109/2.7056
  12. Margo Selter, A New Hashing Package for UNIX, USENIX-Winter' 91- Dallas, TX, 1991
  13. Masami shishibori, Kazuhiri M and J. I. Aoe, 'The Design of a Compact Data Structure for Binary Tries', pp.573-479, 1996
  14. J. I. Aoe, 'An Efficient Digital Search Algorithm by Using Double-array Structure,' IEEE Transaction on S/W Eng., Vol. 15, No. 9, pp. 1066-1077, 1989 https://doi.org/10.1109/32.31365
  15. K. Moromoto, H. Iroguchi and J. I. Aoe, 'A Retrieval Algorithm of Dictionary by using Two trie Structures', 일본 전자 공학회 논문집 D-II Vol. J76-D-II No. 11, pp. 2374-2383, 1994
  16. 김철수, 배우정, 이용석, J.I. Aoe, '이중배열 트라이구조를 이용한 한국어 전자 사전 구축', 한국정보과학회 논문지 23권 1호, pp. 85-94, 1996
  17. J. I. Aoe and K. Morimoto, 'An Efficient Implementation of Trie Structure,' S/W Practice and experience, Vol. 29(9), pp. 695-721, 1992 https://doi.org/10.1002/spe.4380220902
  18. 동아 새 국어사전, 동아출판사, 1994