DOI QR코드

DOI QR Code

트라이 인덱스를 이용한 이형태 검색

Searching for Variants Using Trie-Index

  • 박인철 (호원대학교 컴퓨터게임학부)
  • 발행 : 2009.08.31

초록

사용자는 정보검색에서 단어의 약어나 부분문자열, 혹은 오타가 포함된 단어와 같은 이형태로 자료를 검색하고자 한다. 이형태 검색을 위한 단순한 방법은 사전에 모든 이형태를 등록하는 것이다. 그러나 이 방법은 이형태 사전 구축에 막대한 시간과 비용이 필요할 뿐만 아니라 오타로 인해 생기는 이형태를 처리할 수 없는 문제점이 있다. 이에 대한 대안으로 근사 문자열 매칭 기법을 이용한 방법이 개발되었으나 이 방법 또한 약어 형태의 이형태를 처리하기 어렵다는 단점이 있다. 본 논문에서는 트라이 인덱스를 이용해 약어나 오타를 포함한 대부분의 이형태를 검색할 수 있는 방법을 제안한다. 먼저, 패스 가중치의 계산을 통한 이형태 매칭 방법을 보이고, 검색 속도 향상을 위한 이형태 검색 알고리즘을 제시한다.

A user often searches a data by inputting a variant such as the abbreviation or substring of a word, or a misspelled word. The simple approach to the searching for variants is to build a variants dictionary. However, it entails enormous cost and time and can not handle variants by misspelling. Approximate searching, searching by approximate string matching, is a good approach to the searching. A problem in the approach is that it cannot handle variants by abbreviations. This paper propose a method for searching various variants including abbreviations and misspelled words, by using the trie indexing. First, this paper shows a variant matching method with the calculation of path weighted-metric. In addition, it provides variant searching algorithm to reduce the search time.

키워드

참고문헌

  1. 이재성, "효과적인 외래어 이형태 생성을 위한 확률 문맥 의존 치환 방법", 한국콘텐츠학회논문지 제7권 제2호 pp. 73-83, 2007. 2. https://doi.org/10.5392/JKCA.2007.7.2.073
  2. V. I. Levenshtein, "Binary codes capable of correcting deletions, insertions, and reversals." Soviet Physics-Doklady, pp. 707-710, February 1966.
  3. Eiko Yamamoto et al., "Dynamic Programming Matching for Large Scale Information Retrieval" Proceedings of the Sixth International Workshop on Information, pp. 100-108, July 2003.
  4. Holub, J., "Reduced Nondeterministic Finite Automata for Approximate String Matching" Proceedings of the Prague Stringologic Club Workshop, pp. 19-27, 1996.
  5. Myers, G., "A fast bit-vector algorithm for approximate string matching based on dynamic programming" J. ACM 46, 3, pp. 395-415, 1999. https://doi.org/10.1145/316542.316550
  6. Navarro, G., "A Guided Tour to Approximate String Matching", ACM Computing Survey, 33(1), pp. 31-88, 2001. https://doi.org/10.1145/375360.375365
  7. Chung W. Ng, "Inexact Pattern Matching Algorithms via Automata" http://biochem218.stanford.edu/Projects%20Winter%202007/Ng.pdf, Mar. 2007.
  8. Edward Fredkin, "Trie Memory" Communications of the ACM 3 (9), pp. 490-499, 1960. https://doi.org/10.1145/367390.367400
  9. Aoe, J., "An Efficient Digital Search Algorithm by Using a Double-Array Structure" IEEE Transactions on Software Engineering. Vol. 15 (9), pp. 1066-1077. Sep. 1989. https://doi.org/10.1109/32.31365