An n-gram-based Indexing Method for Effective Retrieval of Hangul Texts

한글 문서의 효과적인 검색을 위한 n-gram 기반의 색인 방법

  • 이준호 (연구개발정보센터 연구개발부) ;
  • 안정수 (연구개발정보센터 연구개발부) ;
  • 박현주 (연구개발정보센터 연구개발부) ;
  • 김명호 (한국과학기술원 전산학과)
  • Published : 1996.06.01

Abstract

Conventional automatic indexing methods for Hangul texts can be classified into two groups as follows: One is to extract index terms by removing non-indexable segments from word-phrases, and the other is to generate index terms from the morphemes of word-phrases. The former suffers from the problem of word boundaries when documents contain many compound nouns. The latter can overcome the word boundary problem by extracting simple nouns, but has many overheads to develop a lot of linguistic knowledges needed in the indexing procedure. In this paper we propose a new indexing method based on n-grams. This method alleviates the problems of previous indexing methods related with word boundaries and linguistic knowledges. We also compare the effectiveness of the n-gram based indexing method with that of the previous ones.

기존의 한글 자동 색인 방법들은 어절 단위 색인법과 형태소 단위 색인법으로 분류될 수 있다. 전자는 문서내의 어절에서 비색인 분절을 절단함으로써 색인어를 추출하는 방법으로, 문서들이 많은 복합 명사들을 포함할 경우 검색 효과가 저하된다. 후자는 형태소 해석이나 구문 해석을 이용하여 중요한 의미를 갖는 명사나 명사구를 추출하는 방법으로 단일 명사를 추출함으로써 복합 명사의 띄어쓰기 문제를 극복할 수 있다. 그러나 색인 과정에서 요구되는 많은 언어 정보를 개발하고 유지 보수해야 하는 부담을 지니고 있다. 본 논문에서는 기존의 색인 방법들의 문제점들을 완화할 수 있는 새로운 색인 방법을 제안한다. 그리고 실험을 통하여 제안하는 방법의 성능을 평가한다.

Keywords

References

  1. Information Service and Use v.4 no.1 Optimizing Convevient On-line Access to Bibliographic Databases Cleverdon,C.W.
  2. Proceedings of the Second Text REtrieval Conf.(TREC-2), NIST Special Publication 500-215 N-Gram-Based Text Filtering for TREC-2 Cavnar,W.B.
  3. Science v.267 Gaushing Similarity with n-Grams: Language-In-dependant Categorization of Text Damasheck,M.
  4. Information Processing & Management v.30 no.1 Ranking Documents in The saurs Based Boolean Retrieval Systems Lee,J.H.;Kim,M.H.;Lee,Y.J.
  5. Proceedings of the 18th Annual International ACM SIGIR Conf. on Research and Development in Information Retireval Combining Multiple Evidence from Different Properties of Weighting Schemes Lee,J.H.
  6. The SMART Retrieval System Salton,G.
  7. Communications of the ACM v.18 no.11 A Vector Space Model for Automatic Indexing Salton,G.;Wong,A.;Yang,C.S.
  8. Introduction to Modern Information Retrieval Salton,G.;McGil,M.J.
  9. Communications of ACM v.29 no.7 Another Look at Automatic Text Retrieval Salton,G.
  10. Journal of the American Society for Information Science v.38 no.5 Historical Note: The Past Thirty Years in Information Retrieval Salton,G.
  11. Information Processing & Management v.24 no.5 Term Weighting Approaches in Automatic Text Retrieval Salton,G.;Buckey,C.
  12. Automatic Text Processing: The Transformation, Analysis, and Retrieval of Information by Computer Salton,G.
  13. 한국정보과학회 봄 학술발표논문집 v.22 no.1 한국어 자동색인을 위한 형태소 분석 기능 강승식;권혁일;김동렬
  14. 정보관리학회지 v.11 no.1 자동 색인기 기능 성능 시험을 위한 Test Set 개발 김성혁(외 5인)
  15. 한국과학기술원 석사학위논문 한글 한자 혼용문의 자동색인 시스템 김영환
  16. 정보관리학회지 v.3 no.2 한글 문헌의 자동 색인에 관한 실험적 연구 안현수
  17. 한국정보과학회 봄학술발표논문집 한국어 형태소 구조 규칙에 기반한 색인 시스템의 구현 이현아;홍남희;이종혁;이근배
  18. 정보 관리 연구 v.23 no.1 국내 문헌 정보 검색을 위한 키워드 자동 추출 시스템 개발 예용희
  19. 한국과학기술원 석사학위논문 단일 문서내에서의 언어 및 통계 정보를 이용한 자동 색인 정진성
  20. 정보관리학회지 v.8 no.2 구문 및 의미 분석을 통한 한국어 자동 색인 최기선
  21. 한국과학기술원 석사학위논문 구문해석을 이용한 색인어 자동 추출 시스템의 설계와 구현 한성현