Implementation of an Information Retrieval System with Multiple Indexing

다중색인에 의한 정보검색 시스템 구현

  • Lee, Jun-Young (Dept. of Computer Science, Pusan National University) ;
  • Kang, Sang-Bae (Dept. of Computer Science, Pusan National University) ;
  • Yang, Jang-Mo (Dept. of Computer Science, Pusan National University) ;
  • Park, Seung (Dept. of Computer Science, Pusan National University) ;
  • Park, Hyun-Joo (Dept. of Computer Science, Pusan National University) ;
  • Kim, Min-Jung (Dept. of Computer Science, Pusan National University) ;
  • Kwon, Hyuk-Chul (Dept. of Computer Science, Pusan National University)
  • 이준영 (부산대학교 전자계산학과) ;
  • 강상배 (부산대학교 전자계산학과) ;
  • 양장모 (부산대학교 전자계산학과) ;
  • 박승 (부산대학교 전자계산학과) ;
  • 박현주 (부산대학교 전자계산학과) ;
  • 김민정 (부산대학교 전자계산학과) ;
  • 권혁철 (부산대학교 전자계산학과)
  • Published : 1996.10.11

Abstract

이 논문에서는 대량의 신문기사나 일반 텍스트 문서를 효율적으로 저장 및 검색 할 수 있는 정보검색 시스템을 구현한다. 이 시스템은 문서의 주제, 저자, 날짜, 출판사 또는 사용자 정의에 의한 속성과 본문에 대한 색인어와 색인관련정보를 생성한다. 모든 색인어는 최대 64가지의 속성정보와 문서별 단어빈도(tf)를 가질 수 있다. 색인은 형태소 분석을 이용하는 방법과 N-gram을 이용하는 방법이 동시에 사용되며, 색인어는 가중치를 가진다. 이 논문에서 구현한 시스템을 이용하여 7개월치 신문자료를 색인한 결과, 생성된 데이터베이스의 크기는 원래 문서의 약 22%이며 문서의 개수가 증가함에 따라 점점 그 비율은 감소한다.

Keywords