Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))
- 1996.10a
- /
- Pages.63-67
- /
- 1996
- /
- 2005-3053(pISSN)
Implementation of an Information Retrieval System with Multiple Indexing
다중색인에 의한 정보검색 시스템 구현
- Lee, Jun-Young (Dept. of Computer Science, Pusan National University) ;
- Kang, Sang-Bae (Dept. of Computer Science, Pusan National University) ;
- Yang, Jang-Mo (Dept. of Computer Science, Pusan National University) ;
- Park, Seung (Dept. of Computer Science, Pusan National University) ;
- Park, Hyun-Joo (Dept. of Computer Science, Pusan National University) ;
- Kim, Min-Jung (Dept. of Computer Science, Pusan National University) ;
- Kwon, Hyuk-Chul (Dept. of Computer Science, Pusan National University)
- 이준영 (부산대학교 전자계산학과) ;
- 강상배 (부산대학교 전자계산학과) ;
- 양장모 (부산대학교 전자계산학과) ;
- 박승 (부산대학교 전자계산학과) ;
- 박현주 (부산대학교 전자계산학과) ;
- 김민정 (부산대학교 전자계산학과) ;
- 권혁철 (부산대학교 전자계산학과)
- Published : 1996.10.11
Abstract
이 논문에서는 대량의 신문기사나 일반 텍스트 문서를 효율적으로 저장 및 검색 할 수 있는 정보검색 시스템을 구현한다. 이 시스템은 문서의 주제, 저자, 날짜, 출판사 또는 사용자 정의에 의한 속성과 본문에 대한 색인어와 색인관련정보를 생성한다. 모든 색인어는 최대 64가지의 속성정보와 문서별 단어빈도(tf)를 가질 수 있다. 색인은 형태소 분석을 이용하는 방법과 N-gram을 이용하는 방법이 동시에 사용되며, 색인어는 가중치를 가진다. 이 논문에서 구현한 시스템을 이용하여 7개월치 신문자료를 색인한 결과, 생성된 데이터베이스의 크기는 원래 문서의 약 22%이며 문서의 개수가 증가함에 따라 점점 그 비율은 감소한다.
Keywords