An Algorithm of Documents Classification and Query Extension using Fuzzy Function

퍼지 함수에 의한 질의어 확장과 문서 분류 알고리즘

  • 은희주 (전북대학교 컴퓨터통계정보학과) ;
  • 하얀 (경인여자대학 멀티미디어정보전산학부) ;
  • 김용성 (전북대학교 컴퓨터통계정보학과)
  • Published : 2001.03.01

Abstract

웹 기반 검색 시스템에서사용자의 관심이 많은 문서를 선별하여 제공하기 위해 프로파일이나 시소러스에 관한 연구가 이루어지고 있다. 그러나, 프로파일이나 시소러스를 구축하고 유지보수 하는데 많은 시간과 노력이 필요하다. 특히 구축된 시소러스에 대해 구조화 및 적합성의 문제가 있다. 따라서, 이러한 문제점을 극복하고자 본 논문에서는 문서에서 추출한 용어 빈도를 문서에서 용어의 중요 정도로 사상시키기 위해 시그모이드 멤버 쉽 함수를 적용한다. 또한, 이 중요 정도에 따라 질의어를 확장하고 의미적으로 연결된 문서를 동일한 문서 집단으로 분류할 수 있는 알고리즘을 제안하여 사용자의 선호도가 반영된 문서를 선별하고 제공하고자 한다.

Keywords

References

  1. 이종득,'시소러스 기반의 정보검색 시스템 구축을 위한 개념 그룹화 방법', 전북대학교 대학원 박사학위논문, 1998. 2
  2. R. Baeza-ates, B. Ribeiro-Neto, 'Modern Information Retrieval,' p.230-255, 1998
  3. P. Wallis, J. A. Tom, 'Relevance judgements for assessing recall,' Information Processing and Management 32, pp. 273-286, 1998 https://doi.org/10.1016/0306-4573(95)00061-5
  4. 조광제, 김준태, '역 카테고리 빈도에 의한 계층적 분류체계에서의 문서의 자동 분류', 정보과학회학술발표논문집, 1996.10
  5. 정영미,'정보검색론', 구미무역사, 1997
  6. G. J. Klir, B. Yuan, 'Fuzzy Sets and Fuzzy Logic Theory and Applications,' 1998
  7. L. T. Koczy, 'Information retrieval by fuzzy relations and hierarchical co-occurrence,'1997
  8. P. Baranyi, T. D. Gedeon, L. T. Koczy, 'Improved fuzzy and neural network algorithms for frequency prediction in document filtering,' TR 97-02, 1997
  9. L. T. Koczy, T. D. Gedeon, J. A. Koczy, 'The construction of fuzzy relational maps in information retrieval,' IETR 98-01, 1998
  10. 강승식, 이하규, '한국어 형태소 분석기 HAM의 형태소 분석 및 철자 검사 기능', 한글 및 한국어 정보처리학회 학술발표논문집, 1998
  11. Ricardo Baeza-Yates, Betthier Ribeiro-Neto, 'Modern Information Retrieval,' 1999
  12. L. T. Koczy, T. Gedeon, 'Information retrieval by fuzzy relations and hierarchical co-occurrence,' Part I. TR97-01, Dept. of Info. Eng., School of Comp. Sci. & Eng., UNSW, 1997
  13. M. Blosseville, G. Hebrail, M. Monteil, N. Penot. 'Automatic document classification: natural language processing, statistical analysis, and expert system techniques used together,' SIGIR' 97. 1997
  14. P. Jacobs, 'Using statistical methods to improve knowledge-based news categorization,' IEEE Expert, 1998 https://doi.org/10.1109/64.207425
  15. R. Hoch 'Using Information Retrieval techniques for text classification in document analysis,' SIGIR' 98, 1998
  16. 하얀, 최봉진, 김용성, 김순기, '2단계 필터링을 이용한 문서 선별 및 순위', 한국정보과학회 봄 학술 발표논문집(B) 제26권 제1호, 1999
  17. 최봉진, 하얀, 황용주, 김용성, 'Fuzzy Logic을 기반으로 한 SDI 서비스 설계', 한국정보과학회 가을 학술발표논문집(I), 제25권, 제2호, 1998
  18. 최동시, 정경택, '카테고리와 키워드의 밀접성 정보에 의한 문서 자동 분류 시스템 설계 및 구현', 정보과학회 학술발표논문집, 1995