Using Query Word Senses and User Feedback to Improve Precision of Search Engine

검색엔진의 정확률 향상을 위한 질의어 의미와 사용자 반응 정보의 이용

  • 윤성희 (상명대학교 컴퓨터소프트웨어공학과)
  • Published : 2009.12.31


This paper proposes a technique for improving performance using word senses and user feedback in web information retrieval, compared with the retrieval based on ambiguous user query and index. Disambiguation using query word senses can eliminating the irrelevant pages from the search result. According to semantic categories of nouns which are used as index for retrieval, we build the word sense knowledge-base and categorize the web pages. It can improve the precision of retrieval system with user feedback deciding the query sense and information seeking behavior to pages.

본 논문은 정보검색 시스템의 사용자 질의어와 색인에 기반한 검색 과정에서 나타나는 중의성 해소를 위해 질의어 의미정보와 사용자 피드백을 사용하여 검색 성능을 향상시키는 방법을 소개한다. 의미 정보를 이용하여 질의어의 중의성을 해소하는 검색 과정은 검색 결과로서 의미적으로 무관한 많은 문서들 을 배제할 수 있다. 이를 위해 검색의 색인이 되는 명사 중심의 의미범주를 기반으로 의미정보 지식베이스를 구축하고, 검색 문서들을 색인어와 해당 의미범주로 분류한다. 검색 과정에서는 사용자의 질의 의미 선택과 정답 문서에 대한 참조 행위를 웹 페이지의 순위 결정에 반영하여 검색 성능을 향상시킬 수 있다.



  1. 강현규. 2002. 개념 검색어 대체를 통해 질의 형식화를 도와주는 개념 마법사의 설계 및 구현. "정보처리학회논문지", 9-B(4):437-444.
  2. 김성진. 2006. 이용자 중심 웹 정보탐색 연구의 실체이론 분석. "정보관리학회지", 23(3): 127-146.
  3. 김희섭, 박용재. 2004. 정보시스템의 이용자만족지수 모형개발 및 측정. "정보관리학회지", 21(4).
  4. 박상규, 이찬규, 윤경현, 김성희, 이준호. 2007. 검색엔진에서 일간질의어 분포의 정상성에 관한 연구. "정보관리학회지", 24(4): 255-265.
  5. 박소연, 이준호. 2002. 로그 분석을 통한 이용자의 웹 문서 검색 행태에 관한 연구. "정보관리학회지", 19(3): 111-122.
  6. 박의규, 나동열, 장명길. 2005. 문장-질의 유사성을 이용한 웹 정보검색의 성능 향상. "정보과학회 논문지: 소프트웨어 및 응용", 32(5): 406-415.
  7. 윤성희, 장혜진. 2004. 자연어 질의분석과 검색어 확장에 기반한 웹 정보검색. "정보관리학회지", 21(2): 235-248.
  8. 윤성희, 백선욱. 2004. 단어 의미정보를 활용하는 이용자 자연어 질의 유형의 효율적 분류. "정보관리학회지", 21(4): 251-263.
  9. 이용구, 정영미. 2007. 사전 정보를 이용한 단어 중의성 해소 모형에 관한 실험적 연구. "정보관리학회지", 24(1): 321-342.
  10. 이재윤. 2007. 분포유사도를 이용한 문헌 클러스터링의 성능향상에 관한 연구. "정보관리학회지", 24(4): 267-283
  11. 장명길, 김현진, 장문수, 최재훈, 오효정, 이충희,허정. 2001. 의미기반 정보검색. "정보과학회지", 19(10): 7-18.
  12. Baeza-Yates, Ricardo. and Reberio-Neto Berthier. 1999. Modern Information Retrieval. Addison Wesley.
  13. Belkin, N. J. et al. 2003. “Query length in interactive information retrieval." SIGIR, 2003: 205-212.
  14. Fagan, Joel L. 1987. “Experiments in automatic phrase indexing for document retrieval: a comparison of syntactic and non-syntactic methods." Ph.D. thesis Cornell University.
  15. KIBS: Korean Information Base System. .
  16. Lee, G., M. Park, and H. Won. 1999. “Using syntactic information in handling natural language queries for extended boolean retrieval model." Proceedings of the 4th international workshop on information retrieval with Asian language(IRAL99): 63-70.
  17. Moldovan, D. and R. Mihalcea. 1998. “A Word Net-Based Interface to Internet Search Engines." Proceedings of FLAIRS-98.
  18. Moldovan, D. and R. Mihalcea. 2000. “Using WordNet and Lexical Operators to improve Internet Searches." IEEE Internet Computing, 4(1): 34-43.
  19. Perez-Carballo, Jose and Strazalkowski Tomek. 2000. “Natural Language Information Retrieval: progress report." Information Processing & Management. 36(1):155-178.
  20. Salton, Gerard. 1988. Automatic text processing. Addison-Wesley publishing company.
  21. TREC(Text Retrieval Conference) .
  22. Won, H., M. Park, and G. Lee. 2000. “Integrated indexing method using compound noun segmentation and noun phrase synthesis." Journal of KISS: Software and Applications, 27(1): 84-95.
  23. Zhai, Chengxiang. 1997. “Fast statistical parsing of noun phrases for document indexing." Fifth Conference on Applied Natural Language Processing: 312-319.

Cited by

  1. A Study on a Conceptual Taxonomy of Author Keywords of Humanities, Social Sciences, and Art and Sport in the Korea Citation Index (KCI) by Analysis of its Meaning and Lexical Morpheme vol.48, pp.4, 2014,