Personalized Document Snippet Extraction Method using Fuzzy Association and Pseudo Relevance Feedback

의사연관 피드백과 퍼지 연관을 이용한 개인화 문서 스니핏 추출 방법

  • Park, Seon (Institute Research of Information Science and Engineering, Mokpo National University) ;
  • Jo, Gwang-Mun (Department of Electronic Commerce, Mokpo National University) ;
  • Yang, Hu-Yeol (Department of Electronic Commerce, Mokpo National University) ;
  • Lee, Seong-Ro (Department of Information Electronic Engineering, Mokpo National University)
  • 박선 (목포대학교 정보산업연구소) ;
  • 조광문 (목포대학교 전자상거래학과) ;
  • 양후열 (목포대학교 전자상거래학과) ;
  • 이성로 (목포대학교 정보전자공학과)
  • Received : 2011.11.08
  • Accepted : 2011.12.27
  • Published : 2012.03.25

Abstract

Snippet is a summaries information of representing web pages which search engine provides user. Snippet and page rank in search engine abundantly influence user for visiting web pages. User sometime visits the wrong page with respect to user intention when uses snippet. The snippet extraction method is difficult to accurate comprehending user intention. In order to solve above problem, this paper proposes a new snippet extraction method using fuzzy association and pseudo relevance feedback. The proposed method uses pseudo relevance feedback to expand the use's query. It uses the fuzzy association between the expanded query and the web pages to extract snippet to be well reflected semantic user's intention. The experimental results demonstrate that the proposed method can achieve better snippet extraction performance than the other methods.

스니핏(snippet)이란 검색엔진이 사용자에게 제공하는 웹 페이지를 대표할 수 있는 요약된 정보이다. 스니핏은 검색엔진의 페이지 순위와 함께 사용자의 페이지 방문에 큰 영향을 준다. 스니핏을 이용시 가끔 사용자의 의도와는 다른 잘못된 웹 페이지를 방문할 수 있다. 이것은 스니핏을 추출하는 방법이 사용자의 의도를 정확히 이해하는 것이 어렵기 때문이다. 본 논문은 이러한 문제를 해결하기 위해 의사연관 피드백과 퍼지 연관을 이용한 새로운 스니핏 추출 방법을 제안한다. 제안방법은 의사연관 피드백을 이용하여 사용자의 질의를 확장학고, 확장된 질의와 웹 페이지 사이에 퍼지 연관을 이용함으로써 사용자의 의도가 의미적으로 더 잘 포함되는 스니핏을 추출할 수 있다. 실험결과 제안방법이 다른 방법에 비하여서 스니핏 추출에 더 좋은 성능을 보인다.

Keywords

References

  1. Y. J. Ko, H. K. An, J. Y. Seo, "Pseudo-relevance feedback and statistical query expansion for web snippet generation," Information Processing Letter. Vol. 109, pp.18-22, 2008. https://doi.org/10.1016/j.ipl.2008.08.004
  2. Q. Li, Y. P. Chen, "Personalized text snippet extraction using statistical language models," Pattern Recognition, Vol. 43, pp.378-386, 2010. https://doi.org/10.1016/j.patcog.2009.06.003
  3. T. Penin, H. Wang, T. Tran, Y. Yu, "Snippet Generation for Semantic Web Search Engine," In proceeding of ASWC, LNCS 5367, pp.493-507, 2008.
  4. Y. Huang, Z. Liu, "Query Baised Snippet Generation in XML Search," In proceeding of SIGMOD, pp.315-326, 2008.
  5. A. Turpin, Y. Tsegay, D. Hawking, H. E. Williams, "Fast Generation of Result Snippets in Web Search," In proceeding of SIGIR, pp.127-134, 2007.
  6. B. Y. Ricardo, R. N. Berthier, "Moden Information Retrieval," ACM Press, 1999.
  7. S. Chakrabarti, "mining the web: Discovering Knowledge from Hypertext Data," Morgan Kaufmann Publishers, 2003.
  8. C. Haruechaiyasak, M. L. Shyu, S. C. Chen, "Web Document Classification Based on Fuzzy Association", In proceedings of the 25th Annual International Computer Software and Applications Conference (COMPSAC'02) (2002)
  9. L. A. Zadeh, "Fuzzy Sets, in Dubois, D., Prade, H. and Yager, R. R. editiors, Readings in Fuzzy Sets for Intelligent Systems", Morgan Kaufmann Publiishers, 1993.
  10. 한경남, 남경완, "한국어정보처리 입문 : 컴퓨터가 우리말을 이해하려면?", 커뮤니케이션북스, 2007.
  11. W. B. Frankes, R. Baeza-Yaes, "Information Retrieval : Data Structure & Algorithms," Prentice-Hall, 1992.
  12. 박선, 김경준, 이진석, 이성로, "군집 주제의 유의어와 유사도를 이용한 문서군집향상 방법", 전자공학회논문지, 제48권 SP편 제5호, 30-38쪽, 2011년.