DOI QR코드

DOI QR Code

워드넷 기반 협동적 평가와 하이퍼링크를 이용한 검색엔진의 성능 향상

Improving Performance of Search Engine By Using WordNet-based Collaborative Evaluation and Hyperlink

  • 김형일 (동국대학교 대학원 컴퓨터공학과) ;
  • 김준태 (동국대학교 컴퓨터공학과)
  • 발행 : 2004.06.01

초록

본 논문에서는 정색엔진의 성능 향상을 위하여 질의어의 모호성 해결과 새로운 가중치 부여 방식을 제안한다. 일반적인 검색엔진은 질의어의 형태와 같은 것들이 포함되어 있는 웹 페이지를 결과로 보여주는 내용기만 방식을 사용하고 있다. 검색 결과로 나타난 웹 페이지들의 순위를 결정하는데 있어서도 주어진 질의어와 웹 페이지 사이의 키워드 매칭에 의한 내용기반 방식을 사용한다. 이와 같이 질의어의 형태만으로 웹페이지들과 유사도를 비교한다는 것은 정확한 검색에 많은 장애를 준다. 또한 질의어의 의미에 모호성이 존재할 경우에는 사용자의 의도와 관련 없는 것들이 결과로 나타나기도 한다. 이러한 원인의 발생은 일반적인 검색엔진들이 내용기반 방법을 기반으로 웹 검색에 이용되기 때문이다. 본 논문에서는 질의어에 모호성이 있는 경우 워드넷을 이용하여 모호성을 해결하도록 하는 사용자 인터페이스를 구현했다. 그리고 사용자의 클릭 수를 각 웹 페이지의 가중치에 누적함으로써 다수 사용자의 협동적 평가에 따른 웹 페이지의 중요도가 검색 순위에 반영되도록 하였다. 클릭수의 누적에 있어서 질의어의 의미 카테고리별로 가중치를 구분하여 저장함으로써 보다 세분화된 웹 페이지 가중치 부여 방식을 사용하였다 그리고 점 페이지의 하이퍼링크를 웹 페이지의 가중치에 적용하였다. 웹 페이지의 가중치에 하이퍼링크를 적용함으로써 웹 페이지의 대표성을 가중치에 부여하여 가중치에 신뢰도를 증가시켰다. 실험용 정색엔진이 일반 검색엔진에 비해 높은 검색 정확도를 나타내는 것을 실험을 통해 확인하였다.

In this paper, we propose a web page weighting scheme based on WordNet-based collaborative evaluation and hyperlink to improve the precision of web search engine. Generally search engines use keyword matching to decide web page ranking. In the information retrieval from huge data such as the Web, simple word comparison cannot distinguish important documents because there exist too many documents with similar relevancy. In this paper, we implement a WordNet-based user interface that helps to distinguish different senses of query word, and constructed a search engine in which the implicit evaluations by multiple users are reflected in ranking by accumulating the number of clicks. In accumulating click counts, they are stored separately according to lenses, so that more accurate search is possible. Weighting of each web page by using collaborative evaluation and hyperlink is reflected in ranking. The experimental results with several keywords show that the precision of proposed system is improved compared to conventional search engines.

키워드

참고문헌

  1. E. Agichtein, S. Lawrence, and L. Gravano, 'Learning search engine specific query transformations for question answering,' In Tenth International World Wide Web Conference, Hong Kong, 2001 https://doi.org/10.1145/371920.371976
  2. P. Adriaans, D. Zantinge, Data Mining, Addison-Wesley, 1996
  3. J. M. Bradshaw, Software Agents, AAAI press, 1997
  4. D. Dreilinger and A. E. Howe, 'An information gathering agent for querying web search engines,' Computer Science Technical report, CS-96-111, Colorado State University, 1996
  5. D. Dreilinger and A. E. Howe, 'Experiences with selecting search engines using metasearch,' ACM Transactions on Information Systems, Vol.15, 1997 https://doi.org/10.1145/256163.256164
  6. W. Frakes, and R. Yates, Information Retrieval: Data Structures & Algorithm, Prentice-Hall, 1992
  7. W. Frakes and R. Yates, Information Retrieval and Hypertext, Kluwer Academic Publishers, 1996
  8. E. J. Glover and W. P. Birmingham, 'Using decision theory to order documents,' In Digital Libraries 98, Pittsburgh, PA, 1998 https://doi.org/10.1145/276675.276732
  9. E. J. Glover, S. Lawrence, William P. Birmingham and C. Lee Giles, 'Architecture of a Metasearch Engine That Supports User Information Needs,' CIKM, pp.210-216, 1999 https://doi.org/10.1145/319950.319980
  10. E.J. Glover, S. Lawrence, M. D. Gordon, W. P. Birmingham, and C. L. Giles, 'Web Search - Your Way,' Communications of the ACM, Vol.44, No.12, 2001 https://doi.org/10.1145/501317.501319
  11. R. Hoch, 'Using IR Techniques for text classification in document analysis,' Proceedings of the Seventeenth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 1994
  12. C. Junghoo, G. Hector and L. Page, 'Efficient Crawling Through URL Ordering,' 7th World Wide Web Conference, 1998
  13. J. M. Kleinberg, 'Authoritative sources in a hyperlinked environment,' The Journal of the ACM, Vol.46, Issue 5,1999 https://doi.org/10.1145/324133.324140
  14. B. Krishna, and R. Monika, 'Improved Algorithms for Topic distillation in a Hyperlinked Environment,' Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval, 1998 https://doi.org/10.1145/290941.290972
  15. X. Li, S. Szpakowicz and S. Matwin, 'A WordNet-based Algorithm for Word Sense Disambiguation,' The 1995 International Joint Conferences on Artificial Intelligence, 1995
  16. S. Lawrence and C. Giles, 'Inquirus, the NECI meta search engine,'7th International World Wide Web conference, 1998 https://doi.org/10.1016/S0169-7552(98)00095-6
  17. G. A. Miller, 'WordNet : An On-Line Lexical Database,' International Journal of Lexicography, 1990 https://doi.org/10.1093/ijl/3.4.235
  18. G. A. Miller 'WordNet : A Lexical Database for English,' Communications of the ACM, Vol.38, Issue 11, 1995 https://doi.org/10.1145/219717.219748
  19. D. Moldovan and R. Mihalcea, 'A WordNet-Based Interface to Internet Search Engines,' Proceedings of FLAIRS-98, 1998
  20. S. Scott and S. Matwin, 'Text Classification Using WordNet Hypernyms,' Coting-ACL '98 Workshop, 1998
  21. X. Shen and C. X. Zhai, 'Exploiting query history for document ranking in interactive information retrieval,' SIGIR 2003, pp.377-378, 2003 https://doi.org/10.1145/860435.860509
  22. E. Siegel, 'Disambiguating Verbs with the WordNet Category of the Direct Object,' Coling-ACL '98 workshop, 1998
  23. E. Voohees, 'Query Expansion Using Lexical-Semantic Relations,' Proceedings of the Seventeenth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 1994
  24. http://none.cs.umass.edu/~schapira/thesis/report/
  25. http://www.directhit.com
  26. ttp://www.google.com