질의 내부 단어 인접도를 이용한 검색 효율 향상 기법

A Search Efficiency Improvement Method using Internal Contiguity in Query Terms

  • 윤성웅 (국방대학교 전산정보학과) ;
  • 채진기 (국방대학교 전산정보학과) ;
  • 이상훈 (국방대학교 전산정보학과)
  • 발행 : 2008.04.15

초록

수많은 웹 정보 중에서 사용자가 원하는 정보를 찾아내는 것은 매우 어렵다. 검색 엔진은 웹정보를 요약하였다가 사용자의 질의에 따라 상대적 중요도와 정보의 적합도를 반영한 검색순위를 제공한다. 그러나 이 순위는 개별 사용자가 원하는 정보를 상위 순위에 보여주는데 제한이 있다. 본 논문에서는 사용자의 검색 의도가 질의에 가장 잘 나타난다고 보고 질의의 의미를 잘 반영하는 웹 정보를 선택적으로 상위 순위화하기 위하여 질의 내부의 단어 인접도를 이용한 재순위화 방법을 제시하였다. 실험 결과 매우 간단한 방법으로 사용자가 요구하는 정보를 75.8%의 확률로 찾아낼 수 있으며, 선별된 정보들의 선택적인 순위 상승으로 $13{\sim}20%$의 검색 효율 향상을 기대할 수 있다.

It is difficult to get relevant information on vast Web data. Search engines summarize and store Web information and show the ranked lists based on user queries affected by relative importance and user-adaptation. But these have limitation with showing user-intended information at the top priority. User intention is presented in general within query itself. In this paper, we propose the selective rankup methodology of user-intended search results based on weighting internal contiguity in query terms. With experimental results, we can find user-intended results with 75.8% probability using this simple method only, and efficiency of rerank proposed outperforms ordinary case by $13{\sim}20%$.

키워드

참고문헌

  1. F. Qiu and J. Cho, "Automatic Identification of User Interest For Personalized Search," In Proceedings of the 15th international conference on World Wide Web, pp. 727-736, 2006
  2. B.J. Jansen, A. Spink, and T Saracevic, "Real life, real users, and real needs: A study and analysis of user queries on the Web," Information Processing and Management, 36(2):207-227, 2000 https://doi.org/10.1016/S0306-4573(99)00056-4
  3. S. Brin and L page, "The Anatomy of a Large- Scale Hypertextual Web Search Engine," In Proceedings of 7th international conference on World Wide Web, pp. 107-117, 1998 https://doi.org/10.1016/S0169-7552(98)00110-X
  4. J. Cho and S. Roy, "Impact Of Search Engines On Page Popularity," In Proceedings of the 13th international conference on World Wide Web, pp. 20-29, 2004
  5. T. H. Haveliwala, "Topic-Sensitive PageRank," In Proceedings of the 11th international conference on World Wide Web, pp. 517-526, 2002
  6. 박의규, 나동열, 장명길, "문장-질의 유사성을 이용한 웹 정보 검색의 성능 향상", 한국정보과학회 논문지 소프트웨어 및 응용 제32권 제5호, pp. 406-415, 2005
  7. 김창환, 임지희, 최호섭, 윤화묵, 옥철영, "사용자 어휘지능망을 이용한 의미적 정보검색", 한국정보처리학회 추계학술발표대회 논문집 제13권 제2호, pp. 157-160, 2006
  8. 김형일, 김준태, "질의어 의미별 사용자 선호도를 이용한 웹 검색의 성능 향상", 한국정보과학회 논문지 소프트웨어 및 응용 제31권 제8호, pp. 1101-1112, 2004
  9. 이소영, 조영환, "검색포탈에서 사용자 질의분석을 통한 검색형태 연구", 한국정보과학회지 제22권 제4호, pp. 47-51, 2004
  10. WordNet. a lexical database for the English language, Princeton Univ, http://wordnet.princeton. edu/
  11. 김형일, 김준태, "워드넷 기반 협동적 평가와 하이퍼링크를 이용한 검색엔진의 성능 향상", 한국정보처리학회 논문지 B 제11-B권 제3호, pp. 369-380, 2004
  12. 조미영, 김판구, "정보량과 개념적 밀도를 이용한 단어 의미 중의성 해결", 제24회 한국정보처리학회 추계학술발표대회 논문집 제12권 제2호, pp. 445-448, 2005
  13. The Open Directory Project, http://www.dmoz.org
  14. J. R. Wen, J. Y. Nie and H. J. Zhang, "Clustering user queries of a Search Engine," In Proceedings of the Internation World Wide Web conference, pp. 162-168, 2001
  15. G-R. Xue, H-J. Zeng, Z. Chen, W-Y. Ma, H-J. Zhang and C-J. Lu, "Implicit Link Analysis for Small Web Search," In Proceedings of the 26th annual international ACM SIGIR conference on Research and development in information retrieval, pp. 56-63, 2003
  16. M. Kendall and J. Gibbons, "Rank Correlation Methods," Edward Arnold, London, 1990