DOI QR코드

DOI QR Code

주제어 가중치 기법에 의한 효율적인 블로그 검색 시스템

Efficient Blog Retrieval System by Topic-based Weighting

  • 신현일 (충북대학교 컴퓨터공학) ;
  • 윤은일 (충북대학교 전자정보대학 컴퓨터) ;
  • 류근호 (충북대학교 전자정보대학 컴퓨터)
  • 투고 : 2009.12.02
  • 심사 : 2010.03.08
  • 발행 : 2010.04.30

초록

Web 2.0으로 불리는 새로운 세대의 웹에서, 블로그를 통하여 누구나 손쉽게 정보나 의견을 세상에 알릴 수 있게 되었고 이러한 블로그를 효과적으로 검색하기 위해서 블로그의 특성을 고려한 검색 알고리즘들이 새롭게 제안이 되고 있다. 그러나 실제 블로그 검색 시스템에 적용된 키워드 기반 검색이나 블로그간의 링크 분석을 통한 랭킹만으로는 사용자가 기대하는 성능을 발휘하지 못한다. 본 논문에서는 검색 결과를 향상시키기 위해 블로그 글과 검색어와의 연관성을 고려한 주제어 가중치 기반의 블로그검색 시스템을 제안한다. 제안된 시스템은 블로그 글 마다 주제어(Topic)를 추출하여 색인어보다 더 높은 가중치를 부여한다. 기존 시스템과의 비교에서 제안된 방법이 실제 검색 결과에서 재현율이 향상됨을 알 수 있었다.

In the new generation of Web, commonly called "Web 2.0", blogging has facilitated the publishing information or his/her opinion on the web. Various blog retrieval algorithms have been proposed to search for blogs more effectively. However, actually keyword-based searching or link-analysis blog ranking system cannot satisfy the user's requirement. In this paper, we suggest a topic-based weighting blog retrieval system in which the links between blog writings and searching words are considered to improve the search results. Our system extracts topics from each blog and weights them much higher than other guide words. In the comparison with other systems, we see that the proposed topic-base system has better recall rate of search results.

키워드

참고문헌

  1. R. Kumar, P. Novak, S. Raghavan and A. Tomkins, "Structure and evolution of the Blogspace," Communication of the ACM, Vol. 47, No. 12, pp. 35-39, December 2004. https://doi.org/10.1145/1035134.1035162
  2. Q. Mei, X. Ling, M. Wondra, H. Su and C. Zhai, "Topic sentiment mixture: modeling facts and opinions in weblogs," Proceedings of the 16th international conference on World Wide Web, pp.171-180, Banff, Alberta, Canada, May 2007.
  3. K. Fujimura and N. Tanimoto, "The EigenRumor Algorithm for Calculating Contributions in Cyberspace Communities," Trusting Agents, LNAI 3577, pp. 59.74, 2005.
  4. Taher H. Haveliwala, "Topic-Sensitive PageRank: A Context-Sensitive Ranking Algorithm for Web Search," IEEE Transactions on Knowledge and Data Engineering, vol. 15, no. 4, pp. 784-796, 2003. https://doi.org/10.1109/TKDE.2003.1208999
  5. N. Agarwal, H. Liu, L. Tang, and P. S. Yu, "Identifying the influential bloggers in a community," WSDM'08, pp. 207-218, 2008
  6. A. Kritikopoulos, M. Sideri and I. Varlamis, "BlogRank: Ranking Weblogs Based on Connectivity and Similarity Features," AAA-IDEA'06, Vol. 198, No. 8, Pisa, Italy, 2006.
  7. M. A. Tayebi, S. M. Hashemi and A. Mohades, "B2Rank: An Algorithm for Ranking Blogs BasedN on Behavioral Features," Web Intelligence, pp.104-107, 2007.
  8. 정윤재, 이동만, "블로그 공간 상 에고센트릭 검색의 검색시간 향상을 위한 권위 추정 방법," 한국정보과학회 추계학술발표논문집, 제 13권, 제 2호, 2006년 11월.
  9. 황원석, 도영주, 배덕호, 김상욱, "블로그 환경을 위한 포스트 랭킹 알고리즘," 한국정보과학회 종합학술대회 논문집, 제 35권, 제 1호, 189-193쪽, 2008년 6월.
  10. 올블로그, http://www.allblog.net
  11. 블로그얌, http://www.blogyam.co.kr
  12. 나루 블로그 검색, http://www.naaroo.com
  13. 윤은일, 신현일, 류근호, "중요 여행 정보를 찾기 위한 지능 검색 시스템," 한국컴퓨터정보학회논문지, 제 14권, 제 11호, 113-122쪽, 2009년 11월.
  14. 문유진, "정보 검색을 위한 숫자의 해석에 관한 구문적, 의미적 판별 기법," 한국컴퓨터정보학회논문지, 제 14권 제 8호, 55-71쪽, 2009년 8월.
  15. 장성호, 강승식, "주제어 기반 문서 클러스터링 알고리즘," 한국정보과학회 봄 학술발표논문집, 제 29권, 제 2호, 469-471쪽, 2002년 4월.
  16. B. Adida, "hGRDDL: Bridging microformats and RDFa," Web Semantics Sci Serv Agents on WWW, Vol. 6, No. 1, pp. 54-60, February 2008. https://doi.org/10.1016/j.websem.2007.11.006
  17. 선복근, 위다현, 한광록, "OWL 온톨로지를 기반으로 하는 논문 검색 시스템에관한연구," 한국컴퓨터정보학회논문지, 제 14권, 제 2호, 169-180쪽, 2009년 2월
  18. 이재윤, "피벗 역문헌빈도 가중치 기법에 대한 연구," 한국정보관리학회정보관리학회지, 제20권, 제4호, 233-248쪽, 2003년 12월.
  19. 이글루스, http://www.egloos.com

피인용 문헌

  1. 의견 문서의 단어 통계 분석을 통한 의견 검색 특성에 관한 연구 vol.15, pp.11, 2010, https://doi.org/10.9708/jksci.2010.15.11.021