Study for Blog Clustering Method Based on Similarity of Titles

주제 유사성 기반 클러스터링을 이용한 블로그 검색기법 연구

  • Lee, Ki-Jun (Information and Industrial Engineering, Yonsei University) ;
  • Lee, Myung-Jin (Information and Industrial Engineering, Yonsei University) ;
  • Kim, Woo-Ju (Information and Industrial Engineering, Yonsei University)
  • 이기준 (연세대학교 공과대학 정보산업공학과) ;
  • 이명진 (연세대학교 공과대학 정보산업공학과) ;
  • 김우주 (연세대학교 공과대학 정보산업공학과)
  • Received : 2008.04.02
  • Accepted : 2009.06.13
  • Published : 2009.06.30

Abstract

With an exponential growth of blogs, lots of important data have appeared on blogs. However, since main topics mentioned in blog pages are quite different from general web pages, there are problems which can't be solved by general search engines. Therefore, many researchers have studied searching methods only for blogs to help users who want to have useful information on blog. We also present a blog classifying method based on similarity of titles. First, we analyze blogs and blog search engines to find problems and solution of current blog search. Second, applying our similarity algorithm on blog titles, we discuss a way to develop clustering method only for blog. Finally, by making a prototype system of our algorithm, we evaluate our algorithm's effectiveness and show conclusion and future work. We expect this algorithm could add its power to current search engine.

웹 2.0에 기반한 정보화 사회에 있어 참여를 통한 자료의 축적 속도는 더욱 더 가속화 되어가고 있다. 이러한 현상속에서, 웹 2.0으로 인해 정보의 저장 및 공유 형태 역시 단순 웹 페이지에서 블로그로 나아가 포드캐스팅, 비디오 등의 다양한 모습으로 분화되어가고 있는 실정인데, 이는 웹 상의 정보에 대한 통합적이고 효율적인 접근을 오히려 방해할 수 있는 요소이기에 보다 효과적인 정보 검색 방법을 요구하게 된다. 본 연구에서는 특히 블로그 검색에 초점을 맞추어 기존 웹 검색 방식의 문제점을 도출, 해결하고자 한다. 논문에서 제안하고자 바는 특정 검색어에 대해 블로그 검색을 수행한 후, 검색 결과에서 주요 주제들을 효과적으로 추출하고, 주제별로 결과물들을 클러스터링하여 순위별로 제공하고자 하는 것이다. 이를 통해 블로그 검색에의 정보 추출에서 사용자에게 특정 검색어에 대해 보다 동적인 추가 주제 카탈로그를 제시함으로써 대량의 의미 없는 정보들을 단순 브라이징하는 방식을 벗어날 수 있으며, 빠르게 검색 의도에 유의한 자료들에 접근할 수 있도록 할 수 있다.

Keywords

References

  1. 강순희, "블로그 검색에 대한 연구", 한국정보관리학회, 한국정보관리학회 학술대회논문집, 2006.
  2. 김재한, 옥철영, "통합 형태소를 이용한 한국어 형태소 분석기", 한국정보과학회, 한국정보과학회 학술발표논문집 한국정보과학회 1994년도 가을 학술발표논문집, 21권 2호(A), 1994. 10.
  3. 김재한, 안미정, 옥철영, "활용 형태소에 기반한 한국어 형태소 분석기", 한국정보과학회, 한국정보과학회 학술발표논문집,한국정보과학회 1993년도 가을 학술발표논문집, 20권 2호(1993).
  4. 김중태, "나는 블로그가 좋다",:이비컴, 2004.
  5. 권오병, 문예성, 김민용, "블로그 사용에 영향을 미치는 요인" 한국전자거래학회, 한국전자거래학회지, 12권 4호(2007).
  6. 이은철, 김성천, 황영섭, 이종혁, "한국어 텍스트 검색 시스템 KIRT의 구현", 한국정보과학회, 한국정보과학회 학술발표논문집, 한국정보과학회 1992년도 봄학술발표논문집, 19권 1호(1992).
  7. 정영미, "문헌 클러스터링", 정보검색 연구 구미무역(주) 출판부, 2005.
  8. 최호찬, "[요즈음 문화] 인터넷의 새로운 문화 블로그-개인이 인터넷에서 존재하고 대화하는 방법", 경향잡지, 2004년 3월호(통권 1632호).
  9. Chung, Y. M. and J. Y. Lee, "A corpus-based approach to comparative evaluation of statistical term association measures", In J. of the American Society for Information Science and Technology, 2001.
  10. Fujiki, T., T. Nanno, Y. Suzuki, and M. Okumura, "Identification of Bursts in a DocumentStream", First International Workshop on Knowledge Discovery in Data, Streams, 2004.
  11. Mishne, G., M. de Rijke, "A Study of Blog Search", Lecture notes in computer science, Vol.3936 (2006).
  12. Rand, W. M., "Objective Criteria for The Evaluation of clustering Methods", In J. of the American Statistical Association, 1971.
  13. Takama, Y., T. Kajinami, and A. Matsumura, "Blog Search with Keyword Map-Based Relevance Feedback", Lecture notes in computer science, Vol.3614(2005).
  14. Tim O'reilly., web 2.0 conference in Sanfrancisco USA, 2004.
  15. Toda, Hiroyuki., Fujimura, Ko., Inoue, Takafumi., Hiroshima, Nobuaki., Sugizaki, Masayuki., Kataoka., "BLOGRANGER:Implementation of Goal-oriented Blog Search Engine", Transactions of Information Processing Society of Japan, Vol.48(2007).