DOI QR코드

DOI QR Code

A Study on Graph-based Topic Extraction from Microblogs

마이크로블로그를 통한 그래프 기반의 토픽 추출에 관한 연구

  • 최돈정 (성균관대학교 전자전기컴퓨터공학과) ;
  • 이성우 (성균관대학교 전자전기컴퓨터공학과) ;
  • 김재광 (성균관대학교 전자전기컴퓨터공학과) ;
  • 이지형 (성균관대학교 전자전기컴퓨터공학과)
  • Received : 2011.03.19
  • Accepted : 2011.10.10
  • Published : 2011.10.25

Abstract

Microblogs became popular information delivery ways due to the spread of smart phones. They have the characteristic of reflecting the interests of users more quickly than other medium. Particularly, in case of the subject which attracts many users, microblogs can supply rich information originated from various information sources. Nevertheless, it has been considered as a hard problem to obtain useful information from microblogs because too much noises are in them. So far, various methods are proposed to extract and track some subjects from particular documents, yet these methods do not work effectively in case of microblogs which consist of short phrases. In this paper, we propose a graph-based topic extraction and partitioning method to understand interests of users about a certain keyword. The proposed method contains the process of generating a keyword graph using the co-occurrences of terms in the microblogs, and the process of splitting the graph by using a network partitioning method. When we applied the proposed method on some keywords. our method shows good performance for finding a topic about the keyword and partitioning the topic into sub-topics.

오늘날 마이크로블로그는 스마트폰의 보급과 더불어 대중적인 정보전달 방식의 하나로 자리 잡고 있으며, 기존의 정보매체에 비해 사용자들의 관심사 변화를 보다 빠르게 반영하는 특징을 지닌다. 특히 다수 사용자의 관심을 끌고 있는 토픽의 경우, 다양한 정보 출처로부터 풍부한 정보를 제공할 수 있는 잠재력을 보유하고 있기도 하다. 그럼에도 불구하고 높은 비율로 존재하는 노이즈 등으로 인해 마이크로블로그로부터 유용한 정보를 획득하기란 쉽지 않은 문제로 남아있다. 지금까지 특정 문서로부터 주제를 효율적으로 추출, 추적하는 다양한 방법이 제안되었으나, 마이크로블로그와 같은 단문의 문서가 대량으로 생산되는 경우에 활용하기에는 미흡한점이 있었다. 본 논문에서는 특정 주제어가 주어졌을 때, 키워드 그래프를 구성함으로써 그에 대한 사용자들의 관심사가 어떻게 변화하는지를 효과적으로 파악하는 방법을 제안한다. 제안 방법은 크게 마이크로블로그 내에서의 단어 동시출현빈도를 이용하여 단어간 키워드 그래프를 생성하는 과정과, 네트워크 분할 기법을 이용하여 그래프를 적절히 분할함으로써 사용자의 관심사 별로 나누는 과정을 포함한다. 선별된 주제어에 대해 제안된 방법을 적용해 봄으로서 적은 비용으로 효과적인 주제 발견 및 분할이 가능함을 확인하였다.

Keywords

References

  1. http://en.wikipedia.org/wiki/Twitter
  2. A. Java, X, Song, T. Finin and B. Tseng, "Why We Twitter: Understanding Microblogging Usage and Communities," Joint 9th WEBKDD and 1st SNA-KDD Workshop, 2007.
  3. O. Phelan, K. McCarthy and B. Smyth, "Using Twitter to Recommend Real-Time Topical News," Proceedings of the 3th ACM conference on Recommender systems, 2009.
  4. M. Michelson and S. A. Macskassy, "Discovering Users' Topics of Interest on Twitter: A First Look," Proceedings of the 4th workshop on Analytics for noisy unstructured text data, 2010.
  5. M. Grineva, M. Grinev and D. Lizorkin, "Extra cting Key Terms From Noisy and Multi-theme Documents," Proceedings of the 18th Internatio nal Conference on World Wide Web, 2009.
  6. J. Zeng, C. Wu and W. Wang, "Multi-grain Hierarchical Topic Extraction Algorithm for Text Mining," Expert Systems with Applications, Vol. 37(4), pp. 3202-3208, 2010. https://doi.org/10.1016/j.eswa.2009.09.061
  7. M. E. J. Newman, M. Girvan, "Finding and Evaluating Community Structure in Networks," Journal of Physical Review E, Vol. 69, 2004.

Cited by

  1. Comparison Between Optimal Features of Korean and Chinese for Text Classification vol.25, pp.4, 2015, https://doi.org/10.5391/JKIIS.2015.25.4.386