DOI QR코드

DOI QR Code

HBase-based Automatic Summary System using Twitter Trending Topics

트위터 트랜딩 토픽을 이용한 HBase 기반 자동 요약 시스템

  • Lee, Sanghoon (Department of Computer Science, Georgia State University) ;
  • Moon, Seung-Jin (Department of Computer Science, University of Suwon)
  • Received : 2014.06.20
  • Accepted : 2014.08.01
  • Published : 2014.10.31

Abstract

Twitter has been a popular social media platform where people post short messages of 140 characters or less via the web. A hashtag is a word or acronym created by Twitter users to open a discussion about certain topics and issues that have a very high percentage of trending. Since the hashtag posts are sorted by time, not relevancy, people who firstly use Twitter have had difficulty understanding their context. In this paper, we propose a HBase-based automatic summary system in order to reduce the difficulty of understanding. The proposed system combines an automatic summary method with a fuzzy system after storing the streaming data provided by Twitter API to the HBase. Throughout this procedure, we have eliminated the duplicate of contents in the hashtag posts and have computed scores between posts so that the users can access to the trending topics with relevancy.

트위터는 사용자들이 140개 정도의 문자들로 이루어진 짧은 메시지를 웹에 포스팅 할 수 있도록 제공하는 인기 있는 소셜 미디어 플랫폼이다. 해시태그는 이러한 트위터 사용자들이 특정한 주제에 대해서 토론을 하거나 높은 트랜딩을 가지는 이슈를 나타내고자 할 때 사용하는 특정한 단어나 두음문자이다. 하지만 동일한 해시태그를 포함하는 포스트들은 관련 있는 문장이 아닌 시간 순서에 의해서 처리되기 때문에, 처음 사용자가 그 해시태그와 관련된 내용을 이해하기 위해서는 다른 불필요한 내용까지 읽어야 하는 어려움이 있다. 본 논문에서는, 이러한 문제점을 해소하기 위한 HBase 기반 자동 요약 시스템을 제안한다. 제안된 시스템은 트위터 API에서 제공하는 스트리밍 데이터를 HBase에 저장한 후 퍼지 시스템과 접목하여 자동 요약 방법을 시행하였다. 이를 통해서 해시태그를 포함한 포스트내의 중복된 내용을 제거하고, 각 포스트들의 중요도를 계산해서 사용자가 트랜딩 토픽내에 관련 있는 주제에 쉽게 접근할 수 있도록 하였다.

Keywords

References

  1. Over, P. and J. Yen. "An Introduction to DUC 2003-Intrinsic Evaluation of Generic News Text Summarization Systems." Available for: http://duc.nist.gov, 2003.
  2. Sharifi, B., Hutton, M.A., and Kalita, J. "Summarizing microblogs automatically." In Proc. HLT/NAACL-10. pp. 685-688, 2010.
  3. Inouye, D. "Multiple post microblog summarization" Research Final Rep. Colorado Springs, GA: University of Colorado at Colorado Springs, 2010
  4. Radev, D., Jing, H., Sty, M., and Tam, D. "Centroid-based summarization of multiple documents" Information Processing and Management. vol. 40, pp. 919-938, 2004. https://doi.org/10.1016/j.ipm.2003.10.006
  5. Erikan, G. and Radev, D. "LexRank: Graph-based centrality as salience in text summarization. J. Artif. Intell. Res. vol. 22, pp. 457-479, 2004.
  6. Mihalcea, R. and Tarau, P. "TextRank: Bringing order into texts" In Proceedings of EMNLP-04. pp. 404-411, 2004.
  7. Ghemawat, S., Gobioff , H., and Leung, S.-T. "The Google File System" In Proceedings of SOSP '03. pp. 29-43, 2003.
  8. Dean, J., Ghemawat, S. "MapReduce: Simplied Data Processing on Large Clusters, Communications of the ACM. 51, 1 (Jan. 2008), pp. 107-113, 2008.
  9. Chang, F., Dean, J., Ghemawat, S., Hsieh, W.C., Wallach, D.A., Burrows, M., Chandra, T., Fikes, A., and Gruber, R.E. "Bigtable: A Distributed Storage System for Structured Data" ACM Trans. Comput. Syst. 26, 2 (June 2008), pp. 1-26, 2008. DOI=http://doi.acm.org/10.1145/1365815.1365816.
  10. Porter, M. F. "An Algorithm for Suffix Stripping. Program. vol. 14, no. 3, pp. 130-137, 1980. https://doi.org/10.1108/eb046814
  11. Zadeh, L.A. "Fuzzy sets" In Information and Control. vol. 8, no. 3, pp. 338-393, 1965. https://doi.org/10.1016/S0019-9958(65)90241-X
  12. Lin, C.Y. "ROUGE: A Package for Automatic Evaluation of Summaries" In Proceedings of the Workshop on Text Summarization. Branches Out (WAS 2004). pp. 74-81, 2004.
  13. Lin, C.Y. and Josef, F. "Automatic Evaluation of Machine Translation Quality Using Longest Common Subsequence and Skip-Bigram Statistics" In Proceedings of the 42th Annual Meeting of the Association for Computational Linguistic (ACL 2004). pp. 605-612, 2004.
  14. Lin, C.Y. "Looking for a Few Good Metrics: Automatic Summarization Evaluation - How Many Samples Are Enough?" In Proceedings of NTCIR Workshop 4, Tokyo, Japan, June 2-4, 2004.