DOI QR코드

DOI QR Code

A Design on Informal Big Data Topic Extraction System Based on Spark Framework

Spark 프레임워크 기반 비정형 빅데이터 토픽 추출 시스템 설계

  • 박기진 (아주대학교 융합시스템공학과)
  • Received : 2016.10.04
  • Accepted : 2016.10.13
  • Published : 2016.11.30

Abstract

As on-line informal text data have massive in its volume and have unstructured characteristics in nature, there are limitations in applying traditional relational data model technologies for data storage and data analysis jobs. Moreover, using dynamically generating massive social data, social user's real-time reaction analysis tasks is hard to accomplish. In the paper, to capture easily the semantics of massive and informal on-line documents with unsupervised learning mechanism, we design and implement automatic topic extraction systems according to the mass of the words that consists a document. The input data set to the proposed system are generated first, using N-gram algorithm to build multiple words to capture the meaning of the sentences precisely, and Hadoop and Spark (In-memory distributed computing framework) are adopted to run topic model. In the experiment phases, TB level input data are processed for data preprocessing and proposed topic extraction steps are applied. We conclude that the proposed system shows good performance in extracting meaningful topics in time as the intermediate results come from main memories directly instead of an HDD reading.

온라인상에서 다루어지는 비정형 텍스트 데이터는 대용량이면서 비구조적 형태의 특성을 가지고 있기 때문에, 기존 관계형 데이터 모델의 저장 방식과 분석 방법만으로는 한계가 있다. 더군다나, 동적으로 발생하는 대량의 소셜 데이터를 활용하여 이용자의 반응을 실시간으로 분석하기란 어려운 상황이다. 이에 본 논문에서는 대용량 비정형 데이터(문서)의 의미를 빠르고, 용이하게 파악하기 위하여 데이터 셋에 대한 사전학습 없이, 문서 내 단어 비중에 따라 자동으로 토픽(주제)이 추출되는 시스템을 설계 및 구현하였다. 제안된 시스템의 토픽 모델링에 사용될 입력 단어는 N-gram 알고리즘에 의하여 도출되어 복수 개의 단어도 묶음 처리할 수 있게 했으며, 또한, 대용량 비정형 데이터 저장 및 연산을 위하여 Hadoop과 분산 인메모리 처리 프레임워크인 Spark 기반 클러스터를 구성하여, 토픽 모델 연산을 수행하였다. 성능 실험에서는 TB급의 소셜 댓글 데이터를 읽어 들여, 전체 데이터에 대한 전처리 과정과 특정 항목의 토픽 추출 작업을 수행하였으며, 대용량 데이터를 클러스터의 디스크가 아닌 메모리에 바로 적재 후, 처리함으로써 토픽 추출 성능의 우수성을 확인할 수 있었다.

Keywords

References

  1. D. M. Blei, "Probabilistic Topic Models," Communication of the ACM, Vol.55, No.4, pp.77-87, 2012. https://doi.org/10.1145/2133806.2133826
  2. P. F. Brown, P. V. deSouza, R. L. Mercer, V. J. D. Pietra, and J. C. Lai, "Class-Based N-gram Models of Natural Language," Computational Linguistics, Vol.18, No.4, pp.467-479, 1992.
  3. V. K. Vavilapalli and A. C. Murthy, et al., "Apache Hadoop YARN: Yet Another Resource Negotiator," in Proceedings of the 4th annual Symposium on Cloud Computing ACM, No.5, pp.1-16, 2013.
  4. M. Zaharia, M. Chowdhury, M. J. Franklin, S. Shenker, and I. Stoica, "Spark: Cluster Computing with Working Sets," in HotCloud, p.10, 2010.
  5. D. M. Blei, A. Y. Ng, and M. J. Jordan, "Latent Dirichlet Allocation," Journal of Machine Learning Research, Vol.3, pp. 993-1022, 2003.
  6. T. Hofmann, "Probabilistic Latent Semantic Indexing," in Proceedings of the 22nd Annual International SIGIR Conference on Research and Development in Information Retrival, pp.50-57, 1999.
  7. J. Park and H. Oh, "Distributed Online Learning for Topic Models," Communications of the Korean Institute of Information Scientists and Engineers, Vol.32, No.7, pp.40-45, 2014.
  8. K. Shvachko, et al., "The Hadoop Distributed File System," in Proceedings of the 26th IEEE Transactions on Computing Symposium on Mass Storage Systems and Technologies, pp. 1-10, 2010.
  9. M. Zaharia, M. Chowdhury, T. Das, A. Dave, J. Ma, M. McCauley, M. Franklin, S. Shenker, and I. Stoica, "Resilient Distributed Datasets: A Fault-tolerant Abstraction for In-memory Cluster Computing," NSDI, Apr., 2012.
  10. J. Dean and S. Ghemawat, "MapReduce: Simplified Data Processing on Large Clusters," in Proceedings of the 6th Symposium on Operating System Design and Implementation, pp.137-150, 2004.
  11. K. Park, C. Baek, and L. Peng, "A Development of Streaming Big Data Analysis System Using In-memory Cluster Computing Framework: Spark," LNEE, Vol.393, pp.157-163, 2016.
  12. M. Armbrust, R. S. Xin, C. Lian, Y. Huai, D. Liu, J. K. Bradley, X. Meng, T. Kaftan, M. J. Franklin, A. Ghodsi, and M. Zaharia, "Spark SQL: Relational data processing in Spark," in Proceedings of the 2015 ACM SIGMOD International Conference on Management of Data, pp. 1383-1394, 2015.
  13. https://www.reddit.com/wiki/ko/reddiquette.