A Study on Phon Call Big Data Analytics

전화통화 빅데이터 분석에 관한 연구

  • Published : 2013.09.30

Abstract

This paper proposes an approach to big data analytics for phon call data. The analytical models for phon call data is composed of the PVPF (Parallel Variable-length Phrase Finding) algorithm for identifying verbal phrases of natural language and the word count algorithm for measuring the usage frequency of keywords. In the proposed model, we identify words using the PVPF algorithm, and measure the usage frequency of the identified words using word count algorithm in MapReduce. The results can be interpreted from various viewpoints. We design and implement the model based HDFS (Hadoop Distributed File System), verify the proposed approach through a case study of phon call data. So we extract useful results through analysis of keyword correlation and usage frequency.

본 연구는 전화통화에 의해 생성된 데이터에 대한 빅데이터 분석 접근을 제안한다. 전화통화 데이터의 분석모형은 자연어의 어휘식별을 위한 PVPF(Parallel Variable-length Phrase Finding) 알고리즘과 키워드의 사용빈도 측정을 위한 워드 카운트 알고리즘으로 구성된다. 제안한 분석모형에서는 먼저 PVPF 알고리즘에 의해 연계 단어 추출을 통해 어휘를 식별하며, MapReduce의 워드 카운트 알고리즘을 사용하여 식별된 어휘 및 단어의 사용빈도를 측정한다. 그 결과는 다양한 관점에서 해석될 수 있다. 제안 분석모형의 효과성을 보이기 위해 HDFS(Hadoop Distributed File System)를 기반으로 분석모형을 설계 구현하였으며, 전화통화 데이터를 실험 적용한다. 실험결과, 키워드 상관관계 분석 및 사용빈도 변화 분석을 통해 유의미한 결과를 도출한다.

Keywords

References

  1. 강만모, 김상락, 박상무, "빅데이터의 분석과 활용," 정보과학회지, pp. 25-32, 2012.
  2. 고수현, "빅데이터 분석으로 기업 경쟁력 극대화," 컴퓨터월드, pp .50-54, 2012.
  3. 김동주, 강민철, "ICT생태계변화에 따른 국내 이동통신 사업자의 대응전략에 대한 연구," 정보기술아키텍처연구, 제10권, 제2호, 2013.
  4. 김정숙, "빅데이터활용과 관련기술고찰," 한국콘텐츠학회, 제10권1호, pp.34-40, 2012.
  5. 김지숙, "빅데이터 활용과 분석기술 고찰," 고려대학원, 석사학위논문, 2012.
  6. 데이코산업연구소, "빅데이터 관련시장 실태와 전망," 2013.
  7. 박준규, "빅데이터를 위한 분석기술활용방안 연구," 세종대학원, 석사학위논문, 2012.
  8. 육군. 인사근무과-3110, "군인다운 언어사용 추진 지침시달," 2012.
  9. 이각범, "빅데이터를 활용한 스마트 정부 구현(안)," 국가정보화전략위원회 보고서, 2011.
  10. 이강용, 남궁현, 심재철, 조기성, 류원, "공공분야에서의 빅데이터 활용을 위한 지식자산(Knowledge Base) 구축," 정보과학회지, pp. 40-46, 2012.
  11. 이만재, "빅데이터와 공공데이터 활용," Internet and Information Security, 제2권, 제2호, 2011.
  12. 이명진, 김우주, "빅데이터를위한고급분석기법과 지원기술," EntrueJournalofInformation Technology, Vol. 11, No. 1, 2012.
  13. 이성춘, 임양수, 안민지, "Big Data, 미래를 여는 비밀의 열쇠," KT경재연구소, 2011.
  14. 정재화, "시작하세요 Hadoop 프로그래밍," 위키북스, 2012.
  15. 조성우, "Big Data 시대의 기술," KT종합기술원 중앙연구소, 2011.
  16. 톰화이트, "Hadoop 완벽가이드," 한빛미디어, 2010.
  17. 한석수, "분산처리 Hadoop 프레임워크 기반의 모바일 라이프 로그검색시스템," 연세대학원,석사학위논문, 2011.
  18. CHD, http://www.cloudera.com/
  19. ChukLam,"HadoopINACTION," Manning Publication, 2011.
  20. Danyel Fisher, Rob DeLine, Mary Czerwinski, Steven Drucker, "Interactions with big data analytics," Interactions Magazine, Volume 19 Issue 3, pp. 50-59, May June 2012.
  21. Cutting, D. and Baldeschwieler, E., "Meet Hadoop", OSCON, Portland, OR, USA, 2007.
  22. G. Piatetsky-Shapiro, "Discovery, analysis and presentation of strong rules," In G. Piatetsky-Shapiro and W. Frawley, editors, in Proc. of Knowledge Discovery in Database, MIT Press, Cambridge, MA, 1991.
  23. Hadoop, http://hadoop.apache.org/
  24. hyoung-rae Kim and Philip K. Chan, "Identifying Variable-Length Meaningful Phrases with Correlation Functions," ICTAI '04 Proceedings of the 16th IEEE International Conference, pp. 30-38, 2004.
  25. Jeffrey Dean and Sanjay Ghemawat, "MapReduce : Simplified Data Processing on Large Clusters," Communications of the ACM, Volume 51 Issue 1, January, pp. 107-113, 2008.
  26. McKinsey Global Institute, "Big Data: The next frontier for innovation, competition, and productivity," 2011.
  27. Nathan Eagle, "big Data, Global Development, and Complex Social Systems," Bulletin of the American Physical Society, APS March Meeting 2010, Volume 55, Number 2, pp. 3-4, March 15-17, 2010.
  28. Raymond J. Mooneyand Un Yong Nahm, "Text Mining with Information Extraction," Proceeding of the 4th International MIDP Colloquium, pp. 141- 60, September 2003.
  29. Sam Madden, "From Databases to Big Data," IEEE Internet Computing, Vol. 16, No. 3, pp. 4-6, May June 2012.