DOI QR코드

DOI QR Code

비정형 빅데이터의 실시간 복합 이벤트 탐지를 위한 기법

The Method for Real-time Complex Event Detection of Unstructured Big data

  • 이준희 (인하대학교 컴퓨터정보공학과) ;
  • 백성하 (인하대학교 컴퓨터정보공학과) ;
  • 이순조 (서원대학교 컴퓨터공학과) ;
  • 배해영 (인하대학교 컴퓨터정보공학과)
  • 투고 : 2012.08.06
  • 심사 : 2012.10.30
  • 발행 : 2012.10.31

초록

최근 소셜 미디어의 발달과 스마트폰의 확산으로 SNS(Social Network Service)가 활성화가 되면서 데이터양이 폭발적으로 증가하였다. 이에 맞춰 빅데이터 개념이 새롭게 대두되었으며, 빅데이터를 활용하기 위한 많은 방안이 연구되고 있다. 여러 기업이 보유한 빅데이터의 가치창출을 극대화하기 위해 기존 데이터와의 융합이 필요하며, 물리적, 논리적 저장구조가 다른 이기종 데이터 소스를 통합하고 관리하기 위한 시스템이 필요하다. 빅데이터를 처리하기 위한 시스템인 맵리듀스는 분산처리를 활용하여 빠른게 데이터를 처리한다는 이점이 있으나 모든 키워드에 대해 시스템을 구축하여 저장 및 검색 등의 과정을 거치므로 실시간 처리에 어려움이 따른다. 또한, 이기종 데이터를 처리하는 구조가 없어 복합 이벤트를 처리하는데 추가 비용이 발생할 수 있다. 이를 해결하는 방안으로 기존에 연구된 복합 이벤트 처리 시스템을 활용하여 실시간 복합 이벤트 탐지를 위한 기법을 제안하고자 한다. 복합 이벤트 처리 시스템은 서로 다른 이기종 데이터 소스로부터 각각의 데이터들을 통합하고 이벤트들의 조합이 가능하며 스트림 데이터를 즉시 처리할 수 있어 실시간 처리에 유용하다. 그러나 SNS, 인터넷 기사 등 텍스트 기반의 비정형 데이터를 텍스트형으로 관리하고 있어 빅데이터에 대한 질의가 요청될 때마다 문자열 비교를 해야 하므로 성능저하가 발생할 여지가 있다. 따라서 복합 이벤트 처리 시스템에서 비정형 데이터를 관리하고 질의처리가 가능하도록 문자열의 논리적 스키마를 부여하고 데이터 통합 기능을 제안한다. 그리고 키워드 셋을 이용한 필터링 기능으로 문자열의 키워드를 정수형으로 변환함으로써 반복적인 비교 연산을 줄인다. 또한, 복합 이벤트 처리 시스템을 활용하면 인 메모리(In-memory)에서 실시간 스트림 데이터를 처리함으로써 디스크에 저장하고 불러들이는 시간을 줄여 성능 향상을 가져온다.

Recently, due to the growth of social media and spread of smart-phone, the amount of data has considerably increased by full use of SNS (Social Network Service). According to it, the Big Data concept is come up and many researchers are seeking solutions to make the best use of big data. To maximize the creative value of the big data held by many companies, it is required to combine them with existing data. The physical and theoretical storage structures of data sources are so different that a system which can integrate and manage them is needed. In order to process big data, MapReduce is developed as a system which has advantages over processing data fast by distributed processing. However, it is difficult to construct and store a system for all key words. Due to the process of storage and search, it is to some extent difficult to do real-time processing. And it makes extra expenses to process complex event without structure of processing different data. In order to solve this problem, the existing Complex Event Processing System is supposed to be used. When it comes to complex event processing system, it gets data from different sources and combines them with each other to make it possible to do complex event processing that is useful for real-time processing specially in stream data. Nevertheless, unstructured data based on text of SNS and internet articles is managed as text type and there is a need to compare strings every time the query processing should be done. And it results in poor performance. Therefore, we try to make it possible to manage unstructured data and do query process fast in complex event processing system. And we extend the data complex function for giving theoretical schema of string. It is completed by changing the string key word into integer type with filtering which uses keyword set. In addition, by using the Complex Event Processing System and processing stream data at real-time of in-memory, we try to reduce the time of reading the query processing after it is stored in the disk.

키워드

참고문헌

  1. J. Dean, S. Ghemawat, 2008, "MapReduce; Simplified Data Processing on Large Clusters", Communications of the ACM, vol. 51, no 1, pp.107-113. https://doi.org/10.1145/1327452.1327492
  2. Y. Diao, Neil Immerman, Daniel Gyllstrom, 2007, "SASE+: An Agile Language for Kleene Closure over Event Streams," In UMass Technical Report 07-03.
  3. B. Gedik, L. Liu, 2004, "ModiEyes: Distributed processing of continously moving queries on moving objects in a mobile system," Adavances in Database Techonology, vol. 2992, pp67-87.
  4. S. Ghemawat, H. Gobioff, S. Leung. 2003, "The Google file system," In Proc of ACM Symposium on Operating Systems Principles, Lake George, NY, Oct, pp29-43.
  5. D. Gyllstroml, E. Wu, H. Chae, Y. Diao, P. Stahlberg, G. Anderson, 2007, "SASE: Complex Event Processing over Streams," In CIDR' 07, Asilomar, CA, USA.
  6. H. Hu, J. Xu and D.L. Lee, 2005, "A generic framework for monitoring continuous spatial queries over moving objects," Proc. of the ACM SIGMOD International Conference on Management of Data, pp. 479-490.
  7. McKinsey, 2011, "Big Data: The Next Frontier for Innovation, Competition, and Productivity", [Online] McKinsey & Compnay, http:// www. mckinsey.com/.
  8. Apache Hadoop, http://hadoop.apache.org/, 2012
  9. "Complex Event Processing with Coral8 Final," 2009, http://www.microsoft.com/.
  10. "StreamBase Pattern Matching language," 2009, StreamBase, http://www.streambase.com/
  11. SYBASE, http://infocenter.sybase.com/, 2012.
  12. 강홍구, 박치민, 홍동숙, 한기준, 2007, "공간 센터 데이타의 효율적인 실시간 처리를 위한 공간 DSMS의 개발," 한국공간정보시스템학회지, 제9권, 제2호, pp.45-57.
  13. 신재완, 2010, "u-GIS DSMS에서 이기종 데이터 처리를 위한 어댑터 설게 및 구현," 인하대학교대학원.
  14. 박치민, 홍동숙, 박춘걸, 한기준, 2006, "STREAM을 기반으로 하는 공간 DSMS의 설계 및 구현," 한국공간정보시스템학회 추계학술대회 U-방재 국토의 구현, pp.131-136.
  15. 정원일, 신숭선, 백성하, 이연, 이동욱, 김경배, 이충호, 김주완, 배해영, 2009, "u-GIS 컴퓨팅을 위한 GeoSensor 데이터 스트림 처리 시스템," 한국공간정보시스템학회지, 제11권, 제1호, pp.9-16.