DOI QR코드

DOI QR Code

CERES: A Log-based, Interactive Web Analytics System for Backbone Networks

CERES: 백본망 로그 기반 대화형 웹 분석 시스템

  • Received : 2015.05.26
  • Accepted : 2015.07.29
  • Published : 2015.10.15

Abstract

The amount of web traffic has increased as a result of the rapid growth of the use of web-based applications. In order to obtain valuable information from web logs, we need to develop systems that can support interactive, flexible, and efficient ways to analyze and handle large amounts of data. In this paper, we present CERES, a log-based, interactive web analytics system for backbone networks. Since CERES focuses on analyzing web log records generated from backbone networks, it is possible to perform a web analysis from the perspective of a network. CERES is designed for deployment in a server cluster using the Hadoop Distributed File System (HDFS) as the underlying storage. We transform and store web log records from backbone networks into relations and then allow users to use a SQL-like language to analyze web log records in a flexible and interactive manner. In particular, we use the data cube technique to enable the efficient statistical analysis of web log. The system provides users a web-based, multi-modal user interface.

웹 응용 프로그램의 급격한 증가와 함께 웹 트래픽이 증가하고 있다. 웹에 대한 요청과 그 응답에 대한 기록인 웹 로그 또한 폭발적으로 증가하고 있다. 웹 로그로부터 가치 있는 정보를 취득하기 위해서는 매우 큰 용량의 데이터를 효과적이고 다양한 방법으로 다룰 수 있는 시스템이 필요하다. 본 논문에서는 백본망 로그 기반 대화형 웹 분석 시스템인 CERES를 소개한다. 기존의 웹 분석 시스템들과 달리, CERES는 하나의 웹 서버에 대한 분석이 아닌 백본망에서 생성되는 모든 웹 로그의 분석을 목적으로 한다. CERES는 하둡 분산 파일 시스템 (HDFS)을 저장소로 하는 서버 클러스터에 배포되며, 대용량의 로그에 기반한 분석을 분산 처리를 통해 지원한다. CERES는 백본망에서 생성된 웹 로그 데이터를 관계형 데이터로 변환하고, 사용자는 변환된 관계형 데이터에 대해 SQL을 이용하여 질의를 요청할 수 있다. 내부적으로 CERES는 웹 로그의 통계적 분석에 대한 질의를 효과적으로 처리하기 위해 데이터 큐브를 활용한다. 또한, CERES는 다양한 통계적 분석을 지원하기 위해 대화형 SQL 질의 인터페이스를 포함한 세 가지 형태의 웹 인터페이스를 제공하며 사용자는 이를 통해 쉽게 질의를 요청할 수 있고 그 결과를 시각적으로 확인할 수 있다.

Keywords

Acknowledgement

Supported by : 한국연구재단

References

  1. K. Shvachko, H. Kuang, S. Radia, and R. Chansler, "The Hadoop Distributed File System," Proc. of the 26th IEEE Symposium on Mass Storage Systems and Technology, pp. 1-10, 2010.
  2. J. Gray, S. Chauduri, A. Bosworth, A. Layman, D. Reichart, M. Venkatrao, F. Pellow, and H. Pirahesh, "Data cube: A relational aggregation operator generalizing group-by, cross-tab, and sub-totals," Data Mining and Knowledge Discovery, Vol. 1, pp. 29-54, 1997. https://doi.org/10.1023/A:1009726021843
  3. "Open Web Analytics," [Online]. Available: http://www.openwebanalytics.com.
  4. "W3Perl," [Online]. Available: http://www.w3perl.com.
  5. "Deep Log Analyzer," [Online]. Available: http://www.deep-software.com/benefits/.
  6. J. Wang, "A survey of web caching schemes for the internet," ACM SIGCOMM Computer Communication Review, Vol. 29, No. 5, pp. 36-46, 1999. https://doi.org/10.1145/505696.505701
  7. "Jaguar," [Online]. Available: http://www.aranetworks.com/products/jaguar/5000.
  8. "The native format for Squid," [Online]. Available: http://wiki.squid-cache.org/Features/LogFormat.
  9. H. Choi, J. Son, H. Yang, H. Ryu, B. Lim, S. Kim, and Y. D. Chung, "Tajo: a distributed data warehouse system on large clusters," Proc. of the 29th International Conference on Data Engineering, pp. 1320-1323, 2013.
  10. "GeoIp," [Online]. Available: https://www.maxmind.com/en/geolocation_landing.
  11. "TPC-H," [Online]. Available: https://www.tpc.org/tpch/.