DOI QR코드

DOI QR Code

하둡과 하이브를 이용한 BGP 아카이브 데이터의 포렌직 분석 툴

Yet Another BGP Archive Forensic Analysis Tool Using Hadoop and Hive

  • 이연희 (충남대학교 컴퓨터공학과) ;
  • 이영석 (충남대학교 컴퓨터공학과)
  • 투고 : 2014.09.04
  • 심사 : 2015.01.27
  • 발행 : 2015.04.15

초록

지속적으로 축적되는 BGP 아카이브 파일은 데이터의 규모로 인해 관리와 분석 방법에 대한 기술적인 어려움에 처해 있다. 최근 오픈소스 분산 컴퓨팅 기반인 하둡 (Hadoop)의 발전에 힘입어 대량의 데이터를 효율적으로 다루는 것이 가능해졌다. 본 논문에서는 대량의 BGP 아카이브 데이터로부터 민첩한 분석 방법을 제공하고 저가의 컴퓨터를 이용하여 성능 확장이 가능한 하둡 기반의 BGP 분석 아키텍쳐 (BGPdoop)를 제안한다. BGPdoop은 여러 지점에서 수집하여 오랜 기간 축적된 대량의 BGP 아카이브 데이터의 효율적인 관리와 분석을 위하여 데이터의 구조와 접근 방법을 정의하고, 유연하고 민첩한 질의 기반의 BGP 분석 방법을 제시한다. 20대 노드로 구성된 테스트베드를 이용한 규모확장성 실험에서 4대 노드 대비 5배의 단위 시간당 증가된 처리량을 확인했다. 또한 하이브 (Hive) 질의를 이용한 BGP 라우팅의 포렌식 분석 사례를 통해 본 논문의 제안방법에 대한 타당성을 제시한다.

A large volume of continuously growing BGP data files can raise two technical challenges regarding scalability and manageability. Due to the recent development of the open-source distributed computing infrastructure, Hadoop, it becomes feasible to handle a large amount of data in a scalable manner. In this paper, we present a new Hadoop-based BGP tool (BGPdoop) that provides the scale-out performance as well as the extensible and agile analysis capability. In particular, BGPdoop realizes a query-based BGP record exploration function using Hive on the partitioned BGP data structure, which enables flexible and versatile analytics of BGP archive files. From the experiments for the scalability with a Hadoop cluster of 20 nodes, we demonstrate that BGPdoop achieves 5 times higher performance and the user-defined analysis capability by expressing diverse BGP routing analytics in Hive queries.

키워드

과제정보

연구 과제 주관 기관 : 충남대학교

참고문헌

  1. Potaroo, [Online]. Available: http://www.potaroo.net/index-bgp.html.
  2. University of Oregon Route Views. [Online]. Available: http://www.routeviews.org.
  3. RIPE NCC RIS, [Online]. Available: http://www.ripe.net/data-tools/stats/ris/ris-raw-data.
  4. Y. Zhang and M. Tatipamula, "A Comprehensive Long-Term Evaluation on BGP Performance," IEEE ICC, Jun. 2011.
  5. A. Dhamdhere and C. Dovrolis, "Twelve years in the evolution of the Internet ecosystem," IEEE/ACM Transactions on Networking, Vol. 19, No. 5, pp. 1420-1433, Sep. 2011. https://doi.org/10.1109/TNET.2011.2119327
  6. Y. Zhang, Z. Zhang, Z. Mao, C. Hu, and B. Maggs, "On the impact of route monitor selection," ACM Internet measurement conference (IMC '07), 2007.
  7. A. Dainotti, C. Squarcella, E. Aben, K. C. Claffy, M. Chiesa, M. Russo, and A. Pescap, "Analysis of countrywide internet outages caused by censorship," ACMSIGCOMM conference on Internet measurement (IMC '11), 2011.
  8. S. Ghemawat, H. Gobioff, and S. Leung, "The Google file system, SOSP, Oct. 2003.
  9. Hadoop, [Online]. Available: http://hadoop.apache.org/.
  10. Y. Zhang, and M. Tatipamula, "A Comprehensive Long-Term Evaluation on BGP Performance," IEEE ICC 2011, 2011.
  11. G. Comarla, G. Gursun, and M. Crovella, "Studying interdomain routing over long timescales," ACMSIGCOMM conference on Internet measurement (IMC '11), 2013.
  12. M. Lad, X. Zhao, B. Zhang, D., and L. Zhang, "Analysis of BGP update surge during slammer worm attack," Proc. of 6th International Workshop on Distributed Computing (IWDC), Dec. 2004.
  13. H. Yan, R. Oliveira, K. Burnett, D. Matthews, L. Zhang, and D. Massey, "BGPmon: a real-time, scalable, extensible monitoring system," 2009 Cybersecurity Applications & Technology Conference for Homeland Security, Mar. 2009.
  14. L. Blunk, M. Karir, and C. Labovitz, "Multi-Threaded Routing Toolkit (MRT) Routing Information Export Format," IETF RFC6396, Oct. 2011.
  15. Y. Lee, Y. Lee, "Toward scalable internet traffic measurement and analysis with Hadoop," ACM SIGCOMM Computer Communication Review, Vol. 43, No. 1, Jan. 2013.
  16. PacketPig, [Online]. Available: https://github.com/packetloop/packetpigbgptools, http://nms.lcs.mit.edu/software/bgp/bgptools/

피인용 문헌

  1. A Study on Possible Construction of Big Data Analysis System Applied to the Offline Market vol.14, pp.9, 2016, https://doi.org/10.14400/JDC.2016.14.9.317