• 제목/요약/키워드: Hadoop security

검색결과 35건 처리시간 0.027초

하둡 보안 기술과 취약점 분석 (Hadoop Security Technologies and Vulnerability Analysis)

  • 김아용;하의륜;김한길;박만섭;정회경
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2013년도 춘계학술대회
    • /
    • pp.681-683
    • /
    • 2013
  • 스마트폰이 보급되어 빅 데이터(Big Data) 시대를 맞이하였고, 페이스북(FaceBook)이나 트위터(Twitter)같은 SNS(Social Network Service)를 실생활에서 일상화되어 사용하고 있다. 여기서 발생하는 SNS의 비정형 데이터를 버리지 않고 분석 및 추출하고 활용하기 위해서 아파치 재단에서 개발된 하둡(Hadoop)을 활용하고 있다. 하둡은 대량의 자료를 처리할 수 있는 오픈 소스 프레임워크(Open Source Framework)이다. 하둡은 국내의 기업에서도 도입하고 있으며 현재 개발 및 상용하고 있다. 그러나 하둡은 기술 개발에 비해 보안 분야는 미흡하다는 지적을 받고 있다. 이에 본 논문에서는 하둡의 보안 기술과 취약점을 분석하고 보안을 향상시키는 방법을 제안한다.

  • PDF

Kerberos 기반 하둡 분산 파일 시스템의 안전성 향상방안 (A Study on Security Improvement in Hadoop Distributed File System Based on Kerberos)

  • 박소현;정익래
    • 정보보호학회논문지
    • /
    • 제23권5호
    • /
    • pp.803-813
    • /
    • 2013
  • 최근 스마트 기기 및 소셜 네트워크 서비스의 발달로 인해 데이터가 폭증하며 세계는 이른바 빅데이터 시대를 맞고 있다. 이에 이러한 데이터를 처리할 수 있는 새로운 기술인 빅데이터 처리기술은 클라우드 컴퓨팅 기술과 함께 주목받고 있으며, 가장 대표적인 기술이 바로 하둡이다. 하둡 분산 파일 시스템은 상용 리눅스 서버에서 실행되도록 설계된 오픈소스 프레임워크로서 수백 테라바이트 크기의 파일을 저장할 수 있다. 초기 하둡은 빅데이터 처리에 초점을 맞추어 보안이 거의 도입되지 않은 상태였으나 사용자가 빠르게 늘어남에 따라 하둡 분산 파일 시스템에 개인정보를 포함한 민감한 데이터가 많이 저장되면서, 2009년 커버로스와 토큰 시스템을 도입한 새로운 버전을 발표하였다. 그러나 이 시스템은 재전송 공격, 가장 공격 등이 가능하다는 취약점을 가진다. 따라서 본 논문에서는 하둡 분산 파일 시스템 보안 취약점을 분석하고, 이러한 취약점을 보완하면서 하둡의 성능을 유지할 수 있는 새로운 프로토콜을 제안한다.

A Novel Node Management in Hadoop Cluster by using DNA

  • Balaraju. J;PVRD. Prasada Rao
    • International Journal of Computer Science & Network Security
    • /
    • 제23권9호
    • /
    • pp.134-140
    • /
    • 2023
  • The distributed system is playing a vital role in storing and processing big data and data generation is speedily increasing from various sources every second. Hadoop has a scalable, and efficient distributed system supporting commodity hardware by combining different networks in the topographical locality. Node support in the Hadoop cluster is rapidly increasing in different versions which are facing difficulty to manage clusters. Hadoop does not provide Node management, adding and deletion node futures. Node identification in a cluster completely depends on DHCP servers which managing IP addresses, hostname based on the physical address (MAC) address of each Node. There is a scope to the hacker to theft the data using IP or Hostname and creating a disturbance in a distributed system by adding a malicious node, assigning duplicate IP. This paper proposing novel node management for the distributed system using DNA hiding and generating a unique key using a unique physical address (MAC) of each node and hostname. The proposed mechanism is providing better node management for the Hadoop cluster providing adding and deletion node mechanism by using limited computations and providing better node security from hackers. The main target of this paper is to propose an algorithm to implement Node information hiding in DNA sequences to increase and provide security to the node from hackers.

빅데이터 플랫폼을 이용한 보안로그 분석 시스템 구현 모델 연구 (A Study on implementation model for security log analysis system using Big Data platform)

  • 한기형;정형종;이두식;채명희;윤철희;노규성
    • 디지털융복합연구
    • /
    • 제12권8호
    • /
    • pp.351-359
    • /
    • 2014
  • 보안 장비에서 발생하는 로그는 그동안 ESM(Enterprise Security Management) 기반으로 통합적으로 데이터를 분석하였으나 데이터 저장 용량의 한계와 ESM자체의 데이터 처리 성능의 한계로 빅데이터 처리에 부적합하기 때문에 빅데이터 플랫폼을 이용한 보안로그 분석 기술이 필요하다. 빅데이터 플랫폼은 Hadoop Echosystem을 이용하여 대용량의 데이터 수집, 저장, 처리, 검색, 분석, 시각화 기능을 구현할 수 있다. 현재 ESM기술은 SIEM(Security Information & Event Management)방식으로 기술이 발전하고 있으며 SIEM방식의 보안기술을 구현하기 위해서는 현재 보안장비에서 발생하는 방대한 로그 데이터를 처리할 수 있는 빅데이터 플랫폼 기술이 필수적이다. 본 논문은 Hadoop Echosystem 이 가지고 있는 빅데이터 플랫폼 기술을 활용하여 보안로그를 분석하기 위한 시스템을 어떻게 구현할 수 있는지에 대한 모델을 연구하였다.

An Empirical Performance Analysis on Hadoop via Optimizing the Network Heartbeat Period

  • Lee, Jaehwan;Choi, June;Roh, Hongchan;Shin, Ji Sun
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제12권11호
    • /
    • pp.5252-5268
    • /
    • 2018
  • To support a large-scale Hadoop cluster, Hadoop heartbeat messages are designed to deliver the significant messages, including task scheduling and completion messages, via piggybacking to reduce the number of messages received by the NameNode. Although Hadoop is designed and optimized for high-throughput computing via batch processing, the real-time processing of large amounts of data in Hadoop is increasingly important. This paper evaluates Hadoop's performance and costs when the heartbeat period is controlled to support latency sensitive applications. Through an empirical study based on Hadoop 2.0 (YARN) architecture, we improve Hadoop's I/O performance as well as application performance by up to 13 percent compared to the default configuration. We offer a guideline that predicts the performance, costs and limitations of the total system by controlling the heartbeat period using simple equations. We show that Hive performance can be improved by tuning Hadoop's heartbeat periods through extensive experiments.

Hadoop 기반의 대용량 데이터 보안 시스템에 관한 연구 (A Study on the Massive Data Security System of the Hadoop Based)

  • 김효남
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2016년도 제53차 동계학술대회논문집 24권1호
    • /
    • pp.305-306
    • /
    • 2016
  • 현재 스마트 시대에 살고 있는 우리는 매우 복잡하고 거미줄처럼 연결되어 있는 빅 데이터 환경에서 살고 있다. 이런 환경에서는 대용량 데이터를 효율적으로 관리하고 활용하는 것이 개인이나 기업들이 추구하려는 목표이다. 빅 데이터 시대에 데이터의 효율적인 관리와 활용을 위해 다양한 장비에서 수집되고 저장된 대용량 데이터에 대해서 일반적인 데이터 분석을 통한 보안 기술로는 상당한 시간과 자원 낭비가 수반된다. 이를 개선하기 위해 본 논문에서는 하둡을 이용하여 대용량 데이터에 대한 처리 및 분석을 통해 효과적인 보안 시스템을 제안한다.

  • PDF

빅데이터 분석 기술(Hadoop/Hive) 기반 네트워크 정상행위 규정 방법 (A Normal Network Behavior Profiling Method Based on Big Data Analysis Techniques (Hadoop/Hive))

  • 김성진;김강석
    • 정보보호학회논문지
    • /
    • 제27권5호
    • /
    • pp.1117-1127
    • /
    • 2017
  • 사물인터넷 시대의 도래로 인터넷에 연결된 다양한 기기들의 사용은 급성장 하였으나 사물인터넷 보안은 아직 취약한 상태이다. 사물인터넷은 목적에 따라 다양한 기기들이 사용되고 또한 저 전력 환경에서 동작할 수 있도록 각기 다른 프로토콜들을 사용하고 있으며, 많은 양의 트래픽을 발생시켜 기존 보안 기술들을 접목시키기 어렵다. 그러므로 본 논문에서는 이러한 문제점을 해결하기 위한 방안중의 하나로 Hadoop/Hive를 이용한 빅데이터 분석 기술 및 통계 분석 도구인 R을 활용하여 네트워크 정상행위 규정 방법을 제시하며 시뮬레이션을 통해 제안한 방법의 유효성을 검증한다.

A Survey on the Performance Comparison of Map Reduce Technologies and the Architectural Improvement of Spark

  • Raghavendra, GS;Manasa, Bezwada;Vasavi, M.
    • International Journal of Computer Science & Network Security
    • /
    • 제22권5호
    • /
    • pp.121-126
    • /
    • 2022
  • Hadoop and Apache Spark are Apache Software Foundation open source projects, and both of them are premier large data analytic tools. Hadoop has led the big data industry for five years. The processing velocity of the Spark can be significantly different, up to 100 times quicker. However, the amount of data handled varies: Hadoop Map Reduce can process data sets that are far bigger than Spark. This article compares the performance of both spark and map and discusses the advantages and disadvantages of both above-noted technologies.

해쉬 체인 기반의 안전한 하둡 분산 파일 시스템 인증 프로토콜 (Secure Authentication Protocol in Hadoop Distributed File System based on Hash Chain)

  • 정소원;김기성;정익래
    • 정보보호학회논문지
    • /
    • 제23권5호
    • /
    • pp.831-847
    • /
    • 2013
  • 모바일 대중화에 따른 소셜 미디어의 확산과 함께 다양한 형태의 데이터가 대량으로 생산되고 있다. 이에 따라 대규모 데이터 분석을 통해 가치 있는 비즈니스 정보를 얻고자 하는 기업들의 빅데이터 기술 도입 및 활용 또한 날로 증가하는 추세이다. 특히, 하둡은 테라바이트 단위의 파일 저장 능력과 저렴한 구축비용, 빠른 데이터 처리 속도로 가장 대표적인 빅데이터 기술로 손꼽힌다. 하지만 현재 하둡 분산 파일 시스템의 사용자 인증을 위한 인증 토큰 시스템은 토큰 재전송 공격, 데이터노드 해킹 공격에 취약하다. 이는 하둡 분산 파일 시스템 상에 저장된 기업 기밀 데이터 및 고객 개인 정보 등의 안전을 위협할 수 있다. 본 논문에서는 토큰 및 데이터노드가 공격자에게 노출되었을 때 발생 가능한 하둡 분산 파일 시스템의 보안 취약성을 분석하고, 해쉬 체인을 사용한 보다 안전한 하둡 분산 파일 시스템 인증 프로토콜을 제안한다.

하둡 기반의 효율적인 보안로그 분석시스템 설계 및 구현 (Design and Implementation of a Hadoop-based Efficient Security Log Analysis System)

  • 안광민;이종윤;양동민;이봉환
    • 한국정보통신학회논문지
    • /
    • 제19권8호
    • /
    • pp.1797-1804
    • /
    • 2015
  • 통합로그관리시스템은 보안 위험 사항을 예측하고 기관의 보안성 향상에 기여하여 적합한 보안 정책을 마련할 수 있도록 도와준다. 본 논문에서는 대용량의 로그 데이터를 저장할 수 있는 분산 데이터베이스 모델과 로그 수집 절차를 자동화하여 분석 시간을 줄일 수 있는 하둡 기반의 로그 분석 시스템을 설계하고 구현하였다. 제안하는 시스템에서는 HBase를 사용하여 데이터 용량에 따라 Scale-Out 방식으로 유연하게 저장할 수 있게 하였고 정규식을 이용하여 분석에 용이한 저장 기법을 제안하여 기존 시스템 대비 분석 속도를 높일 수 있다.