• 제목/요약/키워드: Big Data Log Analysis System

검색결과 38건 처리시간 0.067초

빅데이터 로그를 이용한 실시간 예측분석시스템 설계 및 구현 (Real time predictive analytic system design and implementation using Bigdata-log)

  • 이상준;이동훈
    • 정보보호학회논문지
    • /
    • 제25권6호
    • /
    • pp.1399-1410
    • /
    • 2015
  • 기업들은 다가오는 데이터 경쟁시대를 이해하고 이에 대비해야 한다며 가트너는 기업의 생존 패러다임에 많은 변화를 요구하고 있다. 또한 통계 알고리즘 기반의 예측분석을 통한 비즈니스 성공 사례들이 발표되면서, 과거 데이터 분석에 따른 사후 조치에서 예측 분석에 의한 선제적 대응으로의 전환은 앞서가고 있는 기업의 필수품이 되어 가고 있다. 이러한 경향은 보안 분석 및 로그 분석 분야에도 영향을 미치고 있으며, 실제로 빅데이터화되고 있는 대용량 로그에 대한 분석과 지능화, 장기화되고 있는 보안 분석에 빅데이터 분석 프레임워크를 활용하는 사례들이 속속 발표되고 있다. 그러나 빅데이터 로그 분석 시스템에 요구되는 모든 기능 및 기술들을 하둡 기반의 빅데이터 플랫폼에서 수용할 수 없는 문제점들이 있어서 독자적인 플랫폼 기반의 빅데이터 로그 분석 제품들이 여전히 시장에 공급되고 있다. 본 논문에서는 이러한 독자적인 빅데이터 로그 분석 시스템을 위한 실시간 및 비실시간 예측 분석 엔진을 탑재하여 사이버 공격에 선제적으로 대응할 수 있는 프레임워크를 제안하고자 한다.

보안로그 빅데이터 분석 효율성 향상을 위한 방화벽 로그 데이터 표준 포맷 제안 (For Improving Security Log Big Data Analysis Efficiency, A Firewall Log Data Standard Format Proposed)

  • 배춘석;고승철
    • 정보보호학회논문지
    • /
    • 제30권1호
    • /
    • pp.157-167
    • /
    • 2020
  • 최근 4차 산업혁명 도래의 기반을 제공한 빅데이터와 인공지능 기술은 산업 전반의 혁신을 견인하는 주요 동력이 되고 있다. 정보보안 영역에서도 그동안 효과적인 활용방안을 찾기 어려웠던 대규모 로그 데이터에 이러한 기술들을 적용하여 지능형 보안 체계를 개발 및 발전시키고자 노력하고 있다. 보안 인공지능 학습의 기반이 되는 보안로그 빅데이터의 품질은 곧 지능형 보안 체계의 성능을 결정짓는 중요한 입력 요소라고 할 수 있다. 하지만 다양한 제품 공급자에 따른 로그 데이터의 상이성과 복잡성은 빅데이터 전처리 과정에서 과도한 시간과 노력을 요하고 품질저하를 초래하는 문제가 있다. 본 연구에서는 다양한 방화벽 로그 데이터 포맷 관련 사례와 국내외 표준 조사를 바탕으로 데이터 수집 포맷 표준안을 제시하여 보안 로그 빅데이터를 기반으로 하는 지능형 보안 체계 발전에 기여하고자 한다.

로그 분석 처리율 향상을 위한 맵리듀스 기반 분할 빅데이터 분석 기법 (MapReduce-Based Partitioner Big Data Analysis Scheme for Processing Rate of Log Analysis)

  • 이협건;김영운;박지용;이진우
    • 한국정보전자통신기술학회논문지
    • /
    • 제11권5호
    • /
    • pp.593-600
    • /
    • 2018
  • 인터넷과 스마트기기의 발달로 인해 소셜미디어 등 다양한 미디어의 접근의 용이해짐에 따라 많은 양의 빅데이터들이 생성되고 있다. 특히 다양한 인터넷 서비스를 제공하는 기업들은 고객 성향 및 패턴, 보안성 강화를 위해 맵리듀스 기반 빅데이터 분석 기법들을 활용하여 빅데이터 분석하고 있다. 그러나 맵리듀스는 리듀스 단계에서 생성되는 리듀서 객체의 수를 한 개로 정의하고 있어, 빅데이터 분석할 때 처리될 많은 데이터들이 하나의 리듀서 객체에 집중된다. 이로 인해 리듀서 객체는 병목현상이 발생으로 빅데이터 분석 처리율이 감소한다. 이에 본 논문에서는 로그 분석처리율 향상을 위한 맵리듀스 기반 분할 빅데이터 분석 기법을 제안한다. 제안한 기법은 리듀서 분할 단계와 분석 결과병합 단계로 구분하며 리듀서 객체의 수를 유동적으로 생성하여 병목현상을 감소시켜 빅데이터 처리율을 향상시킨다.

빅데이터 플랫폼을 이용한 보안로그 분석 시스템 구현 모델 연구 (A Study on implementation model for security log analysis system using Big Data platform)

  • 한기형;정형종;이두식;채명희;윤철희;노규성
    • 디지털융복합연구
    • /
    • 제12권8호
    • /
    • pp.351-359
    • /
    • 2014
  • 보안 장비에서 발생하는 로그는 그동안 ESM(Enterprise Security Management) 기반으로 통합적으로 데이터를 분석하였으나 데이터 저장 용량의 한계와 ESM자체의 데이터 처리 성능의 한계로 빅데이터 처리에 부적합하기 때문에 빅데이터 플랫폼을 이용한 보안로그 분석 기술이 필요하다. 빅데이터 플랫폼은 Hadoop Echosystem을 이용하여 대용량의 데이터 수집, 저장, 처리, 검색, 분석, 시각화 기능을 구현할 수 있다. 현재 ESM기술은 SIEM(Security Information & Event Management)방식으로 기술이 발전하고 있으며 SIEM방식의 보안기술을 구현하기 위해서는 현재 보안장비에서 발생하는 방대한 로그 데이터를 처리할 수 있는 빅데이터 플랫폼 기술이 필수적이다. 본 논문은 Hadoop Echosystem 이 가지고 있는 빅데이터 플랫폼 기술을 활용하여 보안로그를 분석하기 위한 시스템을 어떻게 구현할 수 있는지에 대한 모델을 연구하였다.

오픈소스 ELK Stack 활용 정보보호 빅데이터 분석을 통한 보안관제 구현 (Security Operation Implementation through Big Data Analysis by Using Open Source ELK Stack)

  • 현정훈;김형중
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권1호
    • /
    • pp.181-191
    • /
    • 2018
  • IT발전과 함께 해킹 범죄는 지능화, 정교화 되고 있다. 침해대응에 있어 빅데이터 분석이란 정보보호 시스템에서 발생하는 정상로그 등 전체 로그를 수집, 저장, 분석 및 시각화하여 이상행위와 같은 특이점을 도출하는 것이다. 기존에 간과해왔던 데이터를 포함하는 전수 로그를 활용하여 사이버 침해의 초기단계에서부터 침해에 대한 이상 징후를 탐지 및 대응하고자 한다. 정보보호 시스템과 단말 및 서버 등에서 발생하는 비정형에 가까운 빅데이터를 분석하기 위해서 오픈소스 기술을 사용하였다. ELK Stack 오픈소스를 사용한다는 점은 해당 기관의 자체 인력으로 기업 환경에 최적화된 정보보호 관제 체계를 구축하는 것이다. 고가의 상용 데이터 통합 분석 솔루션에 의존할 필요가 없으며, 자체 인력으로 직접 정보보호 관제 체계를 구현함으로써 침해대응의 기술 노하우 축적이 가능하다.

An Efficient Design and Implementation of an MdbULPS in a Cloud-Computing Environment

  • Kim, Myoungjin;Cui, Yun;Lee, Hanku
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제9권8호
    • /
    • pp.3182-3202
    • /
    • 2015
  • Flexibly expanding the storage capacity required to process a large amount of rapidly increasing unstructured log data is difficult in a conventional computing environment. In addition, implementing a log processing system providing features that categorize and analyze unstructured log data is extremely difficult. To overcome such limitations, we propose and design a MongoDB-based unstructured log processing system (MdbULPS) for collecting, categorizing, and analyzing log data generated from banks. The proposed system includes a Hadoop-based analysis module for reliable parallel-distributed processing of massive log data. Furthermore, because the Hadoop distributed file system (HDFS) stores data by generating replicas of collected log data in block units, the proposed system offers automatic system recovery against system failures and data loss. Finally, by establishing a distributed database using the NoSQL-based MongoDB, the proposed system provides methods of effectively processing unstructured log data. To evaluate the proposed system, we conducted three different performance tests on a local test bed including twelve nodes: comparing our system with a MySQL-based approach, comparing it with an Hbase-based approach, and changing the chunk size option. From the experiments, we found that our system showed better performance in processing unstructured log data.

환자의 프로세스 로그 정보를 이용한 진단 분석 (Diagnosis Analysis of Patient Process Log Data)

  • 배준수
    • 산업경영시스템학회지
    • /
    • 제42권4호
    • /
    • pp.126-134
    • /
    • 2019
  • Nowadays, since there are so many big data available everywhere, those big data can be used to find useful information to improve design and operation by using various analysis methods such as data mining. Especially if we have event log data that has execution history data of an organization such as case_id, event_time, event (activity), performer, etc., then we can apply process mining to discover the main process model in the organization. Once we can find the main process from process mining, we can utilize it to improve current working environment. In this paper we developed a new method to find a final diagnosis of a patient, who needs several procedures (medical test and examination) to diagnose disease of the patient by using process mining approach. Some patients can be diagnosed by only one procedure, but there are certainly some patients who are very difficult to diagnose and need to take several procedures to find exact disease name. We used 2 million procedure log data and there are 397 thousands patients who took 2 and more procedures to find a final disease. These multi-procedure patients are not frequent case, but it is very critical to prevent wrong diagnosis. From those multi-procedure taken patients, 4 procedures were discovered to be a main process model in the hospital. Using this main process model, we can understand the sequence of procedures in the hospital and furthermore the relationship between diagnosis and corresponding procedures.

A Study on the Calculation and Provision of Accruals-Quality by Big Data Real-Time Predictive Analysis Program

  • Shin, YeounOuk
    • International journal of advanced smart convergence
    • /
    • 제8권3호
    • /
    • pp.193-200
    • /
    • 2019
  • Accruals-Quality(AQ) is an important proxy for evaluating the quality of accounting information disclosures. High-quality accounting information will provide high predictability and precision in the disclosure of earnings and will increase the response to stock prices. And high Accruals-Quality, such as mitigating heterogeneity in accounting information interpretation, provides information usefulness in capital markets. The purpose of this study is to suggest how AQ, which represents the quality of accounting information disclosure, is transformed into digitized data in real-time in combination with IT information technology and provided to financial analyst's information environment in real-time. And AQ is a framework for predictive analysis through big data log analysis system. This real-time information from AQ will help financial analysts to increase their activity and reduce information asymmetry. In addition, AQ, which is provided in real time through IT information technology, can be used as an important basis for decision-making by users of capital market information, and is expected to contribute in providing companies with incentives to voluntarily improve the quality of accounting information disclosure.

하둡 에코시스템을 활용한 로그 데이터의 이상 탐지 기법 (Anomaly Detection Technique of Log Data Using Hadoop Ecosystem)

  • 손시운;길명선;문양세
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권2호
    • /
    • pp.128-133
    • /
    • 2017
  • 최근 대용량 데이터 분석을 위해 다수의 서버를 사용하는 시스템이 증가하고 있다. 대표적인 빅데이터 기술인 하둡은 대용량 데이터를 다수의 서버로 구성된 분산 환경에 저장하여 처리한다. 이러한 분산 시스템에서는 각 서버의 시스템 자원 관리가 매우 중요하다. 본 논문은 다수의 서버에서 수집된 로그 데이터를 토대로 간단하면서 효율적인 이상 탐지 기법을 사용하여 로그 데이터의 변화가 급증하는 이상치를 탐지하고자 한다. 이를 위해, 각 서버로부터 로그 데이터를 수집하여 하둡 에코시스템에 저장할 수 있도록 Apache Hive의 저장 구조를 설계하고, 이동 평균 및 3-시그마를 사용한 세 가지 이상 탐지 기법을 설계한다. 마지막으로 실험을 통해 세 가지 기법이 모두 올바로 이상 구간을 탐지하며, 또한 가중치가 적용된 이상 탐지 기법이 중복을 제거한 더 정확한 탐지 기법임을 확인한다. 본 논문은 하둡 에코시스템을 사용하여 간단한 방법으로 로그 데이터의 이상을 탐지하는 우수한 결과라 사료된다.

Smart-Walk 시스템에서 스트림 빅데이터 분석을 통한 최적화 기법 (An Optimization Technique for Smart-Walk Systems Using Big Stream Log Data)

  • 조완섭;양경은;이중엽
    • 한국산업정보학회논문지
    • /
    • 제17권3호
    • /
    • pp.105-114
    • /
    • 2012
  • 본 논문에서는 장애인의 보행을 지원하는 Smart-Walk 시스템에서 하나의 시스템으로 여러 유형의 장애인을 지원할 수 있도록 하는 유니버설 디자인개념의 데이터베이스 구축방안을 제시한다. 또한, 운행로그를 분석하여 사용자의 사용현황과 이탈비율을 계산함으로써 시스템의 최적운영을 지원하는 방안을 제시한다. 다양한 사용자 유형과 그에 적합한 사용방법들을 데이터베이스에 저장하고 관리함으로써 간단하게 다양한 유형의 사용자들에게 지원할 수 있는 방법은 진정한 유니버설디자인 이념의 실현이라 할 수 있다. 사용자의 운행로그를 데이터웨어하우스 형태로 저장하고 온라인 분석 기법을 적용함으로써 시스템의 최적 운영에 유용한 정보를 실시간으로 추출해 낼 수 있게 된다.