• 제목/요약/키워드: Big Data Log Analysis System

검색결과 38건 처리시간 0.022초

Auto Configuration Module for Logstash in Elasticsearch Ecosystem

  • Ahmed, Hammad;Park, Yoosang;Choi, Jongsun;Choi, Jaeyoung
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 추계학술발표대회
    • /
    • pp.39-42
    • /
    • 2018
  • Log analysis and monitoring have a significant importance in most of the systems. Log management has core importance in applications like distributed applications, cloud based applications, and applications designed for big data. These applications produce a large number of log files which contain essential information. This information can be used for log analytics to understand the relevant patterns from varying log data. However, they need some tools for the purpose of parsing, storing, and visualizing log informations. "Elasticsearch, Logstash, and Kibana"(ELK Stack) is one of the most popular analyzing tools for log management. For the ingestion of log files configuration files have a key importance, as they cover all the services needed to input, process, and output the log files. However, creating configuration files is sometimes very complicated and time consuming in many applications as it requires domain expertise and manual creation. In this paper, an auto configuration module for Logstash is proposed which aims to auto generate the configuration files for Logstash. The primary purpose of this paper is to provide a mechanism, which can be used to auto generate the configuration files for corresponding log files in less time. The proposed module aims to provide an overall efficiency in the log management system.

Hadoop기반의 공개의료정보 빅 데이터 분석을 통한 한국여성암 검진 요인분석 서비스 (Analysis of Factors for Korean Women's Cancer Screening through Hadoop-Based Public Medical Information Big Data Analysis)

  • 박민희;조영복;김소영;박종배;박종혁
    • 한국정보통신학회논문지
    • /
    • 제22권10호
    • /
    • pp.1277-1286
    • /
    • 2018
  • 본 논문에서는 공개의료정보 빅데이터 분석을 위해 클라우드 환경에서 아파치 하둡 기반의 클라우드 환경을 도입하여 컴퓨팅 자원의 유연한 확장성을 제공하고 실제로, 로그데이터가 장기간 축적되거나 급격하게 증가하는 상황에서 스토리지, 메모리 등의 자원을 신속성 있고 유연하게 확장을 할 수 있는 기능을 포함했다. 또한, 축적된 비정형 로그데이터의 실시간 분석이 요구되어질 때 기존의 분석도구의 처리한계를 극복하기 위해 본 시스템은 하둡 (Hadoop) 기반의 분석모듈을 도입함으로써 대용량의 로그데이터를 빠르고 신뢰성 있게 병렬 분산 처리할 수 있는 기능을 제공한다. 빅데이터 분석을 위해 빈도분석과 카이제곱검정을 수행하고 유의 수준 0.05를 기준으로 단변량 로지스틱 회귀분석과 모델별 의미 있는 변수들의 다변량 로지스틱 회귀분석을 시행 하였다. (p<0.05) 의미 있는 변수들을 모델별로 나누어 다변량 로지스틱 회귀 분석한 결과 Model 3으로 갈수록 적합도가 높아졌다.

Web Server Log Visualization

  • Kim, Jungkee
    • International journal of advanced smart convergence
    • /
    • 제7권4호
    • /
    • pp.101-107
    • /
    • 2018
  • Visitors to a Web site leave access logs documenting their activity in the site. These access logs provide a valuable source of information about the visitors' access patterns in the Web site. In addition to the pages that the user visited, it is generally possible to discover the geographical locations of the visitors. Web servers also records other information such as the entry into the site, the URL, the used operating system and the browser, etc. There are several Web mining techniques to extract useful information from such information and visualization of a Web log is one of those techniques. This paper presents a technique as well as a case a study of visualizing a Web log.

이기종 네트워크 장치를 사용하는 시스템의 효율적인 관리를 위한 로그 수집 방법 (Log Collection Method for Efficient Management of Systems using Heterogeneous Network Devices)

  • 양재호;김영곤
    • 한국인터넷방송통신학회논문지
    • /
    • 제23권3호
    • /
    • pp.119-125
    • /
    • 2023
  • IT 인프라 운영이 고도화하면서 시스템을 관리하는 방식이 널리 보급되어 있으며, 최근에는 Syslog를 활용한 개선방법들이 연구되고 있다. 그러나 이러한 방법으로 수집한 로그 데이터를 활용하여 시스템 관제를 할 경우 다양한 형식으로 추출되는 로그를 전문 인력이 분석해야 하는 어려움이 있다. 본 논문은 엣지 컴퓨팅을 활용하여 Syslog 데이터를 분산 수집하고 중복 데이터를 전처리하여 중앙 데이터베이스에 적재하는 시스템을 구축 방법을 제시하고자 한다. 또한, 데이터사전을 구성하여 실시간으로 데이터를 분류하고 카운팅하는 기능을 제공하며, 데이터사전에 등록된 데이터에 대해서는 중앙 데이터베이스로의 전송을 제한하는 시스템을 구현한다. 이를 통해 데이터 사전의 정의어 패턴을 유지하며, 중복 데이터와 시간 중복을 제어하여 중앙 데이터베이스에 정제된 데이터를 적재함으로써 빅데이터 분석을 위한 기초 자료를 확보할 수 있다. 시뮬레이션결과 제안된 알고리즘과 프로시저를 구체적인 예시와 함께 설명하고, syslog 데이터를 활용하여 그 성능을 검증하였다. syslog 데이터는 실제 로그 데이터에서 추출한 예시를 포함하고 있으며 이를 통해 로그 데이터로부터 필요한 정보를 정확하게 추출하였고, 분류 및 적재 과정에서 정상적인 처리가 이루어지는지를 확인하였다. 이러한 시스템은 엣지 환경에서 로그 데이터를 효율적으로 수집하고 관리하기 위한 솔루션으로 활용하여 기술의 확산 측면에서도 효과를 기대할 수 있다.

하둡 분산 환경 기반의 데이터 수집 기법 연구 (A Study on the Data Collection Methods based Hadoop Distributed Environment)

  • 진고환
    • 한국융합학회논문지
    • /
    • 제7권5호
    • /
    • pp.1-6
    • /
    • 2016
  • 최근 빅데이터 활용과 분석기술의 발전을 위하여 많은 연구가 이루어지고 있고, 빅데이터를 분석하기 위하여 처리 플랫폼인 하둡을 도입하는 정부기관 및 기업이 점차 늘어가고 있는 추세이다. 이러한 빅데이터의 처리와 분석에 대한 관심이 고조되면서 그와 병행하여 데이터의 수집 기술이 주요한 이슈가 되고 있으나, 데이터 분석 기법의 연구에 비하여 수집 기술에 대한 연구는 미미한 상황이다. 이에 본 논문에서는 빅데이터 분석 플랫폼인 하둡을 클러스터로 구축하고 아파치 스쿱을 통하여 관계형 데이터베이스로부터 정형화된 데이터를 수집하고, 아파치 플룸을 통하여 센서 및 웹 애플리케이션의 데이터 파일, 로그 파일과 같은 비정형 데이터를 스트림 기반으로 수집하는 시스템을 제안한다. 이러한 융합을 통한 데이터 수집으로 빅데이터 분석의 기초적인 자료로 활용할 수 있을 것이다.

도서 정보 및 본문 텍스트 통합 마이닝 기반 사용자 맞춤형 도서 큐레이션 시스템 (Personalized Book Curation System based on Integrated Mining of Book Details and Body Texts)

  • 안희정;김기원;김승훈
    • Journal of Information Technology Applications and Management
    • /
    • 제24권1호
    • /
    • pp.33-43
    • /
    • 2017
  • The content curation service through big data analysis is receiving great attention in various content fields, such as film, game, music, and book. This service recommends personalized contents to the corresponding user based on user's preferences. The existing book curation systems recommended books to users by using bibliographic citation, user profile or user log data. However, these systems are difficult to recommend books related to character names or spatio-temporal information in text contents. Therefore, in this paper, we suggest a personalized book curation system based on integrated mining of a book. The proposed system consists of mining system, recommendation system, and visualization system. The mining system analyzes book text, user information or profile, and SNS data. The recommendation system recommends personalized books for users based on the analysed data in the mining system. This system can recommend related books using based on book keywords even if there is no user information like new customer. The visualization system visualizes book bibliographic information, mining data such as keyword, characters, character relations, and book recommendation results. In addition, this paper also includes the design and implementation of the proposed mining and recommendation module in the system. The proposed system is expected to broaden users' selection of books and encourage balanced consumption of book contents.

HBase based Business Process Event Log Schema Design of Hadoop Framework

  • Ham, Seonghun;Ahn, Hyun;Kim, Kwanghoon Pio
    • 인터넷정보학회논문지
    • /
    • 제20권5호
    • /
    • pp.49-55
    • /
    • 2019
  • Organizations design and operate business process models to achieve their goals efficiently and systematically. With the advancement of IT technology, the number of items that computer systems can participate in and the process becomes huge and complicated. This phenomenon created a more complex and subdivide flow of business process.The process instances that contain workcase and events are larger and have more data. This is an essential resource for process mining and is used directly in model discovery, analysis, and improvement of processes. This event log is getting bigger and broader, which leads to problems such as capacity management and I / O load in management of existing row level program or management through a relational database. In this paper, as the event log becomes big data, we have found the problem of management limit based on the existing original file or relational database. Design and apply schemes to archive and analyze large event logs through Hadoop, an open source distributed file system, and HBase, a NoSQL database system.

제4차 산업혁명과 전자정부 보안연구 -지능형 정부의 빅데이터 사이버보안기술 측면에서- (A Study on the 4th Industrial Revolution and E-Government Security Strategy -In Terms of the Cyber Security Technology of Intelligent Government-)

  • 이상윤;윤홍주
    • 한국전자통신학회논문지
    • /
    • 제14권2호
    • /
    • pp.369-376
    • /
    • 2019
  • 본고에서는 제4차 산업혁명시대의 새로운 사이버보안 인텔리전스 서비스에 대응하는 지능형 정부 연구측면에서 바람직한 미래형 전자정부의 새로운 모습을 찾았다. 특히 제4차 산업혁명시대의 주요 특징인 중앙화 및 지능화의 측면에서 빅데이터 사이버보안기술에 주목하여 미래형 전자정부의 전략방안에 대해 고찰하였다. 연구결과 빅데이터를 활용한 보안분석기술이 적용되는 보다 고도화된 상관관계 분석을 통한 기존의 한계를 뛰어넘는 시스템 마련을 제시하였다. 제4차 산업혁명시대에 적합한 보안 정보 및 이벤트 관리 시스템 구축 측면에서 IT 시스템에서 발생하는 로그정보를 빅데이터 분석 기술을 적용해 보안 위협 여부를 선제적으로 탐지하는 인공지능과 같은 지능형의 고도화된 SIEM(Security Information & Event Management) 시스템 마련을 제안하였다. 제안된 시스템이 구현되면 제4차 산업혁명시대의 전자정부 보안에 있어 중앙화 및 집중화된 빅데이터 대상 확대, 증가된 데이터에 따른 처리속도 및 탐지 후의 대응까지 보다 지능화된 차원에서 선제적으로 기능할 수 있다.

암묵적 피드백 기반 반려동물 용품 추천 시스템 (Pet Shop Recommendation System based on Implicit Feedback)

  • 최희열;강윤희;강명주
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권8호
    • /
    • pp.1561-1566
    • /
    • 2017
  • 기계 학습과 인공 지능 기술의 발전으로 다양한 응용분야들이 가능해지고 있고, 이중에 추천 시스템은 이미 여러 업체들에서 영화 추천이나 상품 추천 등의 서비스에 적용하여 효과를 보고 있다. 이러한 서비스 중인 추천 시스템들의 대부분은 아이템의 내용을 분석하여 추천하거나 아니면 평점과 같은 직접적인 피드백에 기반하여 시스템을 학습하고 추천하고 있다. 하지만 많은 온라인 쇼핑몰 중에는 아이템의 내용을 분석하는 것이 어렵고, 직접적인 피드백 정보가 없거나 혹은 거의 없어 추천 시스템 구축이 어려운 경우가 많다. 이러한 경우에도 사용자의 상품 조회에 관한 로그 기록들은 어렵지 않게 확보할 수 있고, 로그 기록들만 가지고도 추천 서비스를 제공할 수 있다면 서비스의 질을 향상할 수 있을 것으로 기대된다. 본 논문에서는 사용자의 로그 기록으로부터 암묵적인 피드백인 상품 조회 정보를 추출하고, 암묵적인 피드백에 기반한 추천 시스템을 구현하고, 제안된 시스템은 온라인 반려동물 용품점에 적용하여 확인한다. 즉, 사용자들의 상품조회를 위한 클릭정보만을 활용하여 반려동물 용품 추천 시스템을 구축하여 서비스로 확인한다.

빅데이터 분석을 통한 APT공격 전조 현상 분석 (The Analysis of the APT Prelude by Big Data Analytics)

  • 최찬영;박대우
    • 한국정보통신학회논문지
    • /
    • 제20권6호
    • /
    • pp.1129-1135
    • /
    • 2016
  • 2011년 NH농협 전산망마비 사건, 2013년 3.20 사이버테러 및 2015년 12월의 한국수력원자력 원전 중요자료 유출사건이 있었다. 이러한 사이버테러는 해외(북한)에서 조직적이고 장기간의 걸친 고도화된 APT공격(Advanced Persistent Threat Attack)을 감행하여 발생한 사이버테러 사건이다. 하지만, 이러한 APT공격을 방어하기 위한 탁월한 방안은 아직 마련되지 못했다. APT공격은 현재의 관제 방식으로는 방어하기가 힘들다. 본 논문에서는 빅데이터 분석을 통해 APT공격을 예측할 수 있는 방안을 연구한다. 본 연구는 대한민국 3계층 보안관제 체계 중, 정보공유분석센터(ISAC)를 기준으로 하여 빅데이터 분석, APT공격 및 취약점 분석에 대해서 연구와 조사를 한다. 그리고 외부의 블랙리스트 IP 및 DNS Log를 이용한 APT공격 예측 방안의 설계 방법, 그리고 전조현상 분석 방법 및 APT공격에 대한 대응방안에 대해 연구한다.