• Title/Summary/Keyword: 로그 데이터

Search Result 885, Processing Time 0.037 seconds

Web Log Data Analysis (웹 로그(WEB LOG) 데이터 분석 방법에 관한 연구)

  • 김석기;안정용;한경수
    • The Korean Journal of Applied Statistics
    • /
    • v.14 no.2
    • /
    • pp.261-271
    • /
    • 2001
  • 정보 공유와 비즈니스 수행 등의 매체로서 World Wide Web의 이용이 보편화됨에 따라 다양하고 방대한 데이터를 웹을 통하여 얻을 수 있게 되었으며, 이러한 데이터로부터 유용한 정보를 추출하기 위한 데이터 분석과 활용은 많은 분야에서 중요한 사안으로 인식되고 있다. 본 연구에서는 웹 로그(web log)데이터로부터 정보를 추출하기 위한 과정 및 방안에 대해 살펴보고자 한다. 로그 데이터의 특징과 통계 데이터와의 차이점, 데이터 수집 및 사전 처리 과정, 추출할 수 있는 정보 및 분석 방법 등을 제시하고 로그 데이터 분석 예제를 제시한다.

  • PDF

An Intelligent Web Logger for Business Intelligence (비즈니스 인텔러전스를 위한 지능적 웹 로거)

  • Lim, Yoon-Sun;Jeong, An-Mo;Kim, Myung
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10a
    • /
    • pp.271-273
    • /
    • 2001
  • 웹 로그는 웹 서버를 통해 이루어지는 작업들에 관한 기록으로써, OLAP이나 데이터 마이닝과 같은 비즈니스 인텔리전스 기술로 분석되어 고부가가치 창출에 사용되는 중요한 자료이다. 웹 로그에는 파일 이름과 같은 물리적인 데이터가 저장되는데 이러한 데이터는 분석에 사용되기 전에 정제과정을 통해 의미 있는 데이터로 변환되거나 불필요한 경우에는 삭제된다. 웹 로그 데이터의 분량을 적정선으로 유지하면서 데이터 정제 작업의 일부가 해결되도록 하는 방법으로 웹로그 생성단계에서 시스템이 제공하는 필터를 쓸 수 있다. 그러나, 필터로는 웹 페이지의 내용이 동적으로 변경되는 경우 그 상황을 즉시 반영하기가 쉽지 않다. 본 연구에서는 웹 로그가 ‘지능적 웹 로거’를 통해 생성되도록 하여 이러한 문제를 해결하였다. ‘지능적 웹 로거’를 통해 불필요한 데이터의 생성을 막고, 물리적인 데이터를 신속하게 의미 있는 데이터로 변환하도록 하였다. 웹 페이지의 변경 내용을 웹 로그 생성에 즉시 반영하여 의미 있는 데이터 생성에 이용함으로써, 웹 로그 생성 후에 실행되던 데이터 정제작업 자체를 단순화시켰고, 웹사이트 관리자가 편리한 사용자 인터페이스로 로그 규칙을 만들어 적용할 수 있도록 하였다.

  • PDF

A Study on Scheduling of Distributed Log Analysis by the importance of the measure (중요도에 따른 분산 로그분석 스케줄링)

  • Back, BongHyun;Ahn, Byoungchul
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.04a
    • /
    • pp.1511-1514
    • /
    • 2009
  • 이기종(異機種) 시스템환경에서 발생하는 수많은 로그 데이터는 중요도에 따라 실시간 로그 분석이 필요하고 대용량의 로그 데이터의 경우 특정 시간내에 로그 분석 처리를 종료해야만 한다. 보안에 관련된 로그 정보의 경우 실시간 분석과 빠른 통계 처리를 요구할 것이며, 대용량의 비실시간성 로그 분석의 경우 로그 분석 및 통계처리를 주어진 특정 시간 내에 하여야 한다. 본 논문에서는 로그 데이터의 중요도에 따른 실시간 로그 분석 처리와 비실시간 대용량 통계 로그의 로그 분석 처리 마감 시간을 충족하는 로그 분석 스케줄링 정책을 제안한다.

A Log Data Format for Analyzing the Interoperability of S/W and H/W in Embedded Device (임베디드 기기의 S/W 와 H/W 연동성 분석을 위한 로그데이터 포맷)

  • Kim, Sung-Sook;Park, Kie-Jin;Choi, Jae-Hyun;Kim, Yun-Hee
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2008.06d
    • /
    • pp.259-263
    • /
    • 2008
  • 임베디드 기기에서 로그데이터란 사용자의 기기 사용 이력에 대한 하드웨어적인 기록이라 할 수 있고, 로그분석이란 이 로그데이터를 기반으로 다양한 정보를 추출해 내는 것이다. 하지만 기존 로그데이터는 사용자의 행위에 대한 모든 기록에 대한 나열에 그쳤기 때문에 실제 사용자 행동 패턴이나 사용성에 대한 분석을 하기 위해서는 방대한 로그데이터를 활용하는데 많은 어려움이 있었다. 이에 본 논문은 이러한 사용자의 행동에 대한 체계적인 분석과 임베디드 기기 S/W와 H/W 연동성을 높이기 위하여 새로운 로그데이터 포맷에 대한 연구를 수행하였다. 이는 다양한 임베디드 기기의 분석을 위한 효율성과 효과성을 증대하는데 기여할 것이다.

  • PDF

Design and Implementation of MongoDB-based Unstructured Log Processing System over Cloud Computing Environment (클라우드 환경에서 MongoDB 기반의 비정형 로그 처리 시스템 설계 및 구현)

  • Kim, Myoungjin;Han, Seungho;Cui, Yun;Lee, Hanku
    • Journal of Internet Computing and Services
    • /
    • v.14 no.6
    • /
    • pp.71-84
    • /
    • 2013
  • Log data, which record the multitude of information created when operating computer systems, are utilized in many processes, from carrying out computer system inspection and process optimization to providing customized user optimization. In this paper, we propose a MongoDB-based unstructured log processing system in a cloud environment for processing the massive amount of log data of banks. Most of the log data generated during banking operations come from handling a client's business. Therefore, in order to gather, store, categorize, and analyze the log data generated while processing the client's business, a separate log data processing system needs to be established. However, the realization of flexible storage expansion functions for processing a massive amount of unstructured log data and executing a considerable number of functions to categorize and analyze the stored unstructured log data is difficult in existing computer environments. Thus, in this study, we use cloud computing technology to realize a cloud-based log data processing system for processing unstructured log data that are difficult to process using the existing computing infrastructure's analysis tools and management system. The proposed system uses the IaaS (Infrastructure as a Service) cloud environment to provide a flexible expansion of computing resources and includes the ability to flexibly expand resources such as storage space and memory under conditions such as extended storage or rapid increase in log data. Moreover, to overcome the processing limits of the existing analysis tool when a real-time analysis of the aggregated unstructured log data is required, the proposed system includes a Hadoop-based analysis module for quick and reliable parallel-distributed processing of the massive amount of log data. Furthermore, because the HDFS (Hadoop Distributed File System) stores data by generating copies of the block units of the aggregated log data, the proposed system offers automatic restore functions for the system to continually operate after it recovers from a malfunction. Finally, by establishing a distributed database using the NoSQL-based Mongo DB, the proposed system provides methods of effectively processing unstructured log data. Relational databases such as the MySQL databases have complex schemas that are inappropriate for processing unstructured log data. Further, strict schemas like those of relational databases cannot expand nodes in the case wherein the stored data are distributed to various nodes when the amount of data rapidly increases. NoSQL does not provide the complex computations that relational databases may provide but can easily expand the database through node dispersion when the amount of data increases rapidly; it is a non-relational database with an appropriate structure for processing unstructured data. The data models of the NoSQL are usually classified as Key-Value, column-oriented, and document-oriented types. Of these, the representative document-oriented data model, MongoDB, which has a free schema structure, is used in the proposed system. MongoDB is introduced to the proposed system because it makes it easy to process unstructured log data through a flexible schema structure, facilitates flexible node expansion when the amount of data is rapidly increasing, and provides an Auto-Sharding function that automatically expands storage. The proposed system is composed of a log collector module, a log graph generator module, a MongoDB module, a Hadoop-based analysis module, and a MySQL module. When the log data generated over the entire client business process of each bank are sent to the cloud server, the log collector module collects and classifies data according to the type of log data and distributes it to the MongoDB module and the MySQL module. The log graph generator module generates the results of the log analysis of the MongoDB module, Hadoop-based analysis module, and the MySQL module per analysis time and type of the aggregated log data, and provides them to the user through a web interface. Log data that require a real-time log data analysis are stored in the MySQL module and provided real-time by the log graph generator module. The aggregated log data per unit time are stored in the MongoDB module and plotted in a graph according to the user's various analysis conditions. The aggregated log data in the MongoDB module are parallel-distributed and processed by the Hadoop-based analysis module. A comparative evaluation is carried out against a log data processing system that uses only MySQL for inserting log data and estimating query performance; this evaluation proves the proposed system's superiority. Moreover, an optimal chunk size is confirmed through the log data insert performance evaluation of MongoDB for various chunk sizes.

Process of Automatic User Log Data Analysis Stored in Embedded Device (임베디드 기기에 저장된 사용자 로그 데이터 자동 분석 프로세스)

  • Kim, Bong-Jun;Kim, Sung-Sook;Kim, Jong-Cheol;Park, Kie-Jin
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2008.06b
    • /
    • pp.303-307
    • /
    • 2008
  • 임베디드 기기의 사용 이력을 정확히 파악하는 방식으로는 기기 내부에 자동으로 저장된 로그 데이터를 분석하는 방법이 있으며, 저장된 로그 데이터를 분석하기 위해서는 데이터 정제 및 변환 과정이 필요한데, 이 과정에서 임베디드 기기에 저장된 방대한 양의 로그 데이터로 인해 많은 시간과 인력이 소요되고 있다. 이에 본 논문에서는 임베디드 기기의 로그 데이터를 데이터베이스로 관리하고 이로부터 사용 이력 분석 데이터 셋을 입력, 출력, 기능부분으로 나누어 추출하는 일련의 프로세스를 설계하였고 또한 이 과정이 자동화가 되도록 구현하였으며, 이를 통해 임베디드 기기의 로그 데이터를 분석할 때 시간과 인력을 절약할 수 있다는 가능성을 확인하였다.

  • PDF

이기종 로그에 대한 통합관리와 IT 컴플라이언스 준수

  • Kim, Wan-Jib;Youm, Heung-Youl
    • Review of KIISC
    • /
    • v.20 no.5
    • /
    • pp.65-73
    • /
    • 2010
  • 로그 데이터는 네트워크 및 보안장비, 서버시스템, DBMS, 서비스 등에서 사용자의 행위를 기록하여 보관하며 있으며, 이를 통해 시스템의 안정적인 운영을 지원하거나, 해킹 등의 불법 침해를 당하였을 때 침입경로 추적과 취약점을 찾아내어 보완할 수 있는 중요한 자료이다. 하지만 로그 데이터는 여러 시스템에 각각 다른 형태로 산재하며 일시적인 기간 동안 저장되어 있거나, 해커에 의해 고의적으로 삭제되기도 하며, 저장 용량 문제로 인해 필요시에 없을 경우가 많다. 본 연구에서는 네트워크 장비와 보안장비의 표준로그인 syslog와 유닉스/리눅스 시스템과 윈도우즈서버의 로그에 대한 특성을 고찰하였으며, 특히 서비스로그로서 아파치 웹서버와 IIS서버의 로그에 대한 특징을 정리하였다. 여러 종류의 시스템에서 발생되는 로그를 통합하여 관리하기 위해서는 이기종 로그 데이터의 생명주기 방법론을 제시하였다. 또한, 최근에 IT보안 사고에 대응하여 규제준수를 요구하고 있는 국내외의 IT컴플라이언스에서 로그에 대한 관련 내용을 살펴보고, 그 준수할 방안을 제시한다. 결론으로 IT 인프라의 보안강화적인 측면과 IT컴플라이언스 준수를 위해, 효율적인 로그에 대한 수집과 보관 및 활용성 측면에서의 이기종의 통합로그관리도입 필요성, 생명주기, 기술적 준비사항, 컴플라이언스 요구사항을 제시한다.

A Security Log Analysis System using Logstash based on Apache Elasticsearch (아파치 엘라스틱서치 기반 로그스태시를 이용한 보안로그 분석시스템)

  • Lee, Bong-Hwan;Yang, Dong-Min
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.22 no.2
    • /
    • pp.382-389
    • /
    • 2018
  • Recently cyber attacks can cause serious damage on various information systems. Log data analysis would be able to resolve this problem. Security log analysis system allows to cope with security risk properly by collecting, storing, and analyzing log data information. In this paper, a security log analysis system is designed and implemented in order to analyze security log data using the Logstash in the Elasticsearch, a distributed search engine which enables to collect and process various types of log data. The Kibana, an open source data visualization plugin for Elasticsearch, is used to generate log statistics and search report, and visualize the results. The performance of Elasticsearch-based security log analysis system is compared to the existing log analysis system which uses the Flume log collector, Flume HDFS sink and HBase. The experimental results show that the proposed system tremendously reduces both database query processing time and log data analysis time compared to the existing Hadoop-based log analysis system.

Compressed Parity Logging for Overcoming the small Write Problem in Redundant Disk Arrays (디스크 배열에서 작은쓰기 문제 해결을 위한 압축 패리티 로깅 기법)

  • 김근혜;김성수
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10a
    • /
    • pp.12-14
    • /
    • 1998
  • 본 논문은 RAID5가 갖는 쓰기 문제를 극복하기 위하여 지금까지의 연구 중에서 가장 우수한 성능을 나타내는 패리티 로깅 기법의 단점을 개선한 새로운 패리티 로깅 기법을 제안한다. 제안된 기법은 패리티 로깅기법에서 가장 큰 오버헤드인 패리티 로그의 크기를 줄이기 위하여 로그 데이터를 압축하는 방법을 사용한다. 로그 데이터의 압축은 로그 데이터의 저장에 필요한 비휘발성 버퍼의 크기와 로그 데이터 접근시간을 감소시켜 전체적인 성능을 향상시킬수 있다. 시뮬레이션을 통한 성능분석 결과에서 제안된 기법은 기존의 패리티 로깅 기법에 비하여 디스크 접근시간에서 우수한 성능을 나타냄을 보인다.

  • PDF

A Study on CDC Analysis Using Redo-Log File (로그 파일을 이용한 CDC 분석에 관한 연구)

  • Kim, Young-Whan;Im, Yeung-Woon;Kim, Sang-Hyong;Kim, Ryong;Choi, Hyun-Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2014.04a
    • /
    • pp.692-695
    • /
    • 2014
  • 현재와 같이 처리해야 할 데이터가 폭주하는 상황에서 대부분의 시스템은 자료 저장을 위해 데이터베이스를 사용하지만, 누적되는 데이터 관리를 위해 빈번한 문제가 발생한다. 이때 대부분의 시스템들에서는 상용버전의 데이터 백업 시스템이나 이중화 시스템 등을 두어 여러 곳에 분산 배치함으로써 데이터 보관의 안전성을 도모한다. 실제 모든 데이터베이스 시스템들은 데이터를 레코드에 기록할 때 마다 고유의 로그기록을 남겨놓게 되어있다. 로그기록들은 결국 아카이브 형태로 저장되는데, 그전에 실시간으로 로그를 남기는 과정을 거치게 된다. 본 논문에서는 현재 많은 기관 및 단체에서 사용하는 오라클 데이터베이스를 기본으로 하여, 실시간으로 로그기록을 저장하게 되는 리두 로그(Redo-Log) 파일에 대하여 알아보고, 로그기록의 절차 및 응용 가능성에 대하여 보여준다.