• 제목/요약/키워드: Log 분산처리

검색결과 41건 처리시간 0.026초

대규모 로그를 사용한 유저 행동모델 분석 방법론 (The Analysis Framework for User Behavior Model using Massive Transaction Log Data)

  • 이종서;김성국
    • 한국빅데이터학회지
    • /
    • 제1권2호
    • /
    • pp.1-8
    • /
    • 2016
  • 사용자로그는 많은 숨겨진 정보를 포함하고 있지만 데이터 정형화가 이루어지지 않았고, 데이터 크기도 너무 방대하여 처리하기 까다로워서 아직 밝혀져야 할 부분들을 많이 내포하고 있다. 특히 행동마다의 모든 시간정보를 포함하고 있어서 이를 응용하여 많은 부분을 밝혀낼 수 있다. 하지만 로그데이터 자체를 바로 분석으로 사용할 수는 없다. 유저 행동 모델 분석을 위해서는 별도의 프레임워크를 통한 변환과정들이 필요하다. 이 때문에 유저 행동모델 분석 프레임워크를 먼저 파악을 하고 데이터에 접근해야 한다. 이 논문에서는, 우리는 유저 행동모델을 효과적으로 분석하기 위한 프레임워크 모델을 제안한다. 본 모델은 대규모 데이터를 빨리 처리하기 위한 분산환경에서의 MapReduce 프로세스와 유저별 행동분석을 위한 데이터 구조 설계에 대한 부분을 포함한다. 또한 실제 온라인 서비스 로그의 구조를 바탕으로 어떤 방식으로 MapReduce를 처리하고 어떤 방식으로 유저행동모델을 분석을 위해 데이터 구조를 어떤식으로 변형할지 설명하고, 이를 통해 어떤 방식의 모델 분석으로 이어질지에 대해 상세히 설명한다. 이를 통해 대규모 로그 처리방법과 분석모델 설계에 대한 기초를 다질 수 있을 것이다.

  • PDF

그리디 알고리즘을 이용한 맵리듀스 세타조인 M-Bucket-I 휴리스틱의 개선 (Using a Greedy Algorithm for the Improvement of a MapReduce, Theta join, M-Bucket-I Heuristic)

  • 김우열;심규석
    • 정보과학회 논문지
    • /
    • 제43권2호
    • /
    • pp.229-236
    • /
    • 2016
  • 세타조인은 데이터베이스에 있어서 가장 기본적이면서도 중요한 질의 중 하나이다. 최근 처리해야 하는 데이터의 양이 증가함에 따라, 맵리듀스와 같은 분산 병렬 처리 프레임워크를 사용한 데이터베이스의 질의처리가 많이 연구되고 있다. 대표적인 연구로 M-Bucket-I 휴리스틱을 이용한 세타조인이 있으나, 이 알고리즘은 수행시간이 입력 데이터의 크기를 n이라 할 때, 각 레코드를 $r_{max}$개의 리듀서 중 어느 리듀서로 보낼지 정하는 리듀서맵핑을 구하는데 O(n)의 시간이 걸려 쉽게 사용할 수 없다는 문제가 있다. 본 논문에서는 기존의 M-Bucket-I 휴리스틱을 개선하여, 같은 리듀서 매핑 결과를 내놓더라도 수행시간이 $O(r_{max}log\;n)$으로 보다 짧은 새로운 알고리즘을 제시한다. 다양한 실험을 통하여 기존의 맵리듀스를 이용한 세타조인보다 성능을 10% 정도 향상시킬 수 있음을 보였다.

로그 파일을 이용한 CDC 분석에 관한 연구 (A Study on CDC Analysis Using Redo-Log File)

  • 김영환;임영운;김상형;김룡;최현호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 춘계학술발표대회
    • /
    • pp.692-695
    • /
    • 2014
  • 현재와 같이 처리해야 할 데이터가 폭주하는 상황에서 대부분의 시스템은 자료 저장을 위해 데이터베이스를 사용하지만, 누적되는 데이터 관리를 위해 빈번한 문제가 발생한다. 이때 대부분의 시스템들에서는 상용버전의 데이터 백업 시스템이나 이중화 시스템 등을 두어 여러 곳에 분산 배치함으로써 데이터 보관의 안전성을 도모한다. 실제 모든 데이터베이스 시스템들은 데이터를 레코드에 기록할 때 마다 고유의 로그기록을 남겨놓게 되어있다. 로그기록들은 결국 아카이브 형태로 저장되는데, 그전에 실시간으로 로그를 남기는 과정을 거치게 된다. 본 논문에서는 현재 많은 기관 및 단체에서 사용하는 오라클 데이터베이스를 기본으로 하여, 실시간으로 로그기록을 저장하게 되는 리두 로그(Redo-Log) 파일에 대하여 알아보고, 로그기록의 절차 및 응용 가능성에 대하여 보여준다.

데이터웹하우스 시스템에서 메타데이터 스키마의 설계 및 활용 (Design and Application of Metadata Schema in Datawebhouse System)

  • 박종모;조경산
    • 정보처리학회논문지D
    • /
    • 제14D권6호
    • /
    • pp.701-706
    • /
    • 2007
  • 고객관리에 중요한 정보로 활용되는 웹로그 분석과 의사결정을 지원하기 위한 데이터웨어하우스를 결합하여 데이터웹하우스가 등장하였다. 그러나 시스템에 분산되어 저장된 정보를 통합하는 데이터웹하우스는 다양하고 이질적인 정보를 포함하므로 관리적 측면에서 복잡한 작업을 필요로 한다. 본 연구는 데이터웹하우스 환경에서 데이터를 효과적으로 관리하고 통합하기 위한 메타데이터 스키마를 제안한다. 제안된 스키마는 데이터웹하우스 개발을 지원하고 기업의 정보 자산에 대한 통합 관리를 가능케 한다. 또한 데이터웹하우스의 웹로그 추출을 위한 ETL 메타데이터를 사용하여 웹로그 데이터 처리시간을 향상시킬 수 있다.

정규화된 분산을 이용한 프랙탈 압축방법 (A Fast Fractal Image Compression Using The Normalized Variance)

  • 김종구;함도용;위영철;김하진
    • 정보처리학회논문지A
    • /
    • 제8A권4호
    • /
    • pp.499-502
    • /
    • 2001
  • 프랙탈 코딩은 높은 압축률을 포함한 여러 가지 장점을 가지고 있으나 유사블록 탐색에 긴 시간이 소요되는 문제점을 가지고 있다. 본 논문은 각 블록의 정규화 된 분산 값은 명도(contrast)와 밝기(brightness)에 독립적임을 발견하고, 이를 이용하여 d(key의 수)차원 공간에서 최근접부근탐색(nearest neighbor search)을 하여 효율적인 유사블록을 탐색하는 방법을 제안한다. 본 방법은 각 치역 블록 당 Ο(log N), (N : 정의역블록 수) 시간에 유사 정의역 블록 찾을 수 있음을 보였다. 압축처리 된 이미지는 각 치역 블록 당 Ο(N) 시간이 요구되는 전체탐색의 PSNR (Peak Signal Noise Ratio)과 거의 같은 값을 얻게 되었다. 또한, 본 방법은 에지가 많은 이미지에도 전체탐색과 거의 유사한 PSNR로 압축되는 장점을 가진다.

  • PDF

빅데이터 플랫폼을 이용한 보안로그 분석 시스템 구현 모델 연구 (A Study on implementation model for security log analysis system using Big Data platform)

  • 한기형;정형종;이두식;채명희;윤철희;노규성
    • 디지털융복합연구
    • /
    • 제12권8호
    • /
    • pp.351-359
    • /
    • 2014
  • 보안 장비에서 발생하는 로그는 그동안 ESM(Enterprise Security Management) 기반으로 통합적으로 데이터를 분석하였으나 데이터 저장 용량의 한계와 ESM자체의 데이터 처리 성능의 한계로 빅데이터 처리에 부적합하기 때문에 빅데이터 플랫폼을 이용한 보안로그 분석 기술이 필요하다. 빅데이터 플랫폼은 Hadoop Echosystem을 이용하여 대용량의 데이터 수집, 저장, 처리, 검색, 분석, 시각화 기능을 구현할 수 있다. 현재 ESM기술은 SIEM(Security Information & Event Management)방식으로 기술이 발전하고 있으며 SIEM방식의 보안기술을 구현하기 위해서는 현재 보안장비에서 발생하는 방대한 로그 데이터를 처리할 수 있는 빅데이터 플랫폼 기술이 필수적이다. 본 논문은 Hadoop Echosystem 이 가지고 있는 빅데이터 플랫폼 기술을 활용하여 보안로그를 분석하기 위한 시스템을 어떻게 구현할 수 있는지에 대한 모델을 연구하였다.

하둡 에코시스템을 활용한 로그 데이터의 이상 탐지 기법 (Anomaly Detection Technique of Log Data Using Hadoop Ecosystem)

  • 손시운;길명선;문양세
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권2호
    • /
    • pp.128-133
    • /
    • 2017
  • 최근 대용량 데이터 분석을 위해 다수의 서버를 사용하는 시스템이 증가하고 있다. 대표적인 빅데이터 기술인 하둡은 대용량 데이터를 다수의 서버로 구성된 분산 환경에 저장하여 처리한다. 이러한 분산 시스템에서는 각 서버의 시스템 자원 관리가 매우 중요하다. 본 논문은 다수의 서버에서 수집된 로그 데이터를 토대로 간단하면서 효율적인 이상 탐지 기법을 사용하여 로그 데이터의 변화가 급증하는 이상치를 탐지하고자 한다. 이를 위해, 각 서버로부터 로그 데이터를 수집하여 하둡 에코시스템에 저장할 수 있도록 Apache Hive의 저장 구조를 설계하고, 이동 평균 및 3-시그마를 사용한 세 가지 이상 탐지 기법을 설계한다. 마지막으로 실험을 통해 세 가지 기법이 모두 올바로 이상 구간을 탐지하며, 또한 가중치가 적용된 이상 탐지 기법이 중복을 제거한 더 정확한 탐지 기법임을 확인한다. 본 논문은 하둡 에코시스템을 사용하여 간단한 방법으로 로그 데이터의 이상을 탐지하는 우수한 결과라 사료된다.

모바일 환경을 위한 P2P 겅색 방법 (Mobile Peer-to-Peer Network: Query Search in Mobile Network)

  • 이세연;장주욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 추계학술발표논문집 (중)
    • /
    • pp.931-934
    • /
    • 2003
  • Chord는 P2P 네트워크에 n개의 클라이언트가 있물 때 O(log N)의 상태 저장 메모리 용량과 O(log N)의 검색 단계가 걸리는 분산형 검색 방법이다. 하지만 모바일 네트워크와 같이 P2P 네트워크를 구성하는 클라이언트의 신뢰성을 보장하지 못하는 네트워크에서는 검색 성능이 현저히 떨어진다. 따라서 본 논문에서는 이러한 Chord의 단점을 보안하여 모바일 네트워크에서도 P2P 검색이 원활하게 이루어질 수 있는 새로운 알고리즘을 제안하고 제안한 검색 방식의 실험 및 결과를 보여주고자 한다.

  • PDF

인과적 메시지 로깅 기법에서 부가적 메시지 교환없는 메시지 로그 쓰레기 처리 기법 (Garbage Collection of Message Log without Additional Message on Causal Message Logging Protocol)

  • Chung, Kwang-Sik;Hwang, Seung-Hee;Yu, Heon-Chang;Hwang, Jong-Sun
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (3)
    • /
    • pp.73-75
    • /
    • 2000
  • 이 논문은 인과적 메시지 로깅 기법에서 결함 포용을 목적으로 완전 저장 장치(stable storage)에 저장되는 메시지 로그와 메시지 순서 로그의 쓰레기 처리 기법을 제안한다. 메시지 로그와 메시지 순서 로그는 메시기 순서 정보에 부가되는 검사점 정보를 기반으로 쓰레기 처리되어질 수 있으며, 이를 위해 메시지 로그와 메시기 순서 로그의 쓰레기 처리 조건을 제시한다. 제시된 조건을 기반으로 한 메시지 로그와 메시지 순서 로그의 쓰레기 처리는 송수신 메시지에 부가된 정보를 이용하므로 제안된 알고리즘은 '지연 쓰레기 처리 현상(lazy garbage collection)'를 발생시킨다. 하지만 '지연 쓰레기 처리 현상'은 분산 시스템의 일관성을 위배하지 않으며, 쓰레기 처리를 위한 부가적인 메시지 교환을 필요로 하지 않는다.

  • PDF

중요도에 따른 분산 로그분석 스케줄링 (A Study on Scheduling of Distributed Log Analysis by the importance of the measure)

  • 백봉현;안병철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 춘계학술발표대회
    • /
    • pp.1511-1514
    • /
    • 2009
  • 이기종(異機種) 시스템환경에서 발생하는 수많은 로그 데이터는 중요도에 따라 실시간 로그 분석이 필요하고 대용량의 로그 데이터의 경우 특정 시간내에 로그 분석 처리를 종료해야만 한다. 보안에 관련된 로그 정보의 경우 실시간 분석과 빠른 통계 처리를 요구할 것이며, 대용량의 비실시간성 로그 분석의 경우 로그 분석 및 통계처리를 주어진 특정 시간 내에 하여야 한다. 본 논문에서는 로그 데이터의 중요도에 따른 실시간 로그 분석 처리와 비실시간 대용량 통계 로그의 로그 분석 처리 마감 시간을 충족하는 로그 분석 스케줄링 정책을 제안한다.