• Title/Summary/Keyword: Log 분산처리

Search Result 41, Processing Time 0.027 seconds

The Analysis Framework for User Behavior Model using Massive Transaction Log Data (대규모 로그를 사용한 유저 행동모델 분석 방법론)

  • Lee, Jongseo;Kim, Songkuk
    • The Journal of Bigdata
    • /
    • v.1 no.2
    • /
    • pp.1-8
    • /
    • 2016
  • User activity log includes lots of hidden information, however it is not structured and too massive to process data, so there are lots of parts uncovered yet. Especially, it includes time series data. We can reveal lots of parts using it. But we cannot use log data directly to analyze users' behaviors. In order to analyze user activity model, it needs transformation process through extra framework. Due to these things, we need to figure out user activity model analysis framework first and access to data. In this paper, we suggest a novel framework model in order to analyze user activity model effectively. This model includes MapReduce process for analyzing massive data quickly in the distributed environment and data architecture design for analyzing user activity model. Also we explained data model in detail based on real online service log design. Through this process, we describe which analysis model is fit for specific data model. It raises understanding of processing massive log and designing analysis model.

  • PDF

Using a Greedy Algorithm for the Improvement of a MapReduce, Theta join, M-Bucket-I Heuristic (그리디 알고리즘을 이용한 맵리듀스 세타조인 M-Bucket-I 휴리스틱의 개선)

  • Kim, Wooyeol;Shim, Kyuseok
    • Journal of KIISE
    • /
    • v.43 no.2
    • /
    • pp.229-236
    • /
    • 2016
  • Theta join is one of the essential and important types of queries in database systems. As the amount of data needs to be processed increases, processing theta joins with a single machine becomes impractical. Therefore, theta join algorithms using distributed computing frameworks have been studied widely. Although one of the state-of-the-art theta-join algorithms uses M-Bucket-I heuristic, it is hard to use since running time of M-Bucket-I heuristic, which computes a mapping from a record to a reducer (i.e., reducer mapping), is O(n) where n is the size of input data. In this paper, we propose MBI-I algorithm which reduces the running time of M-Bucket-I heuristic to $O(r_{max}log\;n)$ and gives the same result as M-Bucket-I heuristic does. We also conducted several experiments to show algorithm and confirmed that our algorithm can improve the performance of a theta join by 10%.

A Study on CDC Analysis Using Redo-Log File (로그 파일을 이용한 CDC 분석에 관한 연구)

  • Kim, Young-Whan;Im, Yeung-Woon;Kim, Sang-Hyong;Kim, Ryong;Choi, Hyun-Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2014.04a
    • /
    • pp.692-695
    • /
    • 2014
  • 현재와 같이 처리해야 할 데이터가 폭주하는 상황에서 대부분의 시스템은 자료 저장을 위해 데이터베이스를 사용하지만, 누적되는 데이터 관리를 위해 빈번한 문제가 발생한다. 이때 대부분의 시스템들에서는 상용버전의 데이터 백업 시스템이나 이중화 시스템 등을 두어 여러 곳에 분산 배치함으로써 데이터 보관의 안전성을 도모한다. 실제 모든 데이터베이스 시스템들은 데이터를 레코드에 기록할 때 마다 고유의 로그기록을 남겨놓게 되어있다. 로그기록들은 결국 아카이브 형태로 저장되는데, 그전에 실시간으로 로그를 남기는 과정을 거치게 된다. 본 논문에서는 현재 많은 기관 및 단체에서 사용하는 오라클 데이터베이스를 기본으로 하여, 실시간으로 로그기록을 저장하게 되는 리두 로그(Redo-Log) 파일에 대하여 알아보고, 로그기록의 절차 및 응용 가능성에 대하여 보여준다.

Design and Application of Metadata Schema in Datawebhouse System (데이터웹하우스 시스템에서 메타데이터 스키마의 설계 및 활용)

  • Park, Jong-Mo;Cho, Kyung-San
    • The KIPS Transactions:PartD
    • /
    • v.14D no.6
    • /
    • pp.701-706
    • /
    • 2007
  • Datawebhouse consists of both web log analysis used for customer management and datawarehouse used for decision support. However, datawebhouse needs complex operations for management in order to transform and integrate data from heterogeneous data sources and distributed systems. We propose a metadata schema in order to enable data integration and data management which are essential in datawebhouse environments. We show that our proposed schema supports datawebhouse development and enables integrated asset management of business information. With ETL metadata for web log extract, we can improve the data processing time of web log.

A Fast Fractal Image Compression Using The Normalized Variance (정규화된 분산을 이용한 프랙탈 압축방법)

  • Kim, Jong-Koo;Hamn, Do-Yong;Wee, Young-Cheul;Kimn, Ha-Jine
    • The KIPS Transactions:PartA
    • /
    • v.8A no.4
    • /
    • pp.499-502
    • /
    • 2001
  • Fractal image coding suffers from the long search time of domain pool although it provides many properties including the high compression ratio. We find that the normalized variance of a block is independent of contrast, brightness. Using this observation, we introduce a self similar block searching method employing the d-dimensional nearest neighbor searching. This method takes Ο(log/N) time for searching the self similar domain blocks for each range block where N is the number of domain blocks. PSNR (Peak Signal Noise Ratio) of this method is similar to that of the full search method that requires Ο(N) time for each range block. Moreover, the image quality of this method is independent of the number of edges in the image.

  • PDF

A Study on implementation model for security log analysis system using Big Data platform (빅데이터 플랫폼을 이용한 보안로그 분석 시스템 구현 모델 연구)

  • Han, Ki-Hyoung;Jeong, Hyung-Jong;Lee, Doog-Sik;Chae, Myung-Hui;Yoon, Cheol-Hee;Noh, Kyoo-Sung
    • Journal of Digital Convergence
    • /
    • v.12 no.8
    • /
    • pp.351-359
    • /
    • 2014
  • The log data generated by security equipment have been synthetically analyzed on the ESM(Enterprise Security Management) base so far, but due to its limitations of the capacity and processing performance, it is not suited for big data processing. Therefore the another way of technology on the big data platform is necessary. Big Data platform can achieve a large amount of data collection, storage, processing, retrieval, analysis, and visualization by using Hadoop Ecosystem. Currently ESM technology has developed in the way of SIEM (Security Information & Event Management) technology, and to implement security technology in SIEM way, Big Data platform technology is essential that can handle large log data which occurs in the current security devices. In this paper, we have a big data platform Hadoop Ecosystem technology for analyzing the security log for sure how to implement the system model is studied.

Anomaly Detection Technique of Log Data Using Hadoop Ecosystem (하둡 에코시스템을 활용한 로그 데이터의 이상 탐지 기법)

  • Son, Siwoon;Gil, Myeong-Seon;Moon, Yang-Sae
    • KIISE Transactions on Computing Practices
    • /
    • v.23 no.2
    • /
    • pp.128-133
    • /
    • 2017
  • In recent years, the number of systems for the analysis of large volumes of data is increasing. Hadoop, a representative big data system, stores and processes the large data in the distributed environment of multiple servers, where system-resource management is very important. The authors attempted to detect anomalies from the rapid changing of the log data that are collected from the multiple servers using simple but efficient anomaly-detection techniques. Accordingly, an Apache Hive storage architecture was designed to store the log data that were collected from the multiple servers in the Hadoop ecosystem. Also, three anomaly-detection techniques were designed based on the moving-average and 3-sigma concepts. It was finally confirmed that all three of the techniques detected the abnormal intervals correctly, while the weighted anomaly-detection technique is more precise than the basic techniques. These results show an excellent approach for the detection of log-data anomalies with the use of simple techniques in the Hadoop ecosystem.

Mobile Peer-to-Peer Network: Query Search in Mobile Network (모바일 환경을 위한 P2P 겅색 방법)

  • Lee, Sei-Yon;Jang, Ju-Wook
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.11b
    • /
    • pp.931-934
    • /
    • 2003
  • Chord는 P2P 네트워크에 n개의 클라이언트가 있물 때 O(log N)의 상태 저장 메모리 용량과 O(log N)의 검색 단계가 걸리는 분산형 검색 방법이다. 하지만 모바일 네트워크와 같이 P2P 네트워크를 구성하는 클라이언트의 신뢰성을 보장하지 못하는 네트워크에서는 검색 성능이 현저히 떨어진다. 따라서 본 논문에서는 이러한 Chord의 단점을 보안하여 모바일 네트워크에서도 P2P 검색이 원활하게 이루어질 수 있는 새로운 알고리즘을 제안하고 제안한 검색 방식의 실험 및 결과를 보여주고자 한다.

  • PDF

Garbage Collection of Message Log without Additional Message on Causal Message Logging Protocol (인과적 메시지 로깅 기법에서 부가적 메시지 교환없는 메시지 로그 쓰레기 처리 기법)

  • Chung, Kwang-Sik;Hwang, Seung-Hee;Yu, Heon-Chang;Hwang, Jong-Sun
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10c
    • /
    • pp.73-75
    • /
    • 2000
  • 이 논문은 인과적 메시지 로깅 기법에서 결함 포용을 목적으로 완전 저장 장치(stable storage)에 저장되는 메시지 로그와 메시지 순서 로그의 쓰레기 처리 기법을 제안한다. 메시지 로그와 메시지 순서 로그는 메시기 순서 정보에 부가되는 검사점 정보를 기반으로 쓰레기 처리되어질 수 있으며, 이를 위해 메시지 로그와 메시기 순서 로그의 쓰레기 처리 조건을 제시한다. 제시된 조건을 기반으로 한 메시지 로그와 메시지 순서 로그의 쓰레기 처리는 송수신 메시지에 부가된 정보를 이용하므로 제안된 알고리즘은 '지연 쓰레기 처리 현상(lazy garbage collection)'를 발생시킨다. 하지만 '지연 쓰레기 처리 현상'은 분산 시스템의 일관성을 위배하지 않으며, 쓰레기 처리를 위한 부가적인 메시지 교환을 필요로 하지 않는다.

  • PDF

A Study on Scheduling of Distributed Log Analysis by the importance of the measure (중요도에 따른 분산 로그분석 스케줄링)

  • Back, BongHyun;Ahn, Byoungchul
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.04a
    • /
    • pp.1511-1514
    • /
    • 2009
  • 이기종(異機種) 시스템환경에서 발생하는 수많은 로그 데이터는 중요도에 따라 실시간 로그 분석이 필요하고 대용량의 로그 데이터의 경우 특정 시간내에 로그 분석 처리를 종료해야만 한다. 보안에 관련된 로그 정보의 경우 실시간 분석과 빠른 통계 처리를 요구할 것이며, 대용량의 비실시간성 로그 분석의 경우 로그 분석 및 통계처리를 주어진 특정 시간 내에 하여야 한다. 본 논문에서는 로그 데이터의 중요도에 따른 실시간 로그 분석 처리와 비실시간 대용량 통계 로그의 로그 분석 처리 마감 시간을 충족하는 로그 분석 스케줄링 정책을 제안한다.