• 제목/요약/키워드: Log File Analysis

검색결과 61건 처리시간 0.028초

연관규칙을 이용한 개인화 시스템 설계 (Design of Personalized System using an Association Rule)

  • 윤종찬;윤성대
    • 한국정보통신학회논문지
    • /
    • 제11권6호
    • /
    • pp.1089-1098
    • /
    • 2007
  • 최근 웹상에서 사용자들의 요구가 다양해지고 있다. 또한, 웹 사용자들은 보다 편리하고 빠르게 찾고자 하는 자료나 상품을 검색하기를 원하고 있다. 이것은 웹 사용자들마다 검색 기준이나 성향이 다르기 때문에 웹 설계자가 구현한 환경을 사용하려면 불필요한 반복 작업이 따르기 때문이다. 본 논문에서는 로그파일 분석기법을 이용하여 웹 상에서 일어나는 사용자 패턴을 분석하여 웹사이트의 정보를 사용자에게 보다 효과적으로 전달하기 위한 시스템을 제안하였다. 제안한 시스템의 고객 데이터(로그파일분석)은 데이터마이닝의 툴 중의 하나인 EC-Miner를 통해 이뤄지고 각 이동경로에 가중치를 줘서 개인화에 맞도록 적절한 레이아웃을 제공하고자 한다.

웹 로그 데이터에 대한 개인정보 위협분석 및 보안 가이드 (The Threat Analysis and Security Guide for Private Information in Web Log)

  • 여성구;심미나;이상진
    • 정보보호학회논문지
    • /
    • 제19권6호
    • /
    • pp.135-144
    • /
    • 2009
  • 본 논문은 오늘날 정보사회의 핵심 정보 자원인 개인정보가 웹 로그를 통해 누출될 수 있는 보안 위협의 심각성을 재인식시키고, 이를 근원적으로 예방하기 위한 대응방안을 제시한다. 최근 개인정보는 정보사회의 발전과 함께 범위 및 종류가 확대되고 그 중요성이 매우 커지게 되었다. 웹 로그는 법 제도적으로 규정된 개인정보가 저장되는 개인정보 파일임에도 불구하고, 웹 서비스의 부산물 정도로만 인식되어 충분한 보호조치가 이루어지지 못하고 있다. 웹 로그를 통해 노출될 수 있는 개인정보를 개발 단계에서 통제하여 웹 로그에 개인정보가 저장되는 것을 최소화하고, 운영 단계에서 적용되어야 하는 기술적 대안을 제시한다. 근본적 보호체계를 통해 법 제도적 규제를 준수하고 개인정보를 효과적으로 보호할 수 있다.

하둡 기반의 사용자 행위 분석을 통한 기밀파일 유출 방지 시스템 (A Digital Secret File Leakage Prevention System via Hadoop-based User Behavior Analysis)

  • 유혜림;신규진;양동민;이봉환
    • 한국정보통신학회논문지
    • /
    • 제22권11호
    • /
    • pp.1544-1553
    • /
    • 2018
  • 최근 산업 보안 정책에도 불구하고 기업의 내부 정보 유출이 심각하게 증가하여 산업별로 정보 유출 방지 대책을 수립하는 것이 필수적이다. 대부분의 정보 유출은 외부 공격이 아닌 내부자에 의해 이루어지고 있다. 본 논문에서는 이동식 저장매체 및 네트워크를 통한 기밀 파일 유출방지를 위한 실시간 내부 정보 유출 방지 시스템을 구현하였다. 또한, 기업 내의 정보 로그 데이터의 저장 및 분석을 위해 Hadoop 기반 사용자 행동 분석 및 통계시스템을 설계 및 구현하였다. 제안한 시스템은 HDFS에 대량의 데이터를 저장하고 RHive를 사용하여 데이터 처리 기능을 개선함으로써 관리자가 기밀 파일 유출 시도를 인식하고 분석할 수 있도록 하였다. 구현한 시스템은 이동식 데이터 매체와 네트워크를 통해 기업 내부로의 기밀 파일 유출로 인한 피해를 줄이는 데 기여할 수 있을 것으로 사료된다.

사물인터넷 환경에서 삭제된 파일의 목록을 이용한 포렌식 분석 간편화 (Simplified Forensic Analysis Using List of Deleted Files in IoT Envrionment)

  • 임정현;이근호
    • 사물인터넷융복합논문지
    • /
    • 제5권1호
    • /
    • pp.35-39
    • /
    • 2019
  • 급격한 정보화 사회로의 발달로 사람들은 디지털기기의 사용이 급격히 증가하면서 이를 분석하는 기술에 대한 중요성이 증가하였다. 디지털 증거는 사용자가 삭제하더라도 Prefetch, Recent, Registry, Event Log 등 여러곳에 산재되어 저장되는 특성이 있다. 때문에 포렌식 분석관이 초기에 사용자가 이용한 파일들에 대해 완벽한 파악이 어렵다는 단점이 존재한다. 따라서 본 논문에서는 사용자가 직접 삭제한 파일에 대한 정보를 먼저 파악할 수 있도록 RemoveList 폴더가 존재하고, RemoveList에는 AES를 이용하여 삭제된 파일에 대한 정보가 암호화되어 자동 저장되는 방안을 제안하고자 한다. 이를 통하여 분석가가 초기에 사용자의 PC를 파악하는 것이 어렵다는 문제점을 완화할 수 있다는 기대를 할 수 있다.

온라인목록 사용자 인터페이스에 관한 연구 : 탐색실패요인을 중심으로 (A Log Analysis Study of an Online Catalog User Interface)

  • 유재옥
    • 정보관리학회지
    • /
    • 제17권2호
    • /
    • pp.139-153
    • /
    • 2000
  • 본 연구는 덕성여자대학교의 온라인목록시스템 사용자 인터페이스인 DISCOVER Web2.0의 이용실태를 분석하였다. 1999년 11월 한 달간의 Log Transaction File을 분석하여 이용자들이 선호하는 탐색의 접근점, 탐색의 접근점 별 사용율, 탐색의 접근점 별 성공률, 탐색 성공에 영향을 미치는 요인 등을 살펴보았다. 외국 대학의 온라인목록의 경우 가장 선호되는 탐색의 접근점은 주제명으로 나타났으나 본 연구에서는 서명(59.2%)으로 밝혀졌다. 가장 덜 선호되는 탐색의 접근점은 저자필드로 11.6%를 차지하였다. 또한 키워드 사용은 극히 저조하여 전체 접근점의 약 16%에 불과하였다. 탐색실패율은 평균 13.9%이며, 주제필드에서의 탐색실패율이 19.8%로 가장 높고 저자필드에서의 탐색실패율은 10.9%로 가장 낮았다.

  • PDF

트랜잭션 로그 분석을 통한 웹기반 온라인목록의 검색행태 추이 분석 (Trends of Web-based OPAC Search Behavior via Transaction Log Analysis)

  • 이성숙
    • 한국비블리아학회지
    • /
    • 제23권2호
    • /
    • pp.209-233
    • /
    • 2012
  • 이 연구에서는 웹기반 온라인목록 이용자들의 전반적인 검색행태를 알아보기 위해, 7년 동안의 트랜잭션 로그를 분석하였다. 웹기반 온라인목록의 검색형태는 검색전략과 검색실패의 관점에서 조사하였다. 검색전략에서는 검색유형, 접근점, 연산자, 검색문의 길이, 단어 사용횟수, 웹기반 온라인목록 이용횟수, 시간대별 및 요일별 이용횟수를 분석하였다. 또한 검색실패는 검색실패율과 접근점별 검색실패율, 연산자별 검색실패율을 분석하였다. 이 연구결과는 향후 웹기반 온라인목록 시스템과 서비스 개선에 활용될 수 있을 것으로 기대된다.

웹 사용 마이닝을 위한 퍼지 카테고리 기반의 트랜잭션 분석 기법 (Fuzzy category based transaction analysis for web usage mining)

  • 이시헌;이지형
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2004년도 춘계학술대회 학술발표 논문집 제14권 제1호
    • /
    • pp.341-344
    • /
    • 2004
  • 웹 사용 마이닝(Web usage mining)은 웹 로그 파일(web log file)이나 웹 사용 데이터(Web usage data)에서 의미 있는 정보를 찾아내는 연구 분야이다. 웹 사용 마이닝에서 일반적으로 많이 사용하는 웹 로그 파일은 사용자들이 참조한 페이지의 단순한 리스트들이다. 따라서 단순히 웹 로그 파일만을 이용하는 방법만으로는 사용자가 참조했던 페이지의 내용을 반영하여 분석하는데에는 한계가 있다. 이러한 점을 개선하고자 본 논문에서는 페이지 위주가 아닌 웹 페이지가 포함하고 있는 내용(아이템)을 고려하는 새로운 퍼지 카테고리 기반의 웹 사용 마이닝 기법을 제시한다. 또한 사용자를 잘 파악하기 위해서 시간에 따라 관심의 변화를 파악하는 방법을 제시한다.

  • PDF

클라우드 환경에서 MongoDB 기반의 비정형 로그 처리 시스템 설계 및 구현 (Design and Implementation of MongoDB-based Unstructured Log Processing System over Cloud Computing Environment)

  • 김명진;한승호;최운;이한구
    • 인터넷정보학회논문지
    • /
    • 제14권6호
    • /
    • pp.71-84
    • /
    • 2013
  • 컴퓨터 시스템 운용 간에 발생하는 많은 정보들이 기록되는 로그데이터는 컴퓨터 시스템 운용 점검, 프로세스의 최적화, 사용자 최적화 맞춤형 제공 등 다방면으로 활용되고 있다. 본 논문에서는 다양한 종류의 로그데이터들 중에서 은행에서 발생하는 대용량의 로그데이터를 처리하기 위한 클라우드 환경 하에서의 MongoDB 기반 비정형 로그 처리시스템을 제안한다. 은행업무간 발생하는 대부분의 로그데이터는 고객의 업무처리 프로세스 간에 발생하며, 고객 업무 프로세스 처리에 따른 로그데이터를 수집, 저장, 분류, 분석하기 위해서는 별도로 로그데이터를 처리하는 시스템을 구축해야만 한다. 하지만 기존 컴퓨팅환경 하에서는 폭발적으로 증가하는 대용량 비정형 로그데이터 처리를 위한 유연한 스토리지 확장성 기능, 저장된 비정형 로그데이터를 분류, 분석 처리할 수 있는 기능을 구현하기가 매우 어렵다. 이에 따라 본 논문에서는 클라우드 컴퓨팅 기술을 도입하여 기존 컴퓨팅 인프라 환경의 분석 도구 및 관리체계에서 처리하기 어려웠던 비정형 로그데이터를 처리하기 위한 클라우드 환경기반의 로그데이터 처리시스템을 제안하고 구현하였다. 제안한 본 시스템은 IaaS(Infrastructure as a Service) 클라우드 환경을 도입하여 컴퓨팅 자원의 유연한 확장성을 제공하며 실제로, 로그데이터가 장기간 축적되거나 급격하게 증가하는 상황에서 스토리지, 메모리 등의 자원을 신속성 있고 유연하게 확장을 할 수 있는 기능을 포함한다. 또한, 축적된 비정형 로그데이터의 실시간 분석이 요구되어질 때 기존의 분석도구의 처리한계를 극복하기 위해 본 시스템은 하둡 (Hadoop) 기반의 분석모듈을 도입함으로써 대용량의 로그데이터를 빠르고 신뢰성 있게 병렬 분산 처리할 수 있는 기능을 제공한다. 게다가, HDFS(Hadoop Distributed File System)을 도입함으로써 축적된 로그데이터를 블록단위로 복제본을 생성하여 저장관리하기 때문에 본 시스템은 시스템 장애와 같은 상황에서 시스템이 멈추지 않고 작동할 수 있는 자동복구 기능을 제공한다. 마지막으로, 본 시스템은 NoSQL 기반의 MongoDB를 이용하여 분산 데이터베이스를 구축함으로써 효율적으로 비정형로그데이터를 처리하는 기능을 제공한다. MySQL과 같은 관계형 데이터베이스는 복잡한 스키마 구조를 가지고 있기 때문에 비정형 로그데이터를 처리하기에 적합하지 않은 구조를 가지고 있다. 또한, 관계형 데이터베이스의 엄격한 스키마 구조는 장기간 데이터가 축적되거나, 데이터가 급격하게 증가할 때 저장된 데이터를 분할하여 여러 노드에 분산시키는 노드 확장이 어렵다는 문제점을 가지고 있다. NoSQL은 관계형 데이터베이스에서 제공하는 복잡한 연산을 지원하지는 않지만 데이터가 빠르게 증가할 때 노드 분산을 통한 데이터베이스 확장이 매우 용이하며 비정형 데이터를 처리하는데 매우 적합한 구조를 가지고 있는 비관계형 데이터베이스이다. NoSQL의 데이터 모델은 주로 키-값(Key-Value), 컬럼지향(Column-oriented), 문서지향(Document-Oriented)형태로 구분되며, 제안한 시스템은 스키마 구조가 자유로운 문서지향(Document-Oriented) 데이터 모델의 대표 격인 MongoDB를 도입하였다. 본 시스템에 MongoDB를 도입한 이유는 유연한 스키마 구조에 따른 비정형 로그데이터 처리의 용이성뿐만 아니라, 급격한 데이터 증가에 따른 유연한 노드 확장, 스토리지 확장을 자동적으로 수행하는 오토샤딩 (AutoSharding) 기능을 제공하기 때문이다. 본 논문에서 제안하는 시스템은 크게 로그 수집기 모듈, 로그 그래프생성 모듈, MongoDB 모듈, Hadoop기반 분석 모듈, MySQL 모듈로 구성되어져 있다. 로그 수집기 모듈은 각 은행에서 고객의 업무 프로세스 시작부터 종료 시점까지 발생하는 로그데이터가 클라우드 서버로 전송될 때 로그데이터 종류에 따라 데이터를 수집하고 분류하여 MongoDB 모듈과 MySQL 모듈로 분배하는 기능을 수행한다. 로그 그래프생성 모듈은 수집된 로그데이터를 분석시점, 분석종류에 따라 MongoDB 모듈, Hadoop기반 분석 모듈, MySQL 모듈에 의해서 분석되어진 결과를 사용자에게 웹 인터페이스 형태로 제공하는 역할을 한다. 실시간적 로그데이터분석이 필요한 로그데이터는 MySQL 모듈로 저장이 되어 로그 그래프생성 모듈을 통하여 실시간 로그데이터 정보를 제공한다. 실시간 분석이 아닌 단위시간당 누적된 로그데이터의 경우 MongoDB 모듈에 저장이 되고, 다양한 분석사항에 따라 사용자에게 그래프화해서 제공된다. MongoDB 모듈에 누적된 로그데이터는 Hadoop기반 분석모듈을 통해서 병렬 분산 처리 작업이 수행된다. 성능 평가를 위하여 로그데이터 삽입, 쿼리 성능에 대해서 MySQL만을 적용한 로그데이터 처리시스템과 제안한 시스템을 비교 평가하였으며 그 성능의 우수성을 검증하였다. 또한, MongoDB의 청크 크기별 로그데이터 삽입 성능평가를 통해 최적화된 청크 크기를 확인하였다.

로그 파일을 이용한 CDC 분석에 관한 연구 (A Study on CDC Analysis Using Redo-Log File)

  • 김영환;임영운;김상형;김룡;최현호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 춘계학술발표대회
    • /
    • pp.692-695
    • /
    • 2014
  • 현재와 같이 처리해야 할 데이터가 폭주하는 상황에서 대부분의 시스템은 자료 저장을 위해 데이터베이스를 사용하지만, 누적되는 데이터 관리를 위해 빈번한 문제가 발생한다. 이때 대부분의 시스템들에서는 상용버전의 데이터 백업 시스템이나 이중화 시스템 등을 두어 여러 곳에 분산 배치함으로써 데이터 보관의 안전성을 도모한다. 실제 모든 데이터베이스 시스템들은 데이터를 레코드에 기록할 때 마다 고유의 로그기록을 남겨놓게 되어있다. 로그기록들은 결국 아카이브 형태로 저장되는데, 그전에 실시간으로 로그를 남기는 과정을 거치게 된다. 본 논문에서는 현재 많은 기관 및 단체에서 사용하는 오라클 데이터베이스를 기본으로 하여, 실시간으로 로그기록을 저장하게 되는 리두 로그(Redo-Log) 파일에 대하여 알아보고, 로그기록의 절차 및 응용 가능성에 대하여 보여준다.

로그 분석 처리율 향상을 위한 맵리듀스 기반 분할 빅데이터 분석 기법 (MapReduce-Based Partitioner Big Data Analysis Scheme for Processing Rate of Log Analysis)

  • 이협건;김영운;박지용;이진우
    • 한국정보전자통신기술학회논문지
    • /
    • 제11권5호
    • /
    • pp.593-600
    • /
    • 2018
  • 인터넷과 스마트기기의 발달로 인해 소셜미디어 등 다양한 미디어의 접근의 용이해짐에 따라 많은 양의 빅데이터들이 생성되고 있다. 특히 다양한 인터넷 서비스를 제공하는 기업들은 고객 성향 및 패턴, 보안성 강화를 위해 맵리듀스 기반 빅데이터 분석 기법들을 활용하여 빅데이터 분석하고 있다. 그러나 맵리듀스는 리듀스 단계에서 생성되는 리듀서 객체의 수를 한 개로 정의하고 있어, 빅데이터 분석할 때 처리될 많은 데이터들이 하나의 리듀서 객체에 집중된다. 이로 인해 리듀서 객체는 병목현상이 발생으로 빅데이터 분석 처리율이 감소한다. 이에 본 논문에서는 로그 분석처리율 향상을 위한 맵리듀스 기반 분할 빅데이터 분석 기법을 제안한다. 제안한 기법은 리듀서 분할 단계와 분석 결과병합 단계로 구분하며 리듀서 객체의 수를 유동적으로 생성하여 병목현상을 감소시켜 빅데이터 처리율을 향상시킨다.