• 제목/요약/키워드: 스트림 빅데이터

검색결과 41건 처리시간 0.021초

소셜 빅데이터 마이닝 기반 실시간 랜섬웨어 전파 감지 시스템 (Real-Time Ransomware Infection Detection System Based on Social Big Data Mining)

  • 김미희;윤준혁
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제7권10호
    • /
    • pp.251-258
    • /
    • 2018
  • 파일을 암호화시켜 몸값을 요구하는 악성 소프트웨어인 랜섬웨어는 빠른 전파력과 지능화로 더욱 위협적이 되고 있다. 이에 빠른 탐지 및 위험 분석이 요구되고 있지만, 실시간 분석 및 보고가 미비한 상태이다. 본 논문에서는 실시간 분석이 가능하도록 소셜 빅데이터 마이닝 기술을 활용하여 랜섬웨어 전파 감지 시스템을 제안한다. 본 시스템에서는 트위터 스트림을 실시간 분석하여 랜섬웨어와 관련된 키워드를 가진 트윗을 크롤링한다. 또한 뉴스피드 분석기를 통해 뉴스서버를 크롤링하여 랜섬웨어 관련 키워드를 추출하고, 보안업체의 서버나 탐색 엔진을 통해 뉴스나 통계데이터를 추출한다. 수집된 데이터는 데이터 마이닝 알고리즘으로 랜섬웨어 감염 정도를 분석한다. 2017년 전파가 많이 되었던 워너크라이와 록키 랜섬웨어 감염전파 시 관련 트윗의 수와 구글 트렌드(통계 정보) 정보, 관련 기사를 비교하여 트윗을 이용한 본 시스템의 랜섬웨어 감염 탐지 가능성을 보이고, 엔트로피와 카이-스퀘어 분석을 통해 제안 시스템 성능을 보인다.

대용량 위치 데이터에서 효율적인 k-최근접 질의 처리 기법 (Efficient k-Nearest Neighbor Query Processing Method for a Large Location Data)

  • 최도진;임종태;유승훈;복경수;유재수
    • 한국콘텐츠학회논문지
    • /
    • 제17권8호
    • /
    • pp.619-630
    • /
    • 2017
  • 스마트 기기의 대중화로 다양한 위치 기반 서비스가 제공되고 있다. 최근에는 소셜 서비스와 결합한 위치 기반 소셜 서비스들이 생겨나고 있다. 이러한 위치 기반 소셜 네트워크 서비스에서는 사용자 중심의 가장 가까운 위치를 검색하는 k-최근접 질의 처리의 요구가 증가된다. 본 논문에서는 대규모 사용자 환경에서 질의를 효율적으로 처리하기 위한 근사 k-최근접 질의 처리 기법을 제안한다. 제안하는 기법은 빅데이터 분산 처리기술을 활용하여 효율적인 스트림 처리를 수행한다. 본 논문에서는 대량의 위치 데이터에 대한 색인을 위해 전통적인 그리드 색인 기법을 변형한 색인 기법을 제안한다. 제안하는 질의 처리기법은 사용자의 진행방향을 고려하여 해당 셀을 우선적으로 탐색한다. 이를 통해 k개의 근사 결과 집합을 생성할 수 있다. 제안하는 기법의 우수성을 입증하기 위해 기존 기법과 다양한 성능 평가를 수행한다.

스마트시티의 빅 센서 데이터와 빅 GIS 데이터를 융합하여 실시간 온라인 소음지도로 시각화하기 위한 분산병렬처리 방법론 (Real Time Distributed Parallel Processing to Visualize Noise Map with Big Sensor Data and GIS Data for Smart Cities)

  • 박종원;심예찬;정혜선;이용우
    • 인터넷정보학회논문지
    • /
    • 제19권4호
    • /
    • pp.1-6
    • /
    • 2018
  • 스마트시티는, 각종 센서들로부터의 데이터를 수집, 처리하여 시민들을 위하여, 다양한 스마트 서비스들을 제공한다. 본 논문에서는, 이과 같은 스마트시티 서비스 중의 하나로서, 소음지도를 시민에게 실시간으로 제공하기 위한 연구 결과를 발표한다. 본 논문은, 스마트 시티의 융복합된 유비쿼터스센서네트워크들로부터 끊임없이 전달되는 대량의 스트림 데이터를, 실시간으로 전달받아서, 지리정보시스템 (GIS)의 정보들과 융합하여, 시각적으로 소음정보를 표시하여 주는, 3차원 소음지도를 실시간으로 제작하는, 실시간 분산병렬처리 방법론을 제시하였다. 이 방법론을 오픈소스소프트웨어를 활용하여 실제 시스템으로 개발되어 구현하였다. 본 논문에서는, 이와 같이 구현된 시스템들 중에서, 아파치 스톰(Apache Storm) 프레임워크를 사용하여 구현한 실제 시스템을 소개한다. 본 연구에서는, 이 실제 구현된 시스템을 성능평가하였다. 대량의 비정형 데이터를 실시간으로 처리하려면, 큰 컴퓨팅 파워가 필요하며, 필요한 컴퓨팅 파워의 규모도 사전에 알 수 없다는 문제들이 있다. 이 문제들을 해결하기 위하여, 본 연구에서는, 컴퓨팅 파워를 자유롭게 조절하여 공급할 수 있는. 클라우드 컴퓨팅을 사용하여 성능평가를 하였다. 이와 같은 성능평가를 통하여, 본 논문에서 제시한 방법론이 적절함을 확인하였고, 개발하여 구현한 시스템이 잘 작동함도 확인하였다. 나아가서는. 실시간으로 소음지도를 생산할 수 있음을 확인하였다. 본 논문은 이와 같은 성능평가 내용도 소개하고 상세히 설명한다.

초고속 관측 데이터 수신 및 저장을 위한 기록 시스템 설계 및 성능 최적화 연구 (The Study on the Design and Optimization of Storage for the Recording of High Speed Astronomical Data)

  • 송민규;강용우;김효령
    • 한국전자통신학회논문지
    • /
    • 제12권1호
    • /
    • pp.75-84
    • /
    • 2017
  • 초고속 환경에서 대용량 데이터에 대한 안정적 기록 및 효율적인 데이터 접근의 필요성은 갈수록 높아지고 있다. 이와 관련된 기초과학의 한 분야로 방대한 천체 관측 데이터를 생산하는 VLBI(: Very Long Baseline Interferometer)가 있는데 고분해능, 고감도 관측 연구를 수행하기 위해서는 고성능의 데이터 저장 시스템이 요구된다. 하지만 시장에 출시된 대다수 클라우드 기반 스토리지는 일반 IT, 금융, 행정 서비스 지원을 위한 저용량, 복수 스트림의 비정형 데이터에 최적화되어 있기 때문에 빅 스트림 데이터 기록을 위한 최적의 대안이 될 수 없다. 본 논문에서는 이를 극복하기 위한 방안으로 데이터 입출력 처리에 있어 고성능, 동시성에 최적화된 데이터 저장 시스템을 설계하고자 한다. 이를 위해 멀티 코어 CPU 환경에서 libpcap, pf_ring 등의 API 호출을 통해 패킷 입출력 모듈을 구현하였고 외부로부터 유입되는 데이터를 효율적으로 처리할 수 있도록 소프트웨어 RAID(: Redundant Array of Inexpensive Disks) 기반의 확장성 있는 스토리지를 구축하였다.

인구통계특성 기반 디지털 마케팅을 위한 클릭스트림 빅데이터 마이닝 (Clickstream Big Data Mining for Demographics based Digital Marketing)

  • 박지애;조윤호
    • 지능정보연구
    • /
    • 제22권3호
    • /
    • pp.143-163
    • /
    • 2016
  • 인구통계학적 정보는 디지털 마케팅의 핵심이라 할 수 있는 인터넷 사용자에 대한 타겟 마케팅 및 개인화된 광고를 위해 고려되는 가장 기초적이고 중요한 정보이다. 하지만 인터넷 사용자의 온라인 활동은 익명으로 행해지는 경우가 많기 때문에 인구통계특성 정보를 수집하는 것은 쉬운 일이 아니다. 정기적인 설문 조사를 통해 사용자들의 인구통계특성 정보를 수집할 수도 있지만 많은 비용이 들며 허위 기재 등과 같은 위험성이 존재한다. 특히, 모바일 환경에서는 대부분의 사용자들이 익명으로 활동하기 때문에 인구통계특성 정보를 수집하는 것은 더욱 더 어려워지고 있다. 반면, 인터넷 사용자의 온라인 활동을 기록한 클릭스트림 데이터는 해당 사용자의 인구통계학적 정보에 활용될 수 있다. 특히, 인터넷 사용자의 온라인 행위 특성 중 하나인 페이지뷰는 인구통계학적 정보 예측에 있어서 중요한 요인이 된다. 본 연구에서는 기존 선행 연구를 토대로 클릭스트림 데이터 분석을 통해 인터넷 사용자의 온라인 행위 특성을 추출하고 이를 해당 사용자의 인구통계학적 정보 예측에 사용한다. 또한, 1)의사결정나무를 이용한 변수 축소, 2)주성분분석을 활용한 차원축소, 3)군집분석을 활용한 변수축소의 방법을 제안하고 실험에 적용함으로써 많은 설명변수를 이용하여 예측 모델 생성 시 발생하는 차원의 저주와 과적합 문제를 해결하고 예측 모델의 정확도를 높이고자 하였다. 실험 결과, 범주의 수가 많은 다분형 종속변수에 대한 예측 모델은 모든 설명변수를 사용하여 예측 모델을 생성했을 때보다 본 연구에서 제안한 방법론들을 적용했을 때 예측 모델에 대한 정확도가 향상됨을 알 수 있었다. 본 연구는 클릭스트림 분석을 통해 추출된 인터넷 사용자의 온라인 행위는 해당 사용자의 인구통계학적 정보 예측에 활용 가능하며, 예측된 익명의 인터넷 사용자들에 대한 인구통계학적 정보를 디지털 마케팅에 활용 할 수 있다는데 의의가 있다. 또한, 제안 방법론들을 통해 어느 종속변수에 대해 어떤 방법론들이 예측 모델의 정확도를 개선하는지 확인하였다. 이는 추후 클릭스트림 분석을 활용하여 인구통계학적 정보를 예측할 때, 본 연구에서 제안한 방법론을 사용하여 보다 높은 정확도를 가지는 예측 모델을 생성 할 수 있다는데 의의가 있다.

대용량 로그 데이터 처리를 위한 분산 실시간 자가 진단 시스템 (A Distributed Real-time Self-Diagnosis System for Processing Large Amounts of Log Data)

  • 손시운;김다솔;문양세;최형진
    • 데이타베이스연구회지:데이타베이스연구
    • /
    • 제34권3호
    • /
    • pp.58-68
    • /
    • 2018
  • 분산 컴퓨팅이란 다수의 서버로 구성된 분산 시스템에서 데이터를 효율적으로 저장 및 처리하는 기술이다. 따라서 분산 시스템을 구성하는 서버의 상태에 따라 분산 컴퓨팅의 성능에 큰 영향을 미친다. 본 논문은 분산 시스템에서 실시간으로 발생하는 시스템 자원의 로그 데이터를 수집하고 이상을 탐지하여 결과를 시각화하는 자가 진단 시스템을 제안한다. 먼저, 자가 진단 과정을 수집, 전달, 분석, 저장, 시각화의 다섯 단계로 구분한다. 다음으로, 자가 진단 과정이 실시간성, 확장성, 고가용성의 목표를 만족하도록 실시간 자가 진단 시스템을 설계한다. 본 시스템은 대표적인 실시간 분산 기술인 Apache Flume, Apache Kafka, Apache Storm을 기반으로 구현되어 실시간성, 확장성, 고가용성의 세 가지 목표를 만족할 수 있다. 또한, 자가 진단 과정에서 로그 데이터 처리의 지연을 최소화하도록 간단하지만 효과적인 이동 평균 및 3-시그마 기반 이상 탐지 기법을 사용한다. 본 논문의 결과를 통해, 분산 시스템 내에서 서버 상태를 실시간으로 진단할 수 있는 분산 실시간 자가 진단 시스템을 구축할 수 있다.

맵리듀스기반 워크플로우 빅-로그 클러스터링 기법 (A MapReduce-Based Workflow BIG-Log Clustering Technique)

  • 진민혁;김광훈
    • 인터넷정보학회논문지
    • /
    • 제20권1호
    • /
    • pp.87-96
    • /
    • 2019
  • 본 논문에서는 분산 워크플로우 실행 이벤트 로그를 수집하고 분류하기 위한 사전 처리 도구로서 맵-리듀스기반 클러스터링 기법을 제안한다. 특히 우리는 볼륨, 속도, 다양성, 진실성 및 가치와 같은 BIG 데이터의 5V 속성에 만족하고 잘 충족되어 있기 때문에 분산 워크플로우 실행 이벤트 로그를 특별히 워크플로우 빅-로그(Workflow BIG-Logs)라고 정의한다. 이 논문에서 개발하는 클러스터링 기술은워크플로우 빅-로그를 기반으로 하는 특정 워크플로 프로세스 마이닝 및 분석 알고리즘의 사전 처리 단계에 적용하기 위한 목적으로 고안된 것이다. 즉, 맵리듀스(Map-Reduce) 프레임워크를 워크플로우 빅-로그 처리 플랫폼으로 사용하고, IEEE XES 표준 데이터 형식을 지원하며, 결국 본 연구에서 개발중에 있는 구조적 정보제어넷기반 워크플로우 프로세스 마이닝 알고리즘인 ${\rho}$-알고리즘의 사전 처리 단계 전용으로 사용되도록 구현된 것이다. 보다 자세하게 말하자면, 워크플로우 빅-로그의 클러스터링 패턴은 단위업무액티버티 기반 클러스터링 패턴과 단위업무 수행자 기반 클러스터링 패턴으로 분류되는데, 특별히 단위업무 액티버티 패턴의 하나인 시간적 워크케이스 패턴과 그의 발생 건수를 재발견하는 맵리듀스 기반 클러스터링 알고리즘을 설계하고 구현하고자 한다. 마지막으로, 우리는 BPI 챌린지에서 공개한 워크플로우 실행 이벤트 로그 데이터세트에 대해 일련의 실험을 수행함으로써 제안된 클러스터링 기법의 기술적 타당성을 검증한다.

MIMO 기반의 IoT 통신 잡음을 최소화하기 위해서 딥러닝을 활용한 비밀키 차원 분배 메커니즘 (Secret Key-Dimensional Distribution Mechanism Using Deep Learning to Minimize IoT Communication Noise Based on MIMO)

  • 조성남;정윤수
    • 융합정보논문지
    • /
    • 제10권11호
    • /
    • pp.23-29
    • /
    • 2020
  • IoT 장치가 기하급수적으로 증가하면서 다중 안테나를 통해 IoT 정보를 송·수신하기 위한 MIMO 간섭 최소화 및 전송 용량 증대는 가장 큰 이슈로 남아있는 상황이다. 본 논문에서는 MIMO 기반의 IoT 통신 잡음을 최소화하기 위해서 딥러닝을 활용한 비밀키 차원 분배 메커니즘을 제안한다. 제안 메커니즘은 다중의 안테나를 통해 송·수신되는 IoT 정보를 딥러닝을 사용하여 일괄적으로 분산 처리함으로써 송·수신 과정 중에 발생하는 자원 손실을 최소화하고 있다. 또한, 제안 메커니즘은 AP들간의 직접적인 간섭이 없는 기지국의 다중 안테나 다중 스트림 전송을 통해 용량을 최대로 증대시킬 수 있도록 다차원 키 분배 처리 과정을 적용하였다. 또한, 제안 메커니즘은 다중 안테나 기술을 최대한 활용하기 위해서 IoT 정보의 주파수 채널 수에 따라 비밀키를 차원 분배하는 방식을 적용함으로써 IoT 정보수에 따른 비밀키 사용 빈도수를 딥러닝하여 IoT 정보를 서로 동기화하고 있다.

쇼핑 웹사이트 탐색 유형과 방문 패턴 분석 (Analysis of shopping website visit types and shopping pattern)

  • 최경빈;남기환
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.85-107
    • /
    • 2019
  • 온라인 소비자는 쇼핑 웹사이트에서 특정 제품군이나 브랜드에 속한 제품들을 둘러보고 구매를 진행할 수 있고, 혹은 단순히 넓은 범위의 탐색 반경을 보이며 여러 페이지들을 돌아보다 구매를 진행하지 않고 이탈할 수 있다. 이러한 온라인 소비자의 행동과 구매에 관련된 연구는 꾸준히 진행되어왔으며, 실무에서도 소비자들의 행동 데이터를 바탕으로 한 서비스 및 어플리케이션이 개발되고 있다. 최근에는 빅데이터 기술의 발달로 소비자 개인 단위의 맞춤화 전략 및 추천 시스템이 활용되고 있으며 사용자의 쇼핑 경험을 최적화하기 위한 시도가 진행되고 있다. 하지만 이와 같은 시도에도 온라인 소비자가 실제로 웹사이트를 방문해 제품 구매 단계까지 전환될 확률은 매우 낮은 실정이다. 이는 온라인 소비자들이 단지 제품 구매를 위해 웹사이트를 방문하는 것이 아니라 그들의 쇼핑 동기 및 목적에 따라 웹사이트를 다르게 활용하고 탐색하기 때문이다. 따라서 단지 구매가 진행되는 방문 외에도 다양한 방문 형태를 분석하는 것은 온라인 소비자들의 행동을 이해하는데 중요하다고 할 수 있다. 이러한 관점에서 본 연구에서는 온라인 소비자의 탐색 행동의 다양성과 복잡성을 설명하기 위해 실제 E-commerce 기업의 클릭스트림 데이터를 기반으로 세션 단위의 클러스터링 분석을 진행해 탐색 행동을 유형화하였다. 이를 통해 각 유형별로 상세 단위의 탐색 행동과 구매 여부가 차이가 있음을 확인하였다. 또한 소비자 개인이 여러 방문에 걸친 일련의 탐색 유형에 대한 패턴을 분석하기 위해 순차 패턴 마이닝 기법을 활용하였으며, 같은 기간 내에 제품 구매까지 완료한 소비자와 구매를 진행하지 않은 채 방문만 진행한 소비자들의 탐색패턴에 대한 차이를 확인할 수 있었다. 본 연구의 시사점은 대규모의 클릭스트림 데이터를 활용해 온라인 소비자의 탐색 유형을 분석하고 이에 대한 패턴을 분석해 구매 과정 상의 행동을 데이터 기반으로 설명하였다는 점에 있다. 또한 온라인 소매 기업은 다양한 형태의 탐색 유형에 맞는 마케팅 전략 및 추천을 통해 구매 전환 개선을 시도할 수 있으며, 소비자의 탐색 패턴의 변화를 통해 전략의 효과를 평가할 수 있을 것이다.

프로그램 가능 최대길이 CA기반 의사난수열 생성기의 설계와 분석 (Design and Analysis of Pseudorandom Number Generators Based on Programmable Maximum Length CA)

  • 최언숙;조성진;김한두;강성원
    • 한국전자통신학회논문지
    • /
    • 제15권2호
    • /
    • pp.319-326
    • /
    • 2020
  • PRNG(Pseudorandom number generator)는 안전한 온라인 통신을 위한 암호화 키 생성에 있어서 필수적이다. PRNG에 의해 생성되는 비트 스트림은 대칭키 암호 시스템에서 빅 데이터를 효과적으로 암호화할 수 있도록 고속으로 생성되어야 하며 또한 여러 통계적 테스트를 통과할 수준의 랜덤성을 확보해야 한다. CA(Cellular Automata) 기반의 PRNG는 하드웨어로 구현이 용이하고, LFSR기반의 PRNG보다 렌덤성이 우수하다고 알려져 있다. 본 논문에서는 대칭키 암호시스템에서 효과적인 키 수열을 생성할 수 있는 PMLCA(Programmable Maximum Length CA)기반의 PRNG를 설계한다. 제안하는 PRNG는 비선형 제어 방식을 통해 비트 스트림을 생성한다. 먼저 주기가 긴 선형 수열을 생성하는 단일 여원벡터를 갖는 (m,n)-셀 PMLCA ℙ 기반의 PRNG를 설계하고 주기와 생성다항식을 분석한다. 또한 ℙ와 주기가 같으면서 비선형 수열을 생성하는 두 개의 여원벡터를 갖는 (m,n)-셀 PC-MLCA기반의 PRNG를 설계하고 비선형 수열이 출력되는 위치를 분석한다.