• Title/Summary/Keyword: 빅데이터 기법

Search Result 781, Processing Time 0.053 seconds

A Review of Research on Big Data Security (빅데이터 보안 분야의 연구동향 분석)

  • Park, Seokyee;Hwang, K.T.
    • Informatization Policy
    • /
    • v.23 no.1
    • /
    • pp.3-19
    • /
    • 2016
  • The purpose of the study is to analyze the existing literature and to suggest future research directions in the big data security area. This study identifies 62 research articles and analyses their publication year, publication media, general research approach, specific research method, and research topic. According to the results of the analyses, big data security research is at its intial stage in which non-empirical studies and research dealing with technical issues are dominant. From the research topic perspective, the area demonstrates the signs of initial research stage in which proportion of the macro studies dealing with overall issues is far higher than the micro ones covering specific implementation methods and sectoral issues. A few promising topics for future research include overarching framework on big data security, big data security methods for different industries, and government policies on big data security. Currently, the big data security area does not have sufficient research results. In the future, studies covering various topics in big data security from multiple perspectives are anticipated.

소셜 데이터에서 재난 사건 추출을 위한 사용자 행동 및 시간 분석을 반영한 토픽 모델

  • ;Lee, Gyeong-Sun
    • Information and Communications Magazine
    • /
    • v.34 no.6
    • /
    • pp.43-50
    • /
    • 2017
  • 본고에서는 소셜 빅데이터에서 공공안전에 위협되고 사회적으로 이슈가 되는 재난사건을 추출하기 위한 방법으로 소셜 네트워크상에서 사용자 행동 분석과 시간분석을 반영한 토픽 모델링 기법을 알아본다. 소셜 사용자의 글 수, 리트윗 반응, 활동주기, 팔로워 수, 팔로잉 수 등 사용자의 행동 분석을 통하여 활동적이고 신뢰성 있는 사용자를 분류함으로써 트윗에서 스팸성과 광고성을 제외하고 이슈에 대해 신뢰성 높은 사용자가 쓴 트윗을 중요하게 반영한다. 또한, 트위터 데이터에서 새로운 이슈가 발생한 것을 탐지하기 위해 시간별 핵심어휘 빈도의 분포 변화를 측정하고, 이슈 트윗에 대해 감성 표현 분석을 통해 핵심이슈에 대해 사건 어휘를 추출한다. 소셜 빅데이터의 특성상 같은 날짜에 여러 이슈에 대한 트윗이 많이 생성될 수 있기 때문에, 트윗들을 토픽별로 그룹핑하는 것이 필요하므로, 최근 많이 사용되고 있는 LDA 토픽모델링 기법에 시간 특성과 사용자 특성을 분석한 시간상에서의 중요한 사건 어휘를 반영하고, 해당이슈에 대한 신뢰성 있는 사용자가 쓴 트윗을 중요시 반영하도록 토픽모델링 기법을 개선한 소셜 사건 탐지 방법에 대해 알아본다.

A Method of Grouping Features from Big Data based on Semantic Hierarchy for Accuracy Enhancement (빅데이터 환경에서 학습 정확도 향상을 위한 의미 계층 기반 속성 집단화 기법)

  • Lee, Keonsun;Lee, Keonsoo;Kang, Byeong-G
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.10a
    • /
    • pp.892-894
    • /
    • 2019
  • 빅데이터 기반의 기계학습은 대규모 데이터를 이용하여, 숨겨진 패턴을 찾아내는 학습과정과, 그렇게 찾아낸 패턴을 이용하여 새로운 데이터를 해석하는 추론과정으로 이루어진다. 이 과정을 통해 학습된 패턴은 데이터를 구성하는 속성들과 긴밀한 연관성을 갖고 있다. 학습에 사용된 데이터의 원 데이터를 구성하는 각각의 속성과 추론 결과가 동일한 계층 관계를 갖고 있다면, 모든 속성을 동일하게 처리할 수 있지만, 그렇지 않은 경우, 속성들 사이의 계층 정보를 고려하는 것이, 추론 결과의 정확도를 높일 수 있다. 이에 본 연구에서는 속성들 사이의 계층 관계를 고려한 추론 기법을 제안하고, 사례연구를 통해 제안 방법을 실제 상황에 적용하는 방법을 제시한다.

A Study on Concept and Services Framework of Geo-Spatial Big Data (공간 빅데이터의 개념 및 서비스 프레임워크 구상에 관한 연구)

  • Yu, Seon Cheol;Choi, Won Wook;Shin, Dong Bin;Ahn, Jong Wook
    • Spatial Information Research
    • /
    • v.22 no.6
    • /
    • pp.13-21
    • /
    • 2014
  • This study defines concept and service framework of Geo-Spatial Big Data(GSBD). The major concept of the GSBD is formulated based on the 7V characteristics: the general characteristics of big data with 3V(Volume, Variety, Velocity); Geo-spatial oriented characteristics with 4V(Veracity, Visualization, Versatile, Value). GSBD is the technology to extract meaningful information from Geo-spatial fusion data and support decision making responding with rapidly changing activities by analysing with almost realtime solutions while efficiently collecting, storing and managing structured, semi-structured or unstructured big data. The application area of the GSBD is segmented in terms of technical aspect(store, manage, analyze and service) and public/private area. The service framework for the GSBD composed of modules to manage, contain and monitor GSBD services is suggested. Such additional studies as building specific application service models and formulating service delivery strategies for the GSBD are required based on the services framework.

빅데이터를 활용한 보안로그시스템

  • Jeon, Gyeong-Sik;Lee, Hyeon-Gyeong;Jeon, Sam-Hyeon;Kim, Jong-Bae
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2015.05a
    • /
    • pp.710-711
    • /
    • 2015
  • 최근 사이버 공격이사회, 국가적 위협으로 대두되고 있다. 최근 신종 악성코드에 의한 A.P.T 공격이 사회적으로 큰 혼란을 야기하고 있다. 이에 따라 기업 내에서 방화벽, IPS, VPN 등의 네트워크 보안 시스템의 통합 관리를 목적으로 하는 통합관제시스템(ESM)의 필요성이 제기되었다. 그러나 기존의 ESM의 방식은 외부에서 내부로 유입되는 트래픽만을 모니터링하는 네트워크 기반 공격 탐지기법을 사용하기 때문에, 외부 사이버 공격만을 차단할 수 있다는 한계점을 가지고 있다. 따라서 본 연구는 주요 IT 기반시설의 네트워크, 시스템, 응용 서비스 등으로부터 발생하는 데이터 및 보안 이벤트 간의 연관성을 분석하여 보안 지능을 향상시키는 빅데이터를 활용한 보안로그시스템을 제안한다. 본 연구에서 제안한 빅데이터를 활용한 보안로그시스템을 통해 분산 기반의 저장/처리 기술 적용하고자 한다.본 기술을 적용한 지능형 정보 분석 플랫폼 구성을 통해, 가용성과 확장성을 확보하여 통합적 보안 관제가 가능하도록 한다. 뿐만 아니라 기업 내로의 악성코드 유입, 감염(전파) 그리고 실시간 모니터링이 가능하여 고객 서비스 만족도가 향상되는 파급효과가 기대된다.

  • PDF

An Analysis of Causes of Marine Incidents at sea Using Big Data Technique (빅데이터 기법을 활용한 항해 중 준해양사고 발생원인 분석에 관한 연구)

  • Kang, Suk-Young;Kim, Ki-Sun;Kim, Hong-Beom;Rho, Beom-Seok
    • Journal of the Korean Society of Marine Environment & Safety
    • /
    • v.24 no.4
    • /
    • pp.408-414
    • /
    • 2018
  • Various studies have been conducted to reduce marine accidents. However, research on marine incidents is only marginal. There are many reports of marine incidents, but the main content of existing studies has been qualitative, which makes quantitative analysis difficult. However, quantitative analysis of marine accidents is necessary to reduce marine incidents. The purpose of this paper is to analyze marine incident data quantitatively by applying big data techniques to predict marine incident trends and reduce marine accident. To accomplish this, about 10,000 marine incident reports were prepared in a unified format through pre-processing. Using this preprocessed data, we first derived major keywords for the Marine incidents at sea using text mining techniques. Secondly, time series and cluster analysis were applied to major keywords. Trends for possible marine incidents were predicted. The results confirmed that it is possible to use quantified data and statistical analysis to address this topic. Also, we have confirmed that it is possible to provide information on preventive measures by grasping objective tendencies for marine incidents that may occur in the future through big data techniques.

Standardizing Unstructured Big Data and Visual Interpretation using MapReduce and Correspondence Analysis (맵리듀스와 대응분석을 활용한 비정형 빅 데이터의 정형화와 시각적 해석)

  • Choi, Joseph;Choi, Yong-Seok
    • The Korean Journal of Applied Statistics
    • /
    • v.27 no.2
    • /
    • pp.169-183
    • /
    • 2014
  • Massive and various types of data recorded everywhere are called big data. Therefore, it is important to analyze big data and to nd valuable information. Besides, to standardize unstructured big data is important for the application of statistical methods. In this paper, we will show how to standardize unstructured big data using MapReduce which is a distribution processing system. We also apply simple correspondence analysis and multiple correspondence analysis to nd the relationship and characteristic of direct relationship words for Samsung Electronics and The Korea Economic Daily newspaper as well as Apple Inc.

Problem Analysis of Virtual Machine Live Migration for Big Data Processing in IaaS Environments (IaaS 환경에서 빅데이터 처리를 위한 가상머신 라이브 마이그레이션 문제점 분석)

  • Choi, HeeSeok;Lim, JongBeom;Choi, Sungmin;Lee, EunYoung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2016.10a
    • /
    • pp.66-67
    • /
    • 2016
  • 최근 수많은 국 내외 글로벌 기업들이 클라우드 자원의 제공자 겸 소비자 역할을 하는 프라이빗 IaaS 클라우드 환경을 구축하고 있는 추세이며 이를 위해 오픈소스 클라우드 플랫폼인 오픈스택(OpenStack)이 많이 사용되고 있다. 이 논문에서는 대규모 빅데이터 처리를 위해 오픈스택 클라우드 환경의 가상머신 라이브 마이그레이션 기법을 사용할 경우 발생할 수 있는 문제점을 분석한다. 이러한 문제점에 대하여 가상머신에서 빅데이터 연산 처리 시 스토리지 병목현상을 해결하기 위한 마이그레이션 기법을 제시한다.

A Method to Access Data for Spatial Operation in Parallel Distributed Processing System (병렬 분산 처리 시스템에서 공간 연산을 위한 데이터 접근 방안)

  • Kim, Jindeog
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2016.10a
    • /
    • pp.442-444
    • /
    • 2016
  • 과거에 비해 비약적으로 생산되는 공간 데이터에 대한 처리를 위한 공간 연산은 빠른 처리 응답성을 요구하는 경우가 많다. 그래서 최근 하둡(Hadoop)과 같은 빅데이터 처리 시스템을 이용하여 처리하고자 하는 시도가 많다. 한편, 공간 조인은 데이터 분할(Partitioning)과 공간 색인의 이용 여부, 여과 단계와 정제 단계를 거치는 등 그 복잡도가 강한 공간 연산이다. 그래서 빅데이터 처리 시스템을 이용한 공간 조인의 처리 방식은 매우 다양하다. 그러나 지금까지 이러한 공간 조인의 처리 방식에 다른 리소스 활용에 대한 비교는 거의 없다. 이 논문에서는 다양한 공간 연산의 수행 방법에 따른 빅데이터 시스템 클러스터에서 데이터 전송 방식을 고찰하고 데이터 전송에 따른 네트워크 리소스의 효율적인 사용 방안을 제안하고자 한다. 구체적으로 단일할당과 다중할당 색인 기법의 비교, 파티셔닝 방법의 비교, 맵리듀스 시스템의 태스크 할당 방법에 따른 비교를 통해 다양한 연산 유형에 따른 공간 조인의 처리 방안 선정에 고려 요소를 제시하고자 한다.

  • PDF

Keyword Data Analysis Using Bayesian Conjugate Prior Distribution (베이지안 공액 사전분포를 이용한 키워드 데이터 분석)

  • Jun, Sunghae
    • The Journal of the Korea Contents Association
    • /
    • v.20 no.6
    • /
    • pp.1-8
    • /
    • 2020
  • The use of text data in big data analytics has been increased. So, much research on methods for text data analysis has been performed. In this paper, we study Bayesian learning based on conjugate prior for analyzing keyword data extracted from text big data. Bayesian statistics provides learning process for updating parameters when new data is added to existing data. This is an efficient process in big data environment, because a large amount of data is created and added over time in big data platform. In order to show the performance and applicability of proposed method, we carry out a case study by analyzing the keyword data from real patent document data.