• Title/Summary/Keyword: 빅데이터의 처리 및 분석기법

Search Result 115, Processing Time 0.025 seconds

사이언스 빅 데이터(Science Big Data) 처리 기술 동향

  • Kim, Hui-Jae;Ju, Gyeong-No;Yun, Chan-Hyeon
    • Information and Communications Magazine
    • /
    • v.29 no.11
    • /
    • pp.11-23
    • /
    • 2012
  • 본 고에서는 과학 분야에서의 대용량 데이터 처리를 위한 기술인 사이언스 빅데이터의 처리 기술 동향에 대하여 기술한다. 서론에서 사이언스 빅데이터의 정의 및 필요성을 다루고, 본론에서는 데이터 중심 과학 패러다임의 등장과 그로 인한 사이언스 빅데이터 요구사항, 사이언스 빅데이터 소스 수집 및 정제, 저장 및 관리, 처리, 분석 등으로 이루어지는 사이언스 빅데이터 처리 기법에 대하여 기술한다. 또한 현재 다양한 기관에서 연구하고 있는 사이언스 빅데이터 플랫폼, 맵리듀스 등을 이용한 워크플로우 제어 기반의 사이언스 빅데이터 처리 기법을 예시로 소개한다.

MapReduce-Based Partitioner Big Data Analysis Scheme for Processing Rate of Log Analysis (로그 분석 처리율 향상을 위한 맵리듀스 기반 분할 빅데이터 분석 기법)

  • Lee, Hyeopgeon;Kim, Young-Woon;Park, Jiyong;Lee, Jin-Woo
    • The Journal of Korea Institute of Information, Electronics, and Communication Technology
    • /
    • v.11 no.5
    • /
    • pp.593-600
    • /
    • 2018
  • Owing to the advancement of Internet and smart devices, access to various media such as social media became easy; thus, a large amount of big data is being produced. Particularly, the companies that provide various Internet services are analyzing the big data by using the MapReduce-based big data analysis techniques to investigate the customer preferences and patterns and strengthen the security. However, with MapReduce, when the big data is analyzed by defining the number of reducer objects generated in the reduce stage as one, the processing rate of big data analysis decreases. Therefore, in this paper, a MapReduce-based split big data analysis method is proposed to improve the log analysis processing rate. The proposed method separates the reducer partitioning stage and the analysis result combining stage and improves the big data processing rate by decreasing the bottleneck phenomenon by generating the number of reducer objects dynamically.

Intelligent Join Technique Selection Between Heterogeneous NoSQL Databases in Big Data Envionment (빅데이터 환경에서 이기종 NoSQL 데이터베이스 간의 지능적 조인 기법 선택)

  • Kang, Joo-Young;Kim, Gun-Woo;Park, Kyung-Wook;Lee, Dong-Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2016.04a
    • /
    • pp.591-594
    • /
    • 2016
  • 최근 빅데이터 시대의 도래로 대량의 데이터에 대한 처리 및 분석 요구가 증가되면서 빅데이터를 저장하기 위해 개발된 NoSQL 데이터베이스 내의 조인 연산 필요성이 증대되고 있다. 빅데이터 환경에서는 다중 저장소 지속성의 개념에 따라 여러 NoSQL 데이터베이스를 동시 복합적으로 사용해야 하므로 이기종 NoSQL 데이터베이스간의 조인 연산이 중요시 되고 있다. 하지만 NoSQL 데이터베이스에서는 데이터 처리 과정에서 발생하는 오버헤드로 인해 조인 연산을 지원하지 않거나 조인 연산 시 성능저하가 발생한다. 이러한 조인 연산에 대한 오버헤드를 줄이기 위해 애플리케이션 단에서 맵리듀스 프레임워크를 활용한 다양한 조인 전략 연구들이 제시되었지만 단일 NoSQL 데이터베이스를 위한 방법이며 조인에 참여하는 데이터의 특성 및 연관성을 사전에 파악하고 있어야하는 한계점이 존재한다. 본 논문은 조인 연산에 참여하는 데이터에 대한 사전 정보 없이 빅데이터 환경에서 이기종 NoSQL 데이터베이스간의 조인 연산을 지원하기 위해 데이터 집합 분석, 질의 재배치, 조인 전략 자동 선정, 조인 결과가 저장될 데이터베이스 자동 선택 단계를 통한 지능적 조인 처리 기법을 제시한다.

A Trend Analysis and Book Recommendation through Bigdata Analysis (빅데이터 분석을 통한 트렌드 파악 및 사용자 맞춤 도서 추천)

  • Kyungseo Yoon;Seungshik Kang
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.363-364
    • /
    • 2023
  • 카테고리별 베스트셀러를 통해 트렌드 파악 및 사용자 맞춤형 도서 추천을 위해 카테고리별로 도서 데이터를 수집하고, 대용량 데이터인 위키피디어 데이터를 이용하여 워드임베딩 모델을 구축한다. 도서 데이터에 대한 키워드 분석 및 LDA 주제분석 기법에 의해 카테고리별 핵심 단어 분석을 통해 도서 트렌드를 파악하고, 사용자 맞춤형 도서 정보 제공 및 도서를 추천하는 기능을 구현한다.

Utilization of Social Media Analysis using Big Data (빅 데이터를 이용한 소셜 미디어 분석 기법의 활용)

  • Lee, Byoung-Yup;Lim, Jong-Tae;Yoo, Jaesoo
    • The Journal of the Korea Contents Association
    • /
    • v.13 no.2
    • /
    • pp.211-219
    • /
    • 2013
  • The analysis method using Big Data has evolved based on the Big data Management Technology. There are quite a few researching institutions anticipating new era in data analysis using Big Data and IT vendors has been sided with them launching standardized technologies for Big Data management technologies. Big Data is also affected by improvements of IT gadgets IT environment. Foreran by social media, analyzing method of unstructured data is being developed focusing on diversity of analyzing method, anticipation and optimization. In the past, data analyzing methods were confined to the optimization of structured data through data mining, OLAP, statics analysis. This data analysis was solely used for decision making for Chief Officers. In the new era of data analysis, however, are evolutions in various aspects of technologies; the diversity in analyzing method using new paradigm and the new data analysis experts and so forth. In addition, new patterns of data analysis will be found with the development of high performance computing environment and Big Data management techniques. Accordingly, this paper is dedicated to define the possible analyzing method of social media using Big Data. this paper is proposed practical use analysis for social media analysis through data mining analysis methodology.

Design and Implementation of a Generic Classification System Based on Incremental Learning Technology (점진적 학습 기술 기반 범용적인 분류기 구조설계 방법의 설계 및 구현)

  • Min, Byung-Won;Oh, Yong-Sun
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2019.05a
    • /
    • pp.425-426
    • /
    • 2019
  • 전통적인 마이닝 기법은 다양한 디지털 매체와 센서 등에서 생산되는 빅데이터를 처리하기 어려울 뿐 아니라 신규 데이터 누적시 전체 데이터를 재분석 해야하는 비효율성과 대용량의 문서를 학습함에 있어 메모리부족 문제, 학습 소요시간 문제 등이 있다. 이러한 문제를 해결하기 위하여 본 논문에서는 자질축소 기법에 의존하지 않고 대량의 문서를 자유롭게 학습하고 부분적인 자질 추가 변경 시에 변경요소만을 추가 반영할 수 있는 범용적이고 일반적인 분류기의 구조설계 방법을 설계 및 구현하였다. 점진적 학습 모듈은 일반적인 학습 방법이 데이터의 추가 및 변동시마다 모든 데이터를 재학습하는 데 반해, 기존의 학습 결과에 증분된 데이터만 재처리 없이 추가적으로 학습한다. 재학습을 위해 사용자는 작업 수행 중 자원 관리를 통해 기존에 처리된 데이터를 자유롭게 가져와서 새로운 데이터와 병합이 가능하다. 이러한 점직적 학습 효율성은 빅데이터 기반 데이터 처리에 주요한 특성인 데이터 생산 속도를 극복하기 위한 좋은 대안이 될 수 있음을 확인하였다.

  • PDF

A Study on the Data Collection Methods based Hadoop Distributed Environment (하둡 분산 환경 기반의 데이터 수집 기법 연구)

  • Jin, Go-Whan
    • Journal of the Korea Convergence Society
    • /
    • v.7 no.5
    • /
    • pp.1-6
    • /
    • 2016
  • Many studies have been carried out for the development of big data utilization and analysis technology recently. There is a tendency that government agencies and companies to introduce a Hadoop of a processing platform for analyzing big data is increasing gradually. Increased interest with respect to the processing and analysis of these big data collection technology of data has become a major issue in parallel to it. However, study of the collection technology as compared to the study of data analysis techniques, it is insignificant situation. Therefore, in this paper, to build on the Hadoop cluster is a big data analysis platform, through the Apache sqoop, stylized from relational databases, to collect the data. In addition, to provide a sensor through the Apache flume, a system to collect on the basis of the data file of the Web application, the non-structured data such as log files to stream. The collection of data through these convergence would be able to utilize as a basic material of big data analysis.

An Automatic Issues Analysis System using Big-data (빅데이터를 이용한 자동 이슈 분석 시스템)

  • Choi, Dongyeol;Ahn, Eungyoung
    • The Journal of the Korea Contents Association
    • /
    • v.20 no.2
    • /
    • pp.240-247
    • /
    • 2020
  • There have been many efforts to understand the trends of IT environments that have been rapidly changed. In a view point of management, it needs to prepare the social systems in advance by using Big-data these days. This research is for the implementation of Issue Analysis System for the Big-data based on Artificial Intelligence. This paper aims to confirm the possibility of new technology for Big-data processing through the proposed Issue Analysis System using. We propose a technique for semantic reasoning and pattern analysis based on the AI and show the proposed method is feasible to handle the Big-data. We want to verify that the proposed method can be useful in dealing with Big-data by applying latest security issues into the system. The experiments show the potentials for the proposed method to use it as a base technology for dealing with Big-data for various purposes.

빅데이터 분석을 위한 Rank-Sparsity 기반 신호처리기법

  • Lee, Hyeok;Lee, Hyeong-Il;Jo, Jae-Hak;Kim, Min-Cheol;So, Byeong-Hyeon;Lee, Jeong-U
    • Information and Communications Magazine
    • /
    • v.31 no.11
    • /
    • pp.35-45
    • /
    • 2014
  • 주성분 분석 기법(PCA)는 가장 널리 사용되는 데이터 차원 감소 (dimensionality reduction) 기법으로 알려져 있다. 하지만 데이터에 이상점 (outlier)가 존재하는 환경에서는 성능이 크게 저하된다는 단점을 가지고 있다. Rank-Sparsity(Robust PCA) 기법은 주어진 행렬을 low-rank 행렬과 저밀도(sparse)행렬의 합으로 분해하는 방식으로, 이상점이 많은 환경에서 PCA기법을 효과적으로 대체할 수 있는 알고리즘으로 알려져 있다. 본 고에서는 RPCA 기법을 간략히 소개하고, 그의 적용분야, 및 알고리즘에 관한 연구들을 대해서 알아본다.

Analysis of the Effectiveness of Big Data-Based Six Sigma Methodology: Focus on DX SS (빅데이터 기반 6시그마 방법론의 유효성 분석: DX SS를 중심으로)

  • Kim Jung Hyuk;Kim Yoon Ki
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.13 no.1
    • /
    • pp.1-16
    • /
    • 2024
  • Over recent years, 6 Sigma has become a key methodology in manufacturing for quality improvement and cost reduction. However, challenges have arisen due to the difficulty in analyzing large-scale data generated by smart factories and its traditional, formal application. To address these limitations, a big data-based 6 Sigma approach has been developed, integrating the strengths of 6 Sigma and big data analysis, including statistical verification, mathematical optimization, interpretability, and machine learning. Despite its potential, the practical impact of this big data-based 6 Sigma on manufacturing processes and management performance has not been adequately verified, leading to its limited reliability and underutilization in practice. This study investigates the efficiency impact of DX SS, a big data-based 6 Sigma, on manufacturing processes, and identifies key success policies for its effective introduction and implementation in enterprises. The study highlights the importance of involving all executives and employees and researching key success policies, as demonstrated by cases where methodology implementation failed due to incorrect policies. This research aims to assist manufacturing companies in achieving successful outcomes by actively adopting and utilizing the methodologies presented.