• 제목/요약/키워드: 빅데이터의 처리 및 분석기법

검색결과 115건 처리시간 0.027초

사이언스 빅 데이터(Science Big Data) 처리 기술 동향

  • 김희재;주경노;윤찬현
    • 정보와 통신
    • /
    • 제29권11호
    • /
    • pp.11-23
    • /
    • 2012
  • 본 고에서는 과학 분야에서의 대용량 데이터 처리를 위한 기술인 사이언스 빅데이터의 처리 기술 동향에 대하여 기술한다. 서론에서 사이언스 빅데이터의 정의 및 필요성을 다루고, 본론에서는 데이터 중심 과학 패러다임의 등장과 그로 인한 사이언스 빅데이터 요구사항, 사이언스 빅데이터 소스 수집 및 정제, 저장 및 관리, 처리, 분석 등으로 이루어지는 사이언스 빅데이터 처리 기법에 대하여 기술한다. 또한 현재 다양한 기관에서 연구하고 있는 사이언스 빅데이터 플랫폼, 맵리듀스 등을 이용한 워크플로우 제어 기반의 사이언스 빅데이터 처리 기법을 예시로 소개한다.

로그 분석 처리율 향상을 위한 맵리듀스 기반 분할 빅데이터 분석 기법 (MapReduce-Based Partitioner Big Data Analysis Scheme for Processing Rate of Log Analysis)

  • 이협건;김영운;박지용;이진우
    • 한국정보전자통신기술학회논문지
    • /
    • 제11권5호
    • /
    • pp.593-600
    • /
    • 2018
  • 인터넷과 스마트기기의 발달로 인해 소셜미디어 등 다양한 미디어의 접근의 용이해짐에 따라 많은 양의 빅데이터들이 생성되고 있다. 특히 다양한 인터넷 서비스를 제공하는 기업들은 고객 성향 및 패턴, 보안성 강화를 위해 맵리듀스 기반 빅데이터 분석 기법들을 활용하여 빅데이터 분석하고 있다. 그러나 맵리듀스는 리듀스 단계에서 생성되는 리듀서 객체의 수를 한 개로 정의하고 있어, 빅데이터 분석할 때 처리될 많은 데이터들이 하나의 리듀서 객체에 집중된다. 이로 인해 리듀서 객체는 병목현상이 발생으로 빅데이터 분석 처리율이 감소한다. 이에 본 논문에서는 로그 분석처리율 향상을 위한 맵리듀스 기반 분할 빅데이터 분석 기법을 제안한다. 제안한 기법은 리듀서 분할 단계와 분석 결과병합 단계로 구분하며 리듀서 객체의 수를 유동적으로 생성하여 병목현상을 감소시켜 빅데이터 처리율을 향상시킨다.

빅데이터 환경에서 이기종 NoSQL 데이터베이스 간의 지능적 조인 기법 선택 (Intelligent Join Technique Selection Between Heterogeneous NoSQL Databases in Big Data Envionment)

  • 강주영;김건우;박경욱;이동호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 춘계학술발표대회
    • /
    • pp.591-594
    • /
    • 2016
  • 최근 빅데이터 시대의 도래로 대량의 데이터에 대한 처리 및 분석 요구가 증가되면서 빅데이터를 저장하기 위해 개발된 NoSQL 데이터베이스 내의 조인 연산 필요성이 증대되고 있다. 빅데이터 환경에서는 다중 저장소 지속성의 개념에 따라 여러 NoSQL 데이터베이스를 동시 복합적으로 사용해야 하므로 이기종 NoSQL 데이터베이스간의 조인 연산이 중요시 되고 있다. 하지만 NoSQL 데이터베이스에서는 데이터 처리 과정에서 발생하는 오버헤드로 인해 조인 연산을 지원하지 않거나 조인 연산 시 성능저하가 발생한다. 이러한 조인 연산에 대한 오버헤드를 줄이기 위해 애플리케이션 단에서 맵리듀스 프레임워크를 활용한 다양한 조인 전략 연구들이 제시되었지만 단일 NoSQL 데이터베이스를 위한 방법이며 조인에 참여하는 데이터의 특성 및 연관성을 사전에 파악하고 있어야하는 한계점이 존재한다. 본 논문은 조인 연산에 참여하는 데이터에 대한 사전 정보 없이 빅데이터 환경에서 이기종 NoSQL 데이터베이스간의 조인 연산을 지원하기 위해 데이터 집합 분석, 질의 재배치, 조인 전략 자동 선정, 조인 결과가 저장될 데이터베이스 자동 선택 단계를 통한 지능적 조인 처리 기법을 제시한다.

빅데이터 분석을 통한 트렌드 파악 및 사용자 맞춤 도서 추천 (A Trend Analysis and Book Recommendation through Bigdata Analysis)

  • 윤경서;강승식
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.363-364
    • /
    • 2023
  • 카테고리별 베스트셀러를 통해 트렌드 파악 및 사용자 맞춤형 도서 추천을 위해 카테고리별로 도서 데이터를 수집하고, 대용량 데이터인 위키피디어 데이터를 이용하여 워드임베딩 모델을 구축한다. 도서 데이터에 대한 키워드 분석 및 LDA 주제분석 기법에 의해 카테고리별 핵심 단어 분석을 통해 도서 트렌드를 파악하고, 사용자 맞춤형 도서 정보 제공 및 도서를 추천하는 기능을 구현한다.

빅 데이터를 이용한 소셜 미디어 분석 기법의 활용 (Utilization of Social Media Analysis using Big Data)

  • 이병엽;임종태;유재수
    • 한국콘텐츠학회논문지
    • /
    • 제13권2호
    • /
    • pp.211-219
    • /
    • 2013
  • 빅 데이터를 활용한 분석 방법은 빅 데이터를 처리 할 수 있는 기술 기반으로 발전되어 오고 있다. 많은 IT 리서치 기관들이 빅 데이터를 통한 새로운 분석의 패러다임을 예견하고 있고, 또한 IT 벤더들을 중심으로 빅 데이터 처리를 위한 표준 기술들을 제시하고 있다. 빅 데이터는 IT 기기 및 환경의 발달과도 상호연관적이고 소셜 미디어를 주측으로 기존에 예측하지 못하는 비정형화된 데이터들을 정형화 하여, 이에 따른 다양한 분석, 예측 및 최적화에 초점이 맞추어 발달 하고 있다. 과거의 분석 기법은 정형화된 데이터를 기반으로 데이터 마이닝, OLAP, 통계 분석등을 통한 의사결정 도구로서 사용되어 왔다. 하지만 최근 빅데이터를 이용한 새로운 분석의 패러다임을 통해 분석기법의 다양화, 비정형 데이터 분석 등 새로운 형태의 기반 기술발전과 다양한 형태의 데이터를 통한 새로운 분석을 통해 통찰력을 높일 수 있다. 더욱이 고성능의 컴퓨팅 환경들의 발달과 표준화된 대용량 데이터 처리 기술 발달이 향후 조금 더 다양한 형태의 분석패턴을 만들어 갈 것이다. 따라서 본 논문은 빅 데이터를 통해 분석 가능한 다양한 기법을 알아보고, 기존의 데이터 마이닝 분석 기법을 통한 소셜 미디어의 분석 형태에 대한 활용 및 분석방안을 제시 하였다.

점진적 학습 기술 기반 범용적인 분류기 구조설계 방법의 설계 및 구현 (Design and Implementation of a Generic Classification System Based on Incremental Learning Technology)

  • 민병원;오용선
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2019년도 춘계종합학술대회
    • /
    • pp.425-426
    • /
    • 2019
  • 전통적인 마이닝 기법은 다양한 디지털 매체와 센서 등에서 생산되는 빅데이터를 처리하기 어려울 뿐 아니라 신규 데이터 누적시 전체 데이터를 재분석 해야하는 비효율성과 대용량의 문서를 학습함에 있어 메모리부족 문제, 학습 소요시간 문제 등이 있다. 이러한 문제를 해결하기 위하여 본 논문에서는 자질축소 기법에 의존하지 않고 대량의 문서를 자유롭게 학습하고 부분적인 자질 추가 변경 시에 변경요소만을 추가 반영할 수 있는 범용적이고 일반적인 분류기의 구조설계 방법을 설계 및 구현하였다. 점진적 학습 모듈은 일반적인 학습 방법이 데이터의 추가 및 변동시마다 모든 데이터를 재학습하는 데 반해, 기존의 학습 결과에 증분된 데이터만 재처리 없이 추가적으로 학습한다. 재학습을 위해 사용자는 작업 수행 중 자원 관리를 통해 기존에 처리된 데이터를 자유롭게 가져와서 새로운 데이터와 병합이 가능하다. 이러한 점직적 학습 효율성은 빅데이터 기반 데이터 처리에 주요한 특성인 데이터 생산 속도를 극복하기 위한 좋은 대안이 될 수 있음을 확인하였다.

  • PDF

하둡 분산 환경 기반의 데이터 수집 기법 연구 (A Study on the Data Collection Methods based Hadoop Distributed Environment)

  • 진고환
    • 한국융합학회논문지
    • /
    • 제7권5호
    • /
    • pp.1-6
    • /
    • 2016
  • 최근 빅데이터 활용과 분석기술의 발전을 위하여 많은 연구가 이루어지고 있고, 빅데이터를 분석하기 위하여 처리 플랫폼인 하둡을 도입하는 정부기관 및 기업이 점차 늘어가고 있는 추세이다. 이러한 빅데이터의 처리와 분석에 대한 관심이 고조되면서 그와 병행하여 데이터의 수집 기술이 주요한 이슈가 되고 있으나, 데이터 분석 기법의 연구에 비하여 수집 기술에 대한 연구는 미미한 상황이다. 이에 본 논문에서는 빅데이터 분석 플랫폼인 하둡을 클러스터로 구축하고 아파치 스쿱을 통하여 관계형 데이터베이스로부터 정형화된 데이터를 수집하고, 아파치 플룸을 통하여 센서 및 웹 애플리케이션의 데이터 파일, 로그 파일과 같은 비정형 데이터를 스트림 기반으로 수집하는 시스템을 제안한다. 이러한 융합을 통한 데이터 수집으로 빅데이터 분석의 기초적인 자료로 활용할 수 있을 것이다.

빅데이터를 이용한 자동 이슈 분석 시스템 (An Automatic Issues Analysis System using Big-data)

  • 최동열;안은영
    • 한국콘텐츠학회논문지
    • /
    • 제20권2호
    • /
    • pp.240-247
    • /
    • 2020
  • 빠르게 변화하는 온라인상의 정보 흐름과 트랜드를 이해하고 IT기술 환경변화에 대응하기 위해서 필요한 선제적 제도 마련을 위한 한 가지 방안으로 빅데이터를 이용하고자 하는 노력이 최근 들어 더욱 가속화 되고 있다. 논문에서는 인공지능 기반의 빅데이터 처리를 통한 이슈 분석 시스템의 개발과 연구를 통해 빅데이터 처리를 위한 새로운 기술의 가능성을 확인하고자 한다. 이를 위해, 고속의 병렬처리가 가능해진 인공신경망을 사용, 의미 추론 및 패턴분석을 위한 처리 기법을 제안하고 구현을 통해 제안하는 방법에 대한 빅데이터 처리의 적합성을 알아본다. 정보보안의 중요성을 감안하여, 인공 신경망을 이용한 이슈 분석 시스템을 최근의 보안 이슈 분석에 활용해봄으로써 제안하는 방식이 실제 빅데이터 처리에 유용하게 활용 될 수 있음을 검증한다. 실험을 통해서 제안된 방식에 대한 다양한 목적의 빅데이터 처리를 위한 기반 기술로의 활용 가능성을 확인한다.

빅데이터 분석을 위한 Rank-Sparsity 기반 신호처리기법

  • 이혁;이형일;조재학;김민철;소병현;이정우
    • 정보와 통신
    • /
    • 제31권11호
    • /
    • pp.35-45
    • /
    • 2014
  • 주성분 분석 기법(PCA)는 가장 널리 사용되는 데이터 차원 감소 (dimensionality reduction) 기법으로 알려져 있다. 하지만 데이터에 이상점 (outlier)가 존재하는 환경에서는 성능이 크게 저하된다는 단점을 가지고 있다. Rank-Sparsity(Robust PCA) 기법은 주어진 행렬을 low-rank 행렬과 저밀도(sparse)행렬의 합으로 분해하는 방식으로, 이상점이 많은 환경에서 PCA기법을 효과적으로 대체할 수 있는 알고리즘으로 알려져 있다. 본 고에서는 RPCA 기법을 간략히 소개하고, 그의 적용분야, 및 알고리즘에 관한 연구들을 대해서 알아본다.

빅데이터 기반 6시그마 방법론의 유효성 분석: DX SS를 중심으로 (Analysis of the Effectiveness of Big Data-Based Six Sigma Methodology: Focus on DX SS)

  • 김정혁;김윤기
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제13권1호
    • /
    • pp.1-16
    • /
    • 2024
  • 지난 수년간 6시그마는 제조업의 주요 혁신 방법론으로, 품질개선과 경비 절감을 위해 사용되었다. 그러나 스마트공장 확산으로 인한 초 단위 데이터 생성 등, 방대한 양의 데이터를 분석하기 어려운 문제와,오랫동안 정착된 형식적 사용으로 인해, 6시그마의 한계가 지적되었다. 6시그마의 한계를 극복하기 위해, 최근에 빅데이터 기반 6시그마 기법이 연구되고 있다. 빅데이터 기반 6시그마는, 6시그마의 강점인 통계적 검증, 수학적 최적화, 높은 해석력과, 빅데이터 분석의 강점인 기계학습을 모두 활용할 수 있다. 그러나, 최근 연구된 빅데이터 기반 6시그마 기법이 제조공정 및 경영 성과에 미치는 영향에 대한 검증은 미비하다. 이러한 이유로 실무에서는, 빅데이터 기반 6시그마 기법에 대한 신뢰성이 높지 않아 제대로 활용하지 못하고 있다. 본 연구에서는, 빅데이터 기반 6시그마인 DX SS의 유효성 분석을 통해 제조공정의 효율성에 미치는 영향을 알아본다. 또한 기업에서 이 기법을 성공적으로 도입 및 정착시키기 위한 핵심 성공 정책을 도출한다. 추가적으로, 성공 정책에 대한 연구 없이 전 임직원의 참여가 수반되지 못한 잘못된 정책으로 방법론이 중단된 사례는, 핵심 성공 정책 연구에 대한 중요성을 보여준다. 제조기업들이 본 연구에서 제시하는 방법론을 적극 도입하고 사용하여 성공적인 성과를 거둘 수 있도록 본 연구가 도움이 되기를 기대한다.