• Title/Summary/Keyword: 빅데이터 처리

Search Result 1,111, Processing Time 0.03 seconds

사이언스 빅 데이터(Science Big Data) 처리 기술 동향

  • Kim, Hui-Jae;Ju, Gyeong-No;Yun, Chan-Hyeon
    • Information and Communications Magazine
    • /
    • v.29 no.11
    • /
    • pp.11-23
    • /
    • 2012
  • 본 고에서는 과학 분야에서의 대용량 데이터 처리를 위한 기술인 사이언스 빅데이터의 처리 기술 동향에 대하여 기술한다. 서론에서 사이언스 빅데이터의 정의 및 필요성을 다루고, 본론에서는 데이터 중심 과학 패러다임의 등장과 그로 인한 사이언스 빅데이터 요구사항, 사이언스 빅데이터 소스 수집 및 정제, 저장 및 관리, 처리, 분석 등으로 이루어지는 사이언스 빅데이터 처리 기법에 대하여 기술한다. 또한 현재 다양한 기관에서 연구하고 있는 사이언스 빅데이터 플랫폼, 맵리듀스 등을 이용한 워크플로우 제어 기반의 사이언스 빅데이터 처리 기법을 예시로 소개한다.

Design of the Medical Bigdata Processing and Management System (의료 빅데이터 처리 및 관리 시스템 설계)

  • Lee, Seung-Jin;Shin, Young-Rok;Park, Jun-Young;Huh, Eui-Nam
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.05a
    • /
    • pp.431-434
    • /
    • 2013
  • 최근에는 네트워크가 진화하고 데이터 처리기술이 발달하여 디지털 데이터가 활성화되면서, 기존 데이터 처리 방식으로 감당하기 힘든 규모의 데이터인 빅데이터가 매일 생산되고 있다. 이러한 대규모 데이터는 분석 및 관리를 하는데 어렵고 시간이 많이 걸리지만, 분석을 함으로써 새롭고 유용한 많은 정보를 얻을 수가 있다. 이처럼 빅데이터 분석을 통해 얻어지는 정보가 기존 분석 방식에서 얻어지는 정보와 다른 새로운 정보이기에 많은 산업분야에서 빅데이터 처리에 대한 관심이 많아지고 있다. 이러한 흐름에 따라, 의료분야에서도 빅데이터를 효율적으로 처리 및 관리하기 위한 시스템 구축을 시도하고 있다. 즉, 기존에 정형화 되어 있는 의료 데이터를 분석하여 얻는 정보에 비정형화 되어있는 의료 데이터를 추가하여 새로운 정보를 도출하려 시도하고 있다. 하지만, 여러 병원에서 서로 호환이 가능한 의료 빅데이터 처리 및 관리 시스템을 사용하기 위해서는 명확한 의료 빅데이터 처리 및 관리에 대한 요구사항과 기능정의가 필요하다. 이에 본 논문에서는 의료 빅데이터 처리 및 관리를 위한 요구사항과 기능정의를 하고 의료 빅데이터 처리 및 관리 시스템 구조를 구축하고자한다.

Suggestion of BigData Processing System for Enhanced Data Processing on ETL (ETL 상에서 처리속도 향상을 위한 빅데이터 처리 시스템 제안)

  • Lee, Jung-Been;Park, Seok-Cheon;Kil, Gi-Beom;Chun, Seung-Tea
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.04a
    • /
    • pp.170-171
    • /
    • 2015
  • 최근 디지털 정보량의 기하급수적인 증가에 따라 대규모 데이터인 빅데이터가 등장하였다. 빅데이터는 데이터가 실시간으로 매우 빠르게 생성되며 다양한 형태의 데이터를 가지며 이 데이터를 수집, 처리, 분석을 통해 새로운 지식을 창출한다. 그러나 기존의 ETL(Exact/Transform/Load) 연구에서 이러한 빅데이터를 처리 하는데 성능 저하가 발생되고 있으며 비정형 데이터를 관리할 수 없다. 따라서 본 논문에서는 기존의 ETL 처리의 한계를 극복하기 위해서 하둡을 이용하여 ETL 상에서 처리 속도를 높이고 비정형 데이터를 처리할 수 있는 빅데이터 처리 시스템을 제안하고자 한다.

Performance Comparison Study on Big Data System Processing Engine (빅데이터 시스템 처리 엔진에 관한 성능 비교 연구)

  • Shin, Min-kyu;Kim, Tae-Won;Hwang, Sun-Hee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.10a
    • /
    • pp.93-96
    • /
    • 2019
  • 최근 들어 빅데이터 처리 속도에 대한 관심이 높아지면서 처리 성능을 높이기 위한 다양한 기술들이 개발되고 있다. 기존의 빅데이터 전문 업체들도 전통적인 빅데이터 처리 방법이 아닌 새로운 기술에 대한 투자를 통해 경쟁을 가속화 하고 있다. 이러한 이유로 최적의 처리 엔진을 선택하는 것은 점차 중요한 부분이 되고 있다. 하지만 실제로 환경을 구성하여 운영해보기 전까지는 시행 착오를 겪을 수 밖에 없는 상황이다. 그래서 본 논문에서는 최근 발표된 빅데이터 처리 엔진 기술들이 어느 정도 성능을 보이는지에 관한 연구를 수행하여 빅데이터 처리 엔진 선택 및 판단에 도움이 될 근거를 제공하고자 한다.

High-performance and Highly Scalable Big Data Analysis Platform (고성능, 고확장성 빅데이터 분석 플랫폼)

  • Park, Kyongseok;Yu, Chan Hee;Kim, Yuseon;Um, Jung-Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.11a
    • /
    • pp.535-536
    • /
    • 2021
  • 빅데이터를 활용한 기계학습 모델을 개발하기 위해서는 빅데이터 처리를 위한 플랫폼과 딥러닝 프레임 워크 등 고급 분석을 수행할 수 있는 도구의 활용이 동시에 요구된다. 그러나 빅데이터 플랫폼과 딥러닝 프레임워크를 자유롭게 활용하기 위해서는 상당한 수준의 기술적 지식과 경험이 필요하다. 또한 빅데이터를 이용한 딥러닝 모델을 개발할 경우 분산처리와 병렬처리에 대한 지식과 추가적인 작업이 요구된다. 본 연구에서는 빅데이터를 활용한 기계학습 모형을 자유롭게 개발 및 공유하고 분산 딥러닝을 위한 시스템적 지원을 통해 분야별로 딥러닝 모형을 개발하는 응용 연구자들이 활용할 수 있는 플랫폼을 제시하였다. 본 연구를 통해 다양한 분야의 연구자들이 자신의 데이터를 이용하여 모형을 개발할 경우 분산처리와 병렬처리를 위한 기술적 제약을 극복하고 보다 빠르고 효율적인 방법으로 모형을 개발하고 현업에 활용할 수 있을 것으로 기대한다.

An Inference System for Deep Learning Model Based on Real-time Big Data (실시간 빅데이터 기반 딥러닝 모델 추론 시스템)

  • Park, Kyongseok;Yu, Chan Hee;Kim, Yuseon;Um, Jung-Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.11a
    • /
    • pp.736-737
    • /
    • 2021
  • 최근의 빅데이터 처리 환경은 실시간 빅데이터를 기반으로 하고 있다. 실시간 빅데이터 처리를 위해서는 기존의 배치처리 방식의 빅데이터 기술에서 발생하는 기술적 요구를 포함하여 추가적으로 요구되는 다양한 문제들을 고려해야 한다. 기계학습 모형을 활용한 의사결정 지원 시스템의 경우 모형 개발을 위한 배치처리 기술과 함께 모형의 배포와 최적화 등도 고려되어야 하며 발전 설비나 제조, 공정, 배송 등의 분야에서 발생하는 대규모 실시간 데이터를 이용하여 추론을 수행해야 한다. 본 연구에서는 센서 데이터를 활용한 예측 모형 개발과 실시간 데이터 처리 그리고 추론을 위한 모델 배포와 최적화 과정을 지원하는 시스템 환경을 제공하여 실제 현장에서 발생하고 있는 데이터를 활용하여 실증을 수행하였다.

Presto Architecture Proposal Using Memory Caching in Big Data Environment (빅데이터 환경에서 메모리 캐싱을 활용한 Presto 아키텍처 제안)

  • Hwang, Sun-Hee;Kim, Tae-Won;Shin, Min-Kyu
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.10a
    • /
    • pp.89-92
    • /
    • 2019
  • 빅데이터 환경에서 대화형 분석 질의문을 수행하려는 요구사항이 늘어나면서 데이터 처리속도가 중요한 성능 지표가 되었다. 이에 Presto 는 많은 빅데이터 처리 엔진 중 메모리 기반으로 빠른 질의 처리가 가능하여 널리 사용되어 왔다. 하지만 메모리 처리 엔진인 Presto 도 디스크 기반의 저장소를 사용한 일부 경우에 성능 저하 현상이 보고되었다. 그래서 본 논문은 빅데이터 처리 성능 향상을 위해 Presto Memory Connector 를 사용하여 메모리 캐싱을 활용한 아키텍처를 제안한다. 그 과정에서 캐싱과 비 캐싱 환경에서 성능검증을 위한 데이터 처리 성능 실험을 수행하였고, 그 결과 향상된 성능을 제공할 수 있음을 확인하였다. 이를 통해 빅데이터 분산환경에서 캐싱을 활용하여 Presto 아키텍처를 설계하는데 근거를 제공하고자 한다.

Implement of MapReduce-based Big Data Processing Scheme for Reducing Big Data Processing Delay Time and Store Data (빅데이터 처리시간 감소와 저장 효율성이 향상을 위한 맵리듀스 기반 빅데이터 처리 기법 구현)

  • Lee, Hyeopgeon;Kim, Young-Woon;Kim, Ki-Young
    • Journal of the Korea Convergence Society
    • /
    • v.9 no.10
    • /
    • pp.13-19
    • /
    • 2018
  • MapReduce, the Hadoop's essential core technology, is most commonly used to process big data based on the Hadoop distributed file system. However, the existing MapReduce-based big data processing techniques have a feature of dividing and storing files in blocks predefined in the Hadoop distributed file system, thus wasting huge infrastructure resources. Therefore, in this paper, we propose an efficient MapReduce-based big data processing scheme. The proposed method enhances the storage efficiency of a big data infrastructure environment by converting and compressing the data to be processed into a data format in advance suitable for processing by MapReduce. In addition, the proposed method solves the problem of the data processing time delay arising from when implementing with focus on the storage efficiency.

Big Data Platform for Learning in Cloud Computing Environment (클라우드 컴퓨팅 환경에서의 학습용 빅 데이터 플랫폼 설계)

  • Kim, Jun Heon
    • Proceedings of The KACE
    • /
    • 2017.08a
    • /
    • pp.63-64
    • /
    • 2017
  • 정보 기술의 끊임없는 발전에 따라 광범위한 분야에서 방대한 양의 데이터가 발생하게 되면서 이를 처리하기 위한 빅 데이터에 대한 연구 및 교육이 활발히 진행되고 있다. 이를 위하여 데이터 분석 및 처리를 위한 고성능의 서버 및 분산 처리를 위한 다수의 컴퓨터가 필요하며 이는, 개인 혹은 저사양의 수업 환경에서 빅 데이터를 학습하는 데에 어려움을 겪게 한다. 때문에 가상 환경에서 원활한 빅 데이터 학습을 위한 클라우드 기반의 시스템이 필요하다. 이에 본 논문에서는, 빅 데이터 처리 기술의 하나인 Spark를 이용한 빅 데이터 플랫폼 구축에 대하여 기술한다.

  • PDF

A Survey on Trend and Factor Determining Positive and Negative Recognition for Big Data Tools (빅데이터 도구 트렌드 및 긍·부정적 인식 결정 요소 조사)

  • Lee, Myungjin;Koo, Jahwan;Kim, Ung-Mo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.05a
    • /
    • pp.409-412
    • /
    • 2020
  • 디지털 기술의 발전으로 데이터의 규모와 형태의 다양성이 기하급수적으로 증가하고 있다. 많은 업계에서 빅데이터를 비즈니스와 사용자의 서비스 제공에 사용하고 있으며 데이터의 중요성 또한 커지고 있다. 본 연구에서는 빅데이터를 처리하기 위한 단계를 수집, 저장, 그리고 처리 및 분석 단계로 나눈 후, 단계별로 가장 높은 관심도를 가진 도구를 선정하고, 소프트웨어 리뷰 분석을 통해 긍부정 인식을 판단하며 인식 결정 요인을 조사한다. 이를 통해 다양한 빅데이터 생태계 속에서 사용자들이 관심을 많이 두고 있는 빅데이터 도구의 트렌드를 쉽게 파악하고 관련 빅데이터 도구를 선택하는 데에 도움을 줄 수 있다.