• Title/Summary/Keyword: 데이터 처리량

검색결과 2,583건 처리시간 0.033초

Hadoop을 활용하여 3D 프린터용 대용량 데이터 처리 알고리즘 개발 (Development of high volumes of data processing algorithm for 3D printers in Hadoop systems)

  • 남기원;이규영;김건영;김주현;김성석;양순옥
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 추계학술발표대회
    • /
    • pp.691-693
    • /
    • 2017
  • 하둡 시스템은 대용량의 데이터를 처리할 수 있는 클러스터 기반 개방형 소프트웨어 프레임워크이다. 이는 하둡 분산 파일시스템(HDFS)과 MapReduce 모델을 활용하여 데이터의 병렬 처리를 지원한다. 본 연구에서는 3D 프린터를 위한 3D 모델 데이터를 G-code로 변환하는 알고리즘을 하둡을 활용하여 구현하였다. 4대의 컴퓨터에 하둡 시스템을 설치한 후 전처리-Map-Shuffling-Reduce의 과정을 거쳐 변환작업이 효율적으로 처리하였음을 보일 수 있었다.

Hadoop Ecosystem 기반 대용량 보안로그 수집 시스템 설계 및 구축 (Design and implementation of a Large-Scale Security Log Collection System based on Hadoop Ecosystem)

  • 이종윤;이봉환
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 춘계학술발표대회
    • /
    • pp.461-463
    • /
    • 2014
  • 네트워크 공격이 다양해지고 빈번하게 발생함에 따라 이에 따라 해킹 공격의 유형을 파악하기 위해 다양한 보안 솔루션이 생겨났다. 그 중 하나인 통합보안관리시스템은 다양한 로그 관리와 분석을 통해 보안 정책을 세워 차후에 있을 공격에 대비할 수 있지만 기존 통합보안관리시스템은 대부분 관계형 데이터베이스의 사용으로 급격히 증가하는 데이터를 감당하지 못한다. 많은 정보를 가지는 로그데이터의 유실 방지 및 시스템 저하를 막기 위해 대용량의 로그 데이터를 처리하는 방식이 필요해짐에 따라 분산처리에 특화되어 있는 하둡 에코시스템을 이용하여 늘어나는 데이터에 따라 유연하게 대처할 수 있고 기존 NoSQL 로그 저장방식에서 나아가 로그 저장단계에서 정규화를 사용하여 처리, 저장 능력을 향상시켜 실시간 처리 및 저장, 확장성이 뛰어난 하둡 기반의 로그 수집 시스템을 제안하고자 한다.

클라우드 컴퓨팅에서의 대용량 데이터 처리 모델에 관한 조사 (A Survey on Massive Data Processing Model in Cloud Computing)

  • 진아연;박영호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 추계학술발표대회
    • /
    • pp.145-146
    • /
    • 2011
  • 클라우드 컴퓨팅은 세계적인 시장조사기관인 가트너사의 10대전략기술에서 2년 연속 1위를 할 정도로 많은 각광을 받고 있다. 클라우드 컴퓨팅이란 인터넷 기술을 활용하여 가상화된 컴퓨팅 자원을 서비스로 제공하는 것으로, 사용자는 IT자원을 필요한 만큼 빌려서 사용하고 사용한 만큼 비용을 지불하는 컴퓨팅을 지칭한다. 이러한 클라우드 컴퓨팅 상에서 폭발적으로 증가하고 있는 데이터를 효율적으로 병렬 처리할 수 있는 방법에 대하여 많은 연구가 활발히 이루어지고 있다. 이러한 대용량 데이터 처리를 위한 대표적인 모델에는 MapReduce와 Dryad가 있으며, 서로간에 많은 공통점이 있지만 MapReduce는 범용 프로그래밍 언어를 기반으로 쉬운 병렬 프로그래밍을 가능하게 했다는 점에서 많이 사용되고 있으며 Dryad는 재사용이 쉽고 데이터 처리 흐름을 유연하게 작성할 수 있다는 점에서 장점을 가지고 있다.

조건부 랜덤 포레스트 기반의 설명 가능한 일사량 예측 (Explainable Solar Irradiation Forecasting Based on Conditional Random Forests)

  • 문지훈;황인준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.323-326
    • /
    • 2020
  • 태양광 발전은 이산화탄소 배출로 인한 기후 변화에 대응하는 주요 수단으로 인식되어 수요와 필요성이 급격하게 증가하고 있다. 최적의 태양광 발전 시스템의 운영을 위해서는 정교한 전력수요 및 태양광 발전량 예측 모델이 요구되며, 온도 및 일사량은 태양광 발전량 예측 모델의 필수적인 입력 변수이다. 하지만, 한국 기상청의 동네예보는 일사량에 관한 예측값을 제공하지 않아 정교한 태양광 발전량 예측 모델을 구축하는 것은 어렵다. 이를 위해 일사량 예측 기법에 관한 많은 연구사례가 보고되고 있지만, 다수의 연구들은 충분한 데이터 셋을 이용하여 일사량 예측 모델을 개발하였다. 초기 태양광 발전 시스템 운영을 위해서는 불충분한 데이터 셋을 이용한 예측 모델 개발이 필요하나 이에 대한 사례는 불충분하다. 본 논문은 실제 태양광 발전 시스템에서 수집된 불충분한 데이터 셋을 이용한 단기 일사량 예측 기법을 제안한다. 먼저, 기상청 동네예보의 다양한 기상 요인들을 이용하여 일사량 예측 모델을 위한 입력 변수를 구성한다. 다음으로, 조건부 랜덤 포레스트를 이용하여 일사량 예측 모델을 구성하며, 설명 가능한 일사량 예측뿐만 아니라 더욱더 많은 데이터 셋을 학습하기 위해 시계열 교차검증을 수행한다. 실험 결과, 제안한 기법은 다른 예측 기법들보다 높은 예측 정확도를 보일 뿐만 아니라 설명 가능한 예측 결과를 제시할 수 있음을 보여준다.

대용량 그래프 데이터를 효율적으로 시각화하는 방법에 대한 최신 연구 조사 (The State of the Art in Visualizing Large Graph Data)

  • 곽우석;나인주;김현지;이경준;서인;한욱신
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.802-803
    • /
    • 2017
  • 소셜 네트워크, 웹 시멘틱, 협력 네트워크 등과 같이 다양한 응용에서 대용량 그래프 데이터를 이용한다. 최근 이러한 데이터를 분석하기 위해 대용량 그래프 데이터를 효율적으로 시각화 하는 연구가 제안되었다. 이에 본 연구에서는 대용량 그래프 데이터를 효율적으로 시각화 하는 방법에 대한 최신 연구 동향을 조사한다.

대용량 파일 전송을 위한 능동적인 QoS 제공 방안의 설계 및 성능분석 (Design and Performance Analysis of an Active QoS Allocation Scheme for large File Transfer)

  • 김국한;이만희;변옥환;유인태
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (C)
    • /
    • pp.283-285
    • /
    • 2003
  • 슈퍼컴퓨터 사용자들은 FTP(File Transfer Protocol)을 이용해서 대용량의 파일을 전송한다. 전송되는 데이터들은 승용차나 비행기 설계, 의약품 개발. 기상 예보 그리고 복잡한 수학적 계산 등과 같이 다양한 분야에 걸친 연구관련 데이터로서 고성능 슈퍼컴퓨터에 의한 연산 처리가 요구된다 기존의 FTP 는 네트워크 상태에 따라 전송 지연이나 데이터 손실 등의 문제로 사용자의 불편을 초래하였다. 이에 전송 성능을 효율적으로 높이고 데이터 손실을 최소화를 제공하는 연구가 필요하다. 근래의 TCP (Transmission Control Protocol) 성능 향상 연구에 관한 연구들의 관심은 크게 두 가지이다. 하나는 윈도우 사이즈 조절(auto-tuning)이고, 다른 하나는 Multi-stream 이다. 본 연구에서는 파일 전송 성능 향상을 위한 방법으로 윈도우 사이즈 조절 방법을 사용하였고, 네트워크 상태에 따라 QoS(quality of Service)를 제공한다. 이런 성능 향상 결과로 신뢰성 있는 네트워크를 제공하여 사용자들은 신속하게 데이터를 전송하며 연산처리 결과가 더욱 정확하다고 신뢰할 수 있다. 본 고에서는 대용량 파일을 전송 할 때 성능을 향상시키는 관련 연구를 알아보고 대용량 파일 전송 중 네트워크 상태에 따라 005를 능동적으로 작용하여 테스트하고 성능을 분석하였다.

  • PDF

데이터플로우 모델에서 통신비용 최적화를 이용한 분산 데이터베이스 처리 방법 (A Method for Distributed Database Processing with Optimized Communication Cost in Dataflow model)

  • 전병욱
    • 인터넷정보학회논문지
    • /
    • 제8권1호
    • /
    • pp.133-142
    • /
    • 2007
  • 대용량 데이터베이스의 처리 기술은 오늘날과 같은 정보 사회에서 가장 중요한 기술 중 하나이다. 이 대용량의 정보들은 지역적으로 분산되어 있어 분산처리의 중요성을 더욱 부각시키고 있다. 전송 기술과 데이터 압축 기술의 발전은 대용량 데이터베이스의 처리 속도를 높히기 위한 필수 기술이다. 그러나 이 기술들의 효과를 극대화하기 위하여 각각의 task에서 필요한 실행시간, 그 task로부터 생성되는 데이터량 및 그 생성된 데이터를 이용한 연산을 위해 다른 processor나 컴퓨터로 이동할 때 필요한 전송 시간 등을 고려하여야 한다. 본 논문에서는 대용량 분산 데이터베이스의 처리를 최적화하기 위하여 dataflow 기법을 사용하였으며 그 처리 방법으로 vertically layered allocation scheme을 사용하였다. 이 방법의 기본 개념은 processor간 communication time을 고려하여 각 process들을 재배치하는 것이다. 본 논문은 또한 이 기술의 실현을 위해 각 process의 실행시간과 출력 데이터의 크기 및 그 전송시간을 예상할 수 있는 모델을 제시하였다.

  • PDF

TCP Incast 문제 해결방안에 관한 연구 (A Study on Solutions for TCP Incast Problem)

  • 엄진영;석민수;최태환;안종석
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 춘계학술발표대회
    • /
    • pp.64-66
    • /
    • 2016
  • 대규모 데이터 센터는 클라우드 컴퓨팅을 가능하게 하고, 빅데이터 처리를 위해 널리 쓰이는 HDFS 혹은 MapReduce, Dryad와 같은 프레임워크는 분산 처리 환경에서 운영하는 것을 기반으로 설계되어 있어 일대일이 아닌 다대일 통신이 빈번히 발생한다. TCP Incast 문제는 다대일 통신에서 발생하는 문제로 단일 상위 서버에서 다수의 하위 서버로 일을 요청할 때, 요청된 결과가 단일 상위 서버로 동시에 응답할 때 발생한다. 기존의 분산 처리 환경에서는 작은 데이터를 처리하기 때문에 단일 상위 서버에서의 데이터 처리 부담이 적었다. 하지만 빅데이터를 처리하는 분산 처리 환경에서는 블록 단위의 큰 데이터를 처리하므로 데이터 처리 시간에 민감한 메시지 데이터에서 지연이 발생할 수 있다. 본 논문에서는 급격한 처리량 붕괴를 일으킬 수 있는 TCP Incast 문제 완화 알고리즘에 대하여 기술한다.

다해상도용 영상 데이터 관리 시스템 설계 (Design of Management System for Multiresolution Image Data)

  • 김성재;조승호
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2002년도 춘계학술발표논문집(상)
    • /
    • pp.49-53
    • /
    • 2002
  • 본 논문은 광학 현미경으로 관찰된 데이터들을 분산 시스템이나 병렬 시스템에 구현한 소프트웨어 시스템의 설계에 대한 것으로, 이 시스템이 처리하는 데이터들이 대용량이라는 특성과 함께 다중 해상도의 특성을 갖는다. 본 시스템은 고객/서버 모델을 기반으로 하였으며, 대용량 데이터 처리시 성능에 중요한 디스크 입출력의 대역폭을 높이기 위해 힐버트 곡선 기반의 분산 알고리즘을 적용하였다. 서버부는 조정자 노드와 서비스 노드로 구성되며, 시스템의 제 구성 요소들간에는 정해진 통신 규약에 따라 메시지를 주고 받고, 상호 독립적이다. 이 시스템은 의학 교육, 원격 병리, 가상 학술 회의 등에 응용될 때 활용 가치가 높을 것으로 기대된다.

  • PDF

대용량 트래픽 처리를 위한 패킷 처리 엔진 설계 및 구현 (A Design and Implementation of Packet Processing Engine for Handling Large Volumes of Traffic)

  • 윤주영;김명수;장훈
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2020년도 제62차 하계학술대회논문집 28권2호
    • /
    • pp.325-326
    • /
    • 2020
  • 최근 5G의 영향으로 인터넷에 연결되는 사람과 기기가 더욱 증가하고 있고 새로운 사물인터넷(Internet of Things) 애플리케이션이 가능해짐에 따라 트래픽 양이 급증하고 있다. 그러나 국내의 많은 기업은 이러한 트래픽을 분석하기 위해 고비용의 외산 제품을 이용하고 있다. 그러나 이러한 제품은 네트워크상에서 처리되는 트래픽에 대한 통계 데이터를 저장하고 보여주는 것을 주된 목적으로 사용하고 있을 뿐 패킷을 자세하게 분석하기 어렵다는 단점이 있다. 따라서 본 논문에서는 대용량 트래픽 처리를 위한 효율적인 패킷 처리 엔진을 제안한다. 이 패킷 처리 엔진은 다수의 Core Process를 활용하여 시스템 자원을 최대한 활용할 수 있도록 하고, 멀티 프로세싱을 통하여 각 노드의 작업부하를 균등하게 유지함으로써 작업의 대기시간을 줄이고, 각 작업의 수행 시간을 최소화한다. 본 논문에서 제안하는 대용량 트래픽 처리를 위한 패킷 처리 엔진은 기존의 트래픽 처리를 수행하는 패킷 처리 엔진보다 고성능 컴퓨팅 시스템의 성능 향상 면에서 우수함을 보인다.

  • PDF