• 제목/요약/키워드: 스파크 스트리밍

검색결과 8건 처리시간 0.029초

스파크 기반의 대용량 데이터 압축을 이용한 실시간 데이터 분석 기법 (Real-time data analysis technique using large data compression based spark)

  • 박수용;신용태
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2020년도 제62차 하계학술대회논문집 28권2호
    • /
    • pp.545-546
    • /
    • 2020
  • 스파크는 데이터 분석을 위한 오픈소스 툴이다. 스파크에서는 실시간 데이터 분석을 위하여 스파크 스트리밍이라는 기술을 제공한다. 스파크 스트리밍은 데이터 소스가 분석서버로 데이터 스트림을 전송한다. 이때 전송하는 데이터의 크기가 커질 경우 전송과정에서 지연이 발생할 수 있다. 제안하는 기법은 전송하고자 하는 데이터의 크기가 클 때 허프만 인코딩을 이용하여 데이터를 압축하여 전송시키므로 지연시간을 줄일 수 있다.

  • PDF

Apache Spark를 활용한 대용량 데이터의 처리 (Processing large-scale data with Apache Spark)

  • 고세윤;원중호
    • 응용통계연구
    • /
    • 제29권6호
    • /
    • pp.1077-1094
    • /
    • 2016
  • 아파치 스파크는 빠르고 범용성이 뛰어난 클러스터 컴퓨팅 패키지로, 복구 가능한 분산 데이터셋이라는 새로운 추상화를 통해 데이터를 인메모리에 유지하면서도 결함 감내성을 얻을 수 있는 방법을 제공한다. 이러한 추상화는 하드디스크에 직접 데이터를 읽고 쓰는 방식으로 결함 감내성을 제공하는 기존의 대표적인 대용량 데이터 분석 기술인 맵 리듀스 프레임워크에 비해 상당한 속도 향상을 거두었다. 특히 로지스틱 회귀 분석이나 K-평균 군집화와 같은 반복적인 기계 학습 알고리즘이나 사용자가 실시간으로 데이터에 관한 질의를 하는 대화형 자료 분석에서 스파크는 매우 효율적인 성능을 보인다. 뿐만 아니라, 높은 범용성을 바탕으로 하여 기계 학습, 스트리밍 자료 처리, SQL, 그래프 자료 처리와 같은 다양한 고수준 라이브러리를 제공한다. 이 논문에서는 스파크의 개념과 프로그래밍 모형에 대해 소개하고, 이를 통해 몇 가지 통계 분석 알고리즘을 구현하는 방법에 대해 소개한다. 아울러, 스파크에서 제공하는 기계 학습 라이브러리인 MLlib과 R 언어 인터페이스인 SparkR에 대해 다룬다.

온톨로지 및 순서 규칙 기반 대용량 스트리밍 미디어 이벤트 인지 (Ontology and Sequential Rule Based Streaming Media Event Recognition)

  • 소치승;박현규;박영택
    • 정보과학회 논문지
    • /
    • 제43권4호
    • /
    • pp.470-479
    • /
    • 2016
  • UCC(User Created Contents) 형태의 다양한 영상 미디어 데이터가 증가함에 따라 의미 있는 서비스를 제공하기 위해 많은 분야에서 활발한 연구가 진행 중이다. 그 중 시맨틱 웹 기반의 미디어 분류에 대한 연구가 진행되고 있지만 기존의 미디어 온톨로지는 메타 정보를 이용하기 때문에 정보의 부재에 따른 한계점이 있다. 따라서 본 논문에서는 영상에서 인지되는 객체를 정하고 그 조합으로 구성된 서술 논리 기반의 온톨로지를 구축하고 영상의 장면에 따른 순서 기반의 규칙을 정의하여 이벤트 인지에 대한 기틀을 제안한다. 또한 증가하는 미디어 데이터에 대한 처리를 위해 분산 인-메모리 기반 프레임워크인 아파치 스파크 스트리밍을 이용하여, 영상 분류를 병렬로 처리하는 방법에 대해 설명한다. 유튜브에서 추출한 영상을 대상으로 대용량 미디어 온톨로지 데이터를 생성하고, 이를 이용하여 제시된 기법에 대한 성능 평가를 진행하여 타당성을 입증한다.

장애 복구 응답성 향상을 위한 Spark Streaming 스케줄링 개선 메커니즘 (mproved Spark Streaming Scheduling Mechanism for Real-time Fault Recovery)

  • 황용하;노순현
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2018년도 제58차 하계학술대회논문집 26권2호
    • /
    • pp.3-6
    • /
    • 2018
  • 최근 방대한 양의 스트림 데이터가 생산되면서 이를 실시간으로 처리하기 위한 프레임워크가 등장하였으며, 오픈 소스 영역에서 Spark Streaming이 주목받고 있다. Spark Streaming은 분산 환경에서 성능 향상을 위해 지연 스케줄링을 기반으로 응용을 수행하지만, 장애 발생 시 사용 가능한 태스크 슬롯을 빠르게 할당받지 못할 경우 장애 복구 시간이 지연될 수 있다는 문제점이 있다. 이러한 문제점을 해결하기 위해 본 논문에서는 실행자의 태스크 슬롯 보장을 통해 대기 시간 없이 즉시 할당할 수 있도록 하는 개선 메커니즘을 제안하였고, 실험 결과 장애 복구 응답성이 39.14% 개선됨을 확인하였다.

  • PDF

하둡 및 스파크를 이용한 초고품질 영상 실시간 처리 시스템 개발 (Development of Real-time High-Fidelity Video Processing System using Hadoop and Spark)

  • 허진강;김용환
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2018년도 하계학술대회
    • /
    • pp.326-328
    • /
    • 2018
  • 최근 4K/8K 급 초고품질 콘텐츠의 서비스에 관심이 집중되는 만큼 스트리밍 서비스에 대한 연구도 활발히 이루어지고 있다. 하지만 단일 PC 성능의 한계로 인해 SW 기반 영상 처리에 어려움을 겪고 있다. 본 논문에서는 분산 처리를 통해 실시간 영상 처리가 가능하도록 시스템을 제안한다. 제안한 시스템은 영상 패킷 분석 및 분할, 분산 트랜스코딩, 패킷 통합 단계로 이루어지며 Hadoop 과 Spark 를 이용하여 실시간 분산 처리를 지원한다. 실험 결과는 초고품질 입력 영상($3840{\times}2160@60Hz$, YCbCr 4:2:2, 10-bit)에 대해 평균 74.47fps 의 트랜스코딩 속도를 보인다.

  • PDF

Squall: 실시간 이벤트와 마이크로-배치의 동시 처리 지원을 위한 TMO 모델 기반의 실시간 빅데이터 처리 프레임워크 (Squall: A Real-time Big Data Processing Framework based on TMO Model for Real-time Events and Micro-batch Processing)

  • 손재기;김정국
    • 정보과학회 논문지
    • /
    • 제44권1호
    • /
    • pp.84-94
    • /
    • 2017
  • 최근 다양하고 방대한 양의 데이터를 처리하기 위해 빅데이터의 특성인 5V(Volume, Variety, Velocity, Veracity, Value) 중에서도 속도(Velocity)의 중요성이 강조되면서 대량의 데이터를 빠르고 정확하게 처리하는 기술인 실시간 스트림 처리(Real-time Stream processing)를 위해 많은 연구가 진행되고 있다. 본 논문에서는 실시간 빅데이터 처리를 위해 대표적인 실시간 객체 모델인 TMO(Time-triggered Message-triggered Object) 개념을 도입한 Squall 프레임워크를 제시하고, 단일 노드에서 동작하는 Squall 프레임워크와 그 동작들에 대해 기술한다. TMO는 작업을 수행할 때, 특정 조건에 대해 실시간으로 처리하는 비주기적인 처리방법과 일정 시간 간격동안 주기적인 처리를 지원하는 객체 모델이다. 따라서 Squall 프레임워크는 실시간 빅데이터의 실시간 이벤트 스트림 및 마이크로-배치 처리를 동시에 지원하고, 기존 아파치 스톰과 스파크 스트리밍 대비 상대적으로 우수한 성능을 제공한다. 하지만 Squall은 대부분의 프레임워크에서 제공되는 다중 노드에서의 실시간 분산처리를 위한 추가적인 개발이 필요하다. 결론적으로, TMO 모델의 장점은 실시간 빅데이터 처리시 기존 아파치의 스톰이나 스파크 스트리밍의 단점들을 극복할 수 있다. 이러한 TMO 모델은 실시간 빅데이터 처리에 있어 유용한 모델로서의 가능성을 가지고 있다.

Spark Streaming 기반 클라우드 시스템에서 실시간 고장 복구를 지원하기 위한 기법들 (Techniques to Guarantee Real-Time Fault Recovery in Spark Streaming Based Cloud System)

  • 김정호;박대동;김상욱;문용식;홍성수
    • 정보과학회 논문지
    • /
    • 제44권5호
    • /
    • pp.460-468
    • /
    • 2017
  • 실시간 클라우드의 실현에 있어서 데이터 분석 프레임워크는 중추 역할을 수행한다. 현존하는 프레임워크들 중에 가장 많은 요구사항들을 충족하는 것은 Spark Streaming이다. 하지만 이 프레임워크는 초 단위 실시간 고장 복구를 충족하지 못하고 있다. Spark Streaming의 고장 복구 기법은 정상 동작시에 기록된 누적 변형 히스토리를 토대로 고장 직전 마지막 상태 데이터를 재연산하여 복구하기 때문에 히스토리의 길이에 비례하여 복구 시간이 증가된다. 따라서 제한된 시간 이내에 고장 복구가 완료됨을 보장되지 않는다. 또한 초기 상태 데이터를 고장 감내 스토리지에서 읽는 시간이 수십 초에 달하여 초 단위고장 복구 시간을 달성할 수 없다. 본 논문에서는 언급된 문제들을 해결하기 위한 두 가지 기법들을 제안한다. 이를 Spark Streaming 1.6.2에 적용하고, 실험을 통해 고장 복구 시간이 제한 시간 이내에 완료되며 평균 약 41.57% 단축됨을 확인했다.

스마트팩토리를 위한 운영빅데이터 분석 플랫폼 (Operational Big Data Analytics platform for Smart Factory)

  • 배혜림;박상혁;최유림;주병준;리스카;풀샤시;푸트라;타오픽;이상화;원석래
    • 한국빅데이터학회지
    • /
    • 제1권2호
    • /
    • pp.9-19
    • /
    • 2016
  • ICT 융합에 대한 관심이 높아진 가운데 독일의 Industry 4.0을 시작으로 제조업과 ICT 융합에 대한 연구가 활발하게 진행되고 있다. 이를 통해 전통적인 제조업의 제조단가를 낮추고 극적인 품질향상을 기대할 수 있게 되었다. 최근 정부의 제조업 3.0 전략 등에 힘입어 국내에서도 제조업에 대한 고도화가 진행되고 있으며, 이러한 추세에 발맞추어 제조업 운영에서 발생하는 빅데이터에 대한 주문맞춤형 분석 플랫폼을 개발하고 이를 통해 제조 현장의 경쟁력을 높이고자 한다. 주문맞춤형 분석 플랫폼은 확장성을 고려하여 스프링 프레임워크를 기반으로 웹에서 실행되도록 설계되었으며, 제조업 현장에서 발생하는 다량의 데이터를 빠르게 처리하기 위하여 스파크와 하둡 파일 시스템을 이용한다. 실시간으로 스트리밍 된 데이터를 프로세스 마이닝 기반 알고리즘을 통해 처리하고 공장의 현황을 분석하여 제조업 현장의 문제를 파악하고 신속한 의사결정을 지원할 수 있다.

  • PDF