• Title/Summary/Keyword: 병렬 스트림

Search Result 78, Processing Time 0.026 seconds

InfiniBand RDMA 기반 Apache Storm의 네트워크 구조 설계 (Design of InfiniBand RDMA-based Network Structure of Apache Storm)

  • 양석우;손시운;최성윤;최미정;문양세
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 추계학술발표대회
    • /
    • pp.679-681
    • /
    • 2017
  • Apache Storm은 대용량 데이터 스트림을 처리하기 위한 실시간 분산 병렬 처리 프레임워크이며, 이를 사용해 다수의 프로세스 및 스레드를 동시에 동작시킬 수 있다. 하지만, 이러한 멀티 프로세스 및 스레드 환경을 제공하는 Storm은 많은 네트워크 시스템 호출을 수행하고, 이는 잦은 문맥 전환(context switch), 운영체제로의 버퍼 복사, 운영체제 내의 버퍼 복사 등으로 인해 CPU 과부하 문제를 발생시킬 수 있다. 이러한 문제는 고성능 네트워크 장비인 InfiniBand의 IPoIB(IP over InfiniBand) 통신을 사용할 때, InfiniBand가 지원하는 대역폭(bandwidth) 대비 저용량 데이터의 송수신으로 인해 더 잦은 문맥 전환과 버퍼 복사가 발생하여 CPU 과부하 문제가 더욱 심각해진다. 따라서, 본 논문에서는 InfiniBand의 RDMA(Remote Direct Memory Access)를 Storm에 적용하는 설계안을 제시함으로써 CPU 과부하 문제를 해결한다.

GPU 기반의 MPEG-2 디코더의 구현 (Implementation of GPU based MPEG-2 Decoder)

  • 김경수;김홍식;김정길;박우찬
    • 디지털콘텐츠학회 논문지
    • /
    • 제9권3호
    • /
    • pp.371-377
    • /
    • 2008
  • 최근 GPU 성능은 CPU 성장 속도에 비하여 급속도로 증가하고 있으며 계산이 많이 요구되는 다양한 응용 프로그램에서 GPU를 이용하려는 시도가 활발히 진행되고 있다. 본 논문에서는 GPU 프로그래밍 언어인 CG를 이용하여 MPEG-2 디코더를 구현하였다. 제안된 방법은 텍스쳐 데이터를 사용하여 비디오 표준에 맞춘 블록 렌더링을 하는 방식이며, 이는 스트림 프로세싱 구조인 GPU의 파이프라인을 이용하여 높은 병렬성을 가지고 실행된다. 또한 시스템 메모리와 GPU 사이의 데이터 대역폭을 줄이기 위해 그래픽 카드의 지역 메모리를 사용한다. 제안한 방법을 적용한 결과 CPU 보다 2배 이상의 성능 향상을 볼 수 있었다.

  • PDF

초고해상도 홀로그램 생성을 위한 GPU 기반 Shift-FFT 처리 구현 (GPU-based Shift-FFT Implementation for Ultra-High Resolution Hologram Generation)

  • 이재홍;강호민;염한주;전상훈;박중기;김덕수
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 하계학술대회
    • /
    • pp.563-566
    • /
    • 2020
  • 본 논문은 초고해상도 컴퓨터 홀로그램 생성을 위한 GPU 기반 2D Shift-FFT 의 효율적인 구현 방법을 제안한다. 본 연구가 제안하는 알고리즘은 기존에 여섯 단계로 이루어진 처리과정을 다섯 단계로 줄임으로서, 병렬처리에서 비효율적인 메모리 접근 과정을 줄인다. 또한, 핀드(pinned) 메모리 기반의 CPU-GPU 데이터 통신 통로인 핀드 버퍼(pinned buffer)를 사용하고 다중 스트림을 채용함으로써, GPU 활용의 주요 병목원인이 되는 데이터 통신의 부하를 줄이고 GPU 활용 효율을 높인다. 본 연구는 제안하는 알고리즘의 효용성을 증명하기 위해 서로 다른 두 시스템에 알고리즘을 구현하고, 다양한 크기의 행렬에 대한 2D-FFT 처리에 대한 성능을 측정하였다. 그 결과, CPU 기반의 FFTW 라이브러리 대비 최대 3 배, 동일한 GPU 를 사용하는 cuFFT 라이브러리 대비 최대 1.5 배 높은 성능을 달성하였다. 이러한 결과는, 본 연구가 제안하는 알고리즘의 효용성을 보여주는 결과다.

  • PDF

DVB-T 수신기를 위한 대규모 병렬처리 GPU 기반의 FFT 구현 (Implementation of FFT on Massively Parallel GPU for DVB-T Receiver)

  • 이규형;허서원
    • 방송공학회논문지
    • /
    • 제18권2호
    • /
    • pp.204-214
    • /
    • 2013
  • 최근 GPU의 뛰어난 병렬 연산 처리 능력을 이용하여 신호 처리나 통신 시스템을 소프트웨어로 구현하기 위한 다양한 연구가 진행되고 있다. 본 논문에서는 DVB-T에서 사용되는 2K/8K FFT를 GPU를 이용하여 처리함으로써 소프트웨어 모의실험에 소요되는 시간을 줄였다. 우리는 먼저 DTV 전송 표준 방식의 일종인 DVB-T 시스템을 CPU로 구현할 때 소요되는 처리 시간을 모의실험을 통해서 추정한다. 그리고 DVB-T의 핵심 연산 처리기의 일종인 FFT 처리를 NVIDIA사의 대용량 GPU 프로세서를 이용하여 소프트웨어로 구현한다. 본 논문은 CPU와 GPU 간의 데이터 전송에 소요되는 오버헤드를 줄이기 위해 스트림 처리 기법, 외부 전역 메모리 전송 시간을 단축하기 위한 결합 전송 기법 (coalescing), 공유 메모리 활용을 높이기 위한 변수 설계 기법 등을 통해서 연산시간을 대폭 단축하였다. 그 결과 제안된 방식은 DVB-T의 2K/8K FFT 모드의 경우 CPU 기반의 FFT 처리 방식 대비 약 20~30배, NVIDIA사에서 제공하는 FFT 라이브러리 (CUFFT version 2.1) 대비 약 1.8배 그리고 기존에 발표된 타 방식 대비 약 1.5~10배 정도 빠른 처리 능력을 보인다.

MPEG-2 TS 기반의 UHDTV 다중화 (Multiplexing of UHDTV Based on MPEG-2 TS)

  • 장의덕;박동일;김재곤;이응돈;조숙희;최진수
    • 방송공학회논문지
    • /
    • 제15권2호
    • /
    • pp.205-216
    • /
    • 2010
  • 본 논문에서는 UHDTV(Ultra HDTV)를 위한 MPEG-2 Transport Stream(TS)의 다중화 기법 및 다중화 SW 툴의 설계 및 구현에 대해서 기술한다. 대용량의 UHD 비디오를 처리하기 위해서는 당분간 병렬처리에 기반한 코덱 구현이 불가피하며 이로 인해 다수의 비디오 비트스트림 간의 동기화 및 다중화가 요구된다. 본 논문에서는 4K(또는 8K) 해상도의 UHD 비디오가 4 개의 화면으로 분할되어 각각 H.264/AVC로 부호화되고, 2 개의 5.0 채널의 오디오가 AC-3로 부호화되는 병렬처리 기반의 UHDTV의 TS 다중화를 고려한다. H.264/AVC와 AC-3를 TS로 전송하기 위한 MPEG-2 시스템(Systems) 확장 규격을 반영한 PES 패킷화 및 TS 다중화 툴을 설계한다. 또한 T-STD(TS System Target Decoder)의 타이밍 모델을 만족하도록 T-STD에 정의된 버퍼들의 상태를 모니터링 하면서 다중화 스케쥴링을 수행하고, 한 TS 패킷의 전송 시간 단위로 H/W의 실시간 처리를 에뮬레이션(emulation)하도록 구현한다. UHDTV 다중화를 위해서 재다중화(Re-multiplexing)를 포함하는 UHD 재다중화와 단일 TS로 다중화하는 UHD 프로그램 다중화의 2 가지 구조를 구현하고 이들의 장단점에 대해서 고찰한다. 본 논문에서 설계 구현된 TS 다중화 툴은 상용 분석 툴 및 실시간 재생 툴을 이용하여 규격 및 타이밍의 적합성과 그 기능을 검증한다.

256 QAM까지 지원 가능한 저 복잡도 고 성능의 MIMO 심볼 검파기의 설계 및 구현 (Design and Implementation of a Low-Complexity and High-Throughput MIMO Symbol Detector Supporting up to 256 QAM)

  • 이광호;김태환
    • 전자공학회논문지
    • /
    • 제51권6호
    • /
    • pp.34-42
    • /
    • 2014
  • 본 논문에서는 두 개의 공간 스트림을 갖는 multiple-input multiple-output 시스템을 위한 modified maximum-likelihood 심볼 검파 알고리즘 기반의 저 복잡도 고 성능의 심볼 검파기의 구조를 제시하고 이를 구현한 결과를 보인다. 제안하는 심볼 검파기에서는 비용함수 계산 과정에서의 각 심볼 별로 병렬적으로 계산되던 곱셈 연산을 멀티 사이클 기반의 점증적인 덧셈 연산으로 대체하였다. 또한 양자화 과정을 파이프 라인 구조를 적용하여 성상의 범위에 따라 단계적으로 수행할 수 있게 구현하였다. 그 결과 제안하는 심볼 검파기는 256 QAM과 같이 복잡한 변조 방식을 지원하면서도 하드웨어 복잡도가 낮다. 양자화 과정의 파이프 라인을 재구성함으로써 여러 변조 방식과 안테나 환경에서의 심볼 검파를 유연하게 지원한다. 설계된 심볼 검파기는 $0.11-{\mu}m$ CMOS 공정의 라이브러리를 사용하여 최대 478 MHz의 동작주파수에서 38.7K의 논리 게이트로 구현되어 16 QAM에서 166Mbps, 64 QAM에서 80 Mbps의 처리량을 달성한다.

리눅스 기반의 클러스터 VOD서버와 내장형에 클라이언트의 구현 (Implementation of a Cluster VOD Server and an Embedded Client based on Linux)

  • 서동만;방철석;이좌형;김병길;정인범
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제10권6호
    • /
    • pp.435-447
    • /
    • 2004
  • VOD 시스템에서는 한정된 자원을 이용하여 많은 사용자에게 안정적인 QoS(Quality of Service)를 제공하는 것이 중요하다. 실제 구현 환경에서 QoS의 문제점들을 분석하기 위하여 본 연구에서는 소스 공개 플랫폼인 리눅스를 기반으로 하는 클러스터형 VOD 서버와 내장형 클라이언트 시스템을 구현하였다 서버에서는 MPEG 미디어 데이타의 병렬 처리와 부하 균등, VCR 기능을 구현하였다. VOD 사용자에게 보다 친밀한 인터페이스를 제공하기 위하여 일반 TV를 단말로 사용하였고 VCR 기능들을 제공하기 위하여 내장형 보드를 사용하였다. 본 논문에서는 사용자들의 다양한 요구사항에서의 성능 측정을 바탕으로 VOD 시스템의 성능 한계 일인들을 평가한다. 또한, 분석된 자료를 근거로 VOD 시스템에서의 가용 메모리와 가용 네트워크 대역폭을 기준으로 하는 동적 진입 제어의 방법을 제안한다. 제안된 방법은 시스템 자인의 효율성을 증가시켜 더욱 많은 사용자들에게 QoS가 보장되는 미디어 스트림을 제공한다.

H.264/AVC용 가변 블록 크기를 지원하는 움직임 추정 부호기의 연구 (A Study on Motion Estimation Encoder Supporting Variable Block Size for H.264/AVC)

  • 김원삼;손승일
    • 한국정보통신학회논문지
    • /
    • 제12권10호
    • /
    • pp.1845-1852
    • /
    • 2008
  • 인터 예측의 핵심 요소는 ME와 MC이다. ME는 SAD(Sum of Absolute Difference)와 같은 정합기준을 사용하는 것뿐만 아니라 비트스트림의 최종 비트수에 따라서 최적의 움직임 벡터를 찾는다. 인터 예측부호화는 고화질의 실시간 비디오 응용에 있어서 언제나 주된 병목을 초래한다. 따라서 실시간 비디오 응용에서는 인터 예측을 수행하는 고속의 전용 하드웨어를 필요로 한다. 본 논문에서는 H.264/AVC의 움직임 추정기를 연구하였다. 설계된 움직임 추정기는 2-D 시스토릭 배열 기반으로 기본 처리기 요소를 병렬로 연결하여 SAD 값을 빠르게 계산한다. 참조데이터를 상위영역과 하위영역으로 나누어 각각의 연결선을 두고 입력 시퀀스를 조절하여 파이프라인 중지 없이 연속적인 연산을 수행한다. 데이터 재사용 기법을 통하여 메모리 엑세스를 줄였고 특별한 지연 없이 최소의 SAD를 갖는 파티션을 찾아내어 움직임 벡터를 생성하게 하였다. 설계된 움직임 추정기는 가변 블록 크기를 지원하며 하나의 매크로블록의 연산을 하는데 328 사이클이 소요된다. 논문 [6]이 로컬메모리를 사용하는 것과 달리, 본 논문은 로컬메모리를 사용하지 않는다.