• 제목/요약/키워드: Parallel Processing Structure

검색결과 304건 처리시간 0.022초

Multi-band OFDM 시스템용 고속 연판정 비터비 디코더의 효율적인 하드웨어 구조 설계에 관한 연구 (A study on the Cost-effective Architecture Design of High-speed Soft-decision Viterbi Decoder for Multi-band OFDM Systems)

  • 이성주
    • 대한전자공학회논문지SD
    • /
    • 제43권11호
    • /
    • pp.90-97
    • /
    • 2006
  • 본 논문에서는 Multi-band OFDM(MB-OFDM) 시스템에 적합한 고속 연판정 비터비 디코더의 효율적인 하드웨어 구조에 대해서 제시한다. MB-OFDM 시스템은 최대 480Mbps의 데이터 속도를 처리해야 하고 시스템 클럭으로 528MHz가 제공되기 때문에, 설계의 신뢰도를 향상시키기 위해 병렬처리 구조를 사용한다. 따라서, 비터비 디코더도 여러 개의 데이터를 동시에 처리하는 병렬처리 구조를 지원해야 하며, 또한 고속의 데이터를 처리하기 위한 하드웨어 구조를 사용해야 한다. 본 논문에서는 4-way 병렬처리에 적합하면서도 동시에 하드웨어 부담을 최소화할 수 있는 비터비 디코더의 하드웨어 구조를 제시한다. 이를 위해, 비터비 디코더의 핵심 기능블록이라 할 수 있는 ACS의 다양한 구조를 비교 및 분석하고 하드웨어와 동작속도 측면에서 가장 적합한 구조를 찾아내도록 한다. 최적의 하드웨어 구조로 설계된 비터비 디코더는 Verilog HDL로 설계 및 검증되었으며, 하드웨어 복잡도 및 동작속도 측정을 위해 TSMC 0.13um 공정으로 합성되었다. 합성결과, 제시된 구조는 약 280K 게이트로 구성되었으며 MB-OFDM 시스템이 요구하는 동작 주파수내에서 동작함을 확인하였다.

고속 연산을 위한 병렬 구조의 십진 부동소수점 연산 장치 설계 (Design of Parallel Decimal Floating-Point Arithmetic Unit for High-speed Operations)

  • 윤형기;문대철
    • 한국정보통신학회논문지
    • /
    • 제17권12호
    • /
    • pp.2921-2926
    • /
    • 2013
  • 본 논문에서 제안된 십진 부동소수점 연산 장치(decimal floating-point arithmetic unit, DFP)는 L.K.Wang에 의해 제안된 십진 부동소수점 유닛을 기반으로 하여 데이터의 병렬 처리를 통해 동일한 크기의 지수를 갖는 두 오퍼랜드의 가수 영역의 고속 연산을 지원하도록 재설계 하였다. 제안된 십진 부동소수점 연산 장치는 Xilinx ISE를 이용하여 xc2vp30-7ff896 타겟 디바이스로 합성하였으며 (주)시스템센트로이드의 Flowrian을 통해 시뮬레이션 검증하였다. 제안된 방식은 L.K.Wang에 의해 제안된 설계 방식 및 참고문헌 [6]의 설계 방식과 비교하여 동일한 입력 데이터를 이용하여 시뮬레이션 검증한 결과, L.K.Wang 방식보다 약 8.4%, 참고문헌 [6]의 방식보다 약 3% 정도의 처리 속도가 향상되었다.

다중 GPU기반 홀로그램 생성을 위한 병렬처리 성능 최적화 기법 (An Optimization Method for Hologram Generation on Multiple GPU-based Parallel Processing)

  • 국중진
    • 스마트미디어저널
    • /
    • 제8권2호
    • /
    • pp.9-15
    • /
    • 2019
  • 홀로그램의 생성을 위한 연산은 포인트 클라우드의 규모에 따라 연산량이 기하급수적으로 증가하기 때문에 최근에는 다중의 GPU를 기반으로 CUDA 또는 OpenCL 라이브러리를 활용한 병렬처리가 이루어지고 있다. GPU기반의 병렬처리를 위한 CUDA 커널은 GPU의 코어 개수와 메모리 크기를 고려하여 쓰레드(thread), 블록(block), 그리드(grid)를 구성해야 하며, 다중 GPU 환경인 경우 GPU의 개수에 따른 그리드, 블록, 또는 쓰레드 단위의 분산처리가 필요하다. 본 논문에서는 CGH 생성에 대한 성능평가를 위해 포인트 클라우드의 포인트 개수를 10~1,000,000개 범위에서 점진적으로 증가시키면서 CPU, 단일 GPU, 다중 GPU 환경에서 연산 속도를 비교해 보았으며, 다중 GPU 환경에서 CGH(Computer Generated Hologram) 생성 연산을 가속화하기 위한 CUDA 기반의 병렬처리 과정에서 요구되는 메모리 구조 설계와 연산 방법을 제안한다.

인공지능프로세서 기술 동향 (Trends in AI Processor Technology)

  • 이미영;정재훈;이주현;한진호;권영수
    • 전자통신동향분석
    • /
    • 제35권3호
    • /
    • pp.66-75
    • /
    • 2020
  • As the increasing expectations of a practical AI (Artificial Intelligence) service makes AI algorithms more complicated, an efficient processor to process AI algorithms is required. To meet this requirement, processors optimized for parallel processing, such as GPUs (Graphics Processing Units), have been widely employed. However, the GPU has a generalized structure for various applications, so it is not optimized for the AI algorithm. Therefore, research on the development of AI processors optimized for AI algorithm processing has been actively conducted. This paper briefly introduces an AI processor especially for inference acceleration, developed by the Electronics and Telecommunications Research Institute, South Korea., and other global vendors for mobile and server platforms. However, the GPU has a generalized structure for various applications, so it is not optimized for the AI algorithm. Therefore, research on the development of AI processors optimized for AI algorithm processing has been actively conducted.

GPU를 이용한 실시간 양안식 영상 생성 방법 (Real-time Stereo Video Generation using Graphics Processing Unit)

  • 신인용;호요성
    • 방송공학회논문지
    • /
    • 제16권4호
    • /
    • pp.596-601
    • /
    • 2011
  • 양안식 3차원 방송의 경우 좌우 두 시점에 해당하는 영상을 동시에 전송해야 하기 때문에 전송 대역폭의 부담이 매우 크다. 이러한 부담을 줄이기 위해 좌우 시점의 두 영상을 전송하는 대신에 좌영상과 이에 해당하는 깊이맵을 부호화하여 전송하는 방법이 있다. 이러한 3차원 방송 시스템의 수신단에서는 좌영상과 깊이맵을 복호한 뒤에 우영상을 만들어 좌우 영상을 실시간으로 출력한다. 본 논문에서는 좌영상과 깊이맵을 이용하여 가상시점 영상을 생성할 때 생기는 빈 공간을 효율적으로 채우는 기법을 제안하고, 전 과정의 실시간 처리를 위해 이를 GPU상에서 병렬로 처리되도록 구현했다. 그 결과 효과적으로 홀 채움을 수행하면서 CPU 대비 15배 이상 빠르게 양안식 영상을 생성할 수 있었다.

3D 점 데이터 그리딩을 위한 고성능 병렬처리 기법 (A Parallel Approach for Accurate and High Performance Gridding of 3D Point Data)

  • 이창섭;;이희진;오상윤
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제3권8호
    • /
    • pp.251-260
    • /
    • 2014
  • 3D 점 데이터는 높은 정확성을 가진 사물의 표면 정보 데이터로 다양한 분야에서 사용되고 있으며, 특히 지리학에서 지형 파악과 분석에 많이 사용되고 있다. 일반적으로 3D 점 데이터의 Gridding 과정을 거치게 되는데 이는 불연속적인 점 데이터를 일정한 좌표 값으로 만드는 과정으로 긴 실행 시간과 높은 비용이 필요하다. 특히 Gridding 과정 중 보간 작업을 위해서 Kriging이 높은 정확성으로 주목받고 있지만 처리과정이 복잡하고 연산이 많아 처리속도가 상대적으로 느리기 때문에 많이 사용되지 않고 있다. 본 논문에서는 Gridding을 고성능으로 처리하기위해 Kriging 연산 과정을 병렬화했으며 격자 자료구조를 MapReduce 패러다임에 맞게 변형하여 Kriging에 적용하였다. 실험은 항공 LiDAR 데이터 약 1.6백만 개와 4.3백만 개의 점 데이터를 이용해서 제안한 MapReduce 구조에 적용하였고, 그 결과 3대의 이기종 클러스터에서 전체 실행시간이 순차적 프로그램에 비해 최대 3.4배 단축하였다.

Analytical fragility curves of a structure subject to tsunami waves using smooth particle hydrodynamics

  • Sihombing, Fritz;Torbol, Marco
    • Smart Structures and Systems
    • /
    • 제18권6호
    • /
    • pp.1145-1167
    • /
    • 2016
  • This study presents a new method to computes analytical fragility curves of a structure subject to tsunami waves. The method uses dynamic analysis at each stage of the computation. First, the smooth particle hydrodynamics (SPH) model simulates the propagation of the tsunami waves from shallow water to their impact on the target structure. The advantage of SPH over mesh based methods is its capability to model wave surface interaction when large deformations are involved, such as the impact of water on a structure. Although SPH is computationally more expensive than mesh based method, nowadays the advent of parallel computing on general purpose graphic processing unit overcome this limitation. Then, the impact force is applied to a finite element model of the structure and its dynamic non-linear response is computed. When a data-set of tsunami waves is used analytical fragility curves can be computed. This study proves it is possible to obtain the response of a structure to a tsunami wave using state of the art dynamic models in every stage of the computation at an affordable cost.

정사모자이크 제작을 위한 Agisoft Metashape의 병렬처리 성능 평가 (Assessment of Parallel Computing Performance of Agisoft Metashape for Orthomosaic Generation)

  • 한수희;홍창기
    • 한국측량학회지
    • /
    • 제37권6호
    • /
    • pp.427-434
    • /
    • 2019
  • 본 연구에서는 SfM (Structure from Motion) 기술을 기반으로 항공삼각측량을 수행하고 3차원 포인트 클라우드를 생성하며 정사모자이크를 제작할 수 있는 Agisoft Metashape의 병렬처리 성능을 평가하였다. SfM의 속성상 상호표정에 해당하는 Align photos와 3차원 포인트 클라우드를 생성하는 Build dense cloud가 대부분의 시간을 차지하는데, Metashape에서는 이러한 과정에서 CPU (Central Processing Unit)의 다중코어와 함께 GPU (Graphics Processing Unit)를 이용하여 병렬처리를 수행할 수 있다. 세 가지 병렬처리 방법(CPU only, GPU only, CPU + GPU)과 두 가지 운영체제(Windows, Linux)를 조합하여 총 여섯 가지 조건으로 대용량 무인기 영상으로부터 정사모자이크를 제작하였다. 아울러 사용자의 개입 없이 자동화된 방법으로 영상에서 지상기준점을 인식하여 항공삼각측량의 RMSE (Root Mean Square Error)를 측정함으로써 각 조건에 따른 결과의 일관성을 평가하였다. 4220만 화소의 무인기 영상 521장으로부터 정사모자이크를 제작한 결과, 본 연구에서 사용한 시스템에서는 CPU와 GPU의 조합이 가장 나은 성능을 나타내었고 모든 조건에서 Linux가 Windows보다 나은 성능을 나타내었다. 그러나 항공삼각측량의 RMSE를 측정한 결과, 각 설정에 따른 RMSE 값에서 오차 범위 안에서 미세한 차이가 나타났다. 따라서 Metashape는 운영체제 및 병렬처리 여부에 관계없이 동일한 결과가 도출되도록 개선할 여지가 있는 것으로 판단된다.

확률모형과 수식정보를 이용한 와/과 병렬사구 범위결정 (Range Detection of Wa/Kwa Parallel Noun Phrase using a Probabilistic Model and Modification Information)

  • 최용석;신지애;최기선
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제35권2호
    • /
    • pp.128-136
    • /
    • 2008
  • 한국어 구문 분석의 초기 단계로서 병렬구조의 해석은 파싱의 효율을 높일 수 있다. 본 논문은 병렬구조 해석을 위한 비지도식 언어에 독립적인 확률 모델을 제안한다. 이 모델은 병렬구조의 대칭성과 상호교환성에 근거한다. 대칭성은 같은 구조가 반복된다는 것이고, 교환성은 좌우 구성요소를 교환해도 같은 의미를 지닌다는 것이다. 병렬구조는 일반적으로 대칭성을 따르지만, 수식어의 성질에 따라서 한쪽만을 수식하는 비대칭적인 구조가 출현하기도 한다. 비대칭 병렬구조 해석을 위해서 추가적으로 수식관계 통계정보를 사용한다. 제안된 모델을 본 논문에서는 "와/과" 조사로 이루어진 한국어의 명사구 병렬구조를 해석하는데 사용되는 것[1]을 중점으로 보여준다. 지도적 방식에 의한 모델을 포함한 다른 모델들에 비해 효율적임을 실험적으로 보여준다.

아날로그 2차원 셀의 순환형 배열을 이용한 R=l/2. K=7형 고속 비터비 디코더 설계 (Design of R=1/2, K=7 Type High Speed Viterbi Decoder with Circularly Connected 2-D Analog Parallel Processing Cell Array)

  • 손홍락;김형석
    • 대한전기학회논문지:시스템및제어부문D
    • /
    • 제52권11호
    • /
    • pp.650-656
    • /
    • 2003
  • A high speed Viterbi decoder with a circularly connected 2-dimensional analog processing ceil array Is proposed. The proposed Viterbi .decoder has a 2-dimensional parallel processing structure in which an analog processing cell is placed at each node of a trellis diagram, the output column of the analog processing cells is connected to the decoding column, and thus, the output(last) column becomes a column right before the decoding(first) column. The reference input signal given at a decoding column is propagated to the whole network while Its magnitude is reduced by the amount of a error metric on each branch. The circuit-based decoding is done by adding a trigger signals of same magnitudes to disconnect the path corresponding to logic 0 (or 1) and by observing its effect at an output column (the former column of the decoding column). The proposed Viterbi decoder has advantages in that it is operated with better performance of error correction, has a shorter latency and requires no path memories. The performance of error correction with the proposed Viterbi decoder is tested via the software simulation.