• 제목/요약/키워드: 파이프라이닝 병렬처리

Search Result 18, Processing Time 0.059 seconds

Analysis and Application of Performance Improvement of a Real-time Simulation Visualization based on Multi-thread Pipelining Parallel Processing (다중 스레드 파이프라인 병렬처리를 통한 실시간 시뮬레이션 시각화의 성능 향상 해석 및 적용)

  • Lee, Jun Hee;Song, Hee Kang;Kim, Tag Gon
    • Journal of the Korea Society for Simulation
    • /
    • v.26 no.3
    • /
    • pp.13-22
    • /
    • 2017
  • This research proposes and applies a pipelining parallel processing technique to enhance the speed of visualizing the results of real-time simulations. Generally, a simulation with real-time visualization consists of three processes: executing a simulation model, transmitting simulation result, and visualizing simulation result. If we have these processes in serial, the latency from simulation to visualization will be very long, which degrades the speed of visualization of data from real-time simulation. Thus, the main purpose of this research is maximizing performance by adapting pipelining parallel processing technique to the real-time simulation visualization. Also we show that performance is improved by adding multi-threading technique to each process. This paper proposes a theoretical performance model and simulation results of the techniques and then we applied this to an air combat simulation model as a case study. As the result, it shows that the performance is greatly enhanced than the original model's execution time.

Hardware Implementation for MLP Based Text Detection (MLP 기반의 문자 추출을 위한 하드웨어 구현)

  • Kyoung, Dong-Wuk;Jung, Kee-Chul
    • 한국HCI학회:학술대회논문집
    • /
    • 2006.02a
    • /
    • pp.766-771
    • /
    • 2006
  • 현재 많은 신경망의 하드웨어 구현은 부동 소수점 연산에 비해서 적은 면적과 빠른 수행시간을 가지는 고정소수점 연산을 많이 사용하지만, 소프트웨어에서는 일반적으로 높은 정확도를 가지는 부동소수점 연산을 사용한다. 신경망의 하드웨어 구현에서 많이 사용하는 고정소수점 연산은 부동소수점 연산에 비해서 빠른 처리속도와 적은 면적으로써 쉽게 하드웨어 구현에 용이하지만, 부동소수점 연산에 비해서 낮은 정확도와 기존의 부동소수점 연산을 사용하는 소프트웨어 신경망을 쉽게 적용할 수 없는 단점을 가진다. 본 논문에서는 부동소수점 연산을 사용하여 문자 추출 MLP의 데이터 변환 없이 적용할 수 있는 전체 파이프라이닝 설계 구조를 제안한다. 제안된 설계방법은 신경망의 전체 구조를 입력층과 은닉층을 링크 병렬화 방법과 은닉층과 출력층을 뉴런 병렬화 방법을 개선하여 쉽게 파이프라이닝 구조로 설계함으로써 신경망 처리는 은닉층 뉴런수와 동일한 주기로 처리되며, 기존의 문자추출 소프트웨어 신경망을 제안된 하드웨어 설계방법으로 구현하였을 때 11배의 빠른 성능을 나타낸다.

  • PDF

A Code Mapping Technique Considering With Data Copying Flow On Coarse-Grained Reconfigurable Array Architectures (재구성형 어레이 아키텍처에서 데이터 복사 흐름을 고려한 코드 매핑 기법)

  • Cho, Doosan
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.11a
    • /
    • pp.1632-1634
    • /
    • 2010
  • 고성능 재구성형 어레이 아키텍처는 애플리케이션에 내재된 병렬성을 충분히 활용하도록 풍부한 하드웨어 리소스로 구성되어 있다. 이러한 하드웨어 리소스는 소프트웨어 파이프라이닝 기반 코드할당 기법을 통하여 사용된다. 이러한 코드할당 기법은 기존의 소프트웨어 파이프라이닝 기법에 FPGA 에서의 라우팅 & 위치선정기법이 연결된 형식으로 구성된다. 이러한 기존의 연구들은 데이터 흐름 (data flow)을 단순한 형태로 가정하여 개발되었다. 따라서 루프 코드 펼침 (loop unrolling)에 따라서 발생되는 데이터 복사에 의한 흐름 (copy flow)은 코드 매핑할 때 고려하지 않기 때문에 소프트웨어 파이프라이닝 적용시 네트웍 리소스의 중복사용으로 인한 데이터 충돌문제(data congestion)로 Minimum Initiation Interval (MII)증가에 따르는 성능 저하가 발생할 수 있다. 본 연구에서는 다양한 데이터 복사 흐름까지 고려하도록 데이터 의존도 그래프 (Data Dependence Graph, DDG)를 확장하여 스케쥴링 단계에서 데이터 충돌 지연에 의한 MII 증가를 방지하여 최적의 시스템 성능을 얻도록 코드 할당 기법을 개발하였다.

고속 신호 처리를 위한 디지틀 필터의 설계

  • Kim, Jin-Ung;Jang, Gyeong-Hui
    • The Journal of the Acoustical Society of Korea
    • /
    • v.13 no.1
    • /
    • pp.108-121
    • /
    • 1994
  • 본고에서는 일반적인 디지틀 필터의 설계 방법과 설계시 고려 사항을 살펴보고, 특히 실시간 구현이 어려운 고속 IIR 디지틀 필터의 설계 방법에 대하여 고찰하였다. 현재의 발달된 VLSI 기술의 잇점을 최대로 활용하기 위한 병렬 및 파이프라이닝 필터들의 구조 및 특성을 비교하였으며, 실제 하드웨어를 구현하는 여러가지 방법들을 상술하였다. 또한 각 연산 소자를 고속으로 구현하기 위한 비트레벨 구조및 수체계(Numer System)에 대해 알아보고, 이를 이용한 파이프라이닝 필터의 설계 예를 보였다. 필터의 구조에 따라 유한 길이 레지스터(FWL)의 영향이 달라지며, 제안된 새로운 구조에 대한 FWL영향의 분석이 항시 수행되어야 한다. 디지틀 필터에서의 FWL영향과 그 분석 방법, 그리고 이를 줄이기 위한 설계 방법에 대해 기술하였다. 디지틀 필터를 포함한 많은 디지틀 신호 처리 알고리즘이 내재된 병렬성을 갖고 있으며, 이들의 효율적인 하드웨어 실현을 위해 본고에서 고찰한 기술들이 적용될 수 있다.

  • PDF

Performance Enhancement of Parallel Prime Sieving with Hybrid Programming and Pipeline Scheduling (혼합형 병렬처리 및 파이프라이닝을 활용한 소수 연산 알고리즘)

  • Ryu, Seung-yo;Kim, Dongseung
    • KIPS Transactions on Computer and Communication Systems
    • /
    • v.4 no.10
    • /
    • pp.337-342
    • /
    • 2015
  • We develop a new parallelization method for Sieve of Eratosthenes algorithm, which enhances both computation speed and energy efficiency. A pipeline scheduling is included for better load balancing after proper workload partitioning. They run on multicore CPUs with hybrid parallel programming model which uses both message passing and multithreading computation. Experimental results performed on both small scale clusters and a PC with a mobile processor show significant improvement in execution time and energy consumptions.

An Effective Parallel and Pipelined Algorithm with Minimum Delayed Time in VLIW System (VLIW 시스템에서의 최소 시간 지연을 갖는 효율적인 병렬 파이프라인 알고리즘)

  • Seo, Jang-Won;Song, Jin-Hui;Ryu, Cheon-Yeol;Jeon, Mun-Seok
    • The Transactions of the Korea Information Processing Society
    • /
    • v.2 no.4
    • /
    • pp.466-476
    • /
    • 1995
  • This pater describes pipelining algorithm issues for a VLIW(Very Long Instruction Word) System and the effective pipelined processing method by occurrence in pipelined management of processor minimized to timing delay. The proposed algorithm is executed in pipeline and parallel processings, and by combining basic operations variable instruction set can be desinged for various applications. In this paper, we prove and analyze the efficiency of the proposed pipeline algorithm and compare with other processor pipeline algorithm in terms of time minimizing.

  • PDF

Improving Software Pipelining Performance Using a Register Renaming Technique (소프트웨어 파이프라이닝에서 레지스터 변경을 통한 성능 개선)

  • Cho, Doosan
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.11a
    • /
    • pp.1642-1643
    • /
    • 2010
  • 멀티미디어 도메인의 응용 프로그램에는 풍부한 병렬성이 내재하기 때문에 VLIW (Very Long Instruction Word) 형식의 신호처리 프로세서가 많이 사용되고 있다. VLIW 프로세서를 구성하는 복수의 연산처리유닛 (processing unit, PU)의 사용률은 컴파일러의 명령어 스케쥴러의 성능에 의하여 결정된다. 명령어들 사이의 병렬성을 분석하여 동시 수행가능한 명령어들을 각기 다른 PU 에서 수행되도록 프로그램 코드를 최적화한다. 하지만 기존의 명령어 스케쥴러는 복잡한 데이터 디펜던스 그래프 (data dependence graph, DDG)를 구성하여 복수의 PU 를 충분히 사용하도록 하지 못하는 문제점을 내재하고 있다. 이는 명령어 스케쥴러가 각 레지스터 사용시간을 별도로 고려하지 않기 때문에 실제로 내재된 데이터 디펜던스 보다 복잡성이 높은 디펜던스 그래프를 구성하게 되어 스케쥴러가 올바르게 최적화된 코드 스케쥴링 결과를 제공하지 못하기 때문이다. 본 연구에서는 레지스터의 라이프타임을 다른 레지스터를 이용하여 적절히 끊어주는 것으로 데이터 디펜던스 복잡도 완화하여 시스템 성능 향상의 가능성을 보이고 있다.

Efficient Parallel IP Address Lookup Architecture with Smart Distributor (스마트 분배기를 이용한 효율적인 병렬 IP 주소 검색 구조)

  • Kim, Junghwan;Kim, Jinsoo
    • The Journal of the Korea Contents Association
    • /
    • v.13 no.2
    • /
    • pp.44-51
    • /
    • 2013
  • Routers should perform fast IP address lookup for Internet to provide high-speed service. In this paper, we present a hybrid parallel IP address lookup structure composed of four-stage pipeline. It achieves parallelism at low cost by using multiple SRAMs in stage 2 and partitioned TCAMs in stage 3, and improves the performance through pipelining. The smart distributor in stage 1 does not transfer any IP address identical to previous one toward the next stage, but only uses the result of the previous lookup. So it improves throughput of lookup by caching effects, and decreases the access conflict to TCAM bank in stage 3 as well. In the last stage, the reorder buffer rearranges the completed IP addresses according to the input order. We evaluate the performance of our parallel pipelined IP lookup structure comparing with previous hybrid structure, using the real routing table and traffic distributions generated by Zipf's law.

An Optimization of Computer-Generated Hologram Operation for Hardware Implementation (하드웨어 구현을 위한 컴퓨터 생성 홀로그램 연산의 최적화)

  • Choi, Hyun-Jun;Seo, Young-Ho;Kim, Dong-Wook
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2010.07a
    • /
    • pp.224-226
    • /
    • 2010
  • 컴퓨터 생성 홀로그램(computer-generated hologram, CGH) 기법은 광학 신호들을 근사화한 후 PC에서 수학적인 연산으로 디지털 홀로그램을 생성하는 기술이다. 본 논문에서는 CGH 기법을 하드웨어로 구현할 경우 완벽한 병렬처리와 파이프라이닝이 가능하도록 연산식을 최적화하는 방법을 제안한다. 제안한 방법은 홀로그램의 이전 좌표에서 계산된 값에 일정한 값을 더하여 홀로그램을 생성하는 반복가산 기법의 일반항을 분석하여 하드웨어에 최적화된 수식으로 변형하는 것이다. 최적화된 수식의 경우 현재 좌표의 홀로그램을 계산하기 위해 이전 좌표에서 연산되었던 결과값을 기다렸다 이용하지 않기 때문에 실시간 디지털 홀로그래피를 위한 전용 하드웨어의 설계에 적합할 것이다.

  • PDF

Optimization for H.264/AVC De-blocking Filter on the TMS320C64x+ DSP (TMS320C64x+ DSP에서의 H.264/AVC 디블록킹 필터 최적화)

  • Lee, Jin-Seop;Kang, Dae-Beom;Sim, Dong-Gyu;Lee, Soo-Youn
    • Journal of the Institute of Electronics Engineers of Korea SP
    • /
    • v.48 no.2
    • /
    • pp.41-52
    • /
    • 2011
  • It is important to reduce computational complexity of de-blocking filter for real-time implementation, because it accounts for a great part of total computational complexity of the decoder. Because there are a lot of conditional branches and memory accesses in a decoding loop, it is not easy to speed up the de-blocking filter. Therefore, this paper presents a new algorithm of de-blocking filter minimizing conditional branches and memory accesses. The proposed structure of de-blocking filter enables filter operation to parallelize by software pipelining. The proposed optimization method was implemented on a TMS320DM6467 EVM board and we achieved approximately 46% cycle reduction, compared with that of FFmpeg.