• 제목/요약/키워드: pipelining

검색결과 141건 처리시간 0.148초

VLIW 프로세서를 위한 Swing Modulo Scheduler 구현 (Implementing Swing Modulo Scheduler for VLIW Processor)

  • 신장섭;한상준;정현균;안민욱;윤종희;백윤흥
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 춘계학술발표대회
    • /
    • pp.12-14
    • /
    • 2014
  • 하드웨어가 해저드(hazard) 검출을 지원하지 않는 멀티이슈 VLIW 프로세서의 성능을 높이기 위해서는 컴파일러가 명령어 의존성과 하드웨어 자원의 제약을 지키는 범위 안에서 최대한 명령어수준 병렬성(ILP)을 활용하는 것이 중요하다. 기본 블록(basic block) 스케쥴링은 Branch 등 제어 흐름(control flow)의 경계를 넘어선 스케쥴링을 행하지 않아 그 효과가 제한적이다. 소프트웨어 파이프라이닝(software pipelining)은 루프(loop)의 경계를 허물어 여러반본(iteration)의 명령어가 동시에 수행되도록 하는 것으로 모듈로 스케쥴링(modulo scheduling)은 그 중에 한 범주의 스케쥴링 기법들을 일컫는다. 본 연구에서는 그 중 한가지인 스윙 모듈로 스케쥴러(swing modulo scheduler)[1]를 구현하여 그 효과를 알아보고자 한다.

FPGA기반 뉴럴네트워크 가속기에서 2차 타일링 기반 행렬 곱셈 최적화 (Optimizing 2-stage Tiling-based Matrix Multiplication in FPGA-based Neural Network Accelerator)

  • 권진세;이제민;권용인;박제만;유미선;김태호;김형신
    • 대한임베디드공학회논문지
    • /
    • 제17권6호
    • /
    • pp.367-374
    • /
    • 2022
  • The acceleration of neural networks has become an important topic in the field of computer vision. An accelerator is absolutely necessary for accelerating the lightweight model. Most accelerator-supported operators focused on direct convolution operations. If the accelerator does not provide GEMM operation, it is mostly replaced by CPU operation. In this paper, we proposed an optimization technique for 2-stage tiling-based GEMM routines on VTA. We improved performance of the matrix multiplication routine by maximizing the reusability of the input matrix and optimizing the operation pipelining. In addition, we applied the proposed technique to the DarkNet framework to check the performance improvement of the matrix multiplication routine. The proposed GEMM method showed a performance improvement of more than 2.4 times compared to the non-optimized GEMM method. The inference performance of our DarkNet framework has also improved by at least 2.3 times.

농림수산식품분야 정보처리를 위한 적응하는 분기히스토리 길이를 갖는 분기예측 메커니즘 (A Branch Prediction Mechanism With Adaptive Branch History Length for FAFF Information Processing)

  • 고광현;조영일
    • 현장농수산연구지
    • /
    • 제13권1호
    • /
    • pp.3-17
    • /
    • 2011
  • Pipelines of processor have been growing deeper and issue widths wider over the years. If this trend continues, branch misprediction penalty will become very high. Branch misprediction is the single most significant performance limiter for improving processor performance using deeper pipelining. Therefore, more accurate branch predictor becomes an essential part of modem processors for FAFF(Food, Agriculture, Forestry, Fisheries)Information Processing. In this paper, we propose a branch prediction mechanism, using variable length history, which predicts using a bank having higher prediction accuracy among predictions from five banks. Bank 0 is a bimodal predictor which is indexed with the 12 least significant bits of the branch PC. Banks 1,2,3 and 4 are predictors which are indexed with different global history bits and the branch PC. In simulation results, the proposed mechanism outperforms gshare predictors using fixed history length of 12 and 13, up to 6.34% in prediction accuracy. Furthermore, the proposed mechanism outperforms gshare predictors using best history lengths for benchmarks, up to 2.3% in prediction accuracy.

Paddle 기반의 중국어 Multi-domain Task-oriented 대화 시스템 (Chinese Multi-domain Task-oriented Dialogue System based on Paddle)

  • 등우진;조인휘
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.308-310
    • /
    • 2022
  • With the rise of the Al wave, task-oriented dialogue systems have become one of the popular research directions in academia and industry. Currently, task-oriented dialogue systems mainly adopt pipelined form, which mainly includes natural language understanding, dialogue state decision making, dialogue state tracking and natural language generation. However, pipelining is prone to error propagation, so many task-oriented dialogue systems in the market are only for single-round dialogues. Usually single- domain dialogues have relatively accurate semantic understanding, while they tend to perform poorly on multi-domain, multi-round dialogue datasets. To solve these issues, we developed a paddle-based multi-domain task-oriented Chinese dialogue system. It is based on NEZHA-base pre-training model and CrossWOZ dataset, and uses intention recognition module, dichotomous slot recognition module and NER recognition module to do DST and generate replies based on rules. Experiments show that the dialogue system not only makes good use of the context, but also effectively addresses long-term dependencies. In our approach, the DST of dialogue tracking state is improved, and our DST can identify multiple slotted key-value pairs involved in the discourse, which eliminates the need for manual tagging and thus greatly saves manpower.

FPGA를 사용한 radix-2 16 points FFT 알고리즘 가속기 구현 (Radix-2 16 Points FFT Algorithm Accelerator Implementation Using FPGA)

  • 이규섭;조성민;서승현
    • 정보보호학회논문지
    • /
    • 제34권1호
    • /
    • pp.11-19
    • /
    • 2024
  • 최근 신호처리, 암호학 등 다양한 분야에서 FFT(Fast Fourier Transform)의 활용이 증가함에 따라 최적화 연구의 중요성이 대두되고 있다. 본 논문에서는 FPGA(Field Programmable Gate Array) 하드웨어를 사용하여 radix-2 16 points FFT 알고리즘을 기존 연구들보다 빠르고 효율적으로 처리하는 가속기 구현 연구에 대해 기술한다. FPGA가 갖는 병렬처리 및 파이프라이닝 등의 하드웨어 이점을 활용하여 PL(Programmable Logic) 파트에서 Verilog 언어를 통해 FFT Logic을 설계 및 구현한다. 이후 PL 파트에서의 처리 시간 비교를 위해 PS(Processing System) 파트에서 Zynq 프로세서만을 사용하여 구현 후, 연산 시간을 비교한다. 또한 관련 연구와의 비교를 통해 본 구현 방법의 연산 시간 및 리소스 사용의 효율성을 보인다.

Fully parallel low-density parity-check code-based polar decoder architecture for 5G wireless communications

  • Dinesh Kumar Devadoss;Shantha Selvakumari Ramapackiam
    • ETRI Journal
    • /
    • 제46권3호
    • /
    • pp.485-500
    • /
    • 2024
  • A hardware architecture is presented to decode (N, K) polar codes based on a low-density parity-check code-like decoding method. By applying suitable pruning techniques to the dense graph of the polar code, the decoder architectures are optimized using fewer check nodes (CN) and variable nodes (VN). Pipelining is introduced in the CN and VN architectures, reducing the critical path delay. Latency is reduced further by a fully parallelized, single-stage architecture compared with the log N stages in the conventional belief propagation (BP) decoder. The designed decoder for short-to-intermediate code lengths was implemented using the Virtex-7 field-programmable gate array (FPGA). It achieved a throughput of 2.44 Gbps, which is four times and 1.4 times higher than those of the fast-simplified successive cancellation and combinational decoders, respectively. The proposed decoder for the (1024, 512) polar code yielded a negligible bit error rate of 10-4 at 2.7 Eb/No (dB). It converged faster than the BP decoding scheme on a dense parity-check matrix. Moreover, the proposed decoder is also implemented using the Xilinx ultra-scale FPGA and verified with the fifth generation new radio physical downlink control channel specification. The superior error-correcting performance and better hardware efficiency makes our decoder a suitable alternative to the successive cancellation list decoders used in 5G wireless communication.

MCM과 폴딩 방식을 적용한 웨이블릿 변환 장치의 VLSI 설계 (VLSI Design for Folded Wavelet Transform Processor using Multiple Constant Multiplication)

  • 김지원;손창훈;김송주;이배호;김영민
    • 한국멀티미디어학회논문지
    • /
    • 제15권1호
    • /
    • pp.81-86
    • /
    • 2012
  • 본 논문은 하드웨어 곱셈 연산을 최적화 한 리프팅 기반의 9/7 웨이블릿 필터의 VLSI 구조를 제안한다. 제안하는 구조는 범용 곱셈기를 사용하는 기존의 리프팅 기법과 달리 웨이블릿 계수에 패턴 탐색 기법의 Lef$\grave{e}$vre 알고리즘을 적용하였으며, MCM(Multiple constant multiplication)과 폴딩 방식을 9/7 DWT 필터에 적용하여 효율적으로 하드웨어 설계가 이루어 질수 있도록 제안하였다. 이러한 구조는 하드웨어 자원을 100% 활용하는 이점을 지니며, 이전의 성능에 비해 화질 열화 없이 단순한 하드웨어 구조, 속도, 면적, 전력소모 측면에서 효율적이다. 비교 실험을 위해 Verilog HDL을 통해 구현하였으며, $0.18{\mu}m$ CMOS 공정의 스탠다드 셀을 이용하여 합성하였다. 제안한 구조를 기존의 구조와 200MHz의 합성 타겟 클럭 주파수에서 비교하였을 때 면적, 전력소모 측면에서 60.1%, 44.1% 감소하였으며, 이를 통해 이전의 리프팅 기법에 비해 하드웨어 구현에 보다 최적화된 구조임을 보여준다.

싱글 페이즈 클락드 래치를 이용한 SoC 리타이밍 (Retiming for SoC Using Single-Phase Clocked Latches)

  • 김문수;임종석
    • 대한전자공학회논문지SD
    • /
    • 제43권9호
    • /
    • pp.1-9
    • /
    • 2006
  • System-On-Chip(SoC) 설계에서 글로벌 와이어는 성능에 큰 영향을 끼친다. 이 때문에 플림플롭이나 래치를 사용한 와이어 파이프라이닝이 필요하게 되었다. 래치는 플립플롭에 비해 타이밍 제약이 유연하므로 래치 파이프라이닝이 플립플롭에 비해 클락 주기를 더 작게 할 수 있다. 리타이밍은 회로의 메모리 요소를 이동시켜 최적화된 클락 주기를 얻는 방법이다. SoC 리타이밍은 기존의 게이트 레벨 리타이밍과 달리 SoC 회로를 대상으로 한다. 본 논문에서는 기존의 플립플롭을 사용한 SoC 리타이밍 방법을 래치를 사용한 경우에도 적용할 수 있게 확장 시켰다. 본 논문에서는 래치를 사용한 SoC 리타이밍 문제를 해결하기 위해 MILP로 식을 세우고, 이를 고정점 계산을 통해 효과적으로 해결 하였다. 실험 결과 본 논문의 방법을 적용할 경우 플립플롭 SoC 리타이밍에 비해 평균적으로 클락 주기를 10% 감소시킬 수 있었다.

Fine-scalable SPIHT Hardware Design for Frame Memory Compression in Video Codec

  • Kim, Sunwoong;Jang, Ji Hun;Lee, Hyuk-Jae;Rhee, Chae Eun
    • JSTS:Journal of Semiconductor Technology and Science
    • /
    • 제17권3호
    • /
    • pp.446-457
    • /
    • 2017
  • In order to reduce the size of frame memory or bus bandwidth, frame memory compression (FMC) recompresses reconstructed or reference frames of video codecs. This paper proposes a novel FMC design based on discrete wavelet transform (DWT) - set partitioning in hierarchical trees (SPIHT), which supports fine-scalable throughput and is area-efficient. In the proposed design, multi-cores with small block sizes are used in parallel instead of a single core with a large block size. In addition, an appropriate pipelining schedule is proposed. Compared to the previous design, the proposed design achieves the processing speed which is closer to the target system speed, and therefore it is more efficient in hardware utilization. In addition, a scheme in which two passes of SPIHT are merged into one pass called merged refinement pass (MRP) is proposed. As the number of shifters decreases and the bit-width of remained shifters is reduced, the size of SPIHT hardware significantly decreases. The proposed FMC encoder and decoder designs achieve the throughputs of 4,448 and 4,000 Mpixels/s, respectively, and their gate counts are 76.5K and 107.8K. When the proposed design is applied to high efficiency video codec (HEVC), it achieves 1.96% lower average BDBR and 0.05 dB higher average BDPSNR than the previous FMC design.

SHA-3과 SHAKE256 알고리듬을 지원하는 해쉬 프로세서의 하드웨어 설계 (Efficient Hardware Design of Hash Processor Supporting SHA-3 and SHAKE256 Algorithms)

  • 최병윤
    • 한국정보통신학회논문지
    • /
    • 제21권6호
    • /
    • pp.1075-1082
    • /
    • 2017
  • 본 논문에서는 새로운 해쉬 알고리듬인 SHA-3과 출력 길이 확장함수인 SHAKE256을 구현하는 해쉬 프로세서를 설계하였다. 해쉬 프로세서는 성능을 극대화하기 위해 Padder 블록, 라운드 코어 블록, 출력 블록이 블록 단계에서 파이프라인 구조로 동작한다. Padder 블록은 가변길이의 입력을 여러 개의 블록으로 만들고, 라운드 코어 블록은 on-the-fly 라운드 상수 생성기를 사용하여 SHA-3와 SHAKE256에 대응하는 해쉬 및 출력 확장 결과를 생성하며, 출력 블록은 결과 값을 호스트로 전달하는 기능을 수행한다. 해쉬 프로세서는 Xilinx Virtex-5 FPGA에서 최대 동작 속도는 220 MHz이며, SHA3-512의 경우 5.28 Gbps의 처리율을 갖는다. 프로세서는 SHA-3 와 SHAKE-256 알고리듬을 지원하므로 무결성, 키 생성, 난수 생성 등의 암호 분야에 응용이 가능하다.