• 제목/요약/키워드: pipelined memory

검색결과 79건 처리시간 0.023초

파이프라인 구조의 얼굴 검출 하드웨어 설계 및 검증 (Design and Verification of Pipelined Face Detection Hardware)

  • 김신호;정용진
    • 한국멀티미디어학회논문지
    • /
    • 제15권10호
    • /
    • pp.1247-1256
    • /
    • 2012
  • 필터를 기반으로 하는 영상 처리 알고리즘은 많은 연산과 메모리 접근으로 인해 임베디드 환경에서의 실시간 동작이 어렵다. 본 논문에서는 필터 기반의 얼굴 검출 하드웨어 엔진을 임베디드 환경에서 실시간으로 동작시키기 위해 파이프라인 구조로 설계하고 검증하였다. 얼굴 검출 알고리즘은 입력으로 들어온 영상에서 학습된 얼굴의 특징 데이터를 이용하여 얼굴의 위치를 찾는 연산을 수행한다. 이를 하드웨어로 구현하기 위해 알고리즘의 연산을 파악하여 중복되는 연산을 병렬 처리하고 라인 메모리를 이용하여 메모리 접근을 최소화하여, 이것을 기반으로 파이프라인 구조의 하드웨어를 설계하였다. 하드웨어 구조는 Resize, ICT(Improved Census Transform), Find Candidate 등의 3 단계로 나뉘어져 있으며, 총 507KByte의 내부 SRAM을 사용하였다. ARM Cortex A8 프로세서와 Xilinx사의 Virtex5LX330을 이용하여 검증한 결과 9,039 LUTs를 사용하였고 최대 동작 클록은 165MHz로, VGA($640{\times}480$) 해상도에서 108 frame/sec의 동작속도로 최대 20명까지 검출이 가능한 것을 확인하였다.

Instruction FIFO Memory를 이용한 범용 DSP 구조 (A General Purpose DSP Architecture Using Instruction FIFO Memory)

  • 박주현;김영민
    • 전자공학회논문지B
    • /
    • 제32B권3호
    • /
    • pp.31-37
    • /
    • 1995
  • In this paper, we propose a programmable 16 bit DSP architecture using FIFO instruction memory. With this DSP architecture, System structure, BUS structure, instruction set ant and an assembler for system test are developed. The characteristic of this structure is that it simply fetches instructions not from RAM but from FIFO using shift operations. Accordingly, System can be designed regardless of RAM access time. One cycle is enough to execute an instruction, if instruction pipeline is operated. Another merit of this structure is that we can obtain the same effect as instruction pipelining without constructing a complex pipelined controller by decreasing the pipeline number.

  • PDF

온칩 메모리 내 다중 비트 이상에 대처하기 위한 오류 정정 부호 (Error correction codes to manage multiple bit upset in on-chip memories)

  • Jun, Hoyoon
    • 한국정보통신학회논문지
    • /
    • 제26권11호
    • /
    • pp.1747-1750
    • /
    • 2022
  • As shrinking the semiconductor process into the deep sub-micron to achieve high-density, low power and high performance integrated circuits, MBU (multiple bit upset) by soft errors is one of the major challenge of on-chip memory systems. To address the MBU, single error correction, double error detection and double adjacent error correction (SEC-DED-DAEC) codes have been recently proposed. But these codes do not resolve mis-correction. We propose the SEC-DED-DAEC-TAED(triple adjacent error detection) code without mis-corrections. The generated H-matrix by the proposed heuristic algorithm to accomplish the proposed code is implemented as hardware and verified. The results show that there is no mis-correction in the proposed codes and the 2-stage pipelined decoder can be employed on-chip memory system.

5단계 파이프라인 DSP 코어를 위한 시뮬레이터의 설계 (A Simulator for a Five-stage Pipeline DSP core)

  • 김문경;정우경
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 1998년도 추계종합학술대회 논문집
    • /
    • pp.1161-1164
    • /
    • 1998
  • We designed a DSP core simulator with C language, that is able to simulate 5-stage pipelined DSP core, named YS-DSP. It can emulate all 5 stage pipelines in the DSP core. It can also emulate memory access, exception processing, and DSP parallel processing. Each pipeline stage is implemented by combination of one or more functions to process parts of each stage. After modeling and validating the simulator, we can use it to verify and to complement the DSP core HDL model and to enhance its performance.

  • PDF

BIT SLICE SIGNAL PROCESSOR를 이용한 DCT의 구현 (Implementation of DCT using Bit Slice Signal Processor)

  • 김동록;고석빈;백승권;이태수;민병구
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1987년도 전기.전자공학 학술대회 논문집(II)
    • /
    • pp.1449-1453
    • /
    • 1987
  • A microprogrammable Bit Slice Sinal Processor for image processing is implemented. Processing speed is increased by the parallelism in horizontal microprogram using 120bits microcode, pipelined architecture, 2 bank memory switching that interfaces with the Host through DMA, a variable clock control, overflow checking H/W,look-up table method and cache memory. With this processor, a DCT algorithm which uses 2-D FFT is performed. The execution time for $512{\times}512{\times}8$ image is 12 sec when 16 bit operation is runned, and the recovered image has acceptable quality with MSE 0.276%.

  • PDF

Performance Optimization of Parallel Algorithms

  • Hudik, Martin;Hodon, Michal
    • Journal of Communications and Networks
    • /
    • 제16권4호
    • /
    • pp.436-446
    • /
    • 2014
  • The high intensity of research and modeling in fields of mathematics, physics, biology and chemistry requires new computing resources. For the big computational complexity of such tasks computing time is large and costly. The most efficient way to increase efficiency is to adopt parallel principles. Purpose of this paper is to present the issue of parallel computing with emphasis on the analysis of parallel systems, the impact of communication delays on their efficiency and on overall execution time. Paper focuses is on finite algorithms for solving systems of linear equations, namely the matrix manipulation (Gauss elimination method, GEM). Algorithms are designed for architectures with shared memory (open multiprocessing, openMP), distributed-memory (message passing interface, MPI) and for their combination (MPI + openMP). The properties of the algorithms were analytically determined and they were experimentally verified. The conclusions are drawn for theory and practice.

2단계 수렴 블록 부동점 스케일링 기법을 이용한 8192점 파이프라인 FFT/IFFT 프로세서 (A 8192-point pipelined FFT/IFFT processor using two-step convergent block floating-point scaling technique)

  • 이승기;양대성;신경욱
    • 한국통신학회논문지
    • /
    • 제27권10C호
    • /
    • pp.963-972
    • /
    • 2002
  • DMT 기반의 VDSL 모뎀, OFDM 방식의 DVB 모뎀 등 다중 반송파 변조 시스템에서 핵심 블록으로 사용되는 8192점 FFT/IFFT 프로세서를 설계하였다. 새로운 2단계 수렴 블록 부동점 (two-step convergent block floating-point; TS_CBFP) 스케일링 방법을 제안하여 설계에 적용하였으며, 이를 통해 FFT/IFFT 출력의 신호 대 양자화 잡음 비 (signal-to-quantization-noise ratio; SQNR)가 크게 향상되도록 하였다. 제안된 TS_CBFP 스케일링 방법은 별도의 버퍼 메모리를 사용하지 않아 기존의 방법에 비해 메모리를 약 80% 정도 감소시키며, 따라서 칩 면적과 전력소모를 크게 줄일 수 있다. 입력 10-비트, 내부 데이터와 회전인자 14-비트, 그리고 출력 16-비트로 설계된 8192점 FFT/IFFT 코어는 약 60-㏈의 SQNR 성능을 갖는다. 0.25-$\mu\textrm{m}$ CMOS 셀 라이브러리로 합성한 결과. 약 76,300 게이트와 390K 비트의 RAM, 그리고 39K 비트의 ROM으로 구현되었다. 시뮬레이션 결과, 50-MHzⓐ2.5-V로 안전하게 동작할 것으로 평가되었으며, 8192점 FFT/IFFT 연산에 약 164-$\mu\textrm{s}$가 소요될 것으로 예상된다. 설계된 코어는 Xilinx FPGA에 구현하여 정상 동작함을 확인하였다.

기준 전압 스케일링을 이용한 12비트 10MS/s CMOS 파이프라인 ADC (A 12b 10MS/s CMOS Pipelined ADC Using a Reference Scaling Technique)

  • 안길초
    • 대한전자공학회논문지SD
    • /
    • 제46권11호
    • /
    • pp.16-23
    • /
    • 2009
  • 본 논문에서는 낮은 전압 이득 특성을 갖는 증폭기를 이용한 12비트 10MS/s 파이프라인 ADC를 제안한다. 증폭기의 낮은 전압 이득 특성에 의한 MDAC의 잔류 전압 이득 오차를 보상하기 위해 기준 전압 스케일링 기법을 적용한 파이프라인 ADC 구조를 제안하였다. 증폭기 오프셋에 의한 제안하는 ADC의 성능 저하를 개선하기 위해 첫 단 MDAC에 오프셋 조정이 가능한 증폭기를 사용하였으며, 낮은 증폭기 전압 이득으로 인해 발생하는 메모리 효과를 최소화하기 위해 추가적인 리셋 스위치를 MDAC에 적용하였다. 한편, 45dB 수준의 낮은 전압 이득을 갖는 증폭기를 기반으로 구성된 시제품 ADC는 $0.35{\mu}m$ CMOS 공정으로 제작되었으며, 측정된 최대 DNL 및 INL은 각각 0.7LSB 및 3.1LSB 수준을 보인다. 또한 2.4V의 전원 전압과 10MS/s의 동작 속도에서 최대 SNDR 및 SFDR이 각각 62dB와 72dB이며, 19mW의 전력을 소모한다.

파이프라인 방식의 32 비트 ARM 프로세서에 대한 FPGA 구현 및 검증 (FPGA Implementation and Verification of A Pipelined 32-bit ARM Processor)

  • 이종복
    • 한국인터넷방송통신학회논문지
    • /
    • 제22권5호
    • /
    • pp.105-110
    • /
    • 2022
  • 국내의 메모리 반도체 설계 기술은 세계 최고의 수준이나, 아직까지 프로세서의 설계는 그에 미치지 못하여 메모리와 프로세서의 균형있는 발전을 이루지 못하고 있다. Xilinx에서 제공하는 Vivado 통합 환경을 이용하여 저렴한 비용으로 짧은 시간에 현장에서 즉석으로 쉽게 프로세서를 FPGA 반도체 칩에 구현할 수 있다. 본 논문에서는 유럽 및 전 세계의 대학 및 연구소에서 디지털시스템 설계에 널리 쓰이는 VHDL을 이용하여 32 비트 ARMv4 계열의 프로세서를 설계하고, Vivado에서 Xilinx FPGA로 구현 및 로직아날라이저로 검증하였다. 그 결과, FGPA로 구현된 ARM 프로세서가 ARM 명령어들로 구성된 프로그램을 성공적으로 수행하였다.

FPGA를 이용한 실시간 영상 워핑 구현 (An Implementation of Real-time Image Warping Using FPGA)

  • 류정래;이은상;도태용
    • 대한임베디드공학회논문지
    • /
    • 제9권6호
    • /
    • pp.335-344
    • /
    • 2014
  • As a kind of 2D spatial coordinate transform, image warping is a basic image processing technique utilized in various applications. Though image warping algorithm is composed of relatively simple operations such as memory accesses and computations of weighted average, real-time implementations on embedded vision systems suffer from limited computational power because the simple operations are iterated as many times as the number of pixels. This paper presents a real-time implementation of a look-up table(LUT)-based image warping using an FPGA. In order to ensure sufficient data transfer rate from memories storing mapping LUT and image data, appropriate memory devices are selected by analyzing memory access patterns in an LUT-based image warping using backward mapping. In addition, hardware structure of a parallel and pipelined architecture is proposed for fast computation of bilinear interpolation using fixed-point operations. Accuracy of the implemented hardware is verified using a synthesized test image, and an application to real-time lens distortion correction is exemplified.