• 제목/요약/키워드: FAST hardware accelerator

검색결과 15건 처리시간 0.023초

객체인식을 위한 FAST와 BRIEF 알고리즘 기반 FPGA 설계 (FPGA based Implementation of FAST and BRIEF algorithm for Object Recognition)

  • 허훈;이광엽
    • 전기전자학회논문지
    • /
    • 제17권2호
    • /
    • pp.202-207
    • /
    • 2013
  • 본 논문은 기존의 FAST와 BRIEF 알고리즘을 Zynq-7000 Soc Platform에서 하드웨어로 구현했다. 대표적으로 SIFT 나 SURF 알고리즘을 사용하여 특징점 기반 하드웨어 가속기로 구현 하지만, 하드웨어 비용과 내부 메모리가 많이 필요하다. 제안하는 FAST & BRIEF 가속기는 기존의 SIFT 나 SURF 가속기 보다 내부 메모리 사용량을 약 57%, 하드웨어 비용을 약 70% 정도 감소하고, 수행 시간은 Clock 당 0.17 Pixel를 처리한다.

FAST 하드웨어 가속기를 위한 임계값 제어기 (A Threshold Controller for FAST Hardware Accelerator)

  • 김택규;서용석
    • 전자공학회논문지
    • /
    • 제51권11호
    • /
    • pp.187-192
    • /
    • 2014
  • 카메라와 같이 연속적인 영상을 제공하는 환경에서 특징 점들을 추출하기 위해 다양한 알고리즘들이 연구되고 있다. 특히, FAST (Feature from Accelerated Segment Test) 알고리즘은 연산 구조가 간단하고 실시간 특징 점 추출이 용이하여 FPGA 기반 하드웨어 가속기로 구현되어 사용되고 있다. 사용된 FAST 하드웨어 가속기는 특징 점을 추출하기 위해 임계값을 필요로 한다. 임계값은 영상에서 추출되는 특징 점의 기준이 되는 값으로, 값의 크기에 따라 추출되는 특징 점의 개수가 정해질 뿐만 아니라 전체 수행시간에도 영향을 주기 때문에, 일정한 수행시간 동안에 많은 특징 점들을 추출하기 위해서는 적절한 임계값 제어 방법이 요구된다. 본 논문에서는 임계값 제어를 위해 PI 제어기를 제안한다. 제안한 PI 제어기는 시험 영상들을 통해 기능 및 성능을 검증하였고, Xilinx Vertex IV FPGA 기반의 로직으로 구현 비용을 계산하였다. 제안한 PI 제어기는 47개의 Flip Flops, 146개의 LUTs, 그리고 91개의 Slices을 사용해, FAST 하드웨어 가속기 2.1%의 Flip Flop, 4.4%의 LUTs, 그리고 4.6%의 Slice에 해당하는 적은 비용으로 구현되었다.

영상 특징 추출을 위한 내장형 FAST 하드웨어 가속기 (An Embedded FAST Hardware Accelerator for Image Feature Detection)

  • 김택규
    • 대한전자공학회논문지SP
    • /
    • 제49권2호
    • /
    • pp.28-34
    • /
    • 2012
  • 특징 추출 알고리즘은 영상 내에서 중요한 특징을 추출하기 위해 실시간 영상 처리 응용 분야에서 활용된다. 특히, 특징 추출 알고리즘은 추적 및 식별의 목적으로 다양한 영상처리 알고리즘에 특징 정보를 제공하기 위해서 활용되며, 주로 영상처리 전처리 단계에서 구현되고 있다. 광범위한 응용 분야에 이용되는 특징 추출 알고리즘의 처리 속도를 높인다면 혼합되어 사용될 다른 알고리즘 처리 소요 시간의 여유를 확보 할 수 있을 뿐만 아니라, 특징 추출 알고리즘이 적용된 영상 처리 응용 분야의 실시간 요건을 만족시키기 용이하기 때문에 중요하다. 본 논문에서는 특징 추출 기법을 고속으로 처리하기 위해 FPGA 기반의 하드웨어 가속기를 제안한다. 하드웨어 가속기 구현에 사용된 E. Rosten의 Feature from Accelerated Segment Test 알고리즘과 디지털 로직으로 구현한 하드웨어 가속기의 구조와 동작 절차에 대해 기술하였다. 설계한 하드웨어 가속기는 ModelSim을 이용해 동작 및 성능을 검증하였고, Xilinx Vertex IV FPGA 기반으로 로직을 합성해 구현 비용을 계산하였다. 제안한 하드웨어 가속기를 구현하기 위해 2,217개의 Flip Flop, 5,034개의 LUT, 2,833개의 Slice, 그리고 18개의 Block RAM을 사용하였으며, $640{\times}480$ 크기의 영상으로부터 954개의 특징을 추출하는데 3.06 ms의 시간이 소요되어 기존의 결과보다 구현 비용 면에서의 우월함이 확인되었다.

FPGA를 사용한 radix-2 16 points FFT 알고리즘 가속기 구현 (Radix-2 16 Points FFT Algorithm Accelerator Implementation Using FPGA)

  • 이규섭;조성민;서승현
    • 정보보호학회논문지
    • /
    • 제34권1호
    • /
    • pp.11-19
    • /
    • 2024
  • 최근 신호처리, 암호학 등 다양한 분야에서 FFT(Fast Fourier Transform)의 활용이 증가함에 따라 최적화 연구의 중요성이 대두되고 있다. 본 논문에서는 FPGA(Field Programmable Gate Array) 하드웨어를 사용하여 radix-2 16 points FFT 알고리즘을 기존 연구들보다 빠르고 효율적으로 처리하는 가속기 구현 연구에 대해 기술한다. FPGA가 갖는 병렬처리 및 파이프라이닝 등의 하드웨어 이점을 활용하여 PL(Programmable Logic) 파트에서 Verilog 언어를 통해 FFT Logic을 설계 및 구현한다. 이후 PL 파트에서의 처리 시간 비교를 위해 PS(Processing System) 파트에서 Zynq 프로세서만을 사용하여 구현 후, 연산 시간을 비교한다. 또한 관련 연구와의 비교를 통해 본 구현 방법의 연산 시간 및 리소스 사용의 효율성을 보인다.

멀티코어 DSP를 이용한 다중 안테나를 지원하는 SDR 기반 LTE-A PDSCH 디코더 구현 (Implementation of SDR-based LTE-A PDSCH Decoder for Supporting Multi-Antenna Using Multi-Core DSP)

  • 나용;안흥섭;최승원
    • 디지털산업정보학회논문지
    • /
    • 제15권4호
    • /
    • pp.85-92
    • /
    • 2019
  • This paper presents a SDR-based Long Term Evolution Advanced (LTE-A) Physical Downlink Shared Channel (PDSCH) decoder using a multicore Digital Signal Processor (DSP). For decoder implementation, multicore DSP TMS320C6670 is used, which provides various hardware accelerators such as turbo decoder, fast Fourier transformer and Bit Rate Coprocessors. The TMS320C6670 is a DSP specialized in implementing base station platforms and is not an optimized platform for implementing mobile terminal platform. Accordingly, in this paper, the hardware accelerator was changed to the terminal implementation to implement the LTE-A PDSCH decoder supporting the multi-antenna and the functions not provided by the hardware accelerator were implemented through core programming. Also pipeline using multicore was implemented to meet the transmission time interval. To confirm the feasibility of the proposed implementation, we verified the real-time decoding capability of the PDSCH decoder implemented using the LTE-A Reference Measurement Channel (RMC) waveform about transmission mode 2 and 3.

멀티링 설계규칙검사를 위한 효과적인 하드웨어 가속기 (MultiRing An Efficient Hardware Accelerator for Design Rule Checking)

  • 노길수;경종민
    • 대한전자공학회논문지
    • /
    • 제24권6호
    • /
    • pp.1040-1048
    • /
    • 1987
  • We propose a hardware architecture called Multiring which is applicable for various geometrical operations on rectilinear objects such as design rule checking in VLSI layout and many image processing operations including noise suppression and coutour extraction. It has both a fast execution speed and extremely high flexibility. The whole architecture is mainly divided into four parts` I/O between host and Multiring, ring memory, linear processor array and instruction decoder. Data transmission between host and Multiring is bit serial thereby reducing the bandwidth requirement for teh channel and the number of external pins, while each row data in the bit map stored in ring memory is processed in the corresponding processor in full parallelism. Each processor is simultaneously configured by the instruction decoder/controller to perform one of the 16 basic instructions such as Boolean (AND, OR, NOT, and Copy), geometrical(Expand and Shrink), and I/O operations each ring cycle, which gives Multiring maximal flexibility in terms of design rule change or the instruction set enhancement. Correct functional behavior of Multiring was confirmed by successfully running a software simulator having one-to-one structural correspondence to the Multiring hardware.

  • PDF

TCP/IP Hardware Accelerator를 위한 Host Interface의 설계 (Host Interface Design for TCP/IP Hardware Accelerator)

  • 정여진;임혜숙
    • 한국통신학회논문지
    • /
    • 제30권2B호
    • /
    • pp.1-10
    • /
    • 2005
  • 빠른 데이터 처리를 위하여 기존에는 소프트웨어방식으로 구현되었던 TCP/IP를 고속의 하드웨어로 구현함에 있어, TCP/IP 하드웨어와 외부 블록간의 통신을 중계하는 블록인 Host Interface를 구현하였다. Host Interface는 TCP/IP 하드웨어와 외부 블록의 중간에 위치하여 외부 블록과의 통신을 위해 AMBA AHB 규약을 따른다. Host Interface는 내부의 Command/Status Register를 통하여 CPU와 TCP/IP 하드웨어 간의 명령, 상태, 헤더 정보 등을 전달하는데 이 때에는 AMBA AHB의 Slave로서 동작한다. Data Flow를 위해서 Host Interface는 AMBA AHB의 Master로서 동작하는데, 데이터 흐름의 방향에 따라 Data flow는 데이터를 수신하는 Receive flow와 데이터를 패킷으로 만들어 보내는 Transmit Flow로 나된다. Rx Flow의 경우, UDP 블록이나 TCP Buffer로부터 받은 데이터를 내부의 작은 RxFIFO를 통해 외부 RxRAM에 써서 CPU가 읽어갈 수 있도록 하고, Tx Flow의 경우에는 외부 TxRAM에서 전송할 데이터를 읽어 와서 TxFIFO를 거쳐 UDP Buffer나 TCP Buffer에 씀으로써 패킷을 만들어 보내도록 한다. 외부 RAM의 액세스에는 Command/Status Register에 위치한 Buffer Descriptor의 정보를 이용하게 된다. Host Interface는 이러한Data Flow의 원활한 흐름을 위해서 여러 세부 기능들을 수행하게 된다. Host Interface의 기능을 검증하기 위하여 여러 testcase들이 수행되었으며, 0.18 마이크론 기술을 사용하여 synthesis한 결과, 내부의 Command/Status Register와 FIFO를 모두 포함하여 약 173K 게이트가 소요됨을 보았다.

Parallel Fuzzy Information Processing System - KAFA : KAist Fuzzy Accelerator -

  • Kim, Young-Dal;Lee, Hyung-Kwang;Park, Kyu-Ho
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 1993년도 Fifth International Fuzzy Systems Association World Congress 93
    • /
    • pp.981-984
    • /
    • 1993
  • During the past decade, several specific hardwares for fast fuzzy inference have been developed. Most of them are dedicated to a specific inference method and thus cannot support other inference methods. In this paper, we present a hardware architecture called KAFA(KAist Fuzzy Accelerator) which provides various fuzzy inference methods and fuzzy set operators. The architecture has SIMD structure, which consists of two parts; system control/interface unit(Main Controller) and arithmetic units(FPEs). Using the parallel processing technology, the KAFA has the high performance for fuzzy information processing. The speed of the KAFA holds promise for the development of the new fuzzy application systems.

  • PDF

고속 탐색 알고리즘에 적합한 움직임 추정 전용 명령어 및 구조 설계 (Novel IME Instructions and their Hardware Architecture for Fast Search Algorithm)

  • 방호일;선우명훈
    • 대한전자공학회논문지SD
    • /
    • 제48권12호
    • /
    • pp.58-65
    • /
    • 2011
  • 본 논문은 H.264/AVC, MPEG4 등, 다양한 영상압축 코덱을 지원할 수 있는 ME ASIP (Application-specific Instruction Processor)의 정화소 움직임 추정 전용 명령어와 재구성 가능한 하드웨어 구조를 제안한다. 제안하는 전용의 명령어와 하드웨어 가속기는 HD급의 고화질 영상을 지원할 수 있는 성능을 가지고 있다. 제안하는 정화소 움직임 추정 명령어는 다수의 병렬 연산과 패턴 정보를 이용한 가변 포인트 2D SAD 연산기 구조를 통하여 전역탐색을 비롯한 각종 고속 탐색 알고리즘을 지원한다. 이를 위한 하드웨어 구조는 128개의 Processor Elements (PEs)로 구성되어 있는 Processor Element Group (PEG) 하나당 25,500 게이트를 가진다. 제안하는 ASIP은 Synopsys 사의 Processor Designer 로 검증하였고, Design Compiler를 이용 IBM 90nm 공정으로 합성하였다. 그 결과 제안하는 ASIP의 하드웨어 사이즈는 453K 게이트였으며, 동작 주파수는 188MHz로 HD급 1080p의 해상도를 가지는 영상을 실시간으로 동작 시킬 수 있다. 본 논문은 기존 2D SAD ASIP에 비하여 하드웨어 사이즈 측면에서 26%, 연산 속도 측면에서 평균 18%의 성능 향상을 보인다.

다중모드 센서 신호 처리 프로세서의 FPGA 기반 설계 및 구현 (Design and Implementation of Multi-mode Sensor Signal Processor on FPGA Device)

  • 강순규;정윤호
    • 센서학회지
    • /
    • 제32권4호
    • /
    • pp.246-251
    • /
    • 2023
  • Internet of Things (IoT) systems process signals from various sensors using signal processing algorithms suitable for the signal characteristics. To analyze complex signals, these systems usually use signal processing algorithms in the frequency domain, such as fast Fourier transform (FFT), filtering, and short-time Fourier transform (STFT). In this study, we propose a multi-mode sensor signal processor (SSP) accelerator with an FFT-based hardware design. The FFT processor in the proposed SSP is designed with a radix-2 single-path delay feedback (R2SDF) pipeline architecture for high-speed operation. Moreover, based on this FFT processor, the proposed SSP can perform filtering and STFT operation. The proposed SSP is implemented on a field-programmable gate array (FPGA). By sharing the FFT processor for each algorithm, the required hardware resources are significantly reduced. The proposed SSP is implemented and verified on Xilinxh's Zynq Ultrascale+ MPSoC ZCU104 with 53,591 look-up tables (LUTs), 71,451 flip-flops (FFs), and 44 digital signal processors (DSPs). The FFT, filtering, and STFT algorithm implementations on the proposed SSP achieve 185x average acceleration.