• 제목/요약/키워드: pipelined memory

검색결과 79건 처리시간 0.025초

시각매체를 위한 병렬처리 시스템 (A Parallel Processing System for Visual Media Applications)

  • 이형;박종원
    • 한국통신학회논문지
    • /
    • 제27권1A호
    • /
    • pp.80-88
    • /
    • 2002
  • 영상과 그래픽 및 비디오와 같은 시각 매체들을 실시간으로 처리하기 위한 구현 기술과 그에 따른 확정성 측면에서 많은 연구들이 진행되고 있는데, 이러한 연구들은 영상처리 전용 프로세서 구현부터 다양한 매체들을 함께 처리할 수 있는 프로세서 구현을 포함하는 범주까지 진행되고 있다. 또한, 다양한 병렬처리 기법들이 실시간 처리를 위한 프로세서의 구현에 적용되고 있다. 본 논문은 이러한 시각매체들을 실시간으로 처리하기 위하여 메모리 시스템과 다수개의 처리기로 구성된 pipelined SIMD 구조를 갖는 병렬처리시스템을 제안한다. 메모리시스템은 m개의 메모리 모듈과 메모리 제어기로 구성되어 있는 다중접근 기억장치로써, m개의 메모리 모듈에서 병렬로 n(=p${\times}$q)개의 데이터에 접근하기 위한 다양한 형태, 즉, 행(1${\times}$pq)과 열(pq${\times}$1) 및 블록 (p${\times}$q) 접근을 제공한다. 제안한 병렬처리시스템에 얼굴인식과 퐁 음영 및 동영상에서의 자동영상분할을 적용하여 시스템 성능을 분석하였다.

Design of a Scalable Systolic Synchronous Memory

  • Jeong, Gab-Joong;Kwon, Kyoung-Hwan;Lee, Moon-Key
    • Journal of Electrical Engineering and information Science
    • /
    • 제2권4호
    • /
    • pp.8-13
    • /
    • 1997
  • This paper describes a scalable systolic synchronous memory for digital signal processing and packet switching. The systolic synchronous memory consists of the 2-D array of small memory blocks which are fully pipelined and communicated in three directions with adjacent blocks. The maximum delay of a small memory block becomes the operation speed of the chip. The array configuration is scalable for the entire memory size requested by an application. it has the initial latency of N+3 cycles with NxN array configuration. We designed an experimental 200 MHz 4Kb static RAM chip with the 4x4 array configuration of 256 SRAM blocks. It was fabricated is 0.8$\mu\textrm{m}$ twin-well single-poly double-metal CMOS technology.

  • PDF

IP 어드레스 검색을 위한 새로운 pipelined binary 검색 구조 (A New Pipelined Binary Search Architecture for IP Address Lookup)

  • 임혜숙;이보미;정여진
    • 한국통신학회논문지
    • /
    • 제29권1B호
    • /
    • pp.18-28
    • /
    • 2004
  • 라우터에서의 어드레스 검색은 일초에 수천만개 이상으로 입력되는 패킷에 대하여 실시간으로 처리되어야하기 때문에 인터넷 라우터는 효율적인 IP 어드레스 검색 구조를 갖도록 설계되어야 한다. 본 논문에서는 [1]에서 제안된 IP prefix의 binary tree에 기초한 효율적이면서 실용적인 IP 어드레스 검색 구조와 이를 구현하는 하드웨어 구조를 제안한다. 제안된 구조는 (1)에서 제안된 binary tree의 문제점들을 해결하는 구조로서 작은 수의 엔트리를 갖는 TCAM과 pipelined binary search를 적용하여 효율적인 하드웨어로 구현되었다. 구현된 하드웨어 구조의 성능을 평가하여 본 결과., 약 30,000 여개의 entry를 갖는 MAE-WEST 라우터 데이타의 경우, 2,000여개의 엔트리를 갖는 TCAM과 총 245 Kbyte의 SRAM을 사용하여 한번의 메모리 access를 통하여 어드레스 검색이 가능한 것으로 평가되었다. 또한 제한된 방식은 큰 데이터베이스나 IPv6를 위해서도 확장이 용이하다.

MPI 브로드캐스트 통신을 위한 서킷 스위칭 기반의 파이프라인 체인 알고리즘 설계 (A Design of Pipeline Chain Algorithm Based on Circuit Switching for MPI Broadcast Communication System)

  • 윤희준;정원영;이용석
    • 한국통신학회논문지
    • /
    • 제37B권9호
    • /
    • pp.795-805
    • /
    • 2012
  • 본 논문에서는 분산 메모리 아키텍처를 사용하는 멀티프로세서에서 가장 병목 현상이 심한 집합통신 중 브로드캐스트를 위한 알고리즘 및 하드웨어 구조를 제안한다. 기존 시스템의 파이프라인 브로드캐스트 알고리즘은 전송 대역폭을 최대로 활용하는 알고리즘 이다. 하지만 파이프라인 브로드캐스트는 데이터를 여러 조각으로 나누어서 전송하기 때문에, 불필요한 동기화 과정이 반복된다. 본 논문에서는 동기화 과정의 중복이 없는 서킷 스위칭 기반의 파이프라인 체인 알고리즘을 위한 MPI 유닛을 설계하였고, 이를 systemC를 통하여 모델링하여 평가하였다. 그 결과 파이프라인 브로드캐스트 알고리즘과 비교하여 브로드캐스트 통신의 성능을 최대 3.3배 향상 시켰고, 이는 통신 버스의 전송대역폭을 거의 최대로 사용하였다. 그 후 verilogHDL로 하드웨어를 설계하였고, Synopsys사의 Design Compiler를 사용하여 TSMC 0.18 공정 라이브러리에서 합성하였으며 칩으로 제작하였다. 합성결과 제안하는 구조를 위한 하드웨어는 4,700 게이트(2-input NAND gate) 면적으로, 전체 면적에서 2.4%을 차지하였다. 이는 제안하는 구조가 작은 면적으로 MPSoC의 전체적인 성능을 높이는데 유용하다.

Edge-Preserving Algorithm for Block Artifact Reduction and Its Pipelined Architecture

  • Vinh, Truong Quang;Kim, Young-Chul
    • ETRI Journal
    • /
    • 제32권3호
    • /
    • pp.380-389
    • /
    • 2010
  • This paper presents a new edge-protection algorithm and its very large scale integration (VLSI) architecture for block artifact reduction. Unlike previous approaches using block classification, our algorithm utilizes pixel classification to categorize each pixel into one of two classes, namely smooth region and edge region, which are described by the edge-protection maps. Based on these maps, a two-step adaptive filter which includes offset filtering and edge-preserving filtering is used to remove block artifacts. A pipelined VLSI architecture of the proposed deblocking algorithm for HD video processing is also presented in this paper. A memory-reduced architecture for a block buffer is used to optimize memory usage. The architecture of the proposed deblocking filter is verified on FPGA Cyclone II and implemented using the ANAM 0.25 ${\mu}m$ CMOS cell library. Our experimental results show that our proposed algorithm effectively reduces block artifacts while preserving the details. The PSNR performance of our algorithm using pixel classification is better than that of previous algorithms using block classification.

파이프라인식 비순차실행 수퍼스칼라 프로세서의 FPGA 설계 및 구현 (FPGA Design and Implementation of A Pipelined Out-of-Order Superscalar Processor)

  • 이종복
    • 한국인터넷방송통신학회논문지
    • /
    • 제23권3호
    • /
    • pp.153-158
    • /
    • 2023
  • 국내에서 시스템반도체 설계의 중요성이 대두되고 있으며, 메모리 반도체 설계 기술과의 균형있는 발전을 도모해야 한다. Xilinx에서 제공하는 Vivado 통합 환경 도구를 이용하여 짧은 시간에 큰 비용을 들이지 않고 프로세서를 Xilinx FPGA 반도체 칩에 구현할 수 있다. 본 논문에서는 레코드 자료구조를 지원하여 효율적으로 디지털 시스템을 설계할 수 있는 VHDL을 이용하여 32 비트 ARM 명령어를 실행할 수 있는 파이프라인식 비순차실행 수퍼스칼라 프로세서를 설계하였다. Vivado에서 광범위한 시뮬레이션을 수행한 후에, Xilinx FPGA로 합성, 구현 및 로직아날라이저로 검증하였다. 그 결과, 파이프라인식 비순차실행 수퍼스칼라 프로세서가 FGPA에서 성공적으로 동작하였다.

효율적인 메모리 관리 구조를 갖는 H.264용 고성능 디블록킹 필터 설계 (Design of a Pipelined Deblocking Filter with efficient memory management for high performance H.264 decoders)

  • 유용훈;이찬호
    • 대한전자공학회논문지SD
    • /
    • 제45권1호
    • /
    • pp.64-70
    • /
    • 2008
  • 고성능 영상 압축 알고리즘으로서 널리 사용되고 있는 H.264 디코더의 디블록킹(Deblocking) 필터는 복호된 영상의 블록화 현상을 제거함으로써 영상의 질을 높이는 역할을 하는데 연산량이 많은 유닛중 하나이다. 본 논문에서는 효율적인 디블록킹 필터 설계를 위해 파이프라인 구조 및 1-D 필터를 사용하고 효율적인 메모리 관리를 통해 하드웨어 면적과 연산 사이클 수를 줄이고 H.264 디코더의 성능을 향상시킬 수 있는 하드웨어 구조를 제안한다. 제안된 구조에서는 픽셀의 재배치를 통해 동일한 1-D 필터를 이용하여 수직방향의 필터연산과 수평방향의 필터연산을 모두 지원한다. 또한 4 개의 메모리 블록 구조를 이용하여 현재 매크로블록의 픽셀과 인접한 다른 매크로블록의 픽셀의 접근 및 저장을 효율적으로 할 뿐만 아니라 필터 연산중에 움직임 보상기의 출력 픽셀을 저장하여 디블록킹 필터와 움직임 보상기 사이의 병목현상을 제거하였다. 이를 통해 디블록킹 필터에 관련된 메모리의 크기를 최소화하고 H.264 디코더의 성능을 향상시키는 이점을 얻을 수 있다. 제안된 디블록킹 필터는 Verilog-HDL을 이용하여 설계하고 FPGA를 통해 검증하였다. 합성 결과 77 MHz에서 HD 영상 디코딩이 가능함을 확인하였다.

An area-efficient 256-point FFT design for WiMAX systems

  • Yu, Jian;Cho, Kyung-Ju
    • 한국정보전자통신기술학회논문지
    • /
    • 제11권3호
    • /
    • pp.270-276
    • /
    • 2018
  • This paper presents a low area 256-point pipelined FFT architecture, especially for IEEE 802.16a WiMAX systems. Radix-24 algorithm and single-path delay feedback (SDF) architecture are adopted in the design to reduce the complexity of twiddle factor multiplication. A new cascade canonical signed digit (CSD) complex multipliers are proposed for twiddle factor multiplication, which has lower area and less power consumption than conventional complex multipliers composed of 4 multipliers and 2 adders. Also, the proposed cascade CSD multipliers can remove look-up table for storing coefficient of twiddle factors. In hardware implementation with Cyclone 10LP FPGA, it is shown that the proposed FFT design method achieves about 62% reduction in gate count and 64% memory reduction compared with the previous schemes.

파이프라인형 DPI 시스템에서 효율적인 소비전력 감소를 위한 동작주파수 설계방법 (Adaptive Frequency Scaling for Efficient Power Management in Pipelined Deep Packet Inspection Systems)

  • 김한수
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권12호
    • /
    • pp.133-141
    • /
    • 2014
  • 여러 네트워크 보안기술 중 가장 효과적이고 신뢰할 수 있는 기술인 DPI 시스템에 쓰이는 파이프라인형 AC-DFA 구조에서, 효율적으로 전력 소모를 줄이는 방법을 제안하였다. 이는 메모리 접근 횟수가 전력 소모에 가장 큰 영향을 끼친다는 것과, 파이프라인형 AC-DFA의 스테이지 사용 횟수가 뒤쪽 스테이지로 갈수록 급격하게 감소한다는 관찰결과에 따른 것이다. 이에, 사용되지 않는 스테이지의 동작 클럭을 감소시켜 불필요하게 소모되는 전력을 줄이는 시스템을 구현하였다. 제안하는 방법을 적용한 DPI 시스템에 여러 종류의 문자열이 입력될 때의 전력 소모를 측정한 결과, 기존의 DPI 시스템에 비해 약 25 %의 전력 절감 효과를 가져왔다. 제안한 방법은 파이프라인형 DPI 구조 및 다중 패턴 문자열 검색의 어떤 응용에도 손쉽게 적용될 수 있을 것이다.

실시간 Dense Disparity Map 추출을 위한 고성능 가속기 구조 설계 (High Performance Coprocessor Architecture for Real-Time Dense Disparity Map)

  • 김정길;;김신덕
    • 정보처리학회논문지A
    • /
    • 제14A권5호
    • /
    • pp.301-308
    • /
    • 2007
  • 본 논문에서는 위상기반 양안스테레오정합 알고리즘을 이용, 실시간으로 dense disparity map을 추출 가능한 고성능 가속기 구조를 설계하였다. 채택된 알고리즘은 웨이블릿 기반의 위상차 기법의 강건성과 위상상관 기법의 기본적인 control 기법을 결합한 Local Weighted Phase Correlation(LWPC) 스테레오정합 알고리즘으로서 4개의 주요 단계로 구성이 되어 있다. 해당 알고리즘의 효율적인 병렬 하드웨어의 설계를 위하여, 제안된 가속기는 각 단계의 기능블록은 SIMD(Single Instruction Multiple Data Stream) 모드로 동작하게 되며, 전체적으로 각 기능 블록은 파이프라인(pipeline) 모드로 실행된다. 그 결과 제안된 구조에서 제시된 파이프라인 동작 모드의 선형 배열 프로세서는 행렬 순차수행 방법에 의한 2차원 영상처리에서 전치메모리의 필요를 제거하면서도 연산의 일반성과 고효율을 유지하게 한다. 제안된 하드웨어 구조는 Xilinx HDL을 이용하여 필요한 하드웨어 자원을 look up table, flip flop, slice, memory의 소모량으로 표현하였으며, 그 결과 실시간 처리 성능의 단일 칩 구현 가능성을 보여주었다.