• 제목/요약/키워드: pipelined memory

검색결과 79건 처리시간 0.019초

아날로그메모리를 이용한 플레쉬 ADC (Development of a Flash ADC with an Analog Memory)

  • 채용웅
    • 한국전자통신학회논문지
    • /
    • 제6권4호
    • /
    • pp.545-552
    • /
    • 2011
  • 본 논문에서는 일반적인 플레쉬 ADC에서 저항열을 이용하여 기준전압을 생성한 것과는 달리, 부유게이트를 이용하여 기준전압을 생성한다. 제안된 플레쉬 ADC를 포함하는 파이프라인 ADC에서 행위모델 시뮬레이션을 수행했을 때 생성된 상기 플레쉬 ADC를 포함하는 파이프라인 ADC의 SNR은 약 77 dB, 해상도는 12 bit이고, 90 % 이상이 ${\pm}0.5$ LSB 이내의 INL을 보여주고 있으며, INL과 마찬가지로 90 % 이상이 ${\pm}0.5$ LSB 이내의 DNL 결과를 보였다.

메모리(CAM)를 이용한 한글 유형 분리용 칩 설계에 관한 연구 (A study on Chip Design for Hageul Type Classification using Content Addressable Memory)

  • 박노경;구창모;정장원
    • 한국음향학회지
    • /
    • 제15권6호
    • /
    • pp.16-25
    • /
    • 1996
  • 본 논문에서는 한글의 유형 분류를 CAM(Content Addressable Memory)을 이용하여 칩으로 설계하였다. 문자 인식의 전 과정을 종전의 소프트웨어에 의해서 손차적으로 처리할 경우, 실시간 처리가 가능한 고속 문자 인식기의 구현에는 어려움이 있다. 따라서, 이들 실시간으로 처리하기 위해서는 파이프라인식 하드웨어로 구현하여 시간적인 병렬성을 갖도록 하는 것이 필요하다. 하드웨어로 용이하게 구현하기 위해서 고속 병렬 매치 기능을 가진 CAM을 이용하였으며, 20개의 참조패턴만으로 유형을 분류하였다. 설계한 회로는 DAZIX의 DLAB을 사용하여 결과를 평가하였으며, 그 결과 자당 $1.6{\mu}S$의 처리속도를 보였다. 또한, C-언어로 구현하여 그 결과를 비교하였다.

  • PDF

Low-latency SAO Architecture and its SIMD Optimization for HEVC Decoder

  • Kim, Yong-Hwan;Kim, Dong-Hyeok;Yi, Joo-Young;Kim, Je-Woo
    • IEIE Transactions on Smart Processing and Computing
    • /
    • 제3권1호
    • /
    • pp.1-9
    • /
    • 2014
  • This paper proposes a low-latency Sample Adaptive Offset filter (SAO) architecture and its Single Instruction Multiple Data (SIMD) optimization scheme to achieve fast High Efficiency Video Coding (HEVC) decoding in a multi-core environment. According to the HEVC standard and its Test Model (HM), SAO operation is performed only at the picture level. Most realtime decoders, however, execute their sub-modules on a Coding Tree Unit (CTU) basis to reduce the latency and memory bandwidth. The proposed low-latency SAO architecture has the following advantages over picture-based SAO: 1) significantly less memory requirements, and 2) low-latency property enabling efficient pipelined multi-core decoding. In addition, SIMD optimization of SAO filtering can reduce the SAO filtering time significantly. The simulation results showed that the proposed low-latency SAO architecture with significantly less memory usage, produces a similar decoding time as a picture-based SAO in single-core decoding. Furthermore, the SIMD optimization scheme reduces the SAO filtering time by approximately 509% and increases the total decoding speed by approximately 7% compared to the existing look-up table approach of HM.

천공 부호를 지원하는 Viterbi 복호기의 면적 효율적인 생존자 경로 계산기 설계 (Design of an Area-Efficient Survivor Path Unit for Viterbi Decoder Supporting Punctured Codes)

  • 김식;황선영
    • 한국통신학회논문지
    • /
    • 제29권3A호
    • /
    • pp.337-346
    • /
    • 2004
  • 천공 부호를 지원하는 비터비 복호기는 하드웨어 복잡도를 유지하는 선에서 부호율을 효율적으로 높일 수 있지만 충분한 BER 성능을 얻기 위해 복호 지연 시간이 길어지고 생존자 메모리의 크기가 늘어나는 단점이 있다. 본 논문은 비터비 복호기의 메모리 소요량을 줄이는 파이프라인화 된 순방향 추적기를 포함하는 생존자 경로 계산기를 제안한다. 제안된 생존자 경로 계산기는 역추적에 필요한 초기 복호 지연을 없애고, 경로 계산을 위한 순방향 추적 과정을 가속함으로써 생존자 메모리의 사용량을 감소시킨다. 실험 결과, 제안된 비터비 복호기의 생존자 계산기는 기존의 혼성 생존자 경로 계산기에 비해 약 16% 면적이 감소함을 확인하였다.

병렬 시스템 환경하에서 비정형 응용 프로그램을 위한 입출력 시스템의 설계 및 구현 (Design and Implementation of An I/O System for Irregular Application under Parallel System Environments)

  • 노재춘;박성순;알록샤우드리;권오영
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제26권11호
    • /
    • pp.1318-1332
    • /
    • 1999
  • 본 논문에서는 입출력 응용을 위해 collective I/O 기법을 기반으로 한 실행시간 시스템의 설계, 구현 그리고 그 성능평가를 기술한다. 여기서는 모든 프로세서가 동시에 I/O 요구에 따라 스케쥴링하며 I/O를 수행하는 collective I/O 방안과 프로세서들이 여러 그룹으로 묶이어, 다음 그룹이 데이터를 재배열하는 통신을 수행하는 동안 오직 한 그룹만이 동시에 I/O를 수행하는 pipelined collective I/O 등의 두 가지 설계방안을 살펴본다. Pipelined collective I/O의 전체 과정은 I/O 노드 충돌을 동적으로 줄이기 위해 파이프라인된다. 이상의 설계 부분에서는 동적으로 충돌 관리를 위한 지원을 제공한다. 본 논문에서는 다른 노드의 메모리 영역에 이미 존재하는 데이터를 재 사용하여 I/O 비용을 줄이기 위해 collective I/O 방안에서의 소프트웨어 캐슁 방안과 두 가지 모형에서의 chunking과 온라인 압축방안을 기술한다. 그리고 이상에서 기술한 방안들이 입출력을 위해 높은 성능을 보임을 기술하는데, 이 성능결과는 Intel Paragon과 ASCI/Red teraflops 기계 상에서 실험한 것이다. 그 결과 응용 레벨에서의 bandwidth는 peak point가 55%까지 측정되었다.Abstract In this paper we present the design, implementation and evaluation of a runtime system based on collective I/O techniques for irregular applications. We present two designs, namely, "Collective I/O" and "Pipelined Collective I/O". In the first scheme, all processors participate in the I/O simultaneously, making scheduling of I/O requests simpler but creating a possibility of contention at the I/O nodes. In the second approach, processors are grouped into several groups, so that only one group performs I/O simultaneously, while the next group performs communication to rearrange data, and this entire process is pipelined to reduce I/O node contention dynamically. In other words, the design provides support for dynamic contention management. Then we present a software caching method using collective I/O to reduce I/O cost by reusing data already present in the memory of other nodes. Finally, chunking and on-line compression mechanisms are included in both models. We demonstrate that we can obtain significantly high-performance for I/O above what has been possible so far. The performance results are presented on an Intel Paragon and on the ASCI/Red teraflops machine. Application level I/O bandwidth up to 55% of the peak is observed.he peak is observed.

다중프로세서 시스템에서 파이프라인 전송 버스의 설계 및 성능 평가 (Design of Pipeline Bus and the Performance Evaluation in Multiprocessor System)

  • 윤용호;임인칠
    • 한국통신학회논문지
    • /
    • 제18권2호
    • /
    • pp.288-299
    • /
    • 1993
  • 본 논문은 단일 버스를 사용한 밀결합 다중프로세서 시스템에서 데이타 전송량을 극대화하기 위해 파이프라인 전송 기능을 가지는 버스 프로토콜를 제안한다. 이 버스는 어드레스와 데이타의 전송을 위해 독립적인 전송 통로와 블록 전송기능을 두고, 최애 264 Mbytes/sec 데이타의 전송 능력을 가진다. 이버스를 기반으로 각각의 프로세서 보드의 내부에 캐쉬를 포함한 다중프로세서 시스템을 모델링하고, 시뮬레이션를 통해 캐쉬의 메모리의 참조율 변화에 따른 버스의 성능 및 시스템의 성능을 평가한다. 본 버스를 이용할 경우 10개 까지의 프로세서 보드가 버스에 장착되어도 버스가 포화되지 않고, 4개 까지의 메모리의 인디리빙에 대하여 성능이 선형적으로 증가함을 알 수 있다.

  • PDF

파이프라인 방식의 버스를 위한 비 동기식 주 기억장치의 설계 및 구현 (Design and Implementation of Asynchronous Memory for Pipelined Bus)

  • 한우종;김수원
    • 전자공학회논문지B
    • /
    • 제31B권11호
    • /
    • pp.45-52
    • /
    • 1994
  • 최근 고성능 마이크로 프로세서들의 가격 경쟁력에 힘입어 공유 버스 방식의 다중 처리기 시스템이 많이 등장하고 있다. 이들 다중 처리기 시스템들은 주기억장치의 구조에 따라 성능이 크게 달라질 수 있다. 주기억장치의 중요성은 마이크로 프로세서들이 고속화 되어감에 따라 더욱 커지고 있다. 개개의 마이크로 프로세서들을 위한 캐시 메모리가 대부분의 시스템에서 채용되고 있으나 여전히 공유되는 주기억장치의 접근 특성은 다중 처리기 시스템의 성능과 확장성을 제약하는 요소가 된다. 본 논문에서는 파이프라인 방식의 시스템 버스의 효율성을 최대한 유지하면서 주기억장치 구현의 유연성을 제공하는 비동기적 주기억장치의 구조를 제안하며 그 효과를 시뮬레이션을 통하여 보이고 있다. 시스템 버스로는 고속 중형 컴퓨터를 위하여 설계된 HiPi+Bus를 모델로 하고 있으며 Verilog를 이용하여 시뮬레이션 하였다. 이 시뮬레이션을 통하여 제안된 비동기적 주기억장치 구조가 시스템 버스의 사용률을 낮추어 줌으로써 시스템의 성능과 확장성을 향상시킴을 알 수 있었다. 또한 제안된 구조를 구현하기 위한 구현 방법상의 변수들을 평가 하였으며 구현된 주기억장치를 시험 프로그램을 이용한 시험 환경에서 시험하여 그 동작과 유용성을 확인하였다.

  • PDF

변형 유클리디안 알고리즘을 이용한 리드 - 솔로몬 디코더의 VLSI 구현 (The VLSI implementation of RS Decoder using the Modified Euclidean Algorithm)

  • 최광석;김수원
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 1998년도 추계종합학술대회 논문집
    • /
    • pp.679-682
    • /
    • 1998
  • This paper presents the VLSI implementation of RS(reed-solomon) decoder using the Modified Euclidean Algorithm(hereafter MEA) for DVD(Digital Versatile Disc) and CD(Compact Disc). The decoder has a capability of correcting 8-error or 16-erasure for DVD and 2-error or 4-erasure for CD. The technique of polynomial evaluation is introduced to realize syndrome calculation and a polynomial expansion circuit is developed to calculate the Forney syndrome polynomial and the erasure locator polynomial. Due to the property of our system with buffer memory, the MEA architecture can have a recursive structure which the number of basic operating cells can be reduced to one. We also proposed five criteria to determine an uncorrectable codeword in using the MEA. The overall architecture is a simple and regular and has a 4-stage pipelined structure.

  • PDF

내장형 32비트 RISC 콘트롤러의 VLSI 구현 (A VLSI implementation of 32-bit RISC embedded controller)

  • 이문기;최병윤;이승호
    • 전자공학회논문지A
    • /
    • 제31A권10호
    • /
    • pp.141-151
    • /
    • 1994
  • this paper describes the design and implementation of a RISC processor for embedded control systems. This RISC processor integrates a register file, a pipelined execution unit, a FPU interface, a memory interface, and an instruction prefetcher. Its characteristics include both single cycle executions of most instructions in a 2 phase 20 MHz frequency and the worst case interrupt latency of 7 cycles with the vectored interrupt handling that makes it possible to be applicable to the real time processing system. For efficient handling of multi-cycle instructions, data stationary hardwired control scheme equippedwith cycle counter was used. This chip integrates about 139K transistors and occupies 9.1mm$\times$9.1mm in a 1.0um DLM CMOS technology. The power dissipation is 0.8 Watts from a 5V supply at 20 MHz operation.

  • PDF

새로운 CBFP 스케일링 방법을 적용한 8192점 FFT프로세서 설계 (A Design of 8192-point FFT Processor using a new CBFP Scaling Method)

  • 이승기;양대성;박광호;신경욱
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2002년도 하계종합학술대회 논문집(2)
    • /
    • pp.113-116
    • /
    • 2002
  • This paper describes a design of 8192-Point pipelined FFT/IFFT processor (PFFTSk) core for DVB-T and DMT-based VBSL modems. A novel two-step convergent block floating -point (75_CBFP) scaling method is proposed to improve the signal- to-quantization-noise ratio (SeNR) of FFT/IFFT results. Our approach reduces about 80% of memory when compared with conventional CBFP methods. The PFFTSk core, which is designed in VHDL and synthesized using 0.25-${\mu}{\textrm}{m}$ CMOS library, has about 76,300 gates, 390k bits RAM, and Twiddle factor ROM of 39k bits. Simulation results show that it can safely operate up to 50-MHz clock frequency at 2.5-V supply, resulting that a 8192-point FFT/IFFT can be computed every 164-$mutextrm{s}$. The SQNR of about 60-dB is achieved.

  • PDF