• 제목/요약/키워드: pipelined architecture

검색결과 176건 처리시간 0.026초

가변형 방송 스위치 구조 (Scalable Broadcast Switch Architecture)

  • 정갑중;이범철
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2004년도 춘계종합학술대회
    • /
    • pp.291-294
    • /
    • 2004
  • 본 연구는 단일 입력 및 다중 출력 크로스바 방식의 스위치 구조에 관한 연구로써 특히 고효율의 방송 기능을 가지는 가변형 방송스위치 구조를 지원한다. 입력 및 출력 버퍼 스위치(input and output buffer switch)에서 중앙 중재기(central arbiter)가 다중 입력포트로부터의 전송 요청(request)을 모아서 모든 입력포트들이 공유하는 각 출력포트에서 최대한 많은 전송 허가(grant)를 빠른 시간 내에 결정하고 그 결과를 각 입력 버퍼들에게 고속으로 전달(transmission)하는 기능을 지원하는 스위치 구조에 관한 것으로 특별히 방송 패킷(broadcast packet)을 스위칭 함에 있어 높은 처리율 (high throughput)을 제공하면서 고속으로 대용량 스위칭(large scale switching) 기능을 제공한다.

  • PDF

Energy Efficient and Low-Cost Server Architecture for Hadoop Storage Appliance

  • Choi, Do Young;Oh, Jung Hwan;Kim, Ji Kwang;Lee, Seung Eun
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권12호
    • /
    • pp.4648-4663
    • /
    • 2020
  • This paper proposes the Lempel-Ziv 4(LZ4) compression accelerator optimized for scale-out servers in data centers. In order to reduce CPU loads caused by compression, we propose an accelerator solution and implement the accelerator on an Field Programmable Gate Array(FPGA) as heterogeneous computing. The LZ4 compression hardware accelerator is a fully pipelined architecture and applies 16 dictionaries to enhance the parallelism for high throughput compressor. Our hardware accelerator is based on the 20-stage pipeline and dictionary architecture, highly customized to LZ4 compression algorithm and parallel hardware implementation. Proposing dictionary architecture allows achieving high throughput by comparing input sequences in multiple dictionaries simultaneously compared to a single dictionary. The experimental results provide the high throughput with intensively optimized in the FPGA. Additionally, we compare our implementation to CPU implementation results of LZ4 to provide insights on FPGA-based data centers. The proposed accelerator achieves the compression throughput of 639MB/s with fine parallelism to be deployed into scale-out servers. This approach enables the low power Intel Atom processor to realize the Hadoop storage along with the compression accelerator.

다중 해시 조인의 파이프라인 처리에서 분할 조율을 통한 부하 균형 유지 방법 (A Load Balancing Method using Partition Tuning for Pipelined Multi-way Hash Join)

  • 문진규;진성일;조성현
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제29권3호
    • /
    • pp.180-192
    • /
    • 2002
  • Shared nothing 다중 프로세서 환경에서 조인 어트리뷰트의 자료 불균형(data skew)이 파이프라인 해시 조인 연산의 성능에 주는 영향을 연구하고, 자료 불균형을 대비하여 적재부하를 Round-robin 방식으로 정적 분할하는 방법과 자료분포도를 이용하여 동적 분할하는 두 가지 파이프라인 해시 조인 알고리즘을 제안한다. 해시 기반 조인을 사용하면 여러 개의 조인을 파이프라인 방식으로 처리할 수 있다. 다중 조인은 파이프라인 방식 처리는 조인 중간 결과를 디스크를 통하지 않고 다른 프로세서에게 직접 전달하므로 효율적이다. Shared nothing 다중 프로세서 구조는 대용량 데이타베이스를 처리하는데 확장성은 좋으나 자료 불균형 분포에 매우 민감하다. 파이프라인 해시 조인 알고리즘이 동적 부하 균형 유지 메커니즘을 갖고 있지 않다면 자료 불균형은 성능에 매우 심각한 영향을 줄 수 있다. 본 논문은 자료 불균형의 영향과 제안된 두 가지 기법을 비교하기 위하여 파이프라인 세그먼트의 실행 모형, 비용 모형, 그리고 시뮬레이터를 개발한다. 다양한 파라미터로 모의 실험을 한 결과에 의하면 자료 불균형은 조인 선택도와 릴레이션 크기에 비례하여 시스템 성능을 떨어뜨림을 보여준다. 그러나 제안된 파이프라인 해시 조인 알고리즘은 다수의 버켓 사용과 분할의 조율을 통해 자료 불균형도가 심한 경우에도 좋은 성능을 갖게 한다.

영상 신호 처리용 8-bit 10-MHz A/D 변환기 (8-bit 10-MHz A/D Converter for Video Signal Processing)

  • 박창선;손주호;이준호;김종민;김동용
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1999년도 학술발표대회 논문집 제18권 2호
    • /
    • pp.173-176
    • /
    • 1999
  • In this work, a A/D converter is implemented to obtain 8bit resolution at a conversion rate of 10Msample/s for video applications. Proposed architecture is designed low power A/D converter that pipelined architecture consists of flash A/D converter. This architecture consists of two identical stages that consist of sample/hold circuit, low power comparator, voltage reference circuit and MDAC of binary weighted capacitor array. Proposed A/D converter is designed using $0.25{\mu}m$ CMOS technology The SNR is 76.3dB at a sampling rate of 10MHz with 3.9MHz sine input signal. When an 8bit 10Msample/s A/D converter is simulated, the Differential Nonlinearity / Integral Nonlinearity (DNL/ INL) error are ${\pm}0.5/{\pm}2$ LSB, respectively. The power consumption is 13mW at 10Msample/s.

  • PDF

중재 지연 내성을 가지는 입력 큐 스위치의 다중 큐 관리기 구조 (Architecture of Multiple-Queue Manager for Input-Queued Switch Tolerating Arbitration Latency)

  • 정갑중;이범철
    • 한국통신학회논문지
    • /
    • 제26권12C호
    • /
    • pp.261-267
    • /
    • 2001
  • 본 논문은 입력 버퍼와 중앙 중재기 사이에 중재 정보 전달 지연을 갖는 고속 셀/패킷 스위치에 적용된 다중 입력 큐 관리기의 구조 및 Chip 설계 기법을 제안한다. 제안된 다중 입력 큐 관리기의 구조는 wire-speed 셀/패킷 라우팅을 지원하고 입력 버퍼와 중앙 중재기 사이의 중재 정보 전송 지연에 대한 내성을 지원한다. 고속 쉬프터를 사용한 새로운 요청 신호 관리 방법을 사용하여 중재 정보 전송 지연에 대처하며 그로 인한 전체 스위치의 성능 향상을 제공한다. 제안된 다중 입력 큐 관리기는 FPGA Chip을 이용하여 구현되었으며 포트 당 OC-48c 속도를 지원한다. 본 다중 입력 큐 관리기를 이용하여 16$\times$16 스위치 크기와 입력 포트 당 128 셀 공유 버퍼를 가지는 입력 큐 스위치 시스템에서 최대 98.6%의 성능을 가지는 400bps의 스위치 시스템을 개발하였다.

  • PDF

A Design of A Multistandard Digital Video Encoder using a Pipelined Architecture

  • Oh, Seung-Ho;Park, Han-Jun;Kwon, Sung-Woo;Lee, Moon-Key
    • Journal of Electrical Engineering and information Science
    • /
    • 제2권5호
    • /
    • pp.9-16
    • /
    • 1997
  • This paper describes the design of a multistandard video encoder. The proposed encoder accepts conventional NTSC/PAL video signals, It also processes he PAL-plus video signal which is now popular in Europe. The encoder consists of five major building functions which are letter-box converter, color space converter, digital filters, color modulator and timing generator. In order to support multistandard video signals, a programmable systolic architecture is adopted in designing various digital filters. Interpolation digital filters are also used to enhance signal-to-noise ratio of encoded video signals. The input to the encoder can be either YCbCr signal or RGB signal. The outputs re luminance(Y), chrominance(C), and composite video baseband(Y+C) signals. The architecture of the encoder is defined by using Matlab program and is modelled by using Veriflog-HDL language. The overall operation is verified by using various video signals, such as color bar patterns, ramp signals, and so on. The encoder contains 42K gates and is implemented by using 0.6um CMOS process.

  • PDF

경계선 보존 알고리즘 기반의 디블로킹 필터와 효율적인 VLSI 구조 (Deblocking Filter Based on Edge-Preserving Algorithm And an Efficient VLSI Architecture)

  • 트풍퀑빈;김지훈;김영철
    • 한국통신학회논문지
    • /
    • 제36권11C호
    • /
    • pp.662-672
    • /
    • 2011
  • 본 논문은 새로운 경계선 보존 알고리즘을 이용하여 블록화 현상을 제거하는 디블로킹 필터와 HD해상도의 실시간 영상처리가 가능한 디블로킹 필터의 VLSI구조를 제안한다. 기존의 블록 분류 기반의 접근 방법과 달리 제안된 알고리즘은 픽셀 분류 기반 접근을 사용한다. 또한 제안된 경계선 보존 맵은 픽셀을 경계선 영역과 평탄 영역으로 분류하며, 블록화 현상 제거에 사용되는 오프셋 필터와 경계선 보존 필터의 기반이 된다. 이를 바탕으로 제안된 디블로킹 필터의 VLSI구조는 고연산량 처리를 위하여 블록 전체에 파이프라인 기법을 적용하였다. 또한 블록 버퍼를 위한 메모리 절감 구조는 메모리의 사용을 최적화 시킨다. 본 필터는 VHDL을 이용한 설계를 통하여 CycloneII FPGA상에서 구현된 구조의 동작을 검증 후, Synopsys의 Design Compiler와 ANAM 0.25 ${\mu}m$ CMOS cell library로 합성하여 칩으로 구현하였을 때의 성능을 예측하였다. 제안된 알고리즘의 실험 결과는 세밀한 영상성분을 보존하면서 효과적으로 블록화 현상을 제거하며, 픽셀 분류 기반에서 제안된 알고리즘은 블록 분류 기반보다 PSNR 성능이 우수함을 보였다.

고밀도 3D 형상 계측 시스템에서의 고속 시차 추정을 위한 NCC 알고리즘 기반 하드웨어 구조 (A hardware architecture based on the NCC algorithm for fast disparity estimation in 3D shape measurement systems)

  • 배경렬;권순;이용환;이종훈;문병인
    • 센서학회지
    • /
    • 제19권2호
    • /
    • pp.99-111
    • /
    • 2010
  • This paper proposes an efficient hardware architecture to estimate disparities between 2D images for generating 3D depth images in a stereo vision system. Stereo matching methods are classified into global and local methods. The local matching method uses the cost functions based on pixel windows such as SAD(sum of absolute difference), SSD(sum of squared difference) and NCC(normalized cross correlation). The NCC-based cost function is less susceptible to differences in noise and lighting condition between left and right images than the subtraction-based functions such as SAD and SSD, and for this reason, the NCC is preferred to the other functions. However, software-based implementations are not adequate for the NCC-based real-time stereo matching, due to its numerous complex operations. Therefore, we propose a fast pipelined hardware architecture suitable for real-time operations of the NCC function. By adopting a block-based box-filtering scheme to perform NCC operations in parallel, the proposed architecture improves processing speed compared with the previous researches. In this architecture, it takes almost the same number of cycles to process all the pixels, irrespective of the window size. Also, the simulation results show that its disparity estimation has low error rate.

HEVC 부호기를 위한 효율적인 SAO의 저면적 하드웨어 설계 (Low Area Hardware Design of Efficient SAO for HEVC Encoder)

  • 조현표;류광기
    • 한국정보통신학회논문지
    • /
    • 제19권1호
    • /
    • pp.169-177
    • /
    • 2015
  • 본 논문에서는 HEVC(High Efficiency Video Coding) 부호기를 위한 효율적인 SAO(Sample Adaptive Offset)의 저면적 하드웨어 구조를 제안한다. SAO는 HEVC 영상 압축 표준에서 채택된 새로운 루프 내 필터 기술로서 최적의 오프셋 값들을 화소 단위로 적용하여 영역 내 평균 화소 왜곡을 감소시킨다. 하지만 표준 SAO는 화소 단위 연산을 수행하기 때문에 초고해상도 영상을 처리하기 위해서 많은 연산시간과 연산량을 요구한다. 제안하는 SAO 하드웨어 구조는 SAO의 연산시간을 감소시키기 위해서 한번에 4개의 입력 화소들을 병렬적으로 처리하며, 2단계 파이프라인 구조를 갖는다. 또한 하드웨어 면적을 최소화하기 위해서 휘도 성분과 색차 성분에 대해 단일 구조를 가지며, 하드웨어에 적합한 연산기 및 공통 연산기를 사용한다. 제안하는 SAO 하드웨어 구조는 Verilog HDL로 설계하였으며, TSMC $0.13{\mu}m$ CMOS 표준 셀 라이브러리로 합성한 결과 약 190k개의 게이트로 구현되었다. 제안하는 SAO 하드웨어 구조는 200MHz의 동작주파수에서 4K UHD@60fps 영상의 실시간 처리가 가능하며, 최대 250MHz까지 동작 가능하다.

면적 효율적인 구조의 블록 MAP 터보 복호기 설계 (Design of an Area-Efficient Architecture for Block-wise MAP Turbo Decoder)

  • 강문준;김식;황선영
    • 한국통신학회논문지
    • /
    • 제27권8A호
    • /
    • pp.725-732
    • /
    • 2002
  • 터보 부호의 복호에 사용되는 블록 MAP (Maximum A Posteriori) 복호 알고리듬은 Log-MAP 복호 알고리듬으로부터 메모리 사용량을 감소시킨 알고리듬이다. 기존 블록 MAP 복호기의 BER (Bit Error Rate) 성능은 블록 크기와 트레이닝 크기에 의해 결정되며, 하드웨어의 활용도를 최대로 하고 연속적인 복호를 위해 트레이닝 크기와 같은 블록 크기를 사용한다. 블록 크기와 트레이닝 크기가 복호기의 BER 성능에 미치는 영향을 실험한 결과, 트레이닝 크기가 충분하면 블록 크기가 작아도 BER 성능이 유지됨을 보인다. 본 논문에서는 면적 효율적인 블록 MAP 복호기의 구조를 제안한다. 제안된 복호 방식은 블록 크기의 정수 배인 트레이닝 크기를 사용함으로써 메모리 사용량을 감소시키는 복호 순서를 사용한다. 제안된 복호 순서를 효과적으로 수행하기 위해 파이프라인 구조를 제안하였다. 실험 결과 제안된 복호 방식은 BER 성능을 유지하면서 메모리 사용량이 30~45% 감소하는 것을 확인하였다.