• 제목/요약/키워드: VLSI Architecture

검색결과 277건 처리시간 0.025초

High-Performance VLSI Architecture Using Distributed Arithmetic for Higher-Order FIR Filters with Complex Coefficients

  • Tsunekawa, Yoshitaka;Nozaki, Takeshi;Tayama, Norio
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2002년도 ITC-CSCC -2
    • /
    • pp.856-859
    • /
    • 2002
  • This paper proposes a high-performance VLSl architecture using distributed arithmetic for higher-order FIR filters with complex coefficients. For the purpose of realizing high sampling rate with small latency in high-order filters, we apply distributed arithmetic[1]. Moreover, in order to decrease drastically the power dissipation, the structure applying not ROM's but optimum function circuits which we have previously proposed, is utilized[2][3]. However, this structure increases in the number of adders as compared to the conventional structure applying ROM's. In order to realize a more effective method for further higher-order filter, we propose newly an implementation applying two methods which have large effects on the unit using the adders. First , we propose an implementation applying SFAs(Serial Full Adders) and SFSs(Serial Full Subtractors). Second, we propose a structure applying proposed 4-2 adders. Finally, it is shown that the proposed architecture is an effective way to realize low power dissipation and small latency while the sampling rate is kept constant for further higher-order filters with complex coefficients.

  • PDF

Radix-4 비터비 디코더를 위한 효율적인 ACS 구조 (An Efficient ACS Architecture for radix-4 Viterbi Decoder)

  • 김덕환;임종석
    • 대한전자공학회논문지SD
    • /
    • 제42권1호
    • /
    • pp.69-77
    • /
    • 2005
  • 비터비 디코더는 통신 시스템에서 가장 핵심적인 부분 중의 하나로써 순방향 오류 정정을 위해 사용된다. 통신 속도의 고속화가 진행됨에 따라 고속에서 동작할 수 있는 통신 모듈의 개발이 점차 중요해지고 있다. 비터비 디코더는 궤환구조를 갖는 ACS 연산의 특성상 고속화가 매우 어렵다. 본 논문에서는 비터비 디코더의 고속화와 면적을 모두 고려한 효율적인 radix-4 ACS 구조를 제안하였다. 비터비 디코더의 ACS 연산을 재 정렬하여 면적을 절약하였고 경로 메트릭 메모리를 retiming하여 디코더의 속도를 개선하였다. 제안된 ACS 구조는 VHDL로 구현되었고 Xilinx의 ISE 6.2i에서 합성되었다. 실험을 통해서 제안된 구조의 AT product가 기존의 고속 radix-4 ACS 구조보다 11% 개선된 것을 확인할 수 있었다.

BWA 시스템에서 적응형 버스트 프로파일링을 위한 MAC과 PHY 계층 간 인터페이스의 VLSI 설계 (VLSI Design of Interface between MAC and PHY Layers for Adaptive Burst Profiling in BWA System)

  • 송문규;공민한
    • 대한전자공학회논문지TC
    • /
    • 제42권1호`
    • /
    • pp.39-47
    • /
    • 2005
  • 고속 데이터 전송에 대한 요구가 높아질수록 고속 처리에 대한 요구가 증가하게 되고, 그 결과 통신 시스템에서 하드웨어 구현의 범위가 더 확장되고 있다. 본 논문에서 고려하는 802.16 표준을 기반으로 설계된 BWA 시스템에서는 전송할 MAC PDU를 생성하기 위해 필요한 정의를 생성하는 MAC 계층의 상위부는 소프트웨어에 의해 처리하고, 이 정보를 받아서 MAC PDU를 생성하는 단계부터 실제 전송이 이루어지는 모뎀은 하드웨어에 의해 구현한다. 본 논문에서는 MAC과 PHY 계층 간의 효율적인 메시지 전달을 수행하는 인터페이스 하드웨어를 설계한다. 이 회로는 전송수렴 부계층(transmission convergence sublayer; TC)을 포함한 다음의 기능을 수행한다. (1) MAC PDU(protocol data unit)와 TC PDU 간의 포맷팅, (2) RS 부호화 또는 복호화, (3) DL MAP과 UL MAP을 해석하여 전송 슬롯과 버스트 프로파일의 변조 기법에 맞추어 상향 링크와 하향 링크의 트래픽을 제어하고, 모뎀에 그 정보에 대한 제어 신호를 제공하는 기능을 수행한다. 이외에도 가입자국에는 경쟁 방식의 메시지 전송시 충돌을 피하기 위해 TBEB(truncated binary exponential backoff) 알고리즘을 수행하는 블록이 포함된다. 이상의 모든 기능들을 수행하는 VLSI 구조를 VHDL에 의해 구현 및 검증하였다.

MPEG-4 영상코덱에서 DCTQ module의 효율적인 구조 (An Efficient Architecture of Transform & Quantization Module in MPEG-4 Video Code)

  • 서기범;윤동원
    • 대한전자공학회논문지SD
    • /
    • 제40권11호
    • /
    • pp.29-36
    • /
    • 2003
  • 이 논문에서는, 2D-DCT, 양자화, AC/DC 예측블록, 스캔 변화, 역 양자화, 2D-IDCT로 이루어진 DCTQ 모듈의 효율적인 구조를 제안한다. 이 모듈은 1064 cycle 안에 매크로블록을 처리할 수 있도록 설계하였으며, MPEG-4 Video codec에서 30frame 의 CIF 영상에 대하여 동시에 encoder와 decoder를 처리할 수 있다. 단지 하나의 1D-DCT와 IDCT core 가 2-D DCT/IDCT 대신에 사용되며, 1 bit serial 분산산술방식을 이용하여 1-D DCT/IDCT를 구현하였다. 또한 파워소모를 줄이기 위해 움직임 예측에서 얻을 수 있는 SAE 값을 이용한 DCT와 양자화 모듈을 동작을 시키지 않는 방식을 제안하였다. 그리고 AC/DC 예측방법을 위한 메모리를 줄일 수 있도록 AC/DC 예측블록을 위한 메모리 구조 및 접근방법을 제안하였다. 그 결과, 하드웨어의 재 사용성이 놀아지고 파워소모가 작아짐을 알 수 있었다. 제안된 설계는 27㎒로 돌아가며, 실험결과 DCT와 IDCT 는 IEEE 기준을 만족함을 알 수 있었다.

그레이 레벨 연결성 복원 하드웨어 구조 (A Hardware Architecture for Retaining the Connectivity in Gray-Scale Image)

  • 김성훈;양영일
    • 융합신호처리학회논문지
    • /
    • 제3권4호
    • /
    • pp.23-28
    • /
    • 2002
  • 본 논문에서는 그레이 레벨 영상을 세선화 하는 과정에서 골격이 끊어지는 것을 방지하는 연결성 복구 알고리즘을 구현하는 하드웨어 구조를 제안하였다. 영상에서 물체의 골격선을 찾아내는 영상의 세선화 과정을 실시간으로 처리하기 위해서는 실시간으로 골격선의 연결성을 검사하는 하드웨어가 필요하다. 본 논문에서는 골격선의 연결성을 4-클럭에 구하는 하드웨어 구조를 제안하였다. 제안된 구조는 PS(Parallel to Serial) Converter 블록, State Generator 블록, Ridge Checker 블록이 연속적으로 연결되어 있다. PS Converter 블록에서는 3$\times$3 그레이 레벨 영상을 4개의 직렬 화소값으로 만들어 State Generator 블록으로 보낸다. Staかe Generator 블록에서는 3$\times$3 그레이 값의 가운데 화소가 골격선에 접하는지를 검사하고, Ridge Checker 블록에서는 가운데 화소가 골격선상에 있는지를 판단한다. 본 논문에서 제안하는 구조는 3$\times$3 그레이 레벨의 가운데 화소의 연결성을 4-클럭에 검사한다. 전체적인 회로는 설계 툴을 사용하여 검증하였고 정상적인 동작을 수행하였다.

  • PDF

HEVC 부호기를 위한 효율적인 SAO의 저면적 하드웨어 설계 (Low Area Hardware Design of Efficient SAO for HEVC Encoder)

  • 조현표;류광기
    • 한국정보통신학회논문지
    • /
    • 제19권1호
    • /
    • pp.169-177
    • /
    • 2015
  • 본 논문에서는 HEVC(High Efficiency Video Coding) 부호기를 위한 효율적인 SAO(Sample Adaptive Offset)의 저면적 하드웨어 구조를 제안한다. SAO는 HEVC 영상 압축 표준에서 채택된 새로운 루프 내 필터 기술로서 최적의 오프셋 값들을 화소 단위로 적용하여 영역 내 평균 화소 왜곡을 감소시킨다. 하지만 표준 SAO는 화소 단위 연산을 수행하기 때문에 초고해상도 영상을 처리하기 위해서 많은 연산시간과 연산량을 요구한다. 제안하는 SAO 하드웨어 구조는 SAO의 연산시간을 감소시키기 위해서 한번에 4개의 입력 화소들을 병렬적으로 처리하며, 2단계 파이프라인 구조를 갖는다. 또한 하드웨어 면적을 최소화하기 위해서 휘도 성분과 색차 성분에 대해 단일 구조를 가지며, 하드웨어에 적합한 연산기 및 공통 연산기를 사용한다. 제안하는 SAO 하드웨어 구조는 Verilog HDL로 설계하였으며, TSMC $0.13{\mu}m$ CMOS 표준 셀 라이브러리로 합성한 결과 약 190k개의 게이트로 구현되었다. 제안하는 SAO 하드웨어 구조는 200MHz의 동작주파수에서 4K UHD@60fps 영상의 실시간 처리가 가능하며, 최대 250MHz까지 동작 가능하다.

Radix-2 MBA 기반 병렬 MAC의 VLSI 구조 (New VLSI Architecture of Parallel Multiplier-Accumulator Based on Radix-2 Modified Booth Algorithm)

  • 서영호;김동욱
    • 대한전자공학회논문지SD
    • /
    • 제45권4호
    • /
    • pp.94-104
    • /
    • 2008
  • 본 논문에서는 고속의 곱셈-누적 연산을 수행할 수 있는 새로운 MAC의 구조를 제안한다. 곱셈과 누적 덧셈 연산을 통합하고 하이브리드 형태의 CSA 구조를 고안하여 임계경로를 감소시키고 출력율을 개선하였다. 즉, 가장 큰 지연시간을 갖는 누적기 자체를 제거하고 누적기의 기능을 CSA에 포함시킴으로써 전체적인 성능을 향상시킨다. 제안된 CSA 트리는 1의 보수 기반의 MBA 알고리즘을 이용하고, 연산자의 밀도를 높이고자 부호비트를 위한 수정된 배열형태를 갖는다. 또한 최종 덧셈기의 비트수를 줄이기 위해서 CSA 트리 내에 2비트 CLA를 사용하여 하위 비트의 캐리를 전파하고 하위 비트들에 대한 출력을 미리 생성한다. 또한 파이프라인의 효율을 최적화시켜 출력율을 증가시키고자 최종 덧셈기의 출력이 아닌 합과 캐리 형태의 중간 연산결과들을 누적시킨다. 제안한 하드웨어를 설계한 후에 $250{\mu}m,\;180{\mu}m,\;130{\mu}m$, 그리고 90nm CMOS 라이브러리를 이용하여 합성하였다. 이론 및 실험적인 결과를 토대로 제안한 MAC의 하드웨어 자원, 지연시간, 그리고 파이프라인 등의 결과에 대해 분석하였다. 지연시간은 수정된 Sakurai의 alpha power low를 이용하였다. 결과를 살펴보면 제안한 MAC은 표준 설계에 대해서는 여러 측면에서 매우 우수한 특성을 보였고, 최근 연구와 비교할 때 클록속도는 거의 유사하면서 성능은 두 배로 우수하였다.

A Hardware Implementation of Ogg Vorbis Audio Decoder with Embedded Processor

  • Kosaka, Atsushi;Yamaguchi, Satoshi;Okuhata, Hiroyuki;Onoye, Takao;Shirakawa, Isao
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2002년도 ITC-CSCC -1
    • /
    • pp.94-97
    • /
    • 2002
  • A VLSI architecture of an Ogg Vorbis decoder is proposed : which is dedicated to portable audio appliances. Referring to the computational cost analysis of the decoding processes, the LSP (Line Spectrum Pair) process, which takes more than 50% of the total processing time, can be regarded as a bottleneck to achieve realtime processing by embedded Processors. Thus in our decoder a specific hardware architecture is devised for the LSP process so as to be integrated into a single chip together with an ARM7TDMI processor. In addition, in order to reduce the total hardware cost, instead of the floating point arithmetic, the fixed point arithmetic is adopted. The LSP module has been implemented with 9,740 gates by using a Virtual Silicon 0.l5$\mu\textrm{m}$ CMOS technology, which operates at 58.8MHz with the total CPU load reduced by 57%. It is also verified that the use of the fixed point arithmetic does not incur any significant sound distortion.

  • PDF

Optimized and Portable FPGA-Based Systolic Cell Architecture for Smith-Waterman-Based DNA Sequence Alignment

  • Shah, Hurmat Ali;Hasan, Laiq;Koo, Insoo
    • Journal of information and communication convergence engineering
    • /
    • 제14권1호
    • /
    • pp.26-34
    • /
    • 2016
  • The alignment of DNA sequences is one of the important processes in the field of bioinformatics. The Smith-Waterman algorithm (SWA) performs optimally for aligning sequences but is computationally expensive. Field programmable gate array (FPGA) performs the best on parameters such as cost, speed-up, and ease of re-configurability to implement SWA. The performance of FPGA-based SWA is dependent on efficient cell-basic implementation-unit design. In this paper, we present an optimized systolic cell design while avoiding oversimplification, very large-scale integration (VLSI)-level design, and direct mapping of iterative equations such as previous cell designs. The proposed design makes efficient use of hardware resources and provides portability as the proposed design is not based on gate-level details. Our cell design implementing a linear gap penalty resulted in a performance improvement of 32× over a GPP platform and surpassed the hardware utilization of another implementation by a factor of 4.23.

알고리즘을 적용한 ASIC 설계 (The ASIC Design of the Adaptive De-interlacing Algorithm with Improved Horizontal and Vertical Edges)

  • 한병혁;박상봉;진현준;박노경
    • 대한전자공학회논문지SD
    • /
    • 제39권7호
    • /
    • pp.89-96
    • /
    • 2002
  • 본 논문은 ELA알고리듬의 수평방향 및 수직방향과 대각선 방향을 판단하여 수평 윤곽선 및 수직 윤곽선 특성을 시각적인 면과 객관적인 면에서 개선한 ADI(adaptive de-interlacing)알고리듬을 제안하고, 제안한 알고리듬에 대한 수직을 전개, 이를 C, Matlab을 이용하여 검증하였다. 제안한 알고리듬의 구조를 $0.6{\mu}m$ 2-poly 3-metal CMOS 표준 라이브러리를 적용하고 Cadence툴을 이용하여 회로 및 논리 시뮬레이션을 수행하고 레이아웃을 작성하였다.