• 제목/요약/키워드: pipelined architecture

검색결과 176건 처리시간 0.021초

H.264/AVC를 위한 디블록킹 필터의 최적화된 하드웨어 설계 (Optimized Hardware Design of Deblocking Filter for H.264/AVC)

  • 정윤진;류광기
    • 대한전자공학회논문지SD
    • /
    • 제47권1호
    • /
    • pp.20-27
    • /
    • 2010
  • 본 논문에서는 고성능 H.264/AVC 복호기 설계를 위해 디블록킹 필터의 수행시간 단축과 저전력 설계를 위한 필터링 순서 및 효율적인 메모리 구조를 제안하고 5단 파이프라인으로 구성된 필터의 설계에 대해 기술한다. 디블록킹 필터는 블록 경계에서 발생하는 왜곡을 제거하여 영상의 화질을 개선시키지만 하나의 경계에 여러 번 필터링을 수행하여 많은 메모리 접근과 반복되는 연산과정이 수반된다. 따라서 본 논문에서는 메모리 접근과 필터 수행 사이클을 최소화하는 새로운 필터 순서를 제안 하고 반복되는 연산의 효율적 관리를 위해 파이프라인 구조를 적용하였다. 제안하는 디블록킹 필터는 메모리 읽기, 임계값 계산, 전처리 연산, 필터 연산, 메모리 쓰기로 구성된 5단 파이프라인으로 구현되어 순차적인 필터 연산에 병렬적 처리가 가능하며 각 단계에 클록 게이팅을 적용하여 하드웨어 자원에 불필요한 전력을 감소시켰다. 또한, 적은 내부 트랜스포지션 버퍼를 사용하면서 필터링 순서를 효율적으로 개선하여 필터 수행을 위한 메모리 접근과 수행 사이클을 감소시켰다. 제안하는 디블록킹 필터의 하드웨어는 Verilog HDL로 설계 하였으며 기존의 복호기에 통합하여 Modelsim 6.2g 시뮬레이터를 이용해 검증하였다. 입력으로는 표준 참조 소프트웨어 JM9.4 부호기를 통해 압축한 다양한 QCIF영상 샘플을 사용하였다. 기존 필터들과 수행 사이클을 비교한 결과, 제안하는 구조의 설계가 비교적 적은 트랜스포지션 버퍼를 사용했으며 최소 20%의 수행 사이클이 감소함을 확인하였다.

가변 블록길이를 갖는 적응형 리드솔로몬 복호기의 설계 (Design of an Adaptive Reed-Solomon Decoder with Varying Block Length)

  • 송문규;공민한
    • 한국통신학회논문지
    • /
    • 제28권4C호
    • /
    • pp.365-373
    • /
    • 2003
  • 본 논문에서는 수정 유클리드 알고리즘을 기반으로 임의의 메시지 길이 k 뿐 아니라 임의의 블록 길이 n를 갖는 RS 부호를 복호할 수 잇는 적응형 RS 복호기를 설계한다. 설계된 복호기는 임의의 길이를 갖는 단축형 RS 부호의 복호 전에 영들을 추가하지 않아도 되므로 단축형 RS 부호에 특히 유리하다. 또한 이들 RS 부호의 오류정정 능력 t의 값을 매 부호어 블록마다 실시간으로 변화시킬수 있으므로 응답 채널이 유용한 경우 채널의 시변 잡음 레벨에 적응적으로 오류 정정 능력을 변화시킬 수 있다. 제시된 복호기 구조는 수정 유클리드 알고리즘에 기반한 4단계는 파이프라인 처리를 수행한다 : (1) 신드롬 계산 (2) MEA 블록 (3) 에러크기 계산 (4) 복호기 실패 검사. 각 단계는 가변 길이의 RS 복호에 적합한 구조를 갖도록 설계된다. 수정 유클리드 알고리즘(MEA) 블록의 새로운 구조를 제시하고, 에러의 크기 계산을 위한 다항식 평가를 위해 역순 출력을 갖는 다항식 평가 회로를 채용한다. MEA 블록은 연산 셀들의 멀티플렉싱 기법과 배속의 전용 클럭 기법(overclocking)을 적용하여 간단한 하드웨어로써 처리 속도를 유지하도록 하였다. 최대 오류정정 능력이 10인 GF($2^8$) 상의 적응형 RS 부호를 VHDL로 설계하고, FPGA에 성공적으로 합성하였다.

고성능 디스플레이 응용을 위한 8b 240 MS/s 1.36 ㎟ 104 mW 0.18 um CMOS ADC (An 8b 240 MS/s 1.36 ㎟ 104 mW 0.18 um CMOS ADC for High-Performance Display Applications)

  • 이경훈;김세원;조영재;문경준;지용;이승훈
    • 대한전자공학회논문지SD
    • /
    • 제42권1호
    • /
    • pp.47-55
    • /
    • 2005
  • 본 논문에서는 각종 고성능 디스플레이 등 주로 고속에서 저전력과 소면적을 동시에 요구하는 시스템 응용을 위한 임베디드 코어 셀로서의 8b 240 MS/s CMOS A/D 변환기 (ADC)를 제안한다. 제안하는 ADC는 아날로그 입력, 디지털 출력 및 전원을 제외한 나머지 모든 신호는 칩 내부에서 발생시켰으며, 본 설계에서 요구하는 240 MS/s 사양에서 면적 및 전력을 동시에 최적화하기 위해 2단 파이프라인 구조를 사용하였다. 특히 입력 단에서 높은 입력 신호 대역폭을 얻기 위해 개선된 부트스트래핑기법을 제안함과 동시에 잡음 성능을 향상시키기 위해 제안하는 온-칩 전류/전압 발생기를 온-칩 RC 저대역 필터와 함께 칩 내부에 집적하였으며, 휴대 응용을 위한 저전력 비동작 모드 등 각종 회로 설계 기법을 적절히 응용하였다. 제안하는 시제품 ADC는 듀얼모드 입력을 처리하는 DVD 시스템의 핵심 코어 셀로 집적되었으며, 성능 검증을 위해 0.18um CMOS 공정으로 별도로 제작되었고, 측정된 DNL과 INL은 각각 0.49 LSB, 0.69 LSB 수준을 보여준다. 또한, 시제품측정 결과 240 MS/s 샘플링 속도에서 최대 53 dB의 SFDR을 얻을 수 있었고, 입력 주파수가 Nyquist 입력인 120 MHz까지 증가하는 동안 38 dB 이상의 SNDR과 50 dB 이상의 SFDR을 유지하였다. 시제품 ADC의 칩 면적은 1.36 ㎟이며, 240 MS/s 에서 측정된 전력 소모는 104 mW이다.

16개의 처리기를 가진 다중접근기억장치를 위한 영상처리 알고리즘의 구현에 대한 성능평가 (Performance Analysis of Implementation on Image Processing Algorithm for Multi-Access Memory System Including 16 Processing Elements)

  • 이유진;김재희;박종원
    • 전자공학회논문지CI
    • /
    • 제49권3호
    • /
    • pp.8-14
    • /
    • 2012
  • 최근 3D TV나 영화, 증강현실과 같은 대용량 고화질의 영상 응용분야가 확산됨에 따라 빠른속도로 영상을 처리하는 것이 요구되고 있다. 여러개의 프로세서로 구성되어 병렬처리 성능을 극대화 시킬 수 있는 SIMD구조의 컴퓨터는 다양하고 많은 양의 데이터들을 처리하는 것을 가속화한다. 다중접근기억장치인 MAMS는 여러개의 PE와 고성능 SIMD 구조에 최적화된 시스템으로 MAMS는 메모리 모듈을 $M{\times}N$의 2-D array 개념을 적용하여 X, Y 좌표 및 임의의 간격으로 pq개의 데이터 각각에 수평, 수직, 대각선, 역대각선, 블록의 다양한 방식으로 충돌없이 접근하며, 이 메모리모듈(MM)의 개수 m은 pq 개수보다 큰 소수이다. MAMS-PP4는 4개의 PE와 5개의 MM로 구성되어 기존에 구현된 바 있다. 이 논문에서는 MAMS-PP4의 확장으로 16개의 PE와 17개의 MM으로 구성된 MAMS-PP16에 대한 영상처리 알고리즘의 구현과 그에 따른 성능평가에 대해 소개한다. MAMS-PP16의 인스트럭션 포맷은 64비트로 확장되어 새로 설계 되었으며 특정 어플리케이션의 추가와 새로운 인스트럭션이 포함되어 있다. 본 논문에서는 구현된 알고리즘이 수행될 수 있도록 MAMS-PP16의 시뮬레이터를 개발하였다. 이 시뮬레이터를 통해 구현된 영상처리 알고리즘을 수행함으로서 MAMS-PP16의 성능이 향상되었음을 확인하였다. 영상처리 알고리즘 중 피라미드 기법을 적용하여 수행한 결과, 캐시를 사용하는 Serial processor에서는 랜덤한 응답인 반면, 캐시를 사용하지 않는 MAMS-PP16에서 일정한 응답을 확인하였다.

HDTV 응용을 위한 3V 10b 33MHz 저전력 CMOS A/D 변환기 (A3V 10b 33 MHz Low Power CMOS A/D Converter for HDTV Applications)

  • 이강진;이승훈
    • 전기전자학회논문지
    • /
    • 제2권2호
    • /
    • pp.278-284
    • /
    • 1998
  • 본 논문에서는 HDTV 응용을 위한 10b 저전력 CMOS A/D 변환기 (analog-to-digital converter : ADC) 회로를 제안한다. 제안된 ADC의 전체 구조는 응용되는 시스템의 속도와 해상도 등의 사양을 고려하여 다단 파이프라인 구조가 적용되었다. 본 시스템이 갖는 회로적 특성은 다음과 같이 요약할 수 있다. 첫째, 전원전압의 변화에도 일정한 시스템 성능을 얻을 수 있는 바이어스 회로의 선택적 채널길이 조정기법을 제안한다. 둘째, 고속 2단 증폭기의 전력소모를 줄이기 위하여 증폭기가 사용되지 않는 동안 동작 전류 공급을 줄이는 전력소모 최적화 기법을 사용한다. 넷째, 다단 파이프라인 구조에서 최종단으로 갈수록 정확도 및 잡음 특성 등에서 여유를 얻을 수 있는 점을 고려한 캐패시터 스케일링 기법의 적용으로 면적 및 전력소모를 감소시킨다. 제안된 ADC는 0.8 um double-poly double-metal n-well CMOS 공정 변수를 사용하여 설계 및 제작되었고, 시제품 ADC의 성능 측정 결과는 Differential Nonlinearity (DNL) ${\pm}0.6LSB$, Integral Nonlinearity (INL) ${\pm}2.0LSB$ 수준이며, 전력소모는 3 V 및 40 MHz 동작시에는 119 mW, 5 V 및 50 MHz 동작시에는 320 mW로 측정되었다.

  • PDF

실사기반 디지털 홀로그래픽 비디오의 실시간 생성을 위한 하드웨어의 설계 (A New Hardware Design for Generating Digital Holographic Video based on Natural Scene)

  • 이윤혁;서영호;김동욱
    • 전자공학회논문지
    • /
    • 제49권11호
    • /
    • pp.86-94
    • /
    • 2012
  • 본 논문에서는 고속으로 홀로그램을 생성할 수 있는 하드웨어의 구조를 제안하고 이를 구현하였다. 제안한 하드웨어는 홀로그램 평면의 행 단위로 병렬 연산을 수행할 수 있는 구조를 가지고 있고, 한 행의 각 홀로그램 화소들이 독립적으로 연산될 수 있는 알고리즘을 이용하였다. 이러한 연산 방법을 통해서 홀로그램 생성 하드웨어서 가장 문제가 되는 메모리 접근량을 대폭 감소시킴으로써 하드웨어 처리능력의 실시간성을 대폭 향상시켰다. 제안한 하드웨어는 입력 인터페이스, 초기 파라미터 연산기, 홀로그램 화소 연산기, 라인 버퍼, 그리고 메모리 제어기로 구성된다. 제안한 하드웨어는 기존의 하드웨어와 동일한 처리 능력을 가지면서도 메모리 접근횟수는 약 20,000배 감소시킬 수 있었다. 구현한 하드웨어는 198MHz에서 안정적으로 동작할 수 있었고, 168,960개의 LUT, 153,944개의 레지스터, 그리고 19,212개의 DSP 블록을 사용하였다.