• 제목/요약/키워드: VerilogHDL

검색결과 416건 처리시간 0.023초

고성능 HEVC 부호기를 위한 루프 내 필터 하드웨어 설계 (Hardware Design of In-loop Filter for High Performance HEVC Encoder)

  • 박승용;임준성;류광기
    • 한국정보통신학회논문지
    • /
    • 제20권2호
    • /
    • pp.335-342
    • /
    • 2016
  • 본 논문에서는 고성능 HEVC(High Efficiency Video Coding) 부호기를 위한 루프 내 필터의 효율적인 하드웨어 구조를 제안한다. HEVC는 양자화 에러가 발생하는 복원 영상에서 화질을 향상시키기 위해 디블록킹 필터와 SAO(Sample Adaptive Offset)으로 구성된 루프 내 필터를 사용한다. 그러나 루프 내 필터는 추가적인 연산으로 인하여 부호기와 복호기의 복잡도가 증가되는 원인이 된다. 제안하는 루프 내 필터 하드웨어 구조는 수행 사이클 감소를 위해 디블록킹 필터와 SAO를 3단 파이프라인으로 구현되었다. 또한 제안하는 디블록킹 필터는 6단 파이프라인 구조로 구현되었으며, 효율적인 참조 메모리 구조를 위해 새로운 필터링 순서로 수행된다. 제안하는 SAO는 화소들의 처리를 간소화하며 수행 사이클을 감소시키기 위해 한번에 6개의 화소를 병렬 처리된다. 제안하는 루프 내 필터 하드웨어 구조는 Verilog HDL로 설계되었으며, TSMC $0.13{\mu}m$ CMOS 표준 셀 라이브러리를 사용하여 합성한 결과 약 131K개의 게이트로 구현되었다. 또한 164MHz의 동작 주파수에서 4K@60fps의 실시간 처리가 가능하며, 최대 동작 주파수는 416MHz이다.

UHD 영상의 실시간 처리를 위한 고성능 HEVC In-loop Filter 부호화기 하드웨어 설계 (Hardware Design of High Performance In-loop Filter in HEVC Encoder for Ultra HD Video Processing in Real Time)

  • 임준성;;류광기
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2015년도 추계학술대회
    • /
    • pp.401-404
    • /
    • 2015
  • 본 논문에서는 UHD급 영상의 실시간 처리를 위한 고성능 HEVC(High Efficiency Video Coding) In-loop Filter 부호화기의 효율적인 하드웨어 구조를 제안한다. HEVC는 양자화 에러로 발생하는 화질 열화 문제를 해결하기 위해 Deblocking Filter와 SAO(Sample Adaptive Offset)로 구성된 In-loop Filter를 사용한다. 본 논문에서 제안하는 In-loop Filter 부호화기 하드웨어 구조에서 Deblocking Filter와 SAO는 수행시간 단축을 위해 $32{\times}32CTU$를 기준으로 2단 하이브리드 파이브라인 구조를 갖는다. Deblocking Filter는 10단계 파이프라인 구조로 수행되며, 메모리 접근 최소화 및 참조 메모리 구조의 단순화를 위해 효율적인 필터링 순서를 제안한다. 또한 SAO는 화소들의 분류와 SAO 파라미터 적용을 2단계 파이프라인 구조로 구현하고, 화소들의 처리를 간소화 및 수행 사이클 감소를 위해 두 개의 병렬 Three-layered Buffer를 사용한다. 본 논문에서 제안하는 In-loop Filter 부호화기 하드웨어 구조는 Verilog HDL로 설계하였으며, TSMC 0.13um CMOS 표준 셀 라이브러리를 사용하여 합성한 결과 약 205K개의 게이트로 구현되었다. 또한 110MHz의 동작주파수에서 4K UHD급 해상도인 $3840{\times}2160@30fps$의 실시간 처리가 가능하다.

  • PDF

고성능 HEVC 부호기를 위한 화면내 예측 하드웨어 설계 (An Intra Prediction Hardware Design for High Performance HEVC Encoder)

  • 박승용;;류광기
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2015년도 추계학술대회
    • /
    • pp.875-878
    • /
    • 2015
  • 본 논문에서는 고성능 HEVC 부호기 화면내 예측기의 적은 연산 시간 및 연산 복잡도, 하드웨어 면적 감소를 위한 하드웨어 구조를 제안한다. 제안하는 화면내 예측기의 하드웨어 구조는 연산 복잡도를 감소시키기 위해 공통 연산기를 사용하였고, 저면적 하드웨어 구조를 위해 $4{\times}4$ 블록 단위 연산기를 사용하였다. 공통 연산기는 모든 예측모드의 예측픽셀 생성과 필터링 과정을 하나의 연산기로 처리하기 때문에 연산기의 개수를 감소시킨다. 화면내 예측 하드웨어 구조는 $4{\times}4$ PU 공통 연산기를 사용하여 하드웨어 면적은 감소 시켰으며, $32{\times}32$ PU까지 지원하는 하드웨어 구조로 설계하였다. 제안하는 하드웨어 구조는 10개의 공통 연산기를 사용하여 병렬처리함으로써 화면내 예측의 수행 사이클 수를 감소시킨다. 제안하는 화면내 예측기의 하드웨어 구조는 Verilog HDL로 설계하였으며, TSMC $0.13{\mu}m$ CMOS 표준 셀 라이브러리로 합성한 결과 41.5k개의 게이트로 구현되었다. 제안하는 화면내 예측기 하드웨어 구조는 150MHz의 동작주파수에서 4K UHD@30fps 영상의 실시간 처리가 가능하며, 최대 200MHz까지 동작 가능하다.

  • PDF

MPI 집합통신을 위한 프로세싱 노드 상태 기반의 메시지 전달 엔진 설계 (Design of Message Passing Engine Based on Processing Node Status for MPI Collective Communication)

  • 정원영;이용석
    • 한국통신학회논문지
    • /
    • 제37권8B호
    • /
    • pp.668-676
    • /
    • 2012
  • 본 논문은 MPI 집합 통신 함수가 처리 레벨 (transaction level) 에서 변환된다는 가정 하에 MPI 집합 통신 중 방송 (Broadcast), 확산 (Scatter), 취합 (Gather) 함수를 최적화한 알고리즘을 제안하였다. 또한 제안하는 알고리즘이 구동되는 MPI 전용 하드웨어 엔진을 설계하였으며, 이를 OCC-MPE (Optimized Collective Communication - Message Passing Engine) 라 명명하였다. OCC-MPE는 표준 송신 모드 (standard send mode)로 점대점 통신 (point-to-point communication) 을 하며, 집합 통신 중 가장 빈번하게 사용되는 방송, 취합, 확산을 제안하는 알고리즘에 의해 전송 순서를 결정한 후 통신하여 전체 통신 완료 시간을 단축시켰다. 제안한 알고리즘들의 성능을 측정하기 위하여 OCC-MPE를 SystemC 기반의 BFM(Bus Functional Model)을 제작하였다. SystemC 기반의 시뮬레이터를 통한 성능 평가 후에 VerilogHDL을 사용하여 제안하는 OCC-MPE를 포함한 MPSoC (Multi-Processor System on a Chip)를 설계하였다. TSMC 0.18 공정으로 합성한 결과 프로세싱 노드가 4개일 때 각 OCC-MPE가 차지하는 면적은 약 1978.95 이었다. 이는 전체 시스템에서 약 4.15%를 차지하므로 비교적 작은 면적을 차지함을 확인하였다. 본 논문에서 제안하는 OCC-MPE를 MPSoC에 내장하면, 비교적 작은 하드웨어 자원의 추가로 높은 성능향상을 얻을 수 있다.

비트 시리얼 이산 웨이블렛 변환 필터 설계 (Bit-serial Discrete Wavelet Transform Filter Design)

  • 박태근;김주영;노준례
    • 한국통신학회논문지
    • /
    • 제30권4A호
    • /
    • pp.336-344
    • /
    • 2005
  • 이산 웨이블렛 변환(Discrete Wavelet Transform)은 블록효과가 없고 특정시간의 주파수 특징을 잘 표현하여 MPEG4나 JPEG2000의 표준안으로 채택되는 등 많은 응용분야에서 이용되는 변환 방법이다. 본 논문에서는 저 전력, 저 비용 DWT 필터 설계를 위한 두 채널 QMF(Quadracture Mirror Filter) PR(Perfect Reconstruction) 래티스 필터에 대한 비트 시리얼 구조를 제안하였다. 제안된 필터(필터 길이 = 8)는 4개의 래티스로 구성되었으며, 각 단 고정계수의 양자화 비트를 PSNR(peak-signal-to-noise ratio) 분석을 통하여 결정하였고 그에 따른 효율적인 비트 시리얼 곱셈기 구조를 제안하였다. 각 계수는 CSD(Canonic Signed Digit) 인코딩 방법을 이용하여 `0'이 아닌 비트의 수를 최소화함으로써 복잡도를 개선하였다. 제안된 DWT구조는 휴면기간 동안 하위레벨을 처리하는 폴딩(folding) 구조이고 이에 대한 효율적인 스케줄링 방법이 제안되었으며 최소의 하드웨어(플립 플롭, 전가산기)만으로 구현이 가능하다. 제안된 구조는 VerilogHDL로 설계되어 검증되었으며 Hynix 0.35$\mu$m표준셀 라이브러리를 사용하여 합성한 결과, 최대 동작주파수는 200 MHz이며 16클록의 레이턴시(Latency)와 약 175Mbps의 성능을 보였다.

AES 기반 와이브로 보안 프로세서 설계 (A Design of AES-based WiBro Security Processor)

  • 김종환;신경욱
    • 대한전자공학회논문지SD
    • /
    • 제44권7호통권361호
    • /
    • pp.71-80
    • /
    • 2007
  • 본 논문에서는 와이브로 (WiBro) 무선 인터넷 시스템의 보안 부계층 (Security Sub-layer)을 지원하는 와이브로 보안 프로세서 (WBSec)의 효율적인 하드웨어 설계에 관해 기술한다. 설계된 WBSec 프로세서는 AES (Advanced Encryption Standard) 블록암호 알고리듬을 기반으로 하여 데이터 암호 복호, 인증 무결성, 키 암호 복호 등 무선 네트워크의 보안기능을 처리한다. WBSec 프로세서는 ECB, CTR, CBC, CCM 및 key wrap/unwrap 동작모드를 가지며, 암호 연산만을 처리하는 AES 코어와 암호 복호 연산을 처리하는 AES 코어를 병렬로 사용하여 전체적인 성능이 최적화되도록 설계되었다. 효율적인 하드웨어 구현을 위해 AES 코어 내부의 라운드 변환 블록에 하드웨어 공유기법을 적용하여 설계하였으며, 또한 하드웨어 복잡도에 가장 큰 영향을 미치는 S-box를 체 (field) 변환 방법을 적용하여 구현함으로써 LUT (Look-Up Table)로 구현하는 방식에 비해 약 25%의 게이트를 감소시켰다. Verilog-HDL로 설계된 WBSec 프로세서는 22,350 게이트로 구현되었으며, key wrap 모드에서 최소 16-Mbps의 성능과 CCM 암호 복호 모드에서 최대 213-Mbps의 성능을 가져 와이브로 시스템 보안용 하드웨어 설계에 IP 형태로 사용될 수 있다.

Gen2 리더 시스템의 개선된 충돌방지 유닛 설계 (Design of an Improved Anti-Collision Unit for an RFID Reader System Based on Gen2)

  • 심재희;이용주;이용석
    • 한국통신학회논문지
    • /
    • 제34권2A호
    • /
    • pp.177-183
    • /
    • 2009
  • 본 연구에서는 UHF 대역의 18000-6 Type C Class 1 Generation 2(이하 Gen2) 표준의 충돌방지 알고리즘을 사용하여 개선된 충돌방지 알고리즘을 제안하고 이를 토대로 충돌방지 유닛을 설계하였다. Gen2 표준은 슬롯 알로하 알고리즘 계열에서 비교적 높은 성능을 가지는 증가형 방식을 채택하여 사용하고 있으며, 이를 위해 Q 알고리즘을 제시하고 있다. 하지만 슬롯 카운터 선택 파라미터 Q에 따른 가중치 C값과 초기 $Q_{fp}$값, 태그 식별 종료시점의 세 가지 조건에 대한 정확한 정의가 되어 있지 않아, 잘못된 값 선택으로 인한 성능의 저하가 우려된다. 따라서 본 연구에서는 기존 알고리즘의 정의되지 않은 부분을 고려하여 개선된 충돌방지 알고리즘을 제안한다. 최적의 C값과 초기 $Q_{fp}$값을 적용하여 실험한 결과, 최대 식별 효율은 34.8%이었고, 식별 종료 시점 조건을 추가하였을 경우 34.7%였다. 개선된 Q 알고리즘을 이용한 충돌방지 유닛을 Verilog HDL을 사용하여 설계하였다. Synopsys 사의 Design Compiler를 이용하여 합성하였으며, TSMC $0.25{\mu}m$ 공정 표준 라이브러리를 이용하였다. 합성 결과 설계된 모듈의 게이트 수는 3,847개이며, 제안된 클럭인 19.2MHz에서의 동작을 충분히 만족하였다.

R4SDF/R4SDC Hybrid 구조를 이용한 메모리 효율적인 2k/8k FFT/IFFT 프로세서 설계 (A Design of Memory-efficient 2k/8k FFT/IFFT Processor using R4SDF/R4SDC Hybrid Structure)

  • 신경욱
    • 한국정보통신학회논문지
    • /
    • 제8권2호
    • /
    • pp.430-439
    • /
    • 2004
  • OFDM 방식의 DVB-T 수신기에서 다수 반송파의 변ㆍ복조를 수행하는 8192점/2048점 FFT/IFFT 프로세서 (CFFT8k2k)를 설계하였다. 8192점 FFT와 같이 변환 크기가 큰 경우에는 매우 큰 용량의 메모리가 필요하므로, 메모리 효율적인 설계가 중요하다. 본 논문에서는 R4SDC (Radix-4 Single-path Delay Commutator)와 R4SDF (Radix-4 Single-path Delay Feedback)를 혼합한 Hybrid 구조를 적용함으로써 R4SDC 단일 구조에 비해 약 20%의 메모리를 줄였으며, 2단계 수렴 블록 부동점 스케일링 기법을 적용함으로써 기존의 CBFP 방식에비해 약 24%의 메모리를 감소시켰다. 이와 같은 메모리 효율적인 설계를 통해, 기존 방식의 약 57%의 메모리만으로 구현되었으며, 칩 면적과 전력소모가 크게 감소되었다. CFFT8k2k 코어는 Verilog-HDL로 설계되었으며, 102,000여 개의 게이트, 292k 비트의 RAM, 그리고 39k 비트의 ROM으로 구현되었다. $0.25-{\um}m$ CMOS라이브러리로 합성된 게이트 레벨 netlst와 SDF를 이용한 타이밍 시뮬레이션 결과, 2.5-V 전원전압에서 50-MHz로 안전하게 동작함을 확인하였으며, 8192점 FFT/IFFT 연산에 164-${\mu}\textrm{s}$가 소요되어 DVB-T 사양을 만족하는 것으로 평가되었다. 설계된 CFFT8k2k 코어는 FPGA로 구현하여 정상 동작함을 확인하였으며, 8192점 FFT의 평균 SQNR은 약 60-㏈로 분석되었다.

UHD 영상을 위한 고성능 HEVC 디블록킹 필터 설계 (Hardware Design of High Performance HEVC Deblocking Filter for UHD Videos)

  • 박재하;류광기
    • 한국정보통신학회논문지
    • /
    • 제19권1호
    • /
    • pp.178-184
    • /
    • 2015
  • 본 논문에서는 UHD(Ultra High Definition) 영상을 위한 고성능 HEVC(High Efficiency Video Coding) 디블록킹 필터 하드웨어 구조를 제안한다. 제안하는 하드웨어 구조는 필터링 수행시간 단축을 위해 두 개의 필터로 구성된 4단 파이프라인 구조를 가지며 경계강도 모듈을 병렬 구조로 설계하였다. 또한 저전력 하드웨어 구조를 위해 파이프라인의 단계를 클록 게이팅으로 설계하였고, 파이프라인 과정에서 단일 포트 SRAM에 접근할 때 발생하는 해저드 문제를 해결하기 위해 분할된 메모리 구조로 설계하였다. 전처리 단계에서 단일 포트 SRAM에 데이터를 저장할 때 발생하는 지연시간을 감소하기 위해 새로운 필터링 순서를 제안하였다. 본 논문에서 제안하는 디블록킹 필터 하드웨어 구조는 Verilog HDL로 설계 하였으며, TSMC 0.18um CMOS 표준 셀 라이브러리를 이용하여 합성한 결과 22k 개의 로직 게이트로 구현되었다. 또한, 동작 주파수는 150MHz에서 UHD급 8K 해상도인 $7680{\times}4320@60fps$ 처리가 가능하고 최대 동작 주파수는 285MHz이다. 제안하는 하드웨어 구조의 기본 처리단위 당 사이클 수를 비교 분석한 결과, 처리율이 기존 구조 대비 32% 향상된 결과를 얻었다.

비선형 감마 커브를 위한 감마 라인 시스템의 비교 (Comparison among Gamma(${\gamma}$) Line Systems for Non-Linear Gamma Curve)

  • 장원우;이성목;하주영;김주현;김상준;강봉순
    • 한국정보통신학회논문지
    • /
    • 제11권2호
    • /
    • pp.265-272
    • /
    • 2007
  • 본 논문은 비선형 휘도 출력을 요구하는 영상장치 기기를 위한 감마 보정에 관한 것이다. 제안된 감마 수정 시스템은 일반적인 공식에 의해 만들어지는 비선형적 특성을 지닌 감마 커브와 제안된 알고리즘에 의해 생성되는 결과와 차이를 최소화하기 위한 시스템이다. 오차를 최소하기 위해, 제안된 시스템은 Least Squares Polynomial을 사용하였다. 이 알고리즘은 샘플간의 점들에 대해서 최적의 다항식을 계산하는 방법이다. 각각의 시스템들은 연속적인 여러 개의 방정식으로 구성되어 있으며, 정밀도를 높이기 위해서 각 구간마다 고유의 중첩 구간을 가지고 있다. 최종적으로 알고리즘을 검증하여, 시스템들은 Verilog-HDL를 사용하여 구현되었다. 본 논문에선 가장 초기적 알고리즘인, Seed Table을 이용한 기존 시스템과 이를 개선하기 위해 만들어진 제안된 감마 시스템을 비교하려고 한다. 제안된 시스템과 기존 시스템은 클럭 대기(clock latency)가 1과 2의 값을 지닌다. 그러나 에러 범위(LSB)는 $0{\sim}+36$에서 $-1{\sim}+1$으로 향상되었다. 삼성 0.35 worst case 환경에서 합성된 gate count는 2,063에서 2,564으로 증가되었으나, maximum data arrival time은 29.05[ns]에서 17.52[ns]으로 더 빨라졌다.