• 제목/요약/키워드: 하드웨어구조

검색결과 1,786건 처리시간 0.026초

데이터 압축을 이용한 고성능 NoC 구조 (A High Performance NoC Architecture Using Data Compression)

  • 김홍식;김현진;홍원기;강성호
    • 대한임베디드공학회논문지
    • /
    • 제5권1호
    • /
    • pp.1-6
    • /
    • 2010
  • 본 논문에서는 네트워크 온 칩(NoC: network on chip) 구조에서의 내부 데이터 통신의 성능을 최적화 할 수 있는 새로운 온 칩 네트워크 인터페이스 구조를 제안하였다. 제안하는 NoC 구조는 기본적으로 하드웨어 면적을 줄이기 위하여 XY 라우팅 알고리듬을 기반으로 구현되었으며, 전달되는 패킷의 크기 또는 플릿의 개수를 최소화하기 위하여 Golomb-Rice 인코딩/디코딩 알고리듬에 기반을 둔 하드웨어 압축기/해제기를 이용하여 통신되는 데이터의 양을 크게 줄임으로써 네트워크 지연시간을 최소화 할 수 있는 새로운 구조를 제안하였다. 즉 전송될 데이터는 전송자(sender)의 네트워크 인터페이스에서 내장된 하드웨어 인코더를 통해 압축된 형태로 패킷의 개수를 최소화하여 온 칩 네트워크상의 데이터를 업로드하게 된다. 이러한 압축된 데이터가 리시버(receiver)에 도착하면, 하드웨어 디코더를 통해서 원래의 데이터로 복원된다. 사이클 수준의 시뮬레이터를 통하여 제안된 라우터 구조가 온 칩 시스템의 네트워크 지연시간을 크게 줄일 수 있음을 증명하였다.

스테레오 정합을 위한 고성능 하드웨어 구조 (High-Performance Hardware Architecture for Stereo Matching)

  • 서영호;김우열;이윤혁;구자명;김보라;김윤주;안호명;최현준;김동욱
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2013년도 춘계학술대회
    • /
    • pp.635-637
    • /
    • 2013
  • 본 논문에서는 실시간으로 스테레오 정합을 수행하기 위한 하드웨어 구조를 제안한다. 스테레오 정합의 연산을 분석하여 중간 연산 결과를 재사용하여 연산량과 메모리 접근수를 최소화한다. 이러한 동작을 수행할 수 있는 스테레오 정합 연산 셀의 구조를 병렬적으로 확장하여 탐색 범위 내의 모든 비용함수를 동시에 연산할 수 있는 하드웨어의 구조를 제안한다. 이러한 하드웨어 구조를 확장하여 2차원 영역에 대한 비용함수를 연산할 수 있는 하드웨어의 구조와 동작을 제안한다. 구현한 하드웨어는 FPGA 환경에서 최소 250Mhz의 클록 주파수에서 동작이 가능하고, 64화소의 탐색범위를 적용한 경우에 $640{\times}480$ 스테레오 영상을 약 813fps의 성능으로 처리할 수 있다.

  • PDF

보정 이미지의 최 근접 좌표를 이용한 실시간 방사 왜곡 보정 하드웨어 설계 (A Hardware Design for Realtime Correction of a Barrel Distortion Using the Nearest Pixels on a Corrected Image)

  • 송남훈;이준환
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권12호
    • /
    • pp.49-60
    • /
    • 2012
  • 본 논문은 보정 이미지에서 최 근접 좌표를 이용한 방사 왜곡 보정 하드웨어 구조를 제안한다. 기존 보간법과는 달리 보정 이미지에서 최근접한 좌표의 거리를 이용하기 때문에 이미지 전체 영역의 화질 향상과 함께 외각영역에서 발생하는 계단 현상을 해결할 수 있다. 그러나 양 선형 보간법을 적용한 기존 구조에서 추가되는 연산으로 인해 하드웨어 크기가 증가한다. 이를 해결하기 위해 룩 업 테이블 구조를 제안하고, 코르딕 알고리즘을 적용한다. Design compiler를 이용하여 합성한 결과 보간법의 모든 과정을 하드웨어로 구현한 구조는 기존 구조에 비해 처리량이 높고, 차량용 후방 카메라의 경우 룩 업 테이블과 하드웨어를 함께 사용한 구조는 모든 과정을 하드웨어로 구현한 구조보다 하드웨어 크기를 10% 줄일 수 있다.

비터비 복호 알고리즘 처리를 위한 DSP 명령어 및 하드웨어 회로 (New DSP Instructions and their Hardware Architecture for the Viterbi Decoding Algorithm)

  • 이재성;선우명훈
    • 대한전자공학회논문지SD
    • /
    • 제39권11호
    • /
    • pp.53-61
    • /
    • 2002
  • 본 논문은 비터비 복호(Decoding)를 DSP(Digital Signal Processor)에서 효율적이고 빠르게 구현 할 수 있는 명령어 집합 및 하드웨어 회로를 제안한다. 제안하는 하드웨어 구조는 기존의 DSP 칩에 비터비 복호 알고리즘의 연산 구조에 효율적인 명령어 및 이에 가장 적합한 연산 유닛의 배열과 데이터 패스 구조를 추가하여 비터비 복호뿐만 아니라 일반 신호 처리 알고리즘들을 구현 할 수 있다. 기존의 DSP 칩이 수십 Kbps 대의 전송률에서 비터비 복호를 수행하는 반면 본 구조는 100MHz 동작 주파수를 갖는 DSP 칩에서 6.25 Mbps의 전송률의 비터비 복호를 수행할 수 있어 전용 비터비 프로세서에 근접한 성능을 갖는다. 따라서 본 구조는 IMT-2000의 요구 전송률인 2Mbps 환경에서도 사용 가능하다.

고속 FFT 연산을 위한 새로운 DSP 명령어 및 하드웨어 구조 설계 (Design of New DSP Instructions and Their Hardware Architecture for High-Speed FFT)

  • 이재성;선우명훈
    • 대한전자공학회논문지SD
    • /
    • 제39권11호
    • /
    • pp.62-71
    • /
    • 2002
  • 본 논문은 고속의 FFT 연산을 위한 DSP(Digital Signal Processor) 명령어와 그 하드웨어 구조를 제안한다. 제안된 명령어는 MAC 연산에 의존하는 기존의 DSP 칩과는 다른 새로운 연산 과정을 수행한다. 본 논문은 새로운 명령어의 원활한 수행을 위한 데이터 연산 유닛(Data Processing Unit : DPU)의 하드웨어 구조를 제안한다. 제안된 명령어 및 하드웨어 구조는 기존의 DSP 칩과 비교하여 FFT 연산 속도가 2배 향상되었다. 제안된 구조는 Verilog HDL을 사용하여 설계되었으며 0.35 ${\mu}m$ 표준 셀 라이브러리를 사용하여 수행되었다. 분석 결과 최대 동작 주파수는 약 144.5 MHz이다.

고성능 HEVC 복호기를 위한 화면내 예측기의 효율적인 하드웨어 설계 (An Efficient Hardware Design of Intra Predictor for High Performance HEVC Decoder)

  • 정홍균;강석민;류광기
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.668-671
    • /
    • 2012
  • 본 논문에서는 차세대 비디오 압축 표준인 HEVC(High Efficiency Video Coding) 복호기의 연산량과 하드웨어 면적을 감소시키기 위하여 화면내 예측 하드웨어 구조를 제안한다. 제안하는 하드웨어 구조는 공통 수식에 대한 연산을 공유하는 공유 연산기를 사용하여 연산량 및 연산기 개수를 감소시키고, $4{\times}4$ PU와 $64{\times}64$ PU의 필터링 수행 여부에 대한 연산을 수행하지 않고 나머지 PU에 대해서는 LUT를 이용하여 연산을 수행하기 때문에 연산량 및 연산 시간을 감소시킨다. 또한 하나의 공통 연산기만을 사용하여 예측 픽셀을 생성하기 때문에 하드웨어 면적이 감소한다. 제안하는 구조를 TSMC 0.18um 공정을 이용하여 합성한 결과 최대 동작 주파수는 100MHz이고, 게이트 수는 140,697이다. $4{\times}4$ PU를 기준으로 제안하는 구조의 처리 사이클 수는 11 사이클로 기존 구조 대비 54% 감소하였고, 16개 참조 픽셀의 필터링 처리를 기준으로 제안하는 구조의 덧셈 연산기 개수는 37개로 표준 draft 6에 비해 22.9% 감소하였다.

실시간 상황 인식을 위한 하드웨어 룰-베이스 시스템의 구조 (Real -Time Rule-Based System Architecture for Context-Aware Computing)

  • 이승욱;김종태;손봉기;이건명;조준동;이지형;전재욱
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2004년도 춘계학술대회 학술발표 논문집 제14권 제1호
    • /
    • pp.17-21
    • /
    • 2004
  • 본 논문에서는 실시간으로 상수 및 변수의 병렬 매칭이 가능한 새로운 구조의 하드웨어 기반 룰-베이스시스템 구조를 제안한다. 이 시스템은 context-aware computing 시스템에서 상황 인식을 위한 기법으로 적용될 수 있다. 제안된 구조는 기존의 하드웨어 기반의 구조가 가지는 룰의 표현 및 룰의 구성에서 발생하는 제약을 상당히 감소시킬 수 있다. 이를 위해 변형된 형태의 content addressable memory(CAM)와 crossbar switch network(CSN)가 사용되었다. 변형된 형태의 CAM으로 구성된 지식-베이스는 동적으로 데이터의 추가 및 삭제가 가능하다. 또한 CSN은 input buffer와 working memory(WM) 사이에 위치하여, 시스템 외부 및 내부에서 동적으로 생성되거나, 시스템 설정에 의해 지정된 데이터들의 조합 및 pre-processing module(PPM)을 이용한 연산을 통하여 WM을 구성하는 데이터를 생성시킨다. 이 하드웨어 룰-베이스 시스템은 SystemC 2.0을 이용하여 설계하였으며 시뮬레이션을 통하여 그 동작을 검증하였다.

  • PDF

H.264/AVC를 위한 블록현상 제거필터의 병렬 하드웨어 구조 (A Parallel Hardware Architecture for H.264/AVC Deblocking Filter)

  • 정용진;김현집
    • 대한전자공학회논문지SD
    • /
    • 제43권10호
    • /
    • pp.45-53
    • /
    • 2006
  • 본 논문에서는, H.264/AVC의 블록현상 제거필터의 병렬 하드웨어 구조를 제안한다. 블록현상 제거필터는 H.264/AVC에 있어서 고화질을 보장해주고 있지만, 높은 연산량을 필요로 하기 때문에 임베디드 환경에서는 하드웨어 구현이 필수적이다. 본 논문에서는 실시간 영상 처리를 위해 2개의 1-D 필터를 적용하고, Dual-port SRAM을 사용한 병렬 하드웨어 구조를 적용하였다. 구현된 하드웨어 구조는 Verilog-HDL로 나타내고 Synopsys Design Compiler와 Hynix 0.25um CMOS Cell Library를 이용하여 합성하였다. 구현된 크기는 27.3k의 하드웨어 로직 리소스를 사용하고(내부 SRAM 제외) 최대 동작 주파수는 약 100Mhz가 되었다. 제안한 병렬 구조는 하나의 매크로블록을 처리하는데 258클록이 소요되며, 이는 HD 1080P(1920화소${\times}$1080화소) 의 영상을 초당 47.8프레임으로 처리가 가능함을 말한다. 이는 하드웨어 기반의 H.264/AVC 실시간 부/복호화 시스템에 적합한 구조임을 보여준다.

HEVC 부호기를 위한 효율적인 SAO의 저면적 하드웨어 설계 (Low Area Hardware Design of Efficient SAO for HEVC Encoder)

  • 조현표;류광기
    • 한국정보통신학회논문지
    • /
    • 제19권1호
    • /
    • pp.169-177
    • /
    • 2015
  • 본 논문에서는 HEVC(High Efficiency Video Coding) 부호기를 위한 효율적인 SAO(Sample Adaptive Offset)의 저면적 하드웨어 구조를 제안한다. SAO는 HEVC 영상 압축 표준에서 채택된 새로운 루프 내 필터 기술로서 최적의 오프셋 값들을 화소 단위로 적용하여 영역 내 평균 화소 왜곡을 감소시킨다. 하지만 표준 SAO는 화소 단위 연산을 수행하기 때문에 초고해상도 영상을 처리하기 위해서 많은 연산시간과 연산량을 요구한다. 제안하는 SAO 하드웨어 구조는 SAO의 연산시간을 감소시키기 위해서 한번에 4개의 입력 화소들을 병렬적으로 처리하며, 2단계 파이프라인 구조를 갖는다. 또한 하드웨어 면적을 최소화하기 위해서 휘도 성분과 색차 성분에 대해 단일 구조를 가지며, 하드웨어에 적합한 연산기 및 공통 연산기를 사용한다. 제안하는 SAO 하드웨어 구조는 Verilog HDL로 설계하였으며, TSMC $0.13{\mu}m$ CMOS 표준 셀 라이브러리로 합성한 결과 약 190k개의 게이트로 구현되었다. 제안하는 SAO 하드웨어 구조는 200MHz의 동작주파수에서 4K UHD@60fps 영상의 실시간 처리가 가능하며, 최대 250MHz까지 동작 가능하다.

Lifting scheme을 이용한 고속 병렬 2D-DWT 하드웨어 구조 (A High Speed 2D-DWT Parallel Hardware Architecture Using the Lifting Scheme)

  • 김종욱;정정화
    • 대한전자공학회논문지SD
    • /
    • 제40권7호
    • /
    • pp.518-525
    • /
    • 2003
  • 본 논문은 리프팅 스킴(lifting scheme)의 분할 방법을 개선하여 고속 병렬 처리가 가능한 2차원 DWT(Discrete Wavelet Transform) 하드웨어 구조를 제안한다. 2차원 DWT 변환은 2차원 입력 데이터 전체에 대하여 연산이 수행되고 순차적으로 2차원 처리가 됨에 따라서 초기 및 전체 지연시간(latency)이 많이 걸린다. 본 논문에서는 처리속도와 지연 시간을 향상시키기 위해 개선된 분할 방법과 새로운 자원 공유 하드웨어 구조를 제안한다. 상호 연관성이 없는 데이터들을 4 개의 데이터 집합으로 분할하여 병렬 처리에 적합하도록 새로운 분할 방법을 제안하였다. 병렬처리 하드웨어 구조는 하드웨어의 자원 공유가 가능하도록 하기 위해 필터연산의 중간 값을 메모리에 저장할 수 있는 파이프라인 구조를 갖도록 설계하였다. 제안된 구조를 효율적으로 동작시킬 수 있도록 하드웨어 자원의 공유를 스케쥴링하여 초기지연과 전체지연 시간을 줄였다. 제안하는 구조는 기존의 병렬 처리 구조에 비해 초기 지연 및 전체 지연 시간을 각각 50%와 66%감소시키는 결과를 얻을 수 있었다.