• 제목/요약/키워드: floating-point processor

검색결과 99건 처리시간 0.023초

MPEG-2 AAC 복호기를 위한 부동소수점유닛 설계에 관한 연구 (A Study On the Design of a Floating Point Unit for MPEG-2 AAC Decoder)

  • 구대성;김필중;김종빈
    • 대한전자공학회논문지TE
    • /
    • 제39권4호
    • /
    • pp.355-355
    • /
    • 2002
  • 본 논문에서는 디지털 오디오의 하드웨어 설계 시 가장 중요하고 고집적도를 요구하는 부동소수점 유닛을 설계하였다. 대부분의 모든 오디오 시스템이 다채널을 지원하고 고음질을 요구한다. 하드웨어로 구현한 부동소수점 연산기는 MPEG-2 AAC 복호기를 DSP로 구현 시 실시간 디코딩이 가능하도록 설계하였다. 그 이유는 오디오 분야에서 MPEG-2 AAC는 MPEG-4 이후 오디오와 상호 호환성을 갖기 때문이다. MPEG-2 AAC 디코더에서 가장 많은 연산부분을 차지하는 부동소수점유닛의 속도향상을 위하여 하드웨어로 설계하였다. FPU는 승산기와 가산기로 구성되어있다. 승산기는 Radix-4 Booth알고리즘을 사용하였고 가산기는 속도향상을 위하여 1의 보수 방식을 채택하였다. 부동소수점 형식은 지수부에 8bit 가수부에 24bit를 사용한다. IEEE 단정도 포맷과 호환되도록 설계하였으며, 연산기의 속도를 향상시키기 위하여 파이프라인 구조를 채택하였다. 모든 세부블록들은 ISO/IEC 13818-7 표준에 의거하여 구현하였다. 알고리즘 테스트는 C언어를 사용하였고, 설계는 VHDL(VHSIC Hardware Description Language)을 사용하였다. 최대동작속도는 23.2MHz이고, 안정상태의 동작속도는 약 19MHz이다.

Programmable Vertex Shader를 내장한 3차원 그래픽 지오메트리 가속기 설계 (Design of a 3D Graphics Geometry Accelerator using the Programmable Vertex Shader)

  • 하진석;정형기;김상연;이광엽
    • 대한전자공학회논문지SD
    • /
    • 제43권9호
    • /
    • pp.53-58
    • /
    • 2006
  • 버텍스 쉐이더는 fixed function T&L(Transform and Lighting) 엔진의 유연성을 향상시키고, 이전보다 다양한 3D 그래픽 효과를 표현하기 위하여 설계되었다. 본 논문의 쉐이더는 DirectX 8.1 의 Vertex Shader 1.1 과 OpenGL ARB에 기초하여 설계하였다. 버텍스 쉐이더는 벡터 연산을 위하여 4개의 ALU로 구성된다. 작은 면적의 저전력 설계를 위하여 32비트 부동소수점 데이터 형식을 24비트 데이터 형식으로 대체하였다. 버텍스 쉐이더 코어의 동작 검증을 위하여 Xilinx Virtex2 300M gate 모듈을 사용하였다. 시납시스 합성결과 TSMC 0.13um 공정에서 115MHz의 주파수로 동작가능하고, 12.5M Polygons/sec 의 연산성능을 보였다. 버텍스 쉐이더 코어의 면적은 동일 공정에서 11만 게이트를 차지한다.

모바일 그래픽스 응용을 위한 부동소수점 승산기의 설계 (Design of Floating-Point Multiplier for Mobile Graphics Application)

  • 최병윤
    • 한국정보통신학회논문지
    • /
    • 제12권3호
    • /
    • pp.547-554
    • /
    • 2008
  • 본 논문에서는 2단 파이프라인 구조의 부동 소수점 승산기 회로를 설계하였다. 부동 소수점 승산기는 3차원 그래픽 API인 OpenGL과 Direct3D를 위한 단일 정밀도 곱셈 연산을 지원하며, 포화 연산, 면적 효율적인 점착(sticky) 비트 발생기 및 플래그 프리픽스 가산기를 결합하여, 면적 효율적이며 적은 파이프라인 지연 구조를 갖는다. 설계된 회로는 $0.13{\mu}m$ CMOS 표준 셀을 사용하여 합성 한 결과 약 4-ns의 지연시 간을 갖고 있으며, 약 7,500개로 구성된다. 설계된 부동 소수점 승산기의 최대 연산 성능은 약 250 MFLOPS이므로, 3차원 모바일 그래픽 분야에 효율적으로 적용 가능하다.

모바일 멀티미디어의 효율적 처리를 위한 재구성형 병렬 프로세서의 구조 (A Reconfigurable Parallel Processor for Efficient Processing of Mobile Multimedia)

  • 유세훈;김기철;양일석;노태문
    • 대한전자공학회논문지SD
    • /
    • 제44권10호
    • /
    • pp.23-32
    • /
    • 2007
  • 본 논문에서는 3D 그래픽스(graphics), H.264/H.263/MPEG-4 같은 동영상 코덱, JPEG 혹은 JPEG2000 같은 정지영상 코덱, MP3 같은 오디오 코덱 등 다양한 멀티미디어 관련 기술을 효율적으로 구현하기 위한 재구성형 병렬 프로세서 구조가 제안된다. 제안된 구조는 메모리와 프로세서를 직접 연결하여 메모리 접근 시간과 소비전력를 감소시키고, 3D 그래픽스 처리 과정중 기하 단계의 부동소수점 연산을 지원한다. 또한 분할 SIMD(partitioned SIMD) 방식을 사용하여 하드웨어 비용을 줄이고, 명령어(instruction)의 조건부 실행(conditional execution)을 지원하여 알고리듬 개발이 용이하다.

3차원 그래픽프로세서용 특수 목적 연산장치의 하드웨어 설계 (Hardware Design of Special-Purpose Arithmetic Unit for 3-Dimensional Graphics Processor)

  • 최병윤
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2011년도 춘계학술대회
    • /
    • pp.140-142
    • /
    • 2011
  • 본 논문에서는 모바일 그래픽프로세용 특수목적 연산 회로를 설계하였다. 특수목적 연산회로(SFU)는 6개의 연산, 즉, $1/{\chi}$, $\frac{1}{{\sqrt{x}}$, $log_2x$, $2^x$, $sin(x)$, $cos(x)$를 지원한다. 특수목적 연산 회로는 높은 정밀도 조건을 만족하기 위해 IEEE 표준 부동 소수점 형식을 사용하는 2차 다항식 minimax 알고리즘을 사용하였으며, 높은 연산 성능을 위해 5-단 파이프라인 구조를 갖고 있다. 설계한 특수목적 연산회로 는 65nm 삼성 CMOS 표준셀 공정 조건에서 약 23,000개의 게이트로 구성되며, 약 400 Mhz의 동작 주파수를 가진다. 설계된 회로는 파이프라인 구조로 동작하므로 약 400 MOPS(Million Operations Per Second)의 연산 성능을 갖고 있어서, 고성능 3차원 그래픽 프로세서에 적용이 가능하다.

  • PDF

완전한 파이프라인 방식의 비순차실행 프로세서의 설계 및 모의실행 (Design and Simulation for Out-of-Order Execution Processor of a Fully Pipelined Scheme)

  • 이종복
    • 한국인터넷방송통신학회논문지
    • /
    • 제20권5호
    • /
    • pp.143-149
    • /
    • 2020
  • 현재 컴퓨터 시스템의 중앙처리장치로 멀티코어 프로세서가 주로 이용되고 있으며, 고성능의 비순차실행 프로세서를 각 코어로 채택하여 시스템의 성능을 극대화할 수 있다. 초기의 토마술로 알고리즘을 적용한 비순차실행 프로세서는 부동소수점 명령어를 목표로 하였고, 복잡한 구조를 갖는 재배열버퍼와 예약스테이션의 사용 때문에 그 실행에 여러 싸이클이 소요되었다. 그러나, 프로세서가 비순차실행을 제대로 활용하여 명령어의 처리량을 높이기 위해서는 완전한 파이프라인 방식으로 동작해야한다. 본 논문에서는 예측실행 기능이 있는 완전한 파이프라인 방식의 비순차실행 프로세서를 VHDL로 설계하고, GHDL로 검증하였다. 모의실험 결과, ARM 명령어로 구성된 프로그램에 대한 연산을 성공적으로 수행할 수 있었다.

Concurrent Support Vector Machine 프로세서 (Concurrent Support Vector Machine Processor)

  • 위재우;이종호
    • 대한전기학회논문지:시스템및제어부문D
    • /
    • 제53권8호
    • /
    • pp.578-584
    • /
    • 2004
  • The CSVM(Current Support Vector Machine) that is a digital architecture performing all phases of recognition process including kernel computing, learning, and recall of SVM(Support Vector Machine) on a chip is proposed. Concurrent operation by parallel architecture of elements generates high speed and throughput. The classification problems of bio data having high dimension are solved fast and easily using the CSVM. Quadratic programming in original SVM learning algorithm is not suitable for hardware implementation, due to its complexity and large memory consumption. Hardware-friendly SVM learning algorithms, kernel adatron and kernel perceptron, are embedded on a chip. Experiments on fixed-point algorithm having quantization error are performed and their results are compared with floating-point algorithm. CSVM implemented on FPGA chip generates fast and accurate results on high dimensional cancer data.

모바일 벡터 그래픽 프로세서용 역코사인 함수의 하드웨어 설계 (Hardware Design of Arccosine Function for Mobile Vector Graphics Processor)

  • 최병윤;이종형
    • 한국정보통신학회논문지
    • /
    • 제13권4호
    • /
    • pp.727-736
    • /
    • 2009
  • 본 논문에서는 모바일 벡터 그래픽 가속기용 역코사인 연산 회로를 설계하였다. 모바일 그래픽스 응용은 기존 데스크 톱 컴퓨터에 비해 면적, 연산 시간, 전력 소모와 정밀도 측면에서 제약이 크다. 설계한 역코사인 함수 회로는 연산시간과 정밀도 조건을 만족하기 위해 IEEE 표준 부동 소수점 데이터 형식을 사용하며, 계수 테이블을 사용하는 2차 다항식 근사 기법을 채택하였으며, 하드웨어 공유 기법을 통해 면적을 감소시켰다. 역코사인 회로는 약 15,280개의 게이트로 구성되며, $0.35{\mu}m$ CMOS 공정 조건에서 약 125 Mhz의 동작 주파수를 가진다. 7개의 클록 사이클에 역코사인 함수를 구현하므로, 설계된 회로는 약 17.85 MOPS의 연산 성능을 갖고 있어서 OpenVG 프로세서에 적용이 가능하다. 또한 융통성 있는 구조 특성으로 설계된 회로는 ROM 내용의 교체와 속규모의 하드웨어 변경을 통해 지수함수, 삼각함수, 로그 함수와 같은 다른 초월함수에 적용이 가능하다.

벡터화된 SIMD 프로그램어블 통합 셰이더를 위한 특수 함수 유닛 설계 (Design of Special Function Unit for Vectorized SIMD Programmable Unified Shader)

  • 정진하;김경섭;윤정희;서장원;최상방
    • 대한전자공학회논문지SD
    • /
    • 제47권5호
    • /
    • pp.56-70
    • /
    • 2010
  • 현실감 있는 3차원 그래픽 영상을 지원하기 위해서는 3차원의 그래픽 데이터를 기반으로 사실감을 부여하여 2차원 영상을 생성하는 렌더링 기술과 방대한 양의 데이터에 대해 복잡한 연산을 효율적으로 처리할 수 있는 고성능 그래픽 프로세서가 요구된다. 이로 인해 그래픽 하드웨어는 급속히 발전하였고 기존에 실시간 처리가 불가능했던 여러 고급 렌더링 효과들을 가능하게 하고 있다. 과거에 비해 셰이딩 기술이 발전하면서 사실적인 영상의 렌더링이 가능하게 되었으나 아직 많은 계산 시간을 필요로 하고 있다. 실사와 같은 영상을 빠르게 처리하기 위해서 그래픽 프로세서는 많은 데이터에 대해 복잡한 부동소수점 연산을 효율적으로 처리 할 수 있도록 다수의 연산유닛이 집적되는 방향으로 발전하고 있다. 본 논문에서는 프로그램어블 통합 셰이더 프로세서에서 고성능 3차원 컴퓨터 그래픽 영상을 지원하기 위해 특수 함수 유닛을 설계하고 구현하였다. 설계한 특수 함수 유닛에 대해 기능적 레벨의 시뮬레이션을 하여 동작을 검증 하였으며, FPGA Virtex-4(xc4vlx200)에 구현하여 하드웨어 리소스 사용율과 동작속도를 확인 하였다.

TMS320C6201을 이용한 MPEG-1 Layer III 오디오 디코더의 실시간 구현 (Real-Time Implementation of MPEG-1 Layer III Audio Decoder Using TMS320C6201)

  • 권홍석;김시호;배건성
    • 한국통신학회논문지
    • /
    • 제25권8B호
    • /
    • pp.1460-1468
    • /
    • 2000
  • 본 논문에서는 고정소수점 DSP인 TMS320C6201을 이용하여 MPEG-1 Layer III 오디오 디코더를 실시간으로 동작하도록 구현하였다 음질의 손실 없이 부동소수점 연산을 고정소수점 연산으로 변환하였으며 적은 메모리를 사용하여 동작하도록 소스프로그램을 최적화하였다 특히 연산의 정확성을 위해서 Descaling 모듈에서 중점적으로 부동소수점 연산을 고정소수점 연산으로 변환하여UT고 연산량과 프로그램 크기를 줄이기 위해서 IMDCT 모듈과 Synthesis Polyphase Filter Bank 모듈에 대해서 최적화 작업을 수행하였다 그 결과 구현된 디코더는 TMS320C6201 DSP가 수행할 수 있는 최대 연산량의 26% 만으로 실시간 동작이 가능하여UT으며 사용된 프로그램 ROM의 크기는 3.13 kWord 데이터 RAM의 크기는 9.94 kWord 이었다 부동소수점 프로그램의 최종 출력 PCM값과 구현된 고정소수점 연산의 최종 출력 PCM값을 비교하여 60 dB 이상의 높은 SNR를 가짐을 확인함으로써 고정소수점 연산의 정확성을 검증하였다. 또한 EVM 보드에서 사운드 입출력과 호스트(PC) 통신을 이용하여 실시간으로 동작함을 확인하였다.

  • PDF