• 제목/요약/키워드: 부동소수점 연산

검색결과 132건 처리시간 0.03초

3차원 그래픽을 위한 Geometry 프로세서의 설계 (The Design of Geometry Processor for 3D Graphics)

  • 정철호;박우찬;김신덕;한탁돈
    • 한국정보처리학회논문지
    • /
    • 제7권1호
    • /
    • pp.252-265
    • /
    • 2000
  • 본 논문에서는 3차원 그래픽의 처리 과정 중 부동 소수점 연산이 많은 소요되는 geometry 프로세싱 처리 방법과 계산량을 단계별로 분석하였다. 그리고, 그래픽 프로세싱의 수행 특성을 추출하여, 이에 맞는 기능 유닛을 설계하고, 데이터 처리 방안과 제안하는 geometry 프로세서의 구조를 설명한 다음, 성능을 분석하였다. 제안하는 geometry 프로세서는 부동 소수점 덧셈, 곱셈, 나눗셈 연산을 동시에 수행 가능하며, geometry 프로세싱 전 단계를 수행하는데 23.5%의 성능 향상이 있었다. 그리고, 나눗셈/제곱근 연산을 위해서 면적대 성능비가 우수한 SRT 나눗셈 연산기를 추가하여 곱셈 연산기를 이용하는 연산기보다 약 23%의 성능 향상을 이루었다.

  • PDF

가변 시간 뉴톤-랍손 부동소수점 역수 계산기 (A Variable Latency Newton-Raphson's Floating Point Number Reciprocal Computation)

  • 김성기;조경연
    • 정보처리학회논문지A
    • /
    • 제12A권2호
    • /
    • pp.95-102
    • /
    • 2005
  • 부동소수점 나눗셈에서 많이 사용하는 뉴톤-랍손 부동소수점 역수 알고리즘은 일정한 횟수의 곱셈을 반복하여 역수를 계산한다. 본 논문에서는 오차가 정해진 값보다 작아질 때까지 곱셈을 반복해서 역수를 계산하는 가변 시간 뉴톤-랍손 부동소수점 역수 알고리즘을 제안한다. 'F'의 역수 계산은 초기값 $'X_0=\frac{1}{F}{\pm}e_0'$에 대하여, $'X_{i+1}=X=X_i*(2-e_r-F*X_i),\;i\in\{0,\;1,\;2,...n-1\}'$을 반복한다. 중간 곱셈 견과는 소수점 이하 p비트 미만을 절삭하며, 절삭 오차는 $'e_r=2^{-p}'$보다 작다. p는 단정도실수에서 27, 배정도실수에서 57이다. $'X_i=\frac{1}{F}+e_i{'}$라 하면 $'X_{i+1}=\frac{1}{F}-e_{i+1},\;e_{i+1}이 된다. $'\mid(2-e_r-F*X_i)-1\mid<2^{\frac{-p+2}{2}}{'}이면, $'e_{i+1}<4e_r{'}$이 부동산소수점으로 표현 가능한 최소값보다 작이지며, $'X_{i+1}\fallingdotseq\frac{1}{F}'$이다. 본 논문에서 제안한 알고리즘은 입력 값에 따라서 곱셈 횟수가 다르므로, 평균 곱셈 횟수를 계산하는 방식을 유도하고, 여러 크기의 근사 역수 테이블$(X_0=\frac{1}{F}{\pm}e_0)$에서 단정도실수 및 배정도실수의 역수 계산에 필요한 평균 곱셈 횟수를 계산한다. 이들 평균 곱셈 횟수를 종래 알고리즘과 비교하여 본 논문에서 제안한 알고리즘의 우수성을 증명한다. 본 논문에서 제안한 알고리즘은 오차가 일정한 값보다 작아질 때까지만 반복 연산을 수행하므로 역수 계산기의 성능을 높일 수 있다. 또한 최적의 근사 역수 테이블을 구성할 수 있다. 본 논문의 연구 결과는 디지털 신호처리, 컴퓨터 그라픽스, 멀티미디어, 과학 기술 연산 등 부동소수점 계산기가 사용되는 분야에서 폭 넓게 사용될 수 있다.

MPEG 심리음향 모델-ll 알고리듬의 ASIC 구현을 위한 고정 소수점 연산 최적화 (Fixed-point Processing Optimization of MPEG Psychoacoustic Model-II Algorithm for ASIC Implementation)

  • 이근섭;박영철;윤대희
    • 한국통신학회논문지
    • /
    • 제29권11C호
    • /
    • pp.1491-1497
    • /
    • 2004
  • 구현하기 위하여 고정 소수점 연산기에 적합하도록 최적화를 수행하였다. 최적화 과정은 크게 부호화기의 음질을 고려하여 프로세서의 데이터 워드 길이를 결정하는 과정과 자주 사용되는 초월 함수를 고정 소수점 연산을 통해 구현하는 것으로 구성된다. 데이터 워드 길이를 결정하기 위하여 심리음향 모델 과정의 고정 소수점 연산 오차와 이 오차가 비트 할당 과정에 영향을 미칠 확률 사이의 관계를 통계적 모델로 정의하였다. 여기서 정의된 모델을 사용하여 고정 소수점 연산 오차에 의한 영향이 1% 이내가 되도록 24비트의 데이터 워드를 선택하였다. 최적화된 고정 소수점 심리음향 모델을 사용한 MP3 부호화기의 음질은 부동 소수점 부호화기에 비해 W-R의 음질평가 점수를 기준으로 평균 -0.2 이내의 구분하기 힘든 수준의 음질 저하를 보였다

부동 소수점 DSP를 이용한 4kbps EHSX 음성 부호화기의 실시간 구현 (Real-Time Implementation of the EHSX Speech Coder Using a Floating Point DSP)

  • 이인성;박동원;김정호
    • 한국음향학회지
    • /
    • 제23권5호
    • /
    • pp.420-427
    • /
    • 2004
  • 본 논문에서는 선형예측 잔여신호에 대한 하모닉 벡터 여기 코딩과 시간 대역 분리 혼합 코딩을 결합한 4kbps EHSX (Enhanced Harmonic Stochastic Excitation) 음성부호화기 실시간 구현한 내용을 기술한다. 유성음 구간에서는 하모닉 여기 코딩에 무성음 구간에 대해서는 분석-합성 구조의 벡터 여기 코딩을 사용하였으며, 유/무성음이 혼재하는 전이구간에서는 시간 분리 전이 코딩을 사용하였다. 이 음성부호화기 구현을 위해 부동소수점과 고정소수점을 모두 지원하는 DSP인 TMS320C6701을 사용하였고, 연산량을 줄이기 위해 IFFT를 사용한 저 복잡도 정현파 합성법을 사용하여 알고리즘의 최적화를 이루었으며, 복잡도의 문제가 되는 부분을 고정소수점으로 변환한 후 파이프라인을 적용한 핸드 어셈블리 코딩을 하여 구현에서의 최적화를 이루었다. 또한, 메모리의 효율성을 극대화하기 위해 캐쉬 메모리 할당과 데이터를 내부 메모리에 할당하였고 수학 연산의 최적화를 위해 FastRTS67x 라이브러리를 사용하였다. 개발 환경은 DSP EVM 보드를 사용하였으며 음성 신호의 입·출력 확인으로 동작 및 기능을 검증하여 실시간 구현하였다.

가변 시간 뉴톤-랍손 부동소수점 역수 제곱근 계산기 (A Variable Latency Newton-Raphson's Floating Point Number Reciprocal Square Root Computation)

  • 김성기;조경연
    • 정보처리학회논문지A
    • /
    • 제12A권5호
    • /
    • pp.413-420
    • /
    • 2005
  • 부동소수점 제곱근 계산에 많이 사용하는 뉴톤-랍손 부동소수점 역수 제곱근 알고리즘은 일정한 횟수의 곱셈을 반복하여 역수 제곱근을 계산한다. 본 논문에서는 뉴톤-랍손 역수 제곱근 알고리즘의 반복 과정의 오차를 예측하여 오차가 정해진 값보다 작아지는 시점까지 반복 연산하는 알고리즘을 제안한다. `F`의 역수 제곱근 계산은 초기값 '$X_0={\frac{1}{\sqrt{F}}}{\pm}e_0$'에 대하여, '$X_{i+1}=\frac{{X_i}(3-e_r-{FX_i}^2)}{2}$, $i\in{0,1,2,{\ldots}n-1}$'을 반복한다. 중간 곱셈 결과는 소수점 이하 p 비트 미만을 절삭하며, 절삭 오차는 '$e_r=2^{-p}$' 보다 작다. p는 단정도실수에서 28, 배정도실수에서 58이다. '$X_i={\frac{1}{\sqrt{F}}}{\pm}e_i$'라고 하면 '$X_{i+1}={\frac{1}{\sqrt{F}}}-e_{i+1}$, $e_{i+1}{<}{\frac{3{\sqrt{F}}{{e_i}^2}}{2}}{\mp}{\frac{{Fe_i}^3}{2}}+2e_r$이 된다. '$|{\frac{\sqrt{3-e_r-{FX_i}^2}}{2}}-1|<2^{\frac{\sqrt{-p}{2}}}$'이면,'$e_{i+1}<8e_r$이 부동소수점으로 표현 가능한 최소값보다 작아지며, '$X_{i+1}\fallingdotseq{\frac{1}{\sqrt{F}}}$'이다. 본 논문에서 제안한 알고리즘은 입력 값에 따라서 곱셈 횟수가 다르므로, 평균 곱셈 횟수를 계산하는 방식을 도출하고, 여러 크기의 근사 역수 제곱근 테이블($X_0={\frac{1}{\sqrt{F}}}{\pm}e_0$)에서 단정도실수 및 배정도실수의 역수 제곱근 계산에 필요한 평균 곱셈 횟수를 계산한다 이들 평균 곱셈 횟수를 종래 알고리즘과 비교하여 본 논문에서 제안한 알고리즘의 우수성을 증명한다. 본 논문에서 제안한 알고리즘은 오차가 일정한 값보다 작아질 때까지만 반복하므로 역수 제곱근 계산기의 성능을 높일 수 있다. 또한 최적의 근사 역수 제곱근 테이블을 구성할 수 있다. 본 논문의 연구 결과는 디지털 신호처리, 컴퓨터 그라픽스, 멀티미디어, 과학 기술 연산 등 부동소수점 계산기가 사용되는 분야에서 폭 넓게 사용될 수 있다.

PC, FPGA와의 성능 비교 분석을 통한 QEMU의 개선방안 연구 (A Study on The Improving Effectiveness of QEMU Based on The Comparative Performance Analysis of PC and FPGA)

  • 최병준;서태원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 추계학술발표대회
    • /
    • pp.4-7
    • /
    • 2016
  • 본 연구에서는 대표적인 오픈소스 virtual platform인 QEMU와 PC, FPGA에 다양한 운영체제(Windows, Linux, Android, ${\mu}C$/OS-II)를 포팅하고 벤치마크 프로그램을 수행함으로써 성능을 비교 분석하였다. 실험 결과 부동소수점 연산의 성능이 상대적으로 낮게 측정되었으며 이를 토대로 성능 취약점을 분석하고 QEMU를 개선하기 위한 방안을 연구하였다.

NIST PQC Round 3 FALCON 전자서명 알고리즘의 전력 분석 취약점 연구

  • 김규상;박동준;홍석희
    • 정보보호학회지
    • /
    • 제31권1호
    • /
    • pp.57-64
    • /
    • 2021
  • 기존의 공개키 암호가 양자 알고리즘에 취약함이 밝혀지고 양자컴퓨터의 개발이 현실화됨에 따라 NIST는 미연방표준 양자 내성 암호 공모전을 실시하고 있다. FALCON은 공모전 Round 3까지 통과한 전자서명 알고리즘으로 서명 및 검증 속도가 빠르고 공개키 및 서명 길이가 짧다는 장점이 있다. 하지만 FALCON은 부동소수점 연산 등 특별한 구조로 설계되어 새로운 형태의 부채널 공격이 존재할 수 있다. 본 논문에서는 FALCON에 대한 세 가지 전력 분석 공격의 가능성을 제시한다. 또한 주어진 공격을 활용하여 개인키를 복원하는 방안에 대해서 제시한다.

내장형 3D 그래픽 가속을 위한 부동소수점 Geometry 프로세서 설계 (A Design of Floating-Point Geometry Processor for Embedded 3D Graphics Acceleration)

  • 남기훈;하진석;곽재창;이광엽
    • 대한전자공학회논문지SD
    • /
    • 제43권2호
    • /
    • pp.24-33
    • /
    • 2006
  • 본 논문에서는 휴대용 정보기기 시스템에서 더욱 향상된 실시간 3D 그래픽 가속 능력을 갖는 SoC 구현을 위해 효과적인 3D 그래픽 Geometry 처리 IP 구조를 연구하였다. 이를 기반으로 3D 그래픽 Geometry 처리 과정에 필요한 부동소수점 연산기를 설계하였으며, 내장형 3D 그래픽 국제 표준인 OpenGL-ES를 지원하는 부동소수점 Geometry 프로세서를 설계하였다. 설계된 Geometry 프로세서는 Xilinx-Vertex2 FPGA에서 160k gate의 면적으로 구현되었으며, 80 MHz의 동작주파수 환경에서 실제 3D 그래픽 데이터를 이용하여 Geometry 처리 과정의 성능 측정 실험을 하였다. 실험 결과 80 MHz의 동작주파수에서 초당 1.5M 개의 폴리곤 처리 성능이 확인되었으며, 이는 타 3D 그래픽 가속 프로세서에 비하여 평균 2배 이상의 Geometry 처리 성능이다. 본 지오메트리 프로세서는 Hynix 0.25um CMOS 공정에 의한 측정결과 83.6mW의 소모전력을 나타낸다.

온 디바이스 국방 AI를 위한 PEFT 효용성 연구 (Research on PEFT Feasibility for On-Device Military AI)

  • 배기민;이학진;김세옥;이장형
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2024년도 제69차 동계학술대회논문집 32권1호
    • /
    • pp.51-54
    • /
    • 2024
  • 본 논문에서는 온 디바이스 국방 AI를 위한 효율적인 학습 방법을 제안한다. 제안하는 방법은 모델 전체를 재학습하는 대신 필요한 부분만 세밀하게 조정하여 계산 비용과 시간을 대폭 줄이는 PEFT 기법의 LoRa를 적용하였다. LoRa는 기존의 신경망 가중치를 직접 수정하지 않고 추가적인 낮은 랭크의 매트릭스를 학습하는 방식으로 기존 모델의 구조를 크게 변경하지 않으면서도, 효율적으로 새로운 작업에 적응할 수 있다. 또한 학습 파라미터 및 연산 입출력에 데이터에 대하여 32비트의 부동소수점(FP32) 대신 부동소수점(FP16, FP8) 또는 정수형(INT8)을 활용하는 경량화 기법인 양자화도 적용하였다. 적용 결과 학습시 요구되는 GPU의 사용량이 32GB에서 5.7GB로 82.19% 감소함을 확인하였다. 동일한 조건에서 동일한 데이터로 모델의 성능을 평가한 결과 동일 학습 횟수에선 LoRa와 양자화가 적용된 모델의 오류가 기본 모델보다 53.34% 증가함을 확인하였다. 모델 성능의 감소를 줄이기 위해서는 학습 횟수를 더 증가시킨 결과 오류 증가율이 29.29%로 동일 학습 횟수보다 더 줄어듬을 확인하였다.

  • PDF

ANSI/IEEE Std. 754-1985에 의거한 부동소수점 연산기의 동작원리에 관한 연구 (A Study on the Behavior of Floating-Point Unit Conforming the ANSI/IEEE Std. 754-1985)

  • 김광욱;정태상
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1999년도 추계학술대회 논문집 학회본부 B
    • /
    • pp.788-790
    • /
    • 1999
  • A software implementation of floating-point addition and multiplication is presented. For this, the ANSI/IEEE standard for binary floating-point arithmetic is reviewed briefly. The architecture and behavior of the $Intel^{(R)}\;80{\times}87$ FPU is fully studied and basic algorithms for floating-point addition and multiplication are used for the implementation. Some examples and their verifications are also presented.

  • PDF