통합 검색 | Korea Science

개선된 뉴톤-랍손 역수 및 역제곱근 알고리즘 (An Improved Newton-Raphson's Reciprocal and Inverse Square Root Algorithm)

조경연
- 한국정보통신학회논문지
- /
- 제11권1호
- /
- pp.46-55
- /
- 2007
다음은 부동소수점 역수 및 역제곱근 계산에 많이 사용하는 뉴톤-랍손 알고리즘은 일정한 횟수의 곱셈을 반복하여 계산한다. 본 논문에서는 뉴톤-랍손 알고리즘의 반복 과정의 오차를 예측하여 오차가 정해진 값보다 작아지는 시점까지 반복 연산하는 개선된 뉴톤-랍손 알고리즘을 제안한다. 본 논문에서 제안한 알고리즘은 입력 값에 따라서 곱셈 횟수가 다르므로, 평균 곱셈 횟수를 계산하는 방식을 유도하고, 여러 크기의 근사 테이블에서 단정도실수 및 배정도실수의 역수 및 역제곱근 계산에 필요한 평균 곱셈 횟수를 산출한다. 이들 평균 곱셈 횟수를 종래 알고리즘과 비교하여 본 논문에서 제안한 알고리즘의 우수성을 증명한다. 본 논문에서 제안한 알고리즘은 오차가 일정한 값보다 작아질 때까지만 반복 연산을 수행하므로 역수 및 역제곱근 계산기의 성능을 높일 수 있고 최적의 근사 테이블을 구성할 수 있다. 본 논문의 연구 결과는 디지털 신호처리, 컴퓨터 그라픽스, 멀티미디어, 과학 기술 연산 등 부동소수점 계산기가 사용되는 분야에서 폭 넓게 사용될 수 있다.
https://doi.org/10.6109/JKIICE.2007.11.1.46 인용 PDF KSCI

모바일 그래픽 응용을 위한 파이프라인 구조 특수 목적 연산회로의 하드웨어 설계 (Hardware Design of Pipelined Special Function Arithmetic Unit for Mobile Graphics Application)

최병윤
- 한국정보통신학회논문지
- /
- 제17권8호
- /
- pp.1891-1898
- /
- 2013
3차원 그래픽 API인 OpenGL과 Direct3D를 효율적으로 처리하기 위해 sine, cosine, 역수, 역제곱근, 지수 및 로그 연산을 처리하는 부동소수점 연산회로를 설계하였다. 고속 연산과 2 ulp 보다 작은 오차를 만족시키기 위해 2차 최대최소 근사 방식과 테이블 룩업 방식을 사용하였다. 설계된 회로는 65nm CMOS 표준 셀 조건에서 2.3-ns의 최대 지연시간을 갖고 있으며, 약 23,300 게이트로 구성된다. 최대 400 MFLOPS의 연산 성능과 높은 정밀도로, 설계한 연산회로는 3차원 모바일 그래픽 분야에 효율적으로 적용 가능하다.
https://doi.org/10.6109/jkiice.2013.17.8.1891 인용 PDF KSCI

가변 시간 골드스미트 부동소수점 제곱근 계산기 (A Variable Latency Goldschmidt's Floating Point Number Square Root Computation)

김성기;송홍복;조경연
- 한국정보통신학회논문지
- /
- 제9권1호
- /
- pp.188-198
- /
- 2005
부동소수점 제곱근 계산에 많이 사용하는 골드스미트 제곱근 알고리즘은 곱셈을 반복하여 제곱근을 계산한다. 본 논문에서는 골드스미트 제곱근 알고리즘의 반복 과정의 오차를 예측하여 오차가 정해진 값보다 작아지는 시점까지 반복 연산하는 알고리즘을 제안한다. 'F'의 제곱근 계산은 초기값 $X_0=Y_0=T^2{\times}F,\;T=\frac{1}{\sqrt {F}}+e_t$에 대하여, $R_i=\frac{3-e_r-X_i}{2},\;X_{i+1}=X_i{\times}R^2_i,\;Y_{i+1}=Y_i{\times}R_i,\;i{\in}\{{0,1,2,{\ldots},n-1} }}'$을 반복한다 곱셈 결과는 소수점 이하 p 비트 미만을 절삭하며, 절삭 오차는 $e_r=2^{-p}$보다 작다. p는 단정도실수에서 28, 배정도실수에서 58이다. $X_i=1{\pm}e_i$ 이면 $X_{i+1}$ = $1-e_{i+1}$ $e_{i+1} {\frac{3e^2_i}{4}{\mp}\frac{e^3_i}} $ +4$e_{r}$이다. $|X_i-1|$ < $2^{\frac{-p+2}{2}}$이면, $e_{i+1}$ < $8e_{r}$ 이 부동소수점으로 표현할 수 있는 최소값보다 작게 되며, $\sqrt{F}$ {\fallingdotseq}\frac{Y_{i+1}}{T}}$이다. 본 논문에서 제안한 알고리즘은 입력 값에 따라서 곱셈 횟수가 다르므로, 평균 곱셈 횟수를 계산하는 방식을 도출하고, 여러 크기의 근사 역수 제곱근 테이블 ($T=\frac{1}{\sqrt{F}}+e_i$)에서 단정도실수 및 배정도실수의 제곱근 계산에 필요한 평균 곱셈 횟수를 계산한다. 이들 평균 곱셈 횟수를 종래 알고리즘과 비교하여 본 논문에서 제안한 알고리즘의 우수성을 증명한다. 본 논문에서 제안한 알고리즘은 오차가 일정한 값보다 작아질 때까지만 반복하므로 제곱근 계산기의 성능을 높일 수 있다. 또한 최적의 근사 역수 제곱근 테이블을 구성할 수 있다. 본 논문의 연구 결과는 디지털 신호처리, 컴퓨터 그래픽스, 멀티미디어, 과학 기술 연산 등 부동소수점 계산기가 사용되는 분야에서 폭 넓게 사용될 수 있다.
PDF KSCI

임베디드 시스템에서의 성능 향상을 위한 루프 펼침과 형변환 (Loop unrolling and type casting operation for performance improvement in embedded system)

성운;신동영;박준석
- 한국컴퓨터정보학회:학술대회논문집
- /
- 한국컴퓨터정보학회 2012년도 제45차 동계학술발표논문집 20권1호
- /
- pp.1-4
- /
- 2012
임베디드 시스템에서 최적화 기술의 성능은 크로스 컴파일러의 성능과 실행상황, 대상 하드웨어의 특징 등에 따라 좌우된다. 본 논문에서는 최적화 기술 중 루프 펼침과 형 변환을 이미지 처리 코드에 적용하여 성능을 측정하였다. 그 결과 기술을 적용하지 않은 성능을 기준으로 55%의 성능향상이 이루어졌다.
PDF

SDR(Software Defined Radio)에 적합한 네트워크 코프로세서 구조의 설계 (The Design of a Structure of Network Co-processor for SDR(Software Defined Radio))

김현필;정하영;함동현;이용석
- 한국통신학회논문지
- /
- 제32권2A호
- /
- pp.188-194
- /
- 2007
디지털 컨버전스가 이루어지면서 무선기기들 간의 호환성은 단말기의 중요한 특성이 되었고, SDR은 가장 필요한 기술이고 표준이다. 하지만 통신 프로토콜이 다른 무선 환경에서 호환성을 갖는 단말기를 하드웨어만을 이용한 ASIC이나 SoC로 만들기는 어려운 실정이다. 그래서 본 논문은 여러 통신 프로토콜을 가속화 시킬 수 있는 코프로세서의 구조를 제안하였다. 메인 프로세서와 쉽게 연동이 되고, 네트워크의 PHY 레이어에 특화된 코프로세서가 바로 그것이다. 통신 시스템에서 가장 많이 사용하는 변조 방식인 OFDM과 CDM을 사용하는 무선 랜 표준 IEEE802.11a와 IEEE802.11b를 모델링한 C 프로그램을 ARM cross 컴파일러를 이용해 컴파일 하였고, Simplescalar-Arm 버전을 이용해 시뮬레이션 및 프로파일을 수행하였다. 프로파일 결과 비터비 연산과 부동 소수점 복소수 연산이 가장 많은 연산을 차지하였다. 프로파일 결과를 바탕으로 비터비 연산과 부동 소수점 복소수 연산을 가속화 할 수 있는 코프로세서를 제안하여 명령어를 추가했으며, 추가된 명령어는 Simplescalar-Arm 버전을 이용해 시뮬레이션 하였다. 시뮬레이션 결과 ARM 코어 하나만 사용 했을 때보다 비터비 연산은 약 4.5배, 부동 소수점 복소수 연산은 약 2배의 성능 향상을 보였다. IEEE802.11a에서는 일반 ARM 코어보다 약 3배의 성능 향상을 보였고, IEEE802.11b에서는 약 1.5배의 성능 향상의 보였다.
PDF KSCI

3GPP 규격 오류 정정 부호 기법의 성능 평가 (Performance Analysis of Error Correction Codes for 3GPP Standard)

신나나;이창우
- 한국전자파학회논문지
- /
- 제15권1호
- /
- pp.81-88
- /
- 2004
3GPP 표준의 오류 정정 부호 기법 중의 하나로 채택된 turbo 부호는 그 성능이 Shannon이 제시하는 이론적 한계 값에 근사하기 때문에 많은 관심을 받고 있다. 그러나 계산상의 복잡함과 많은 메모리를 요구한다는 단점이 있고 이를 보완할 수 있는 Log-MAP, Max-Log-MAP, SOVA, sliding window 알고리즘 등이 제안되었다. 본 논문에서는 turbo복호 알고리즘을 부동 소수점 연산과 고정 소수점 연산을 이용하여 구현하였을 때 성능을 해석하였다. 그리고 Log-MAP 알고리즘의 성능에 근사하는 효율적인 고정 소수점 구현 방법을 제안하였다. 이 방법을 Log-MAP과 sliding window 알고리즘에 적용하여 성능을 분석하였다.
PDF KSCI

비선형 함수 연산을 위한 FPGA 기반의 부동 소수점 프로세서의 설계 (Design of a Floating Point Processor for Nonlinear Functions on an Embedded FPGA)

김정섭;정슬
- 대한임베디드공학회논문지
- /
- 제3권4호
- /
- pp.251-259
- /
- 2008
This paper presents the hardware design of a 32bit floating point based processor. The processor can perform nonlinear functions such as sinusoidal functions, exponential functions, and other mathematical functions. Using the Taylor series and Newton - Raphson method, nonlinear functions are approximated. The processor is actually embedded on an FPGA chip and tested. The numerical accuracy of the functions is compared with those computed by the MATLAB and confirmed the performance of the processor.
PDF

ARM 프로세서용 부동 소수점 보조 프로세서 개발 (Development of a Floating Point Co-Processor for ARM Processor)

김태민;신명철;박인철
- 대한전자공학회:학술대회논문집
- /
- 대한전자공학회 1999년도 추계종합학술대회 논문집
- /
- pp.232-235
- /
- 1999
In this paper, we present a coprocessor that can operate with ARM microprocessors. The coprocessor supports IEEE 754 standard single- and double-precision binary floating point arithmetic operations. The design objective is to achieve minimum-area, low-power and acceleration of processing power of ARM microprocessors. The instruction set is compatible with ARM7500FE. The coprocessor is written in verilog HDL and synthesized by the SYNOPSYS Design Compiler. The gate count is 38,115 and critical path delay is 9.52ns.
PDF

Color table과 context buffer를 이용한 color conversion과 downsampling 기법 (Color conversion and downsampling scheme using color table and context buffer)

채희중;이호석
- 한국정보과학회:학술대회논문집
- /
- 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
- /
- pp.432-434
- /
- 2000
본 논문은 IJG(Independent JPEG Group) JPEG 부호기의 처리 과정중 color table 과 context 버퍼를 이용한 color conversion과 downsampling 방법에 대해 소개한다. IJG JPEG은 전처리 과정에서 context buffer 사용함으로써 각 컴포넌트(RGB)에 대한 color conversion과 downsampling을 효과적으로 수행한다. 또한 각 컴포넌트(RGB)에 대한 부동 소수점 연산의 처리 결과를 미리 계산하여 color table에 저장함으로써 color converter에서 이를 참조, 색차 변환 계산에 적용하도록 하여 처리 속도를 향상 시키고 있다. 이에 본 논문에서는 IJG JPEG의 부호화 과정에서 사용되는 context 버퍼의 구조와 필요성 그리고 color table의 구조와 효과에 대하여 소개한다.
PDF

부동 소수점 DSP 프로세서의 테스트 용이 설계 (Design-for-Testability of The Floating-Point DSP Processor)

윤대한;송오영;장훈
- 한국통신학회논문지
- /
- 제26권5B호
- /
- pp.685-691
- /
- 2001
본 논문은 4단계 파이프 라인과 VLIW (Very Long Instruction Word) 구조를 갖는 FLOVA라는 DSP 프로세서의 테스트용이 설계 기법을 다룬다. Full-scan design, BIST(Built-In-Self-Test), IEEE 1149.1의 기법들이 플립플롭과 floaing point unit, 내장된 메모리, I/O cell 등에 각각 적용되었다. 이러한 기법들은 테스트 용이도의 관점에서 FLOVA의 구조에 적절하게 적용되었다. 본 논문에서는 이와 같이 FLOVA에 적용된 테스트 용이 설계의 특징들을 중심으로 상세하게 기술한다.
PDF

검색결과 189건 처리시간 0.028초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)