• 제목/요약/키워드: algorithm for multiplication

검색결과 371건 처리시간 0.03초

가변 시간 골드스미트 부동소수점 제곱근 계산기 (A Variable Latency Goldschmidt's Floating Point Number Square Root Computation)

  • 김성기;송홍복;조경연
    • 한국정보통신학회논문지
    • /
    • 제9권1호
    • /
    • pp.188-198
    • /
    • 2005
  • 부동소수점 제곱근 계산에 많이 사용하는 골드스미트 제곱근 알고리즘은 곱셈을 반복하여 제곱근을 계산한다. 본 논문에서는 골드스미트 제곱근 알고리즘의 반복 과정의 오차를 예측하여 오차가 정해진 값보다 작아지는 시점까지 반복 연산하는 알고리즘을 제안한다. 'F'의 제곱근 계산은 초기값 $X_0=Y_0=T^2{\times}F,\;T=\frac{1}{\sqrt {F}}+e_t$에 대하여, $R_i=\frac{3-e_r-X_i}{2},\;X_{i+1}=X_i{\times}R^2_i,\;Y_{i+1}=Y_i{\times}R_i,\;i{\in}\{{0,1,2,{\ldots},n-1} }}'$을 반복한다 곱셈 결과는 소수점 이하 p 비트 미만을 절삭하며, 절삭 오차는 $e_r=2^{-p}$보다 작다. p는 단정도실수에서 28, 배정도실수에서 58이다. $X_i=1{\pm}e_i$ 이면 $X_{i+1}$ = $1-e_{i+1}$ $e_{i+1} {\frac{3e^2_i}{4}{\mp}\frac{e^3_i}} $ +4$e_{r}$이다. $|X_i-1|$ < $2^{\frac{-p+2}{2}}$이면, $e_{i+1}$ < $8e_{r}$ 이 부동소수점으로 표현할 수 있는 최소값보다 작게 되며, $\sqrt{F}$ {\fallingdotseq}\frac{Y_{i+1}}{T}}$이다. 본 논문에서 제안한 알고리즘은 입력 값에 따라서 곱셈 횟수가 다르므로, 평균 곱셈 횟수를 계산하는 방식을 도출하고, 여러 크기의 근사 역수 제곱근 테이블 ($T=\frac{1}{\sqrt{F}}+e_i$)에서 단정도실수 및 배정도실수의 제곱근 계산에 필요한 평균 곱셈 횟수를 계산한다. 이들 평균 곱셈 횟수를 종래 알고리즘과 비교하여 본 논문에서 제안한 알고리즘의 우수성을 증명한다. 본 논문에서 제안한 알고리즘은 오차가 일정한 값보다 작아질 때까지만 반복하므로 제곱근 계산기의 성능을 높일 수 있다. 또한 최적의 근사 역수 제곱근 테이블을 구성할 수 있다. 본 논문의 연구 결과는 디지털 신호처리, 컴퓨터 그래픽스, 멀티미디어, 과학 기술 연산 등 부동소수점 계산기가 사용되는 분야에서 폭 넓게 사용될 수 있다.

가변 시간 골드스미트 부동소수점 나눗셈기 (A Variable Latency Goldschmidt's Floating Point Number Divider)

  • 김성기;송홍복;조경연
    • 한국정보통신학회논문지
    • /
    • 제9권2호
    • /
    • pp.380-389
    • /
    • 2005
  • 부동소수점 나눗셈에서 많이 사용하는 골드스미트 나눗셈 알고리즘은 일정한 횟수의 곱셈을 반복한다. 본 논문에서는 오차가 정해진 값보다 작아질 때까지 곱셈을 반복하여 나눗셈을 수행하는 가변 시간 골드스미트 부동소수점 나눗셈 알고리즘을 제안한다. 부동소수점 나눗셈 ‘$\frac{N}{F}$'는 'T=$\frac{1}{F}+e_t$'를 분모와 분자에 곱하면 ’$\frac{TN}{TF}=\frac{N_0}{F_0}$'가 된다. ’$R_i=(2-e_r-F_i),\;N_{i+1}=N_i{\ast}R_i,\;F_{i+1}=F_i{\ast}R_i$, i$\in${0,1,...n-1}'를 반복한다. 중간 곱셈 결과는 소수점이하 p 비트 미만을 절삭하며, 절삭 오차는 ‘$e_r=2^{-p}$', 보다 작다. p는 단정도실수에서 29, 배정도실수에서 59이다. ’$F_i=1+e_i$'이라고 하면 ‘$F_{i+1}=1-e_{i+1},\;e_{i+1},\;e_{i+1}'이 된다. '$[F_i-1]<2^{\frac{-p+3}{2}}$'이면, ’$e_{i+1}<16e_r$'이 부동소수점으로 표현 가능한 최소값보다 작아지며, ‘$N_{i+1}\risingdotseq\frac{N}{F}$이다. 본 논문에서 제안한 알고리즘은 입력 값에 따라서 곱셈 횟수가 다르므로, 평균 곱셈 횟수를 계산하는 방식을 도출하고, 여러 크기의 근사 역수 테이블($T=\frac{1}{F}+e_t$)에서 단정도실수 및 배정도실수의 나눗셈 계산에 필요한 평균 곱셈 횟수를 계산한다. 이들 평균 곱셈 횟수를 종래 알고리즘과 비교하여 본 논문에서 제안한 알고리즘의 우수성을 증명한다. 본 논문에서 제안한 알고리즘은 오차가 일정한 값보다 작아질 때까지만 반복 연산을 수행하므로 나눗셈기의 성능을 높일 수 있다. 또한 최적의 근사 역수 테이블을 구성할 수 있다. 본 논문의 연구 결과는 디지털 신호처리, 컴퓨터 그라픽스,, 멀티미디어, 과학 기술 연산 등 부동소수점 계산기가 사용되는 분야에서 폭 넓게 사용될 수 있다.

가변 시간 뉴톤-랍손 부동소수점 역수 제곱근 계산기 (A Variable Latency Newton-Raphson's Floating Point Number Reciprocal Square Root Computation)

  • 김성기;조경연
    • 정보처리학회논문지A
    • /
    • 제12A권5호
    • /
    • pp.413-420
    • /
    • 2005
  • 부동소수점 제곱근 계산에 많이 사용하는 뉴톤-랍손 부동소수점 역수 제곱근 알고리즘은 일정한 횟수의 곱셈을 반복하여 역수 제곱근을 계산한다. 본 논문에서는 뉴톤-랍손 역수 제곱근 알고리즘의 반복 과정의 오차를 예측하여 오차가 정해진 값보다 작아지는 시점까지 반복 연산하는 알고리즘을 제안한다. `F`의 역수 제곱근 계산은 초기값 '$X_0={\frac{1}{\sqrt{F}}}{\pm}e_0$'에 대하여, '$X_{i+1}=\frac{{X_i}(3-e_r-{FX_i}^2)}{2}$, $i\in{0,1,2,{\ldots}n-1}$'을 반복한다. 중간 곱셈 결과는 소수점 이하 p 비트 미만을 절삭하며, 절삭 오차는 '$e_r=2^{-p}$' 보다 작다. p는 단정도실수에서 28, 배정도실수에서 58이다. '$X_i={\frac{1}{\sqrt{F}}}{\pm}e_i$'라고 하면 '$X_{i+1}={\frac{1}{\sqrt{F}}}-e_{i+1}$, $e_{i+1}{<}{\frac{3{\sqrt{F}}{{e_i}^2}}{2}}{\mp}{\frac{{Fe_i}^3}{2}}+2e_r$이 된다. '$|{\frac{\sqrt{3-e_r-{FX_i}^2}}{2}}-1|<2^{\frac{\sqrt{-p}{2}}}$'이면,'$e_{i+1}<8e_r$이 부동소수점으로 표현 가능한 최소값보다 작아지며, '$X_{i+1}\fallingdotseq{\frac{1}{\sqrt{F}}}$'이다. 본 논문에서 제안한 알고리즘은 입력 값에 따라서 곱셈 횟수가 다르므로, 평균 곱셈 횟수를 계산하는 방식을 도출하고, 여러 크기의 근사 역수 제곱근 테이블($X_0={\frac{1}{\sqrt{F}}}{\pm}e_0$)에서 단정도실수 및 배정도실수의 역수 제곱근 계산에 필요한 평균 곱셈 횟수를 계산한다 이들 평균 곱셈 횟수를 종래 알고리즘과 비교하여 본 논문에서 제안한 알고리즘의 우수성을 증명한다. 본 논문에서 제안한 알고리즘은 오차가 일정한 값보다 작아질 때까지만 반복하므로 역수 제곱근 계산기의 성능을 높일 수 있다. 또한 최적의 근사 역수 제곱근 테이블을 구성할 수 있다. 본 논문의 연구 결과는 디지털 신호처리, 컴퓨터 그라픽스, 멀티미디어, 과학 기술 연산 등 부동소수점 계산기가 사용되는 분야에서 폭 넓게 사용될 수 있다.

확장논리에 기초한 순차디지털논리시스템 및 컴퓨터구조에 관한 연구 (A Study on Sequential Digital Logic Systems and Computer Architecture based on Extension Logic)

  • 박춘명
    • 한국인터넷방송통신학회논문지
    • /
    • 제8권2호
    • /
    • pp.15-21
    • /
    • 2008
  • 본 논문에서는 2진논리의 확장을 Galis체상에서 해석하여 확장논리에 기초한 순차디지털논리시스템과 컴퓨터구조의 핵심인 연산알고리즘을 논의하였다. 순차디지털논리시스템은 Building Block으로서 T-gate를 사용하였으며, 차순상태함수, 출력함수를 도출하여 최종 궤환이 없는 Moore Model의 순차디지털논리시스템을 구성하였다. 그리고, 컴퓨터구조에서 중요한 연산알고리즘의 핵심인 가산, 감산, 승산 및 제산 알고리즘을 유한체의 수학적 성질을 토대로 각각 도출하였다. 특히, 유한체 GF($P^m$)상에서 P=2인 경우는 기존의 2진디지털논리시스템에 적용이 용이하다는 장점이 있으며, mod2의 성질에 의해 감산 알고리즘은 가산 알고리즘과 동일하다. 제안한 방법은 기존의 2진논리를 확장할 수 있어 좀 더 효율적으로 디지털논리시스템을 구성할 수 있을 것으로 사료된다.

  • PDF

단일 명령 다중 스레드 병렬 플랫폼을 위한 무작위 부분적 Haar 웨이블릿 변환 (Random Partial Haar Wavelet Transformation for Single Instruction Multiple Threads)

  • 박태정
    • 디지털콘텐츠학회 논문지
    • /
    • 제16권5호
    • /
    • pp.805-813
    • /
    • 2015
  • Compressive sensing 및 희소 복원 문제(sparse recovery problem)는 기존 디지털 기술의 한계를 극복할 수 있는 새로운 이론으로 많은 관심을 받고 있다. 그러나 신호 재구성에서 l1 norm 최적화 문제 해결에 많은 연산이 수행되며 따라서 병렬 처리 기법이 필요하다. 이 과정에서 무작위 행렬과 벡터 연산을 통한 변환 연산이 전체 과정 중에서 많은 부분을 차지하는데, 특히 원본 신호의 크기로 인해 이 과정에서 필요한 무작위 행렬을 메모리에 저장하기 곤란하며 계산 시 무작위 행렬의 절차적(procedural) 처리 방식이 필수적이다. 본 논문에서는 이 문제에 대한 해결책으로 단일 명령 다중 스레드(SIMT) 병렬 플랫폼 상에서 무작위 부분적 Haar 웨이블릿 변환을 절차적으로 계산할 수 있는 새로운 병렬 알고리듬을 제안한다.

유한요소 비압축성 유동장 해석을 위한 이중공액구배법의 GPU 기반 연산에 대한 연구 (A Study on GPU Computing of Bi-conjugate Gradient Method for Finite Element Analysis of the Incompressible Navier-Stokes Equations)

  • 윤종선;전병진;정혜동;최형권
    • 대한기계학회논문집B
    • /
    • 제40권9호
    • /
    • pp.597-604
    • /
    • 2016
  • 본 연구에서는 GPU를 이용한 비압축성 유동장의 병렬연산을 위하여, P2P1 유한요소를 이용한 분리 알고리즘 내의 행렬 해법인 이중공액구배법(Bi-Conjugate Gradient)의 CUDA 기반 알고리즘을 개발하였다. 개발된 알고리즘을 이용해 비대칭 협착관 유동을 해석하고, 단일 CPU와의 계산시간을 비교하여 GPU 병렬 연산의 성능 향상을 측정하였다. 또한, 비대칭 협착관 유동 문제와 다른 행렬 패턴을 가지는 유체구조 상호작용 문제에 대하여 이중공액구배법 내의 희소 행렬과 벡터의 곱에 대한 GPU의 병렬성능을 확인하였다. 개발된 코드는 희소 행렬의 1개의 행과 벡터의 내적을 병렬 연산하는 커널(Kernel)로 구성되며, 최적화는 병렬 감소 연산(Parallel Reduction), 메모리 코얼레싱(Coalescing) 효과를 이용하여 구현하였다. 또한, 커널 생성 시 워프(Warp)의 크기에 따른 성능 차이를 확인하였다. 표준예제들에 대한 GPU 병렬연산속도는 CPU 대비 약 7배 이상 향상됨을 확인하였다.

(2D)2PCA 알고리즘을 이용한 pRBFNNs 패턴분류기 기반 얼굴인식 시스템 설계 (Design of pRBFNNs Pattern Classifier-based Face Recognition System Using 2-Directional 2-Dimensional PCA Algorithm)

  • 오성권;진용탁
    • 전자공학회논문지
    • /
    • 제51권1호
    • /
    • pp.195-201
    • /
    • 2014
  • 본 연구에서는 $(2D)^2PCA$ 알고리즘을 이용한 pRBFNNs 패턴분류기 기반 얼굴인식 시스템을 설계하였다. 기존의 1차원 PCA는 행과 열의 곱으로 표현한 이미지의 차원을 축소한다. 하지만 $(2D)^2PCA$(2-Directional 2-Dimensional Principal Components Analysis)는 이미지의 행과 열에서 각각 차원축소를 수행한다. 그 다음 제안된 지능형 패턴분류기로 축소된 이미지를 사용하여 성능을 평가한다. (pRBFNNs)로 성능 평가를 한다. 제안된 다항식 기반 RBFNNs은 조건부, 결론부, 추론부 세가지의 기능적 모듈로 구성되어 있고 조건는 퍼지 클러스터링을 사용하여 입력 공간을 분할하고, 결론부는 RBFNNs의 연결가중치로 일차 선형식으로 표현한다. 또한 차분진화 알고리즘을 이용하여 제안된 분류기의 파라미터, 즉 입력의 수, 퍼지 클러스터링의 퍼지화 계수를 최적화 한다. 얼굴인식에 많이 사용되는 Yale과 AT&T를 사용하여 인식률을 평가하였다. 실험 평가를 위해 IC&CI 연구실 데이터를 추가하여 실험하였다.

비행 실험을 통한 유도형 탄약 항법 시스템 검증 (Verification of Navigation System of Guided Munition by Flight Experiment)

  • 김영주;임승한;방효충;김재호;박장호
    • 한국항공우주학회지
    • /
    • 제44권11호
    • /
    • pp.965-972
    • /
    • 2016
  • 유도형 탄약은 비행속도 증가를 이용한 기존의 사거리 증가 방식과 다르게 정밀 유도제어를 사거리 연장 및 정밀 타격하는 기술을 기반으로 한다. 고회전으로 상승하는 탄은 탄도 정점에서 후미 날개를 전개하여 회전을 감소하고, 최종적으로 회전을 제거한 후 비행하게 된다. 주 날개 전개 전 탄체 뒤집힘 감지를 위하여 자세 추정이 요구되는데, 회전 감속 중에서는 일정한 회전을 가정한 기존의 유도무기 자세 추정 기법을 사용할 수 없다. 또한, 비행 시에는 횡축 가속도를 제어하기 때문에 중력 가속도 성분을 기반으로 하는 일반적인 무인기의 자세 추정 기법은 큰 오차를 발생한다. 이러한 문제를 해결하기 위해 본 논문에서는 저속 회전 및 비행 중 자세추정기법을 제시하고, 무인기에 탑재하여 비행 실험을 통해 검증하였다. 저속 회전 중 자세 추정 기법은 롤 각을 상태변수로 갖는 칼만 필터 형태로 구성하였다. 비행 시 자세 추정 기법은 사원수를 이용한 곱연산 확장형 칼만 필터를 기반으로 하며, 가속도 측정치가 중력 가속도뿐만 아니라 선회에 의한 구심력을 포함하도록 측정 모델을 개선하였다.

이종의 공간 데이터 셋의 면 객체 자동 매칭 방법 (Automated Areal Feature Matching in Different Spatial Data-sets)

  • 김지영;이재빈
    • 대한공간정보학회지
    • /
    • 제24권1호
    • /
    • pp.89-98
    • /
    • 2016
  • 본 연구에서는 축척과 갱신 주기가 상이한 이종의 공간 데이터 셋을 융합하기 위하여 사용자의 개입을 최소화하면서 다대다 관계에도 적용이 가능한 기하학적 방법론 기반의 면 객체 자동 매칭 방법을 제안하였다. 이를 위하여 첫째, 포함함수가 0.4 이상인 객체(노드)는 인접행렬에서 에지로 연결되었고, 이들 인접행렬의 곱을 반복적으로 수행하여 다대다 관계를 포함하는 후보 매칭 쌍을 선정하였다. 다대다 관계인 면 객체들은 알고리즘으로 생성된 convex hull로 단일 면 객체로 변환하였다. 기하학적 매칭을 위하여, 매칭 기준을 설정하고, 이들을 유사도 함수를 이용하여 유사도를 계산하였다. 다음으로 변환된 유사도와 CRITIC 방법으로 도출된 가중치를 선형 조합하여 형상 유사도를 계산하였다. 마지막으로 훈련자료에서 모든 가중치에 대한 정확도와 재현율을 나타낸 PR 곡선의 교차점인 EER로 임계값을 선정하고, 이 임계값을 기준으로 매칭 유무를 판별하였다. 제안된 방법을 수치지도와 도로명 주소기본도에 적용한 결과, 일부 다대다 관계에서 잘못 매칭되는 경우를 시각적으로 확인할 수 있었으나, 통계적 평가에서 정확도, 재현율, F-measure가 각각 0.951, 0.906, 0.928로 높게 나타났다. 이는 제안된 방법으로 이종의 공간 데이터 셋을 자동으로 매칭하는데 그 정확도가 높음을 의미한다. 그러나 일부 오류가 발생한 다대다 관계인 후보 매칭 쌍을 정확하게 정량화하기 위해서 포함함수나 매칭 기준에 대한 연구가 진행되어야 할 것이다.

나눗셈 체인을 이용한 RSA 모듈로 멱승기의 구현 (Implementation of RSA modular exponentiator using Division Chain)

  • 김성두;정용진
    • 정보보호학회논문지
    • /
    • 제12권2호
    • /
    • pp.21-34
    • /
    • 2002
  • 본 논문에서는 최근 발표된 멱승방법인 나눗셈 체인을 적용한 새로운 모듈로 멱승기의 하드웨어 구조를 제안하였다. 나눗셈 체인은 제수(divisor) d=2 또는 $d=2^I +1$ 과 그에 따른 나머지(remainder) r을 이용하여 지수 I를 새롭게 변형하는 방법으로 전체 멱승 연산이 평균 약 1.4$log_2$E 번의 곱셈으로 가능한 알고리즘이다. 이것은 Binary Method가 하드웨어 구현 시 항상 worst case인 $2log_2$E의 계산량이 필요한 것과 비교할 때 상당한 성능개선을 의미한다. 전체 구조는 파이프라인 동작이 가능한 선형 시스톨릭 어레이 구조로 설계하였으며, DG(Dependence Graph)를 수평으로 매핑하여 k비트의 키 사이즈에 대해 두 개의 k 비트 프레임이 k/2+3 개의 PE(Processing Element)로 구성된 두 개의 곱셈기 모듈을 통해 병렬로 동시에 처리되어 100% 처리율을 이루게 하였다. 또한, 규칙적인 데이터 패스를 가질 수 있도록 나눗셈체인을 새롭게 코딩하는 방법을 제안하였다. ASIC 구현을 위해 삼성 0.5um CMOS 스탠다드 셀 라이브러리를 이용해 합성한 결과 최장 지연 패스는 4.24ns로 200MHz의 클럭이 가능하며, 1024비트 데이터 프레임에 대해 약 140kbps의 처리속도를 나타낸다. 복호화 시에는 CRT(Chinese Remainder Theorem)를 적용하여 처리속도를 560kbps로 향상시켰다. 전자서명의 검증과정으로 사용되기도 하는 암호화 과정을 수행할 때 공개키 E는 3,17 혹은 $2^{16} +1$의 사용이 권장된다는 점을 이용하여 E를 17 비트로 제한할 경우 7.3Mbps의 빠른 처리속도를 가질 수 있다.