• Title/Summary/Keyword: 반복연산

Search Result 501, Processing Time 0.028 seconds

Off-line CORDIC Vector Rotation Algorithm for High-Performance and Low-Power 3D Geometry Operations (고성능/저전력 3D 기하 연산을 위한 오프라인 CORDIC 벡터회전 알고리즘)

  • Kim, Eun-Ok;Lee, Jeong-Gun;Lee, Jeong-A
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.14 no.8
    • /
    • pp.763-767
    • /
    • 2008
  • In this paper, to make a high performance and low power CORDIC architecture for 3D operations in mobile devices, we suggest two off-line vectoring algorithms named Angle Based Search (ABS) and Scaling Considered Search (SCS). The ABS algorithm represents a 3D vector with two angles and those angles are used as a condition for searching CORDIC rotation sequences. The SCS algorithm determines the best CORDIC rotation sequence in advance to eliminate extra scaling computation. Using the proposed algorithms, we can observe 50% of latency is reduced. Furthermore, we perform a simple analysis and discuss possible reduction of power consumption by applying voltage scaling method together with the proposed algorithm.

H.264/AVC Fast Intra Mode Decision using GPGPU Parallel Programming (GPGPU 병렬 프로그래밍을 이용한 H.264/AVC 고속 화면내 예측 모드 결정)

  • Choi, Sung-Jun;Han, Ki-Hun;Yoo, Yeong-Soo
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2011.11a
    • /
    • pp.110-112
    • /
    • 2011
  • GPU의 병렬성과 연산능력을 일반적인 공학적 문제 해결에 적용하는 GPGPU 컴퓨팅에 대한 연구가 최근 활발히 진행되고 있다. 비디오 압축과정에는 많은 양의 화소 데이터에 동일하게 반복되는 연산을 수행하는 알고리즘이 많이 적용되므로 GPGPU를 통한 고속 병렬 계산의 응용 분야로 매우 적합하다. H.264/AVC는 비디오를 압축하는 가장 최신의 국제표준으로 여러 제품군과 서비스에 대한 적용되어 시장에서 널리 사용되고 있다. 본 논문에서는 GPGPU의 응용 분야로 주목 받고 있는 비디오 압축 분야에 대한 적용으로 H.264/AVC의 화면내 예측 모드 결정과정에 GPGPU 병렬 프로그래밍을 적용하여 예측 모드 결정 속도를 향상하는 방법을 제안한다. GPU상에서의 데이터 병렬처리를 위해 CUDA C언어를 사용하였으며, CPU상에서의 연산은 C언어를 사용하여 구현되었다. GPU상에서 프레임 전체에 대한 화면내 예측 모드를 병렬적으로 결정함으로써 이에 소요되는 시간을 줄여 줄 수 있었다. 실험결과 GPU상에서 병렬적으로 예측 모드를 결정할 때 Full-HD급 영상에서 약 2.8배 정도의 속도 향상을 확인할 수 있었다. 향후 GPGPU 병렬 프로그래밍을 화면 내 예측뿐만 아니라 반복되는 연산을 수행하는 다른 알고리즘에도 적용하여 부호화기의 계산 부담을 덜어준다면 고속 실시간 비디오 압축 부호기 개발이 더욱 용이해 질것으로 기대된다.

  • PDF

Hardware Design of Efficient Montgomery Multiplier for Low Area RSA (저면적 RSA를 위한 효율적인 Montgomery 곱셈기 하드웨어 설계)

  • Nti, Richard B.;Ryoo, Kwangki
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2017.10a
    • /
    • pp.575-577
    • /
    • 2017
  • In public key cryptography such as RSA, modular exponentiation is the most time-consuming operation. RSA's modular exponentiation can be computed by repeated modular multiplication. To attain high efficiency for RSA, fast modular multiplication algorithms have been proposed to speed up decryption/encryption. Montgomery multiplication is limited by the carry propagation delay from the addition of long operands. In this paper, we propose a hardware structure that reduces the area of the Montgomery multiplication implementation for lightweight applications of RSA. Experimental results showed that the new design can achieve higher performance and reduce hardware area. A frequency of 884.9MHz and 250MHz were achieved with 84K and 56K gates respectively using the 90nm technology.

  • PDF

Development of Urban Flooding Model: Coupling to EPA-SWMM Engine and Surface Flow Path Algorithm (EPA-SWMM과 지표수 흐름방향 결정 알고리즘을 결합한 도시침수 모형의 개발)

  • Lee, Seonmin;Kim, JongChun;Yoon, Hanui
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2021.06a
    • /
    • pp.305-305
    • /
    • 2021
  • XP-SWMM은 EAP-SWMM의 Runoff 기능을 보완하고 2D 해석 기능을 새롭게 추가하여 만든 외산(XP Solutions) 프로그램으로 도시유역 유출량 산정, 우수관거 추적 등과 같은 모의가 가능한 종합 모형이다. 그 중 2차원 분석 기능(2D XP-SWMM)은 연산 결과를 Tu-Flow 모형에 대입한 도시침수 해석모형으로 실무에서 주로 사용되고 있다. 그러나 XP-SWMM은 수량 부분 외에도 수질 부분의 다양한 모형이 통합되어 있어 라이센스 가격이 상당히 높고, 국내 환경에 적합한 모형 수정 등 기술지원을 받기 어렵다는 단점을 갖고 있다. 또한, 실무 활용성이 높은 2차원 분석기능의 경우 모의에 소요되는 시간이 크다는 한계점을 갖고 있다. 2D XP-SWMM 연산의 소요시간이 큰 주요 원인은 계산 시간간격마다 큰 셀수의 행렬 계산을 반복하기 때문이며, 격자를 촘촘하게 설정할수록(행렬의 수가 증가할수록) 수치해석에 소요되는 시간은 기하급수적으로 늘어나게 된다. 2D XP-SWMM 연산은 편미분방정식을 계산하는 모형으로 반복법을 채택하고 있기 때문에 짧은 시간내에 침수해석을 진행해야하는 웹기반 초단기 홍수예경보 시스템 등에 활용하기에는 적합하지 않다. 본 연구에서는 2D XP-SWMM 보다 연산속도를 향상시킨 2차원 도시침수 모형을 개발하였다. 기존 XP-SWMM 중심의 실무 적용성을 유지하고자 XP-SWMM과 동일하게 EPA-SWMM 엔진을 활용하였고 DEM 기반의 지표수 흐름방향 결정 알고리즘을 결합하였다. 본 연구에서 개발한 도시침수 모형 결과를 울산광역시, 청주시 등 도심지에서 발생한 과거 침수피해의 양상과 비교하여 그 타당성을 검증하였다.

  • PDF

A prototype implementation of GIS operations using an intergrated CA-GIS and evaluation of their relative performance (CA-GIS 통합 시스템을 이용한 GIS연산의 구현)

  • 박수홍
    • Spatial Information Research
    • /
    • v.5 no.1
    • /
    • pp.99-113
    • /
    • 1997
  • This paper demonstrates the prototype implementation of existing GIS operations using an integrated CA-GIS system where a CA simulator serve an analytical engine for GIS and compares the performance of the operations implemented here with the original ones. In addition, some new GIS operations that are not available in contemporary GIS are implemented and tested within the integrated system. It has shown that most of the local and focal operations were successfully implemented with CA-GIS and some operations written with the CA simulator showed better performance. New types of operations such as various shape filters, time-series filter, and diffusion operators were able to be implemented using the CA-GIS, which appears to be significant to enhance deficient analytical capabilities of contemporary GIS.

  • PDF

A Study on the Implementation of Hopfield Model using Array Processor (어레이 프로세서를 이용한 홉필드 모델의 구현에 관한 연구)

  • 홍봉화;이지영
    • Journal of the Korea Society of Computer and Information
    • /
    • v.4 no.4
    • /
    • pp.94-100
    • /
    • 1999
  • This paper concerns the implementation of a digital neural network which performs the high speed operation of Hopfield model's arithmetic operation. It is also designed to use a look-up table and produce floating point arithmetic of nonlinear function with high speed operation. The arithmetic processing of Hopfleld is able to describe the matrix-vector operation, which is adaptable to design the array processor because of its recursive and iterative operation .The proposed method is expected to be applied to the field of real neural networks because of the realization of the current VLSI techniques.

  • PDF

Study of Radix-3 FFT (Radix-3 FFT에 관한 고찰)

  • Jung, Hae-Seung
    • Aerospace Engineering and Technology
    • /
    • v.9 no.1
    • /
    • pp.98-105
    • /
    • 2010
  • Fast Fourier Transform is the fast implementation of Discrete Fourier Transform, which deletes periodic operation of DFT. According to the definition, radix-2 FFT can be implemented byre cursive call which divides the input signal points into 2 signal points. Because of its time-consuming stack-copy operation, this recursive method is very slow. To overcome this drawback, butterfly operation with signal rearrangement was devised. Based on the ideas of signal rearrangement and butterfly operation, this paper applies the signal rearrangement method to the Radix-3 FFT and checks the validity of this method.

Implementation of high speed MD5 processor using CSA (CSA를 사용한 고속 MD5 프로세서 구현)

  • Yoon, Hee-Jin;Jeong, Yong-Jin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.04b
    • /
    • pp.837-840
    • /
    • 2002
  • 본 논문에서는 해쉬 함수를 바탕으로 한 메시지 인증 코드 중의 하나인 MD5 를 하드웨어로 설계하였다. MD5 는 block-chained digest 알고리즘으로 64 단계의 동일한 단계 연산 구조를 가지므로 가장 기본적인 연산 한 단계를 구현하여 반복적으로 수행하는 구조로 설계하였다. 단계 연산구조 내에서는 연속된 32bit 덧셈 연산이 이루어지는데 기존의 CLA(carry-lookahead-adder)만을 사용하여 구현한 구조 대신 본 논문에서는 CSA(carry-save-adder)와 CLA 를 혼용하였다. 덧셈연산의 결과는 순서와 상관없기 때문에 연산자의 덧셈 순서를 리스케줄링 하였으며, 이는 기존의 CLA 만을 이용한 방법과 비교하여 최장지연 경로를 15% 줄여 훨씬 빠르게 연산을 수행하고, 전체 면적도 30%를 줄일 수 있었다. 결과적으로 본 논문에서 제안하는 구조는 지금까지 나온 어떤 MD5 프로세서 보다 작고 빠른 프로세서를 구현 할 수 있을 것으로 판단된다.

  • PDF

A synchronous/asynchronous hybrid parallel method for some eigenvalue problems on distributed systems

  • 박필성
    • Proceedings of the Korean Society of Computational and Applied Mathematics Conference
    • /
    • 2003.09a
    • /
    • pp.11-11
    • /
    • 2003
  • 오늘날 단일 슈퍼컴퓨터로는 처리가 불가능한 거대한 문제들의 해법이 시도되고 있는데, 이들은 지리적으로 분산된 슈퍼컴퓨터, 데이터베이스, 과학장비 및 디스플레이 장치 등을 초고속 통신망으로 연결한 GRID 환경에서 효과적으로 실행시킬 수 있다. GRID는 1990년대 중반 과학 및 공학용 분산 컴퓨팅의 연구 과정에서 등장한 것으로, 점차 응용분야가 넓어지고 있다. 그러나 GRID 같은 분산 환경은 기존의 단일 병렬 시스템과는 많은 점에서 다르며 이전의 기술들을 그대로 적용하기에는 무리가 있다. 기존 병렬 시스템에서는 주로 동기 알고리즘(synchronous algorithm)이 사용되는데, 직렬 연산과 같은 결과를 얻기 위해 동기화(synchronization)가 필요하며, 부하 균형이 필수적이다. 그러나 부하 균형은 이질 클러스터(heterogeneous cluster)처럼 프로세서들의 성능이 서로 다르거나, 지리적으로 분산된 계산자원을 사용하는 GRID 환경에서는 이기종의 문제뿐 아니라 네트워크를 통한 메시지의 전송 지연 등으로 유휴시간이 길어질 수밖에 없다. 이처럼 동기화의 필요성에 의한 연산의 지연을 해결하는 하나의 방안으로 비동기 반복법(asynchronous iteration)이 나왔으며, 지금도 활발히 연구되고 있다. 이는 알고리즘의 동기점을 가능한 한 제거함으로써 빠른 프로세서의 유휴 시간을 줄이는 것이 목적이다. 즉 비동기 알고리즘에서는, 각 프로세서는 다른 프로세서로부터 갱신된 데이터가 올 때까지 기다리지 않고 계속 다음 작업을 수행해 나간다. 따라서 동시에 갱신된 데이터를 교환한 후 다음 단계로 진행하는 동기 알고리즘에 비해, 미처 갱신되지 않은 데이터를 사용하는 경우가 많으므로 전체적으로는 연산량 대비의 수렴 속도는 느릴 수 있다 그러나 각 프로세서는 거의 유휴 시간이 없이 연산을 수행하므로 wall clock time은 동기 알고리즘보다 적게 걸리며, 때로는 50%까지 빠른 결과도 보고되고 있다 그러나 현재까지의 연구는 모두 어떤 수렴조건을 만족하는 선형 시스템의 해법에 국한되어 있으며 비교적 구현하기 쉬운 공유 메모리 시스템에서의 연구만 보고되어 있다. 본 연구에서는 행렬의 주요 고유쌍을 구하는 데 있어 비동기 반복법의 적용 가능성을 타진하기 위해 우선 이론적으로 단순한 멱승법을 사용하여 실험하였고 그 결과 순수한 비동기 반복법은 수렴하기 어렵다는 결론을 얻었다 그리하여 동기 알고리즘에 비동기적 요소를 추가한 혼합 병렬 알고리즘을 제안하고, MPI(Message Passing Interface)를 사용하여 수원대학교의 Hydra cluster에서 구현하였다. 그 결과 특정 노드의 성능이 다른 것에 비해 현저하게 떨어질 때 전체적인 알고리즘의 수렴 속도가 떨어지는 것을 상당히 완화할 수 있음이 밝혀졌다.

  • PDF

A FPGA Design of High Speed LDPC Decoder Based on HSS (HSS 기반의 고속 LDPC 복호기 FPGA 설계)

  • Kim, Min-Hyuk;Park, Tae-Doo;Jung, Ji-Won
    • The Journal of Korean Institute of Electromagnetic Engineering and Science
    • /
    • v.23 no.11
    • /
    • pp.1248-1255
    • /
    • 2012
  • LDPC decoder architectures are generally classified into serial, parallel and partially parallel architectures. Conventional method of LDPC decoding in general give rise to a large number of computation operations, mass power consumption, and decoding delay. It is necessary to reduce the iteration numbers and computation operations without performance degradation. This paper studies horizontal shuffle scheduling(HSS) algorithm and self-correction normalized min-sum(SC-NMS) algorithm. In the result, number of iteration is half than conventional algorithm and performance is almost same between sum-product(SP) and SC-NMS. Finally, This paper implements high-speed LDPC decoder based on FPGA. Decoding throughput is 816 Mbps.