• 제목/요약/키워드: Arithmetic units

검색결과 59건 처리시간 0.022초

재구성 가능한 뉴럴 네트워크 구현을 위한 새로운 저전력 내적연산 프로세서 구조 (The New Architecture of Low Power Inner Product Processor for Reconfigurable Neural Networks)

  • 임국찬;이현수
    • 대한전자공학회논문지SD
    • /
    • 제41권5호
    • /
    • pp.61-70
    • /
    • 2004
  • 뉴럴 네트워크는 동작 모드를 학습과 인지 과정으로 구분할 수 있다. 학습은 다양한 입력 패턴에 대하여 학습자가 원하는 결과값을 얻을 때까지 결합계수를 업데이트하는 과정이고, 인지는 학습을 통해 결정된 결합계수와 입력 패턴과의 연산을 수행하는 과정이다. 기존의 내적연산 프로세서는 처리 속도를 개선하고 하드웨어 복잡도를 줄이는 다양한 구조가 연구되었지만 뉴럴 네트워크의 학습과 인지모드에 대한 차별화된 구조는 없었다. 이를 위해, 본 논문에서는 재구성 가능한 뉴럴 네트워크 구현을 위한 새로운 저전력 내적연산 프로세서 구조를 제안한다. 제안한 구조는 학습모드에서 기존의 비트-시리얼 내적연산 프로세서와 같이 동작을 하여, 비트-레벨의 타른 처리 및 하드웨어 구현에 적합하고 높은 수준의 파이프라인 적용이 가능하다는 장점을 가진다. 또한, 인지모드에서는 고정된 결합계수에 따라 연산을 수행할 활성화 유닛을 최소화시킴으로서 전력 소비를 줄일 수 있다. 시뮬레이션 결과 활성화 유닛은 결합계수에 의존적이기는 하지만 50% 내외까지 줄일 수 있음을 확인하였다.

로그수체계 기반의 저전력/저면적 제산기 및 제곱근기 회로 설계 (A Design of Low-power/Small-area Divider and Square-Root Circuits based on Logarithm Number System)

  • 김채현;김종환;이용환;신경욱
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2005년도 추계종합학술대회
    • /
    • pp.895-898
    • /
    • 2005
  • 본 논문에서는 그래픽 프로세싱 분야와 디지털 신호 처리 분야에 응용될 수 있는 로그수체계(Logarithm Number System; LNS) 기반의 제산기와 제곱근기를 설계하였다. 설계된 제산기와 제곱근기는 부동소수점 대신 16.16의 고정소수점 방식을 사용하여 모바일 환경에서 저전력/저면적으로 동작하도록 하였다. 설계된 제산기와 제곱근기는 이진수-로그 변환기, 감산기, 로그-이진수 변환기 등으로 구성되어 있다. 특히, 이진수-로그 변환시 룩업테이블(Look Up Table; LUT)을 사용하지 않고 6-영역의 근사화 방법을 이용한 조합회로로 구현함으로써, 기존의 룩업테이블로 구현한 방식에 비해 게이트 수가 감소되도록 하여, 제산기 3,130, 제곱근기 1,280 게이트로 구현되었다. 연산정밀도를 높이기 위해 에러 보상방법을 적용하였으며 연상 정밀도 분석결과 평균 퍼센트 에러가 가각 3.8% 와 4.2%로 평가되었다.

  • PDF

A Scalable Structure for a Multiplier and an Inversion Unit in $GF(2^m)$

  • Lee, Chan-Ho;Lee, Jeong-Ho
    • ETRI Journal
    • /
    • 제25권5호
    • /
    • pp.315-320
    • /
    • 2003
  • Elliptic curve cryptography (ECC) offers the highest security per bit among the known public key cryptosystems. The operation of ECC is based on the arithmetic of the finite field. This paper presents the design of a 193-bit finite field multiplier and an inversion unit based on a normal basis representation in which the inversion and the square operation units are easy to implement. This scalable multiplier can be constructed in a variable structure depending on the performance area trade-off. We implement it using Verilog HDL and a 0.35 ${\mu}m$ CMOS cell library and verify the operation by simulation.

  • PDF

프로세서의 동작원리 학습을 위한 사칙연산 시뮬레이션 코스웨어의 설계 (Simulating Computer Arithmetic Units for Learning Principles of Processor Operation)

  • 권진옥;문교식
    • 한국정보교육학회:학술대회논문집
    • /
    • 한국정보교육학회 2004년도 동계학술대회
    • /
    • pp.141-149
    • /
    • 2004
  • 정보사회가 도래하면서 제7차 교육과정에서는 ICT 교육이 강조되고 있으나 컴퓨터 활용측면에서 교과내용이 편성되어 있고 컴퓨터의 구조와 그 동작원리에 관한 내용은 미흡하다. 그러나 컴퓨터의 구조와 원리에 대한 지식은 정보사회의 기초가 되는 핵심적인 지식일 뿐 아니라 수요가 급증하고 있는 정보기술 인력의 수급면에서도 필요하므로 그 교육이 강화되어야한다고 본다. 본 연구에서는 프로세서의 구조와 동작원리 중에서 연산부분을 중심으로 초등학생들의 수준에 맞게 시뮬레이션 형태로 설계한다. 이를 통하여 학습자가 조기에 컴퓨터의 내부구조와 동작원리에 대한 관심을 가지게 되고 나아가 컴퓨터관련 학문의 기초를 마련하고, 미래사회의 요구에도 부합될 것이라고 기대한다.

  • PDF

TI ADC를 위한 시간 왜곡 교정 블록의 하드웨어 구현 (Hardware Implementation of Time Skew Calibration Block for Time Interleaved ADC)

  • 칸 사데크 레자;최광석
    • 디지털산업정보학회논문지
    • /
    • 제13권3호
    • /
    • pp.35-42
    • /
    • 2017
  • This paper presents hardware implementation of background timing-skew calibration technique for time-interleaved analog-to-digital converters (TI ADCs). The timing skew between any two adjacent analog-digital (A/D) channels is detected by using pure digital Finite Impulse Response (FIR) delay filter. This paper includes hardware architecture of the system, main units and small sub-blocks along with control logic circuits. Moreover, timing diagrams of logic simulations using ModelSim are provided and discussed for further understanding about simulations. Simulation process in MATLAB and Verilog is also included and provided with basic settings need to be done. For hardware implementation it not practical to work with all samples. Hence, the simulation is conducted on 512 TI ADC output samples which are stored in the buffer simultaneously and the correction arithmetic is done on those samples according to the time skew algorithm. Through the simulated results, we verified the implemented hardware is working well.

SDR 시스템에서 GPU를 사용한 Lattice Reduction-aided 검출기 구현 (Implementation of Lattice Reduction-aided Detector using GPU on SDR System)

  • 김태현;이현석;최승원
    • 디지털산업정보학회논문지
    • /
    • 제7권3호
    • /
    • pp.55-61
    • /
    • 2011
  • This paper presents an implementation of Lattice Reduction (LR)-aided detector for Multiple-Input Multiple-Output (MIMO) system using Graphics Processing Unit (GPU). GPU is a parallel processor which has a number of Arithmetic Logic Units (ALUs), thus, it can minimize the operation time of LR algorithm through the parallelization using multiple threads in the GPU. Through the implemented LR-aided detector, we verify that the LR-aided detector operates a lot faster than Maximum Likelihood (ML) detector. The implemented LR-aided detector has been applied to WiMAX system to show the feasibility of its real-time processing. In addition, we demonstrate that the processing time can be reduced at the cost of 3dB SNR loss by limiting the repeating loop in Lenstra-Lenstra-Lovasz (LLL) algorithm which is frequently used in LR-aided detector.

Parallel Fuzzy Information Processing System - KAFA : KAist Fuzzy Accelerator -

  • Kim, Young-Dal;Lee, Hyung-Kwang;Park, Kyu-Ho
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 1993년도 Fifth International Fuzzy Systems Association World Congress 93
    • /
    • pp.981-984
    • /
    • 1993
  • During the past decade, several specific hardwares for fast fuzzy inference have been developed. Most of them are dedicated to a specific inference method and thus cannot support other inference methods. In this paper, we present a hardware architecture called KAFA(KAist Fuzzy Accelerator) which provides various fuzzy inference methods and fuzzy set operators. The architecture has SIMD structure, which consists of two parts; system control/interface unit(Main Controller) and arithmetic units(FPEs). Using the parallel processing technology, the KAFA has the high performance for fuzzy information processing. The speed of the KAFA holds promise for the development of the new fuzzy application systems.

  • PDF

연산공유 승산 알고리즘을 이용한 내적의 최적화 및 이를 이용한 1차원 DCT 프로세서 설계 (Optimization Design Method for Inner Product Using CSHM Algorithm and its Application to 1-D DCT Processor)

  • 이태욱;조상복
    • 대한전기학회논문지:시스템및제어부문D
    • /
    • 제53권2호
    • /
    • pp.86-93
    • /
    • 2004
  • The DCT algorithm needs an efficient hardware architecture to compute inner product. The conventional design method, like ROM-based DA(Distributed Arithmetic), has large hardware complexity. Because of this reason, a CSHM(Computation Sharing Multiplication) was proposed for implementing inner product by Park. However, the Park's CSHM has inefficient hardware architecture in the precomputer and select units. Therefore it degrades the performance of the multiplier. In this paper, we presents the optimization design method for inner product using CSHM algorithm and applied it to implementation of 1-D DCT processor. The experimental results show that the proposed multiplier is more efficient than Park's when hardware architectures and logic synthesis results were compared. The designed 1-D DCT processor by using proposed design method is more high performance than typical methods.

Virtual Prototyping of Area-Based Fast Image Stitching Algorithm

  • Mudragada, Lakshmi Kalyani;Lee, Kye-Shin;Kim, Byung-Gyu
    • Journal of Multimedia Information System
    • /
    • 제6권1호
    • /
    • pp.7-14
    • /
    • 2019
  • This work presents a virtual prototyping design approach for an area-based image stitching hardware. The virtual hardware obtained from virtual prototyping is equivalent to the conceptual algorithm, yet the conceptual blocks are linked to the actual circuit components including the memory, logic gates, and arithmetic units. Through the proposed method, the overall structure, size, and computation speed of the actual hardware can be estimated in the early design stage. As a result, the optimized virtual hardware facilitates the hardware implementation by eliminating trail design and redundant simulation steps to optimize the hardware performance. In order to verify the feasibility of the proposed method, the virtual hardware of an image stitching platform has been realized, where it required 10,522,368 clock cycles to stitch two $1280{\times}1024$ sized images. Furthermore, with a clock frequency of 250MHz, the estimated computation time of the proposed virtual hardware is 0.877sec, which is 10x faster than the software-based image stitch platform using MATLAB.

재구성 가능한 타원 곡선 암호화 프로세서 설계 (Design of Programmable and Configurable Elliptic Curve Cryptosystem Coprocessor)

  • 이지명;이찬호;권우석
    • 대한전자공학회논문지SD
    • /
    • 제42권6호
    • /
    • pp.67-74
    • /
    • 2005
  • 암호화 시스템은 다양한 표준으로 인해 하드웨어 구성에 많은 어려움이 있다. 본 논문에서는 다양한 암호화 규격을 수용할 수 있는 재구성 가능한 타원 곡선 암호화 프로세서 구조를 제안한다. 제안된 프로세서 구조는 32bit 크기의 입출력 포트와 내부 버스를 가지며 유한체 연산 장치(AU), 입력/출력 장치(IOU), 레지스터 파일 그리고 프로그램이 가능한 제어 장치(CU)로 이루어져 있다. 제어 장치의 ROM에 저장되어 있는 마이크로 코드에 의하여 프로세서에서 사용할 키의 길이와 원시 다항식이 결정된다 마이크로 코드는 사용자가 프로세서 내부 ROM에 프로그래밍을 통해 저장할 수 있다. 프로세서 내부의 각 장치는 32 bit 크기의 버스로 연결되어 있어 타원 곡선 암호 규격에 무관하게 동작이 가능하므로 32bit 규격의 입출력 포트만 가지고 있으면 새로운 장치로 교체가 가능한 모듈 구조를 갖고 있다. 따라서 소프트웨어적으로 새로운 마이크로 코드를 프로그래밍하고 하드웨어적으로는 필요한 연산 장치의 교체를 통하여 다양한 타원 곡선 암호 체계에 응용될 수 있다. 본 논문에서는 제안된 프로세서 구조를 이용하여 타원곡선 암호화 프로세서를 구현하였으며 그 결과를 기존의 암호화 프로세서와 비교하였다.