• 제목/요약/키워드: algorithm for multiplication

검색결과 372건 처리시간 0.021초

Weighted average of fuzzy numbers under TW(the weakest t-norm)-based fuzzy arithmetic operations

  • Hong, Dug-Hun;Kim, Kyung-Tae
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제7권1호
    • /
    • pp.85-89
    • /
    • 2007
  • Many authors considered the computational aspect of sup-min convolution when applied to weighted average operations. They used a computational algorithm based on a-cut representation of fuzzy sets, nonlinear programming implementation of the extension principle, and interval analysis. It is well known that $T_W$(the weakest t-norm)-based addition and multiplication preserve the shape of L-R type fuzzy numbers. In this paper, we consider the computational aspect of the extension principle by the use of $T_W$ when the principle is applied to fuzzy weighted average operations. We give the exact solution for the case where variables and coefficients are L-L fuzzy numbers without programming or the aid of computer resources.

한국과 일본의 초등교과서에서 다루는 분배법칙 개념에 관한 비교 분석 (A Comparative Analysis on the Distributive Property In Korean and Japanese Elementary Textbooks)

  • 변희현
    • 한국초등수학교육학회지
    • /
    • 제15권1호
    • /
    • pp.39-56
    • /
    • 2011
  • 현재 중학교에서는 덧셈에 대한 곱셈의 분배법칙을 문자변수를 사용하여 일반화의 맥락에서 정의하여 도입한다. 그런데 분배법칙에 대한 학생들의 이해도는 높지 않다. 일반화의 맥락에서 도입되는 분배법칙을 의미 있게 학습하려면 특수한 맥락에서 분배법칙의 풍부한 이해가 선행되어야 하므로, 본 연구는 한국과 일본의 초등학교 교과서에서 다루어지는 분배법칙 내용의 비교 분석을 통해 교육적 시사점을 도출하고자 한다.

  • PDF

곱셈기가 없는 효율적인 가변탭 FIR 필터 칩 설계 (Design of an efficient multiplierless FIR filter chip with variable length taps)

  • 윤성현;선우명훈
    • 전자공학회논문지C
    • /
    • 제34C권6호
    • /
    • pp.22-27
    • /
    • 1997
  • This paper propose a novel VLSI architecture for a multiplierless FIR filter chip providing variable-length taps. To change the number of taps, we propose two special features called a data-reuse structure and a recurrent-coefficient scheme. These features consist of several MUXs and registers and reduce the number of gates over 20% compared with existing chips using an address generation unit and a modulo unit. Since multipliers occupy large VLSI area, a multiplierless filter chip meeting real-time requirement can save large area. We propose a modified bit-serial multiplication algorithm to compute two partial products in parallel, and thus, the proposed filter is twice faster and has smaller hardware than previous multiplierless filters. We developed VHDL models and performed logic synthesis using the 0.8.mu.m SOG (sea-of-gate) cell library. The chip has only 9,507 gates, was fabricated, and is running at 77MHz.

  • PDF

시스토릭 어레이를 이용한 Montgomery 모듈라 곱셈기 설계 (Design of Montgomery Modular Multiplier based on Systolic Array)

  • 하재철;문상재
    • 정보보호학회논문지
    • /
    • 제9권1호
    • /
    • pp.135-146
    • /
    • 1999
  • 공개 키 암호 시스템에서의 주 연산은 멱승 연산이며 이는 모듈라 곱셈의 반복으로 이루어져 있다. 본 논문에서는 고속 모듈라 곱셈을 위해 Montgomery 알고리듬에 기반한 선형 시스토릭 어레이 곱셈기를 제안하고 이를 설계하였다. 제안 곱셈기는 각 처리기 내부 구조를 간소화할 수 있어 기존 곱셈기에 비해 하드웨어 설계에 필요한 논리 게이트를 약 14%정도 줄일 수 있을 뿐만 아니라 모듈라 곱셈 속도를 약 20%정도 감소시킬 수 있다.

타원곡선암호시스템에서 Montgomery ladder 방법에 기반한 새로운 스칼라 곱셈 알고리즘 (New Efficient Scalar Multiplication Algorithms Based on Montgomery Ladder Method for Elliptic Curve Cryptosystems)

  • 조성민;서석충;김태현;박영호;홍석희
    • 정보보호학회논문지
    • /
    • 제19권4호
    • /
    • pp.3-19
    • /
    • 2009
  • 본 논문에서는 Montgomery ladder 방법을 확장한 효율적인 스칼라 곱셈 알고리즘을 제안한다. 제안하는 방법은 효율성을 높이기 위하여 스칼라를 ternary 또는 quaternary로 표현하고 아핀좌표계에서 Montgomery ladder 방법과 같이 x 좌표만을 이용하여 연산 가능하도록 하는 새로운 연산식을 적용한다. 그리고 단순전력분석에 안전하도록 Side-channel atomicity를 적용하였다. 또한 Montgomery trick을 사용하여 연산속도를 높였다. 재안하는 방법은 기존에 효율적으로 알려진 window method. comb method에 비해서 연산속도가 26% 이상 향상된다. 또한 이 방법들보다 저장공간을 적게 사용하는 장점도 가지고 있다.

트랜스포머 알고리즘의 멀티 헤드 어텐션과 피드포워드 네트워크에서 활용 가능한 효율적인 행렬 곱셈기 (An Efficient Matrix Multiplier Available in Multi-Head Attention and Feed-Forward Network of Transformer Algorithms)

  • 장석우;김동순
    • 전기전자학회논문지
    • /
    • 제28권1호
    • /
    • pp.53-64
    • /
    • 2024
  • 자연어 처리 모델이 발전함에 따라 챗 GPT와 같은 대화형 언어 생성 AI 모델이 널리 사용되고 있다. 따라서 자연어 처리 최신 모델의 기반이 되는 트랜스포머 알고리즘을 하드웨어로 구현하여 연산 속도와 전력 소비량을 개선하는 것은 중요하다고 할 수 있다. 특히, 행렬 곱셈을 통해 문장에서 서로 다른 단어 간의 관계를 분석하는 멀티 헤드 어텐션과 피드 포워드 네트워크는 트랜스포머에서 연산량이 가장 큰 핵심적인 알고리즘이다. 본 논문에서는 기존의 시스톨릭 어레이를 변형하여 행렬 곱 연산 속도를 개선하고, 입력 단어 개수 변동에 따라 지연시간도 변동되는 유동적인 구조를 제안한다. 또한, 트랜스포머 알고리즘의 정확도를 유지하는 형태로 양자화를 하여 메모리 효율성과 연산 속도를 높였다. 본 논문은 평가를 위해 멀티헤드어텐션과 피드포워드 네트워크에서 소요되는 클럭사이클을 검증하고 다른 곱셈기와 성능을 비교하였다.

다중 사용자 MIMO 방송 채널을 위한 $S^{2}MMSE$ 프리코딩 ($S^{2}MMSE$ Precoding for Multiuser MIMO Broadcast Channels)

  • 이민;오성근
    • 한국통신학회논문지
    • /
    • 제33권12A호
    • /
    • pp.1185-1190
    • /
    • 2008
  • 이 논문에서는 IST (information society technologies)-WINNER (wireless world initiative new radio) 프로젝트에서 MU-MIMO (multiuser multiple-input multiple-output) 프리코딩 방식으로 채택된 SMMSE (successive minimum mean square error) 프리코딩 방법의 프리코딩 행렬 생성을 단순화하기 위한 $S^{2}MMSE$ (simplified SMMSE) 알고리즘을 제안한다. 기존의 알고리즘이 모든 사용자들의 모든 수신 안테나들을 대상으로 개별 MMSE nulling을 필요로 하는 프리코멍 벡터들을 생성하는 것과 대조적으로, 제안되는 알고리즘은 먼저 사용자 별 MMSE nulling 과정을 수행하고, 해당 사용자 내에서는 이 결과를 공통으로 이용하여 개별 수신 안테나에서 추가적인 MMSE nulling 과정 없이 단순한 행렬-벡터 곱으로 프리코딩 벡터를 계산한다. 따라서, 이 알고리즘을 사용하면 SMMSE 프리코딩을 위한 프리코멍 행렬 생성을 크게 단순화시킬 수 있다.

Radix-2 MBA 기반 병렬 MAC의 VLSI 구조 (New VLSI Architecture of Parallel Multiplier-Accumulator Based on Radix-2 Modified Booth Algorithm)

  • 서영호;김동욱
    • 대한전자공학회논문지SD
    • /
    • 제45권4호
    • /
    • pp.94-104
    • /
    • 2008
  • 본 논문에서는 고속의 곱셈-누적 연산을 수행할 수 있는 새로운 MAC의 구조를 제안한다. 곱셈과 누적 덧셈 연산을 통합하고 하이브리드 형태의 CSA 구조를 고안하여 임계경로를 감소시키고 출력율을 개선하였다. 즉, 가장 큰 지연시간을 갖는 누적기 자체를 제거하고 누적기의 기능을 CSA에 포함시킴으로써 전체적인 성능을 향상시킨다. 제안된 CSA 트리는 1의 보수 기반의 MBA 알고리즘을 이용하고, 연산자의 밀도를 높이고자 부호비트를 위한 수정된 배열형태를 갖는다. 또한 최종 덧셈기의 비트수를 줄이기 위해서 CSA 트리 내에 2비트 CLA를 사용하여 하위 비트의 캐리를 전파하고 하위 비트들에 대한 출력을 미리 생성한다. 또한 파이프라인의 효율을 최적화시켜 출력율을 증가시키고자 최종 덧셈기의 출력이 아닌 합과 캐리 형태의 중간 연산결과들을 누적시킨다. 제안한 하드웨어를 설계한 후에 $250{\mu}m,\;180{\mu}m,\;130{\mu}m$, 그리고 90nm CMOS 라이브러리를 이용하여 합성하였다. 이론 및 실험적인 결과를 토대로 제안한 MAC의 하드웨어 자원, 지연시간, 그리고 파이프라인 등의 결과에 대해 분석하였다. 지연시간은 수정된 Sakurai의 alpha power low를 이용하였다. 결과를 살펴보면 제안한 MAC은 표준 설계에 대해서는 여러 측면에서 매우 우수한 특성을 보였고, 최근 연구와 비교할 때 클록속도는 거의 유사하면서 성능은 두 배로 우수하였다.

CUDA를 이용한 고속 영상 회전 알고리즘에 관한 연구 (A Study on High Speed Image Rotation Algorithm using CUDA)

  • 권희철;조형진;권희용
    • 한국인터넷방송통신학회논문지
    • /
    • 제16권5호
    • /
    • pp.1-6
    • /
    • 2016
  • 영상 회전은 영상 처리나 영상 패턴 인식에서 중요한 전처리 방법 중 하나이다. 영상 회전은 회전 행렬의 곱으로 이루어 진다. 그러나 기존의 방법은 대량의 실수 연산과 삼각 함수 계산을 필요로 하므로 수행 시간이 오래 걸린다. 본 논문에서는 이 같은 두가지 주요 지체 연산과정을 제거한 새로운 고속 영상 회전 알고리즘을 제안한다. 제안된 알고리즘은 단지 2개의 전단 연산을 행하므로 매우 빠르다. 또한 최신 병렬 처리 기술인 CUDA를 적용한다. CUDA는 최근 널리 보급된 GPU를 이용한 대용량 병렬처리 계산 아키텍쳐이다. GPGPU는 그래픽 전용프로세서이므로 화소 단위의 병렬처리에 탁월한 성능을 보인다. 제안된 알고리즘은 기존의 회전 알고리즘과 다양한 크기의 영상에 대해 비교 실험한다. 실험 결과는 제안된 알고리즘이 기존의 방법보다 8배 이상의 매우 우수한 성능을 보인다.

FPGA 상에서 에너지 효율이 높은 병렬 신호처리 기법 (Energy-Efficient Signal Processing Using FPGAs)

  • 장주욱;황윤일
    • 정보처리학회논문지A
    • /
    • 제12A권4호
    • /
    • pp.305-312
    • /
    • 2005
  • 본 논문은 알고리즘 레벨에서 FPGA를 이용하여 에너지 효율이 높은 기법을 제안한다. 제안한 기법을 기반으로 FPGA와 행렬곱셈용 신호처리응용을 위한 고효율 설계 기술을 제안한다. 또한 이러한 신호처리응용 수행시 지연시간과 에너지 효율 측면에서의 FPGA 성능을 분석한다. Xilinx Virtex-II를 대상으로 Virtex-II Pro와 Texas Instrument TMS320C6415에 내장되는 Power PC 코어에서 구동되는 Xilinx library와 기존 알고리즘을 본 논문 기법과의 성능 비교를 수행한다. 성능 비교는 high-level에서 에너지와 지연 시간에 대한 유도 공식을 통한 추정치와 low-level 시뮬레이션을 통해 평가하였다. FFT에 대해 본 논문에서 제안한 기법은 Xilinx library와 DSP에 비해 각각 $60\%,\;56\%$ 적은 에너지를 소모한다는 결과를 얻었다. 또한 임베디드 프로세서와 비교해 EAT지수에서 10배의 개선을 보여준다. 위와 같은 결과는 FPGA가 DSP나 임베디드 프로세서에 비해 월등한 성능을 보여준다는 견해에 결정적인 단서가 된다 또한, 이는 FPGA가 앞의 두 종류의 디바이스에 비해 더 적은 전력을 소모하면서 동시에 더 나은 성능을 보인다는 사실을 보여준다.