• 제목/요약/키워드: systolic array architecture

검색결과 62건 처리시간 0.027초

최소거리 분류벡터 양자기와 시스토릭 어레이 구조 (Minimum-Distance Classified Vector Quantizer and Its Systolic Array Architecture)

  • Kim, Dong Sic
    • 전자공학회논문지B
    • /
    • 제32B권5호
    • /
    • pp.77-86
    • /
    • 1995
  • In this paper in order to reduce the encoding complexity required in the full search vector quantization(VQ), a new classified vector quantization(CVQ) technique is described employing the minimum-distance classifier. The determination of the optimal subcodebook sizes for each class is an important task in CVQ designs and is not an easy work. Therefore letting the subcodebook sizes be equal. A CVQ technique. Which satisties the optimal CVQ condition approximately, is proposed. The proposed CVQ is a kind of the partial search VQ because it requires a search process within each subcodebook only, and the minimum encoding complexity since the subcodebook sizes are the same in each class. But simulation results reveal while the encoding complexity is only O(N$^{1/2}$) comparing with O(N) of the full-search VQ. A simple systolic array, which has the through-put of k, is also proposed for the implementation of the VQ. Since the operation of the classifier is identical with that of the VQ, the proposed array is applied to both the classifier and the VQ in the proposed CVQ, which shows the usefulness of the proposed CVQ.

  • PDF

Optimized and Portable FPGA-Based Systolic Cell Architecture for Smith-Waterman-Based DNA Sequence Alignment

  • Shah, Hurmat Ali;Hasan, Laiq;Koo, Insoo
    • Journal of information and communication convergence engineering
    • /
    • 제14권1호
    • /
    • pp.26-34
    • /
    • 2016
  • The alignment of DNA sequences is one of the important processes in the field of bioinformatics. The Smith-Waterman algorithm (SWA) performs optimally for aligning sequences but is computationally expensive. Field programmable gate array (FPGA) performs the best on parameters such as cost, speed-up, and ease of re-configurability to implement SWA. The performance of FPGA-based SWA is dependent on efficient cell-basic implementation-unit design. In this paper, we present an optimized systolic cell design while avoiding oversimplification, very large-scale integration (VLSI)-level design, and direct mapping of iterative equations such as previous cell designs. The proposed design makes efficient use of hardware resources and provides portability as the proposed design is not based on gate-level details. Our cell design implementing a linear gap penalty resulted in a performance improvement of 32× over a GPP platform and surpassed the hardware utilization of another implementation by a factor of 4.23.

$GF(2^{m})$ 상에서 새로운 디지트 시리얼 $AB^{2}$ 시스톨릭 어레이 설계 및 분석 (Design and Analysis of a Digit-Serial $AB^{2}$ Systolic Arrays in $GF(2^{m})$)

  • 김남연;유기영
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제32권4호
    • /
    • pp.160-167
    • /
    • 2005
  • $GF(2^{m})$ 상의 공개키 암호 시스템에서 나눗셈/역원은 기본이 되는 연산으로 내부적으로 $AB^{2}$ 연산을 반복적으로 수행함으로써 계산이 된다. 본 논문에서는 유한 필드 $GF(2^{m})$상에서 $AB^{2}$ 연산을 수행하는 디지트 시리얼(digit-serial) 시스톨릭 구조를 제안하였다. L(디지트 크기)×L 크기의 디지트 시리얼 구조로 유도하기 위하여 새로운 $AB^{2}$ 알고리즘을 제안하고, 그 알고리즘에서 유도된 구조의 각 셀을 분리, 인덱스 변환시킨 후 병합하는 방법을 사용하였다. 제안된 구조는 공간-시간 복잡도를 비교할 때, 디지트 크기가 m보다 적을 때 비트 패러럴 구조에 비해 효율적이고, $(1/5)log_{2}(m+1)$ 보다 적을 때 비트 시리얼(bit-serial) 구조에 비해 효율적이다. 또한, 제안된 디지트 시리얼 구조에 파이프라인 기법을 적용하면 그렇지 않은 구조에 비해 m=160, L=8 일 때 공간-시간 복잡도가 $10.9\%$ 적다. 제안된 구조는 암호 프로세서 칩 디자인의 기본 구조로 이용될 수 있고, 또한 단순성, 규칙성과 병렬성으로 인해 VLSI 구현에 적합하다.

깊이별 분리 합성곱을 위한 다중 스레드 오버랩 시스톨릭 어레이 (Multithreaded and Overlapped Systolic Array for Depthwise Separable Convolution)

  • 윤종호;이승규;강석형
    • 반도체공학회 논문지
    • /
    • 제2권1호
    • /
    • pp.1-8
    • /
    • 2024
  • 깊이별 분리 합성곱 (Depthwise Separable Convolution)을 처리할 때, processing element (PE)의 저활용성은 시스톨릭 어레이 (SA)의 한계점 중 하나이다. 본 연구에서는 깊이별 합성곱의 처리량을 극대화하기 위한 새로운 SA 아키텍처를 제안한다. 더불어, 제안된 SA 는 깊이별 합성곱 계산 중에 유휴 PE 에서 후속 점별 합성곱 (pointwise convolution)을 수행하여 활용도를 증가시킨다. 모든 깊이별 합성곱 연산 후에는 모든 PE 를 활용하여 나머지 점별 합성곱 연산의 속도를 향상시킨다. 결과적으로, 제안된 128×128 SA 는 MobileNetV3 연산 시, 기본 SA 및 RiSA 와 비교하여 속도가 4.05 배, 1.75 배 향상되고, 에너지 소비량을 각각 66.7 %, 25.4 % 감소한다.

지능로봇에 적합한 잡음 환경에서의 원거리 음성인식 전처리 시스템 (Remote speech recognition preprocessing system for intelligent robot in noisy environment)

  • 권세도;정홍
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2006년도 하계종합학술대회
    • /
    • pp.365-366
    • /
    • 2006
  • This paper describes a pre-processing methodology which can apply to remote speech recognition system of service robot in noisy environment. By combining beamforming and blind source separation, we can overcome the weakness of beamforming (reverberation) and blind source separation (distributed noise, permutation ambiguity). As this method is designed to be implemented with hardware, we can achieve real-time execution with FPGA by using systolic array architecture.

  • PDF

유한 필드 GF(2m)상에서의 LSB 우선 디지트 시리얼 곱셈기 구현 (Implementation of a LSB-First Digit-Serial Multiplier for Finite Fields GF(2m))

  • 김창훈;홍춘표;우종정
    • 정보처리학회논문지A
    • /
    • 제9A권3호
    • /
    • pp.281-286
    • /
    • 2002
  • 본 논문에서는 유한 필드 GF$(2^m)$상에서 모듈러 곱셈 $A({\times})B$ mod G,({\times})를 수행하는 LSB 우선 디지트 시리얼 시스톨릭 곱셈기를 구현하였다. 구현된 곱셈기는 디지트의 크기를 L로 설정했을 경우 연속적인 입력 데이터에 대해 [m/L] 클럭 사이클 비율로 곱셈의 결과를 출력한다. 본 연구에서 구현된 곱셈기를 기존의 곱셈기와 비교 분석한 결과, 더 간단한 하드웨어 구조를 가지고, 데이터 처리 지연 시간이 감소되었다. 또한 본 연구에서 제안한 구조는 단방향의 신호 흐름 특성을 가지고 있으며, 매우 규칙적이기 때문에 m과 L에 대해 높은 확장성을 가진다.

RS 코드를 이용한 복호기 설계 (A Decoder Design for High-Speed RS code)

  • 박화세;김은원
    • 전자공학회논문지T
    • /
    • 제35T권1호
    • /
    • pp.59-66
    • /
    • 1998
  • 본 논문은 에러 정정 코드로서 가장 많이 사용하는 RS(Reed-Solomom)코드를 이용한 고속 복호기 설계에 관한 논문이며 VHDL을 사용하여 실행을 하였으며, 이 RS 복호기는 시간 영역 대신 변환 영역에서 설계하였다. 변환 복호기는 구조의 단순성 때문에 VLSI칩 설계가 용이하며, 모든 설계에 대하여 systolic 배열을 적용하기 쉬운 파이프라인 아키텍춰를 사용하였다. 변환 RS 복호기는 고속 데이타 전송율을 갖는 복호기에 적합하여 FPGA 기술로 합성 한 후 복호율은 43MByte/s 보다 더 크고 범위는 1853 LCs(Logic Cell)을 갖는다. 파이프라인을 갖는 다른 아키텍춰와 비교하여 볼 때 이러한 결과는 다른 기술과 비교하여 우수한 기술이며, 에러 정정 능력과 파이프라인 성능은 컴퓨터 시뮬레이션을 통하여 검증하였다.

  • PDF

유한 필드 $GF(2^m)$상에서의 MSB 우선 디지트 시리얼 곱셈기 설계 (Design of MSB-First Digit-Serial Multiplier for Finite Fields GF(2″))

  • 김창훈;한상덕;홍춘표
    • 한국통신학회논문지
    • /
    • 제27권6C호
    • /
    • pp.625-631
    • /
    • 2002
  • 본 논문에서는 유한 필드 GF(2")상에서 모듈러 곱셈 A(x)B(x) mod G(x)를 수행하는 MSB 우선 디지트 시리얼곱셈기를 설계하였다. 이를 위하여 GF(2")상에서 MSB 우선 곱셈 알고리즘으로부터 자료 의존 그래프를 구하고, 이를 이용하여 효율적인 디지트 시리얼 시스톨릭 곱셈기를 설계한다. 설계된 곱셈기에 대한 VHDL 코드를 구하고 시뮬레이션을 거친 후 FPGA 로 구현한다. 구현된 곱셈기는 디지트의 크기를 L로 설정했을 경우 연속적인 입력 데이터에 대해 [m/L) 클럭 사이클 비율로 곱셈의 결과를 출력한다. 본 연구에서 구현된 곱셈기를 기존의 곱셈기와 비교 분석한 결과 시간 및 공간 복잡도가 감소되었으며, 간단한 구조로서 데이터 처리 지연시간을 줄일 수 있다. 또한 본 연구에서 제안한 구조는 단 방향의 신호 흐름 특성을 가지고 있으며, 매우 규칙적이기 때문에 m과 L에 대해 높은 확장성을 가진다.

새로운 DCME 알고리즘을 사용한 고속 Reed-Solomon 복호기 (High-Speed Reed-Solomon Decoder Using New Degree Computationless Modified Euclid´s Algorithm)

  • 백재현;선우명훈
    • 대한전자공학회논문지SD
    • /
    • 제40권6호
    • /
    • pp.459-468
    • /
    • 2003
  • 본 논문에서는 차수 연산이 필요 없는 새로운 DCME 알고리즘 (Degree Computationless Modified Euclid´s Algorithm)을 사용한 저비용 고속 RS (Reed-Solomon) 복호기를 제안한다. 제안하는 구조는 차수 연산 및 비교 회로가 필요 없어 기존 수정 유클리드 구조들에 비해 매우 낮은 하드웨어 복잡도를 갖는다. 시스톨릭 에레이 (systolic array)를 이용한 제안하는 구조는 키 방정식 (key equation) 연산을 위해서 초기 지연 없이 2t 클록 사이클만을 필요로 한다. 또한, 3t+2개의 기본 셀 (basic cell)을 사용하는 DCME 구조는 오직 하나의 PE (processing element)를 사용하므로 규칙성 (regularity) 및 비례성(scalability)을 갖는다. 0.25㎛ Faraday 라이브러리를 사용하여 논리합성을 수행한 RS 복호기는 200㎒의 동작 주파수 및 1.6Gbps의 데이터 처리 속도를 갖는다. (255, 239, 8) RS 코드 복호를 수행하는 DCME 구조와 전체 RS 복호기의 게이트 수는 각각 21,760개와 42,213개이다. 제안하는 RS 복호기는 기존 RS 복호기들에 비해 23%의 게이트 수 절감 및 전체 지연 시간의 10%가 향상되었다.

타원곡선 암호프로세서의 재구성형 하드웨어 구현을 위한 GF(2$^{m}$)상의 새로운 연산기 (A Novel Arithmetic Unit Over GF(2$^{m}$) for Reconfigurable Hardware Implementation of the Elliptic Curve Cryptographic Processor)

  • 김창훈;권순학;홍춘표;유기영
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제31권8호
    • /
    • pp.453-464
    • /
    • 2004
  • In order to solve the well-known drawback of reduced flexibility that is associate with ASIC implementations, this paper proposes a novel arithmetic unit over GF(2$^{m}$ ) for field programmable gate arrays (FPGAs) implementations of elliptic curve cryptographic processor. The proposed arithmetic unit is based on the binary extended GCD algorithm and the MSB-first multiplication scheme, and designed as systolic architecture to remove global signals broadcasting. The proposed architecture can perform both division and multiplication in GF(2$^{m}$ ). In other word, when input data come in continuously, it produces division results at a rate of one per m clock cycles after an initial delay of 5m-2 in division mode and multiplication results at a rate of one per m clock cycles after an initial delay of 3m in multiplication mode respectively. Analysis shows that while previously proposed dividers have area complexity of Ο(m$^2$) or Ο(mㆍ(log$_2$$^{m}$ )), the Proposed architecture has area complexity of Ο(m), In addition, the proposed architecture has significantly less computational delay time compared with the divider which has area complexity of Ο(mㆍ(log$_2$$^{m}$ )). FPGA implementation results of the proposed arithmetic unit, in which Altera's EP2A70F1508C-7 was used as the target device, show that it ran at maximum 121MHz and utilized 52% of the chip area in GF(2$^{571}$ ). Therefore, when elliptic curve cryptographic processor is implemented on FPGAs, the proposed arithmetic unit is well suited for both division and multiplication circuit.