• 제목/요약/키워드: parallel multiplier

검색결과 158건 처리시간 0.024초

고성능 잔여 데이터 복호기를 위한 최적화된 하드웨어 설계 (An Optimized Hardware Design for High Performance Residual Data Decoder)

  • 정홍균;류광기
    • 한국산학기술학회논문지
    • /
    • 제13권11호
    • /
    • pp.5389-5396
    • /
    • 2012
  • 본 논문에서는 H.264/AVC의 고성능 잔여 데이터 복호기를 위해 최적화된 하드웨어 구조를 제안한다. 제안하는 하드웨어 구조는 새로운 역영자화 수식들을 적용한 공통 연산기를 갖는 병렬 역양자화기와 병렬 역변환기를 통합한 하드웨어 구조이다. 새로운 역양자화 수식들은 기존 수식에서 나눗셈 연산을 제거하여 연산량 및 처리시간을 감소시키고 새로운 수식들을 처리하기 위해 곱셈기와 왼쪽 쉬프터로 구성된 하나의 공통 연산기를 사용한다. 역양자화기는 4개의 공통 연산기를 병렬처리하기 때문에 $4{\times}4$ 블록의 역양자화 수행 사이클 수를 1 사이클로 감소시키고, 제안하는 역변환기는 8개의 역변환 연산기를 사용하여 $4{\times}4$ 블록의 역변환 수행 사이클 수를 1 사이클로 감소시킨다. 또한 제안하는 구조는 역양자화 연산과 역변환 연산을 동시에 수행하기 때문에 하나의 $4{\times}4$ 블록을 처리하는 데 1 사이클이 소요되어 수행 사이클 수가 감소한다. 제안하는 구조를 Magnachip 0.18um CMOS 공정 라이브러리를 이용하여 합성한 결과 게이트 수는 21.9k, critical path delay는 5.5ns이고, 최대 동작 주파수는 181MHz이다. 최대 동작 주파수에서 제안하는 구조의 throughput은 2.89Gpixels/sec이다. 표준 참조 소프트웨어 JM 9.4에서 추출한 데이터를 이용하여 성능을 측정한 결과 제안하는 구조의 수행 사이클 수가 기존 구조들 대비 88.5% 이상 향상되었다.

다중 피연산자 십진 CSA와 개선된 십진 CLA를 이용한 부분곱 누산기 설계 (Design of Partial Product Accumulator using Multi-Operand Decimal CSA and Improved Decimal CLA)

  • 이양;박태신;김강희;최상방
    • 전자공학회논문지
    • /
    • 제53권11호
    • /
    • pp.56-65
    • /
    • 2016
  • 본 논문에선 병렬 십진 곱셈기의 축약 단계의 면적과 지연시간을 감소시켜 성능을 향상시키기 위해 다중 피연산자 십진 CSA과 개선된 십진 CLA를 이용한 트리 구조를 제안한다. 제안한 부분곱 축약 트리는 십진수 부분곱에 대해 다중 피연산자 십진 CSA를 사용하여 빠르게 부분곱을 축약한다. 각 CSA에서는 리코딩에 입력의 범위를 제한함으로써 가장 간단한 리코더 로직을 얻는다. 그리고 각 CSA는 특정한 아키텍처 트리의 특정한 위치에서 범위가 제한된 십진수를 더하기 때문에 부분곱 축약 단계의 연산을 효율적으로 수행할 수 있다. 또한, 사용되는 십진 CLA의 로직을 개선하여 BCD 결과를 빠르게 얻을 수 있다. 제안한 십진 부분곱 축약 단계의 성능의 평가를 위해 Design Compiler를 통해 SMIC사의 180nm CMOS 공정 라이브러리를 이용하여 합성하였다. 일반 방법을 이용하는 축약 단계에 비해 제안한 부분곱 축약 단계의 지연시간은 약 15.6% 감소하였고 면적은 약 16.2% 감소하였다. 또한 십진 CLA의 지연시간과 면적이 증가가 있음에도 불구하고 전체 지연시간과 전체 면적이 감소함을 확인하였다.

다양한 최신 워크로드에 적용 가능한 하드웨어 데이터 프리페처 구현 (Implementation of Hardware Data Prefetcher Adaptable for Various State-of-the-Art Workload)

  • 김강희;박태신;송경환;윤동성;최상방
    • 전자공학회논문지
    • /
    • 제53권12호
    • /
    • pp.20-35
    • /
    • 2016
  • 본 논문에선 병렬 십진 곱셈기의 축약 단계의 면적과 지연시간을 감소시켜 성능을 향상시키기 위해 다중 피연산자 십진 CSA과 개선된 십진 CLA를 이용한 트리 구조를 제안한다. 제안한 부분곱 축약 트리는 십진수 부분곱에 대해 다중 피연산자 십진 CSA를 사용하여 빠르게 부분곱을 축약한다. 각 CSA에서는 리코딩에 입력의 범위를 제한함으로써 가장 간단한 리코더 로직을 얻는다. 그리고 각 CSA는 특정한 아키텍처 트리의 특정한 위치에서 범위가 제한된 십진수를 더하기 때문에 부분곱 축약 단계의 연산을 효율적으로 수행할 수 있다. 또한, 사용되는 십진 CLA의 로직을 개선하여 BCD 결과를 빠르게 얻을 수 있다. 제안한 십진 부분곱 축약 단계의 성능의 평가를 위해 Design Compiler를 통해 SMIC사의 180nm CMOS 공정 라이브러리를 이용하여 합성하였다. 일반 방법을 이용하는 축약 단계에 비해 제안한 부분곱 축약 단계의 지연시간은 약 15.6% 감소하였고 면적은 약 16.2% 감소하였다. 또한 십진 CLA의 지연시간과 면적이 증가가 있음에도 불구하고 전체 지연시간과 전체 면적이 감소함을 확인하였다.

2n 차 최대무게 다항식에 대응하는 90/150 RCA (90/150 RCA Corresponding to Maximum Weight Polynomial with degree 2n)

  • 최언숙;조성진
    • 한국전자통신학회논문지
    • /
    • 제13권4호
    • /
    • pp.819-826
    • /
    • 2018
  • 일반화된 해밍무게는 선형부호의 중요한 파라미터의 하나로써 암호시스템에 적용할 때 부호의 성능을 결정한다. 그리고 격자도를 이용하여 블록부호를 연판정으로 복호할 때 구현에 필요한 상태복잡도를 평가하는 척도가 되기도 함으로써 그 중요성이 한층 부각되고 있다. 특별히 삼항다항식을 기반으로 하는 유한체 상의 비트-병렬 곱셈기에 대한 연구가 진행되어왔다. 셀룰라오토마타(Cellular Automata, 이하 CA)는 국소적 상호작용에 의해 상태가 동시에 업데이트되는 성질이 있어서 LFSR보다 랜덤성이 우수하다. 본 논문에서는 효과적인 암호시스템 설계에 있어 중요한 요소 중 하나인 의사난수열 생성기의 효과적 합성에 관하여 다룬다. 먼저 간단한 90/150 전이규칙 블록의 특성 다항식의 성질을 분석하고, 이 규칙블록을 이용하여 삼항다항식 $x^2^n+x^{2^n-1}+1$($n{\geq}2$)에 대응하는 가역 90/150 CA와 $2^n$차 최대무게다항식에 대응하는 90/150 가역 CA(RCA)의 합성알고리즘을 제안한다.

$GF(2^{m})$ 상에서 새로운 디지트 시리얼 $AB^{2}$ 시스톨릭 어레이 설계 및 분석 (Design and Analysis of a Digit-Serial $AB^{2}$ Systolic Arrays in $GF(2^{m})$)

  • 김남연;유기영
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제32권4호
    • /
    • pp.160-167
    • /
    • 2005
  • $GF(2^{m})$ 상의 공개키 암호 시스템에서 나눗셈/역원은 기본이 되는 연산으로 내부적으로 $AB^{2}$ 연산을 반복적으로 수행함으로써 계산이 된다. 본 논문에서는 유한 필드 $GF(2^{m})$상에서 $AB^{2}$ 연산을 수행하는 디지트 시리얼(digit-serial) 시스톨릭 구조를 제안하였다. L(디지트 크기)×L 크기의 디지트 시리얼 구조로 유도하기 위하여 새로운 $AB^{2}$ 알고리즘을 제안하고, 그 알고리즘에서 유도된 구조의 각 셀을 분리, 인덱스 변환시킨 후 병합하는 방법을 사용하였다. 제안된 구조는 공간-시간 복잡도를 비교할 때, 디지트 크기가 m보다 적을 때 비트 패러럴 구조에 비해 효율적이고, $(1/5)log_{2}(m+1)$ 보다 적을 때 비트 시리얼(bit-serial) 구조에 비해 효율적이다. 또한, 제안된 디지트 시리얼 구조에 파이프라인 기법을 적용하면 그렇지 않은 구조에 비해 m=160, L=8 일 때 공간-시간 복잡도가 $10.9\%$ 적다. 제안된 구조는 암호 프로세서 칩 디자인의 기본 구조로 이용될 수 있고, 또한 단순성, 규칙성과 병렬성으로 인해 VLSI 구현에 적합하다.

나눗셈 체인을 이용한 RSA 모듈로 멱승기의 구현 (Implementation of RSA modular exponentiator using Division Chain)

  • 김성두;정용진
    • 정보보호학회논문지
    • /
    • 제12권2호
    • /
    • pp.21-34
    • /
    • 2002
  • 본 논문에서는 최근 발표된 멱승방법인 나눗셈 체인을 적용한 새로운 모듈로 멱승기의 하드웨어 구조를 제안하였다. 나눗셈 체인은 제수(divisor) d=2 또는 $d=2^I +1$ 과 그에 따른 나머지(remainder) r을 이용하여 지수 I를 새롭게 변형하는 방법으로 전체 멱승 연산이 평균 약 1.4$log_2$E 번의 곱셈으로 가능한 알고리즘이다. 이것은 Binary Method가 하드웨어 구현 시 항상 worst case인 $2log_2$E의 계산량이 필요한 것과 비교할 때 상당한 성능개선을 의미한다. 전체 구조는 파이프라인 동작이 가능한 선형 시스톨릭 어레이 구조로 설계하였으며, DG(Dependence Graph)를 수평으로 매핑하여 k비트의 키 사이즈에 대해 두 개의 k 비트 프레임이 k/2+3 개의 PE(Processing Element)로 구성된 두 개의 곱셈기 모듈을 통해 병렬로 동시에 처리되어 100% 처리율을 이루게 하였다. 또한, 규칙적인 데이터 패스를 가질 수 있도록 나눗셈체인을 새롭게 코딩하는 방법을 제안하였다. ASIC 구현을 위해 삼성 0.5um CMOS 스탠다드 셀 라이브러리를 이용해 합성한 결과 최장 지연 패스는 4.24ns로 200MHz의 클럭이 가능하며, 1024비트 데이터 프레임에 대해 약 140kbps의 처리속도를 나타낸다. 복호화 시에는 CRT(Chinese Remainder Theorem)를 적용하여 처리속도를 560kbps로 향상시켰다. 전자서명의 검증과정으로 사용되기도 하는 암호화 과정을 수행할 때 공개키 E는 3,17 혹은 $2^{16} +1$의 사용이 권장된다는 점을 이용하여 E를 17 비트로 제한할 경우 7.3Mbps의 빠른 처리속도를 가질 수 있다.

직접해법 기반의 FETI 알고리즘의 개선 (Further Improvement of Direct Solution-based FETI Algorithm)

  • 강승훈;공두현;신상준
    • 한국전산구조공학회논문집
    • /
    • 제35권5호
    • /
    • pp.249-257
    • /
    • 2022
  • 본 논문은 직접해법 기반 FETI 알고리즘의 개선 방안을 제시하였다. 개선 대상은 FETI-local로, 해당 알고리즘은 국부 Lagrange 승수를 통해 부영역 간 경계 문제를 정의한다. 부영역 경계 강성 및 하중 계산 단계의 경우, 전체 역행렬 계산 등 과도한 비용을 요구했던 기존 알고리즘을 Boolean 행렬 특성을 활용한 선택적 역행렬 성분 계산으로 개선하였다. 전역 경계 행렬식 계산 단계의 경우, 기존 단일 프로세서 연산을 다중 프론탈 기법 기반 병렬 연산으로 대체하였다. 제시된 FETI-local 알고리즘의 성능 개선은 64만 자유도 수치 예제를 통해 검증되었으며, 기존 대비 최대 97.8%의 계산 시간 감소가 달성되었다. 또한, 기존 대비 안정적이고 개선된 확장성이 가속 지표를 통해 확인되었다. 추가로, 432만 자유도의 대용량 계산 성능 비교가 제시된 알고리즘과 상용 프로그램인 ANSYS 간에 수행되었다. 그 결과, 계산 시간 측면에선 ANSYS가 우수하였으나, 프로세서 수에 따른 가속 성능 증가율 측면에선 제시된 알고리즘이 우수한 것이 확인되었다.

NaI (T1) 섬광결정과 위치민감형 광전자증배관을 이용한 유방암 진단용 소형 감마카메라 개발 (Development of a Small Gamma Camera Using NaI(T1)-Position Sensitive Photomultiplier Tube for Breast Imaging)

  • 김종호;최용;권홍성;김희중;김상은;최연성;이경한;김문회;주관식;김병태
    • 대한핵의학회지
    • /
    • 제32권4호
    • /
    • pp.365-373
    • /
    • 1998
  • 목적: 일반 감마카메라는 그 크기(${\sim}500mm$ 폭)가 전신영상 획득에 적합하도록 설계되어있어 유방영상 획득에는 비 이상적이다. 이 연구의 목적은 물리적 영상 저하요인인 배후 방사능과 광자감쇠 효과를 최소화하여 높은 공간분해능과 시스템 민감도를 가지며 유방영상에 적합하도록 소형화된 저가-고성능유방암 진단전용 소형 감마카메라 개발이다. 대상 및 방법: 크기가 $60 mm{\times}60 mm{\times}6 mm$인 NaI(T1) 섬광결정을 위치민감형 광전자증배관에 접합시켜 감마선 측정신호인 $X^+,\;X^-,\;Y^+,\;Y^-$를 얻은 다음, 증폭기 등을 포함한 전자회로(nuclear instrument modules, NIM)를 통하여 검출기로부터 발생하는 위치신호와 트리거 신호를 처리하였다. 이 신호들을 아날로그-디지털 변환기와 앵거로직을 사용하여 분석한 후 감마카메라 영상을 구성하여 일반 개인용컴퓨터에 표현하는 시스템을 개발하였다. 개발된 감마카메라의 1차적인 성능을 평가하기 위해 Tc-99m 점선원을 이용하여 내인성 계수율과 플러드 영상을 획득하였다. 또한 일정간격의 구멍이 있는 구멍 마스크와 직경 2, 3, 4, 5, 6, 7 mm 크기의 구모양에 방사능 용액을 채울 수 있는 유방모형을 제작하여 평행구멍형조준기를 장착하고 영상을 획득하였다. 결과: 개발된 감마카메라는 약 $8{\times}10^3 counts/sec/{\mu}Ci$의 계수율을 보였으며, 공간왜곡은 관찰되나 양질의 플러드 영상과 구멍 마스크 영상을 획득할 수 있었고, 유방모형에 위치한 방사능 분포를 정확하게 영상화할 수 있을 뿐 아니라 최소 2 mm의 방사능 위치를 판별할 수 있는 영상을 획득하였다. 결론: NaI(T1)-위치민감형 광전자증배관를 이용하여 유방영상에 적합한 소형감마카메라를 개발하였다. 추후 선형성, 장균일도 및 불응시간에 대한 보정 알고리즘을 완성하여 적용하고, 정상작동 여부를 검사하기 위한 정도관리 방법을 설정하면, 유방 신티그라피의 정확도를 높이는데 기여할 것이다.

  • PDF