• 제목/요약/키워드: algorithm for multiplication

검색결과 372건 처리시간 0.024초

ARM/NEON 프로세서를 활용한 NIST PQC SABER에서 Toom-Cook 알고리즘 최적화 구현 연구 (Optimization Study of Toom-Cook Algorithm in NIST PQC SABER Utilizing ARM/NEON Processor)

  • 송진교;김영범;서석충
    • 정보보호학회논문지
    • /
    • 제31권3호
    • /
    • pp.463-471
    • /
    • 2021
  • NIST(National Institute of Standards and Technology)에서는 2016년부터 양자컴퓨팅 환경을 대비하여 양자내성암호 표준화 사업을 진행하고 있다. 현재 3라운드가 진행 중이며, 대부분 후보자(5/7)는 격자기반 암호이다. 격자기반 암호는 효율적인 연산 처리와 적절한 키 길이를 제공하여 다른 기반의 양자내성 암호보다 리소스가 제한적인 임베디드 환경에서도 적용이 가능하다는 평가를 받고 있다. 그중 SABER KEM은 효율적인 모듈러스와 연산 부하가 큰 다항식 곱셈을 처리하기 위해 Toom-Cook 알고리즘을 제공한다. 본 논문에서는 ARMv8-A 환경에서 ARM/NEON을 활용하여 SABER의 Toom-Cook 알고리즘에서 평가와 보간 과정에 대한 최적화 구현 방법을 소개한다. 평가과정에서는 ARM/NEON의 효율적인 인터리빙 방법을 제안하며, 보간 과정에 서는 다양한 임베디드 환경에서 적용 가능한 최적화된 구현 방법론을 소개한다. 결과적으로 제안하는 구현은 이전 레퍼런스 구현보다 평가과정에서는 약 3.5배 보간과정에서는 약 5배 빠른 성능을 달성하였다.

가변길이 고속 RSA 암호시스템의 설계 및 하드웨어 구현 (Design and Hardware Implementation of High-Speed Variable-Length RSA Cryptosystem)

  • 박진영;서영호;김동욱
    • 한국통신학회논문지
    • /
    • 제27권9C호
    • /
    • pp.861-870
    • /
    • 2002
  • 본 논문에서는 RSA 암호 알고리즘의 연산속도 문제에 초점을 맞추어 동작속도를 향상시키고 가변길이 암호화가 가능하도록 하는 새로운 구조의 1024-비트 RSA 암호시스템을 제안하고 이를 하드웨어로 구현하였다. 제안한 암호시스템은 크게 모듈러 지수승 연산 부분과 모듈러 곱셈 연산 부분으로 구성되었다. 모듈러 지수승 연산은 제곱 연산과 단순 곱셈 연산을 병렬적으로 처리할 수 있는 RL-이진 방법을 개선하여 적용하였다. 그리고 모듈러 곱셈 연산은 가변길이 연산과 부분 곱의 수를 감소하기 위해서 Montgomery 알고리즘에 4 단계 CSA 구조와 기수-4Booth 알고리즘을 적용하였다. 제안한 RSA 암호시스템은 하이닉스 0.35$\mu\textrm{m}$ Phantom Cell Library를 사용하여 하드웨어로 구현하였고 최대 1024-비트까지 가변길이 연산이 가능하였다. 또한 소프트웨어로 RSA 암호시스템을 구현하여 하드웨어 시스템의 검증에 사용하였다. 구현된 하드웨어 RSA 암호시스템은 약 190K의 게이트 수를 나타내었으며, 동작 클록 주기는 150MHz이었다. 모듈러스 수의 가변길이를 고려했을 때, 데이터 출력률은 기존 방법의 약 1.5배에 해당한다. 따라서 본 논문에서 제안한 가변길이 고속 RSA 암호시스템은 고속 처리를 요구하는 각종 정보보호 시스템에서의 사용 가능성을 보여주었다.

확장 유클리드 알고리즘을 이용한 파이프라인 구조의 타원곡선 암호용 스칼라 곱셈기 구현 (Implementation of a pipelined Scalar Multiplier using Extended Euclid Algorithm for Elliptic Curve Cryptography(ECC))

  • 김종만;김영필;정용진
    • 정보보호학회논문지
    • /
    • 제11권5호
    • /
    • pp.17-30
    • /
    • 2001
  • 본 논문에서는 타원곡선 암호시스템에 필요한 스칼라 곱셈기를 $GF(2^{163})$의 standard basis상에서 구현하였다. 스칼라 곱셈기는 래딕스-16 유한체 직렬 곱셈기와 유한체 역수기로 구성되어 있다. 스칼라 곱셈을 계산하기 위해서는 유한체 곱셈, 덧셈과 역수의 계산이 필요하지만, 기존의 스칼라 곱셈기는 이러한 스칼라 곱셈을 유한체 곱셈기만으로 계산하였으므로 역수를 계산하는데 많은 시간을 소모하였다. 따라서, 본 논문의 중요한 특징은 가장 많은 연산시간을 필요로 하는 역수 연산을 빠르게 계산하기 위해 유한체 역수기를 추가 사용한 것이다. 유한체 역수기는 기존의 많은 구현 사례 중 두 번의 곱셈 시간이 소요되는 확장 유클리드 알고리즘(Extended Euclid Algorithm)을 이용하였다. 본 논문에서 구현한 유한필드 곱셈기와 역수기는 하드웨어 구조가 규칙적이어서 확장성이 용이하고, 파이프라인 구조와 하드웨어 리소스의 재활용을 이용해 계산과정에서 100%의 효율(throughput)을 발휘할 수 있는 구조를 가지고 있다. 스칼라 곱셈기는 현대전자 0.6$\mu\textrm{m}$ CMOS 공정 라이브러리인 IDEC-C631을 이용하여 예측한 결과 최대 140MHz까지 동작이 가능하며, 이때 데이터 처리속도는 64Kbps로 163bit 프레임당 2.53ms 걸린다. 이러한 성능의 스칼라 곱셈기는 전자서명(Digital Signature), 암호화 및 복호화(encryption & decryption) 그리고 키 교환(key exchange)등에 효율적으로 사용될 수 있을 것으로 여겨진다.

$GF(2^{m})$ 상에서 새로운 디지트 시리얼 $AB^{2}$ 시스톨릭 어레이 설계 및 분석 (Design and Analysis of a Digit-Serial $AB^{2}$ Systolic Arrays in $GF(2^{m})$)

  • 김남연;유기영
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제32권4호
    • /
    • pp.160-167
    • /
    • 2005
  • $GF(2^{m})$ 상의 공개키 암호 시스템에서 나눗셈/역원은 기본이 되는 연산으로 내부적으로 $AB^{2}$ 연산을 반복적으로 수행함으로써 계산이 된다. 본 논문에서는 유한 필드 $GF(2^{m})$상에서 $AB^{2}$ 연산을 수행하는 디지트 시리얼(digit-serial) 시스톨릭 구조를 제안하였다. L(디지트 크기)×L 크기의 디지트 시리얼 구조로 유도하기 위하여 새로운 $AB^{2}$ 알고리즘을 제안하고, 그 알고리즘에서 유도된 구조의 각 셀을 분리, 인덱스 변환시킨 후 병합하는 방법을 사용하였다. 제안된 구조는 공간-시간 복잡도를 비교할 때, 디지트 크기가 m보다 적을 때 비트 패러럴 구조에 비해 효율적이고, $(1/5)log_{2}(m+1)$ 보다 적을 때 비트 시리얼(bit-serial) 구조에 비해 효율적이다. 또한, 제안된 디지트 시리얼 구조에 파이프라인 기법을 적용하면 그렇지 않은 구조에 비해 m=160, L=8 일 때 공간-시간 복잡도가 $10.9\%$ 적다. 제안된 구조는 암호 프로세서 칩 디자인의 기본 구조로 이용될 수 있고, 또한 단순성, 규칙성과 병렬성으로 인해 VLSI 구현에 적합하다.

PRML Read Channel용 고효율, 저전력 FIR 필터 칩 (Highly Efficient and Low Power FIR Filter Chip for PRML Read Channel)

  • Jin Yong, Kang;Byung Gak, Jo;Myung Hoon, Sunwoo
    • 대한전자공학회논문지SD
    • /
    • 제41권9호
    • /
    • pp.115-124
    • /
    • 2004
  • 본 논문은 고효율, 저전력을 갖는 PRML 디스크 드라이브 읽기 채널용 6비트, 8탭의 FIR 필터 칩을 제안한다. 제안된 필터는 병렬처리 구조를 채택하고 있으며 4단의 파이프라인으로 구성되어 있다. 곱셈 연산을 위하여 수정 부스 알고리즘을 사용하였으며 덧셈 연산을 위하여 압축회로 로직을 사용하였다. 전력 소모를 줄이기 위하여 CMOS 패스-트랜지스터 로직을 사용하였으며 싱글-레일 로직을 이용하여 칩의 면적을 감소시켰다. 제안된 필터는 실제 칩으로 구현되었으며 3.3V 전원을 공급하여 100MHz에서 120mV의 전력을 소비하고 1.88×1.38 ㎟의 면적을 차지한다. 구현된 필터는 유사 선폭의 공정을 사용한 기존구조에 비해 약 11.7%의 전력이 감소하였다.

CRT를 이용한 하이래딕스 RSA 모듈로 멱승 처리기의 구현 (Implementation of High-radix Modular Exponentiator for RSA using CRT)

  • 이석용;김성두;정용진
    • 정보보호학회논문지
    • /
    • 제10권4호
    • /
    • pp.81-93
    • /
    • 2000
  • 본 논문에서는 RSA 암호 시스템의 핵심 연산인 모듈로 멱승의 처리속도를 향상시키기 위한 방법으로 하이래딕스 (High-Radix) 연산 방식과 CRT(Chinese Remainder Theorem)를 적용한 새로운 하드웨어 구조를 제안한다. 모듈로 멱승의 기본 연산인 모듈로 곱셈은 16진 연산 방법을 사용하여 PE(Processing Element)의 개수를 1/4고 줄임으로써, 기존의 이 진 연산 방식에 비해 클럭 수차 파이프라이닝 플립플롭의 지연시간을 1/4로 줄였다. 복호화시에는 합성수인 계수 N 의 인수, p, q를 알고 있는 점을 이용하여 속도를 향상시키는 일반적인 방법인 CRT 알고리즘을 적용하였다. 즉, s비트 의 키에 대해, s/2비트 모듈로 곱셈기 두 개를 병렬로 동시 수행함으로써 처리 속도를 CRT를 사용하지 않을 때보다 4 배정도 향상시켰다. 암호화의 경우는 두 개의 s/2비트 모듈로 곱셈기를 직렬로 연결하여 s/비트에 대한 연산이 가능하도록 하였으며 공개키는 E는 17비트까지의 지수를 허용하여 빠른 속도를 유지하였다. 모듈로 곱셈은 몽고메리 알고리즘을 변형하여 사용하였으며, 그 내부 계산 구조를 보여주는 데이터 종속 그래프(Dependence Graph)를 수평으로 매핑하여 1차원 선형 어레이 구조로 구성하였다. 그 결과 삼성 0.5um CMOS 스탠다드 셀 라이브러리를 근거로 산출한 때, 1024 비트 RSA 연산에 대해서 160Mhz의 클럭 주파수로 암호화 시에 15Mbps, 복호화 시에 1.22Mbs의 성능을 가질 것으로 예측되며, 이러한 성능은 지금가지 발표된 국내의의 어느 논문보다도 빠른 RSA 처리 시간이다.

RSA 공개키 암호화시스템의 효율적인 Radix-4 시스톨릭 VLSI 구조 (Efficient Radix-4 Systolic VLSI Architecture for RSA Public-key Cryptosystem)

  • 박태근
    • 한국통신학회논문지
    • /
    • 제29권12C호
    • /
    • pp.1739-1747
    • /
    • 2004
  • 본 논문에서는 RSA 공개키 암호화 알고리즘을 위한 효율적인 Radix-4 시스톨릭 VLSI 아키텍쳐를 제안하였다. 모듈러 곱셈 알고리즘의 이터레이션 단순화와 효율적인 시스톨릭 매핑으로 제안된 구조는 n-비트 모듈러 멱승 연산을 n$^{2}$ 클럭 싸이클에 수행한다. 각 지수 처리 단계에서 두 개의 모듈러 곱셈, M$_{i}$와 P$_{i}$는 중첩되어 연산되며 따라서 제안된 하드웨어의 이용도(hardware utilization)는 100%이다. 또한 RSA 암호화를 위한 총 모듈러 곱셈의 횟수를 줄이기 위하여 지수를 Radix-4 SD(Signed Digit) 수체계를 이용하여 인코딩하였다. 이로 인하여 지수의 NZ(non-zero) 디지트가 약 20% 감소되어 성능이 향상되었다. 기존의 방법들과 비교하였을 때, 제안된 구조는 비교적 적은 하드웨어를 사용하여 우수한 성능을 보였으며 개선된 Montgomery 알고리즘을 바탕으로 한 제안된 구조는 지역성, 규칙성, 확장성 등으로 VLSI 구현에 적합하다.

공개키 암호 구현을 위한 경량 하드웨어 가속기 (A Lightweight Hardware Accelerator for Public-Key Cryptography)

  • 성병윤;신경욱
    • 한국정보통신학회논문지
    • /
    • 제23권12호
    • /
    • pp.1609-1617
    • /
    • 2019
  • ECC (Elliptic Curve Cryptography)와 RSA를 기반으로 하는 다양한 공개키 암호 프로토콜 구현을 지원하는 하드웨어 가속기 설계에 관해 기술한다. NIST 표준으로 정의된 소수체 상의 5가지 타원곡선과 3가지 키길이의 RSA를 지원하며 또한, 4가지 타원곡선 점 연산과 6가지 모듈러 연산을 지원하도록 설계되어 ECC와 RSA 기반 다양한 공개키 암호 프로토콜의 하드웨어 구현에 응용될 수 있다. 저면적 구현을 위해 내부 유한체 연산회로는 32 비트의 데이터 패스로 설계되었으며, 워드 기반 몽고메리 곱셈 알고리듬, 타원곡선 점 연산을 위해서는 자코비안 좌표계, 그리고 모듈러 곱의 역원 연산을 위해서는 페르마 소정리를 적용하였다. 설계된 하드웨어 가속기를 FPGA 디바이스에 구현하여 EC-DH 키교환 프로토콜과 RSA 암호·복호 둥작을 구현하여 하드웨어 동작을 검증하였다. 180-nm CMOS 표준 셀 라이브러리로 합성한 결과, 50 MHz 클록 주파수에서 20,800 등가게이트와 28 kbit의 RAM으로 구현되었으며, Virtex-5 FPGA 디바이스에서 1,503 슬라이스와 2개의 BRAM으로 구현되었다.

분할된 $AB^2$ 시스톨릭 모듈러 곱셈기 설계 (Design of Partitioned $AB^2$ Systolic Modular Multiplier)

  • 이진호;김현성
    • 한국통신학회논문지
    • /
    • 제31권1C호
    • /
    • pp.87-92
    • /
    • 2006
  • [ $AB^2$ ]연산은 공개키 암호화 시스템을 위한 효율적인 기본 연산으로 알려져 있고 이를 위한 다양한 하드웨어가 설계되었다. 그러나 이들 구조들은 암호학적 응용에 사용되기에는 구조복잡도가 크다는 문제점이 있었다. 본 논문에서는 GF($2^m$)상에서 공간 효율적인 분할된 $AB^2$ 시스톨릭 모듈러 곱셈기를 설계한다. MSB $AB^2$ 모듈러 곱셈 알고리즘으로부터 데이터 의존 그래프를 유도하고 유도된 의존 그래프를 1/3로 분할함으로서 공간 효율적인 분할된 $AB^2$ 시스톨릭 곱셈기를 설계한다. 본 논문에서 제안한 곱셈기는 기존의 곱셈기와 비교하여 2/3정도의 구조 복잡도를 줄일 수 있다. 본 논문에서 제안한 구조는 크기에 제한을 갖는 스마트 카드 등에서 사용될 공개키 암호의 핵심이 되는 지수기의 구현을 위한 효율적인 기본구조로 사용될 수 있을 것이다.

래딕스-4 몽고메리 곱셈기 기반의 고속 RSA 연산기 설계 (Design of high-speed RSA processor based on radix-4 Montgomery multiplier)

  • 구본석;유권호;장태주;이상진
    • 정보보호학회논문지
    • /
    • 제17권6호
    • /
    • pp.29-39
    • /
    • 2007
  • 본 논문에서는 래딕스-4 몽고메리 곱셈기 기반의 고속 RSA 연산기를 제안하고 그 구현 결과를 제시한다. 캐리저장 가산기 기반의 래딕스-4 몽고메리 곱셈기를 제안하고, 중국인의 나머지 정리를 적용할 수 있도록 그 구조를 확장하였다. 이를 바탕으로 설계한 1024-비트 RSA 연산기는 1024-비트 모듈러 지수승을 0.84M 클락 사이클, 512-비트 지수승은 0.25M 클락 사이클 동안 각각 계산할 수 있으며, 0.18um 공정을 이용하여 구현한 결과, 최대 300MHz 클락 속도를 가지므로 1024-비트 지수승은 365Kbps, 512-비트 지수승은 1,233Kbps의 성능을 각각 가진다. 또한 고속 RSA 암호 시스템의 구현을 위해, 몽고메리 매핑 계수 계산 및 중국인 나머지 정리의 전처리 과정에 적용할 수 있도록 모듈러 감산 기능을 하드웨어로 구현하였다.