• 제목/요약/키워드: 연산 지도

검색결과 3,998건 처리시간 0.035초

Deep Learning을 위한 GPGPU 기반 Convolution 가속기 구현 (An Implementation of a Convolutional Accelerator based on a GPGPU for a Deep Learning)

  • 전희경;이광엽;김치용
    • 전기전자학회논문지
    • /
    • 제20권3호
    • /
    • pp.303-306
    • /
    • 2016
  • 본 논문에서는 GPGPU를 활용하여 Convolutional neural network의 가속화 방법을 제안한다. Convolutional neural network는 이미지의 특징 값을 학습하여 분류하는 neural network의 일종으로 대량의 데이터를 학습해야하는 영상 처리에 적합하다. 기존의 Convolutional neural network의 convolution layer는 다수의 곱셈 연산을 필요로 하여 임베디드 환경에서 실시간으로 동작하기에 어려움이 있다. 본 논문에서는 이러한 단점을 해결하기 위하여 winograd convolution 연산을 통하여 곱셈 연산을 줄이고 GPGPU의 SIMT 구조를 활용하여 convolution 연산을 병렬 처리한다. 실험은 ModelSim, TestDrive를 사용하여 진행하였고 실험 결과 기존의 convolution 연산보다 처리 시간이 약 17% 개선되었다.

광대역 무선 액세스를 위한 다중 수신안테나를 갖는 OFDMA 시스템의 낮은 복잡도의 타이밍 딜레이 추정기 구현 (Low-complexity implementation of OFDMA timing delay detector with multiple receive antennas for broadband wireless access)

  • 원희철
    • 한국산업정보학회논문지
    • /
    • 제12권3호
    • /
    • pp.19-30
    • /
    • 2007
  • 본 논문은 광대역 무선 액세스를 위하여 다중 수신안테나를 갖는 OFDMA 시스템의 타이밍 딜레이 추정기의 구현 복잡도를 낮추는 방안을 제안한다. 타이밍 딜레이 값을 추정하기 위해 각 수신안테나 별로 푸리에 연산과 역 푸리에 연산을 수행하므로, 다중 수신안테나를 사용하는 경우에는 계산 복잡도가 큰 단점이 있다. 먼저, 각 안테나에 수신된 레인징 심볼의 위상을 회전시키는 구조를 제안함으로써 각 안테나의 역 푸리에 연산을 제거하여 구현 복잡도를 크게 개선할 수 있다. 둘째로, N점/M구간 푸리에 연산을 수행하고 시간 대역 평균 전력 추정기 대신 주파수 대역 평균 전력 추정기를 포함한 구조를 제안함으로써 성능 저하 없이 복잡도를 크게 낮출 수 있다. 기존 방식에 대하여 제안된 두 가지 구조의 복잡도 개선량을 보여주고, 시뮬레이션 결과를 통해 성능 비교를 실시한다.

  • PDF

파이프라인 구조의 3DES 암호알고리즘의 설계 및 구현 (Design and Implementation of 3DES crypto-algorithm with Pipeline Architecture)

  • 이완복;김정태
    • 한국정보통신학회논문지
    • /
    • 제10권2호
    • /
    • pp.333-337
    • /
    • 2006
  • 대칭키 암호 알고리즘들은 전치와 치환의 연속적인 반복 과정이며, 동작방식에 따라 CBC, ECB, CFB, OFB의 네가지 모드가 있다. 또한 이들 알고리즘들에서는 내부적으로 여러 라운드의 연산을 반복적으로 수행해야 최종 암호문이 완성되기 때문에, 많은 연산 시간이 소요된다. 본 논문에서는 블록 암호 알고리즘의 ECB 모드에서 암호 연산을 가속화할 수 있는 파이프라인드 설계 방법을 제시한다. 제안된 방법에서는 여러 라운드의 암호 연산 블록을 파이프라인드 구조로 구성하고 연속적으로 실행하기 때문에 전체 연산 속도를 매우 높일 수 있다. 또한 파이프라인드 구조로 암호칩을 설계한 후 검증한 결과, 수십 배의 성능 향상이 가능하다는 것을 알 수 있다.

1-Bit 합성곱 신경망을 위한 정확도 향상 기법 (Accuracy Improvement Method for 1-Bit Convolutional Neural Network)

  • 임성훈;이재흥
    • 전기전자학회논문지
    • /
    • 제22권4호
    • /
    • pp.1115-1122
    • /
    • 2018
  • 본 논문에서는 기존 1-Bit 합성곱 신경망의 성능 하락에 대한 분석과 이를 완화하기 위한 방안을 제시한다. 기존의 연구는 첫 번째 층과 마지막 층만 32-Bit 연산을 적용하고 나머지 연산은 1-Bit 연산을 적용한 것과 달리 본 논문에서는 두 번째 층도 32-Bit로 연산한다. 또한 입력과 가중치를 이진화하고 1-Bit 연산을 적용한 후에는 비선형 활성화 함수를 제거할 수 있음을 제시한다. 본 논문에서 제시한 방법을 검증하기 위해 차량 번호판 검출을 위한 객체 검출 신경망을 실험하였다. 기존의 방법으로 학습한 결과보다 정확도가 74%에서 96.1%로 상승하였다.

CIE1931 색좌표계 변환의 최적화된 하드웨어 구현을 통한 색상 보정 (Color Correction with Optimized Hardware Implementation of CIE1931 Color Coordinate System Transformation)

  • 김대운;강봉순
    • 전기전자학회논문지
    • /
    • 제25권1호
    • /
    • pp.10-14
    • /
    • 2021
  • 본 논문에서는 기존 CIE1931 색 좌표계를 이용한 색상 보정 연산의 복잡성을 개선한 하드웨어를 제안한다. 기존 알고리즘은 연산 과정에서 큰 비트 수를 계산하기 위해 사용되는 4-Split Multiply 연산으로 인해 하드웨어가 커지는 단점이 있다. 제안하는 알고리즘은 기존 알고리즘의 정의된 R2X, X2R 연산을 미리 계산하여 하나의 행렬로 만들어 영상에 적용함으로써 연산량 감소와 하드웨어 크기 감소가 가능하다. Verilog로 설계된 하드웨어의 Xilinx 합성 결과를 비교함으로써 하드웨어 자원 감소와 4K 환경 실시간 처리를 위한 성능을 확인할 수 있다. 또한, FPGA 보드에서의 실행 결과를 제시함으로써 하드웨어 탑재 동작을 검증하였다.

SPA에 견디는 스칼라 곱셈 방법과 하드웨어 (A Scalar Multiplication Method and its Hardware with resistance to SPA(Simple Power Analysis))

  • 윤중철;정석원;임종인
    • 정보보호학회논문지
    • /
    • 제13권3호
    • /
    • pp.65-70
    • /
    • 2003
  • 본 논문에서는 side-channel 공격법 중 SPA(Simple Power Analysis)에 견디면서도 효율적인 연산이 가능한 scalar multiplication 방법과 하드웨어 구조를 제시한다. 기존에 제시된 SPA에 견디는 스칼라 곱셈 방법은 연산 속도가 느린 것이 약점이다. 따라서 이를 보안하는 방법에 대한 연구는 중요한 분야이다. 본 논문에서 제시한 타원곡선암호법 전용 하드웨어는 SPA에 견디면서도 동일한 유한체 연산기(multiplier, inverter)를 사용한다는 가정 하에 Coron의 방법 보다 연산 속도가 빠른 스칼라 곱셈 방법과 구조를 제시한다. 논문에서 제시하는 하드웨어는 n비트 키를 사용할 때 연산 속도가 2n·(Inversion cycle)+3(Multiplication cycle)만이 소요된다.

효율적인 RSA 다중 서명 방식 (Efficient RSA Multisignature Scheme)

  • 박상준;박상우;원동호
    • 정보보호학회논문지
    • /
    • 제7권2호
    • /
    • pp.19-26
    • /
    • 1997
  • 본 논문에서는 서명의 순서에 제한을 받지 않으며 비트 확장을 발생시키지 않는 RSA 다중 서명방식을 제안하고자 한다. 제안된 방법에서는 모든 사용자들이 동일한 비트 길이를 갖고 상위 l비트패턴이 같은 RSA modulus를 사용한다. 이러한 형태의 RSA 키들은 Levine과 Brawley가 제안한 반복 지수승 연산 기법(repeated exponentiation)과 함께 다중 서명 방식에 응용된다. 본 논문에서 제안된 다중 서명 방식은 Levine과 Brawley의 반복 지수승 연산을 이용한 Kiesler-Harn의 방식보다 다중서명 생성에 요구되는 계산량을 줄일 수 있다. m명의 사용자가 다중 서명에 참여할 경우 Kiesler-Harn 방식은 평균 1.5 m회의 지수승 연산이 요구되나 제안된 방식에서는 (equation omitted) m회 의 지수승 연산이 요구된다. 따라서, l이 충분히 클 경우(1 $\geq$ 32) 다중 서명에 필요한 지수승 연산의 수는 거의 m과 같게 된다.

타원곡선에서 스칼라 곱의 고속연산 (A fast scalar multiplication on elliptic curves)

  • 박영호;한동국;오상호;이상진;임종인;주학수
    • 정보보호학회논문지
    • /
    • 제12권2호
    • /
    • pp.3-10
    • /
    • 2002
  • Koblitz 타원곡선에서 스칼라 곱을 효율적으로 구현하기 위하여 프로베니우스 자기준동형 (Frobenius endomorphism)이 유용하게 사용된다. 스칼라 곱 연산시 스칼라를 이진 전개하는 대신에 프로베니우스 확장을 사용하여 고속연산을 가능하게 할 수 있으며 따라서 연산의 속도는 확장길이와 밀접한 관계가 있다. 본 논문은 스칼라의 프로베니우스 확장길이를 줄임으로써 스칼라 곱의 고속연산을 가능하게 하는 새로운 방법을 제안한다. 타원곡선의 위수를 노름(Norm)으로 갖는 원소대신 큰 소수 위수를 노름으로 갖는 원소를 사용하여 프로베니우스 확장길이를 최적화시키는 이 방법은 Solinas, Smart가 제안한 방법보다 프로베니우스 확장길이를 더 감소시킬 수 있다.

오류 확산 기법에 기반한 RSA-CRT 대응책에 대한선택 메시지 공격 (Chosen Message Attack on the RSA-CRT Countermeasure Based on Fault Propagation Method)

  • 백이루;하재철
    • 정보보호학회논문지
    • /
    • 제20권3호
    • /
    • pp.135-140
    • /
    • 2010
  • 중국인의 나머지 정리(Chinese Remainder Theorem)를 이용한 RSA 암호 시스템(RSA-CRT)에서의 연산은 기존의 일반 RSA 멱승 연산보다 빠르게 처리할 수 있어 디지털 서명이나 복호 과정에서 많이 사용된다. 그러나 RSA-CRT는 오류주입 공격에 매우 취약한 특성을 보여 많은 대응책이 제안되고 있다. 이 중에서 Yen 등은 오류 확산 기법을 사용한 두 가지 대응책을 제안하였는데 FDTC 2006에서는 그에 대한 새로운 공격 방법이 제시되었다. 그러나 Kim 등은 비트 연산 중 AND 연산의 특성을 이용하여 FDTC 2006에서 제시한 공격을 방어하는 방법을 제안하였다. 본 논문에서는 Kim 등이 제안한 AND 연산을 이용한 오류 확산 기법이 선택 메시지에 대한 오류주입 공격에 취약하여 안전하지 않음을 밝히고자 한다.

NIST PQC Rainbow의 효율적 유한체 연산 구현 (Efficient Implementation of Finite Field Operations in NIST PQC Rainbow)

  • 김광식;김영식
    • 정보보호학회논문지
    • /
    • 제31권3호
    • /
    • pp.527-532
    • /
    • 2021
  • 본 논문에서는 미국 NIST PQC 표준화 Final List 알고리즘 중 유일한 다변수이차방정식(multivariate quadratic equation) 기반의 전자 서명인 Rainbow 알고리즘에서의 효율적인 유한체 연산 방법을 제안한다. Chou 등은 최근 Rainbow를 Cortex-M4에서 구현하기 위한 새로운 효율적 구현 방법을 제시하였다. 본 논문은 Chou 등이 제안한 방법을 개선하여 기존 대비 XOR 연산의 숫자를 13.7% 이상 감소할 수 있는 새로운 곱셈 방법을 제안한다. 또한, 테이블 룩업(Table Lookup)으로 수행되던 상에서의 역원 연산을 4x4 행렬 역원으로 치환하여 연산하는 방법을 제시한다. 또한, 새로운 구현을 RaspberryPI 3B+상에서 구현하여 성능을 측정하였다.