• 제목/요약/키워드: 병렬곱셈 연산기

검색결과 70건 처리시간 0.026초

경량화된 딥러닝 구조를 이용한 실시간 초고해상도 영상 생성 기술 (Deep Learning-based Real-Time Super-Resolution Architecture Design)

  • 안세현;강석주
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 추계학술대회
    • /
    • pp.228-229
    • /
    • 2020
  • 최근 딥러닝 기술은 여러 컴퓨터 비전 응용 분야에서 많이 쓰이고 있다. 물체 인식, 분류 및 영상 생성 등을 예로 들 수 있다. 특히 초고해상도 변환 문제에서 최근 딥러닝을 사용하면서 큰 성능 개선을 얻고 있다. Fast super-resolution convolutional neural network (FSRCNN)은 딥러닝 기반 초고해상도 알고리즘으로 잘 알려져 있으며, 여러 개의 convolutional layer로 추출한 저 해상도의 입력 특징을 활용하여 deconvolutional layer에서 초고해상도의 영상을 출력하는 알고리즘이다. 본 논문에서는 병렬 연산 효율성을 고려한 FPGA 기반 convolutional neural networks 가속기를 제안한다. 특히 deconvolutional layer를 convolutional layer로 변환하는 방법을 통해서 에너지 효율적인 가속기를 설계했다. 또한 제안한 방법은 FPGA 리소스를 고려하여 FSRCNN의 구조를 변형한 Optimal-FSRCNN을 제안한다. 사용하는 곱셈기의 개수를 FSRCNN 대비 2.4 배 압축하였고, 초고해상도 변환 성능을 평가하는 지표인 PSNR은 FSRCNN과 비슷한 성능을 내고 있다. 이를 통해서 FPGA 에 최적화된 네트워크를 구현하여 FHD 입력 영상을 UHD 영상으로 출력하는 실시간 영상처리 기술을 개발했다.

  • PDF

초고속 전력선 통신을 위한 오류정정 부호화기 설계 (Design of Error Correction Encoder for High-Speed PLC Systems)

  • 최성수;박해수;이재조;이원태;김관호
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2003년도 하계학술대회 논문집 D
    • /
    • pp.2702-2704
    • /
    • 2003
  • 본 논문은 전력선통신시스템 (Power Line Communications)을 위한 초고속 오류정정 부호화기 회로에 관한 설계방법론과 회로의 동작속도, 회로복잡성과 레이턴시에 직접적으로 기여하는 핵심 GF (Galois Field) 연산기들의 역할 및 이들의 설계결과에 관해 설명한다. 특히, 이러한 설계방법에 충실한 오류정정 부호화기회로는 입출력 병렬구조의 세미-시스톨릭 (Semi-systolic) 아키텍처를 갖는 고속의 내부 핵심 GF 연산기회로들을 채택함으로써 고속 연산을 가능토록 한다. 최적화된 GF곱셈연산기를 기반으로 설계되어진 리드-솔로몬 (Reed-Solomon) 오류정정 부호화기는 전력선 채널상에서 데이터를 전송 시 발생되는 연집오류들을 효과적으로 복원하도록 하는 대표적인 부호화기로 이미 존재하는 다른 회로들에 비해 동작속도, 회로의 복잡성, 및 레이턴시 측면에서 그 성능이 월등히 뛰어나므로, 실제 초고속 전력선 통신시스템의 설계 및 구현 시 효과적으로 이용될 수 있다.

  • PDF

$GF(2^m)$에서 삼항 기약 다항식을 이용한 약한 쌍대 기저 기반의 효율적인 지수승기 (Efficient polynomial exponentiation in $GF(2^m)$with a trinomial using weakly dual basis)

  • 김희석;장남수;임종인;김창한
    • 대한전자공학회논문지SD
    • /
    • 제44권8호
    • /
    • pp.30-37
    • /
    • 2007
  • 유한체 $GF(2^m)$에서의 다항식의 지수승 연산은 암호학(Cryptography), DSP(digital signal processing), 에러 정정 코드에서 기본적인 연산으로 사용되어진다. 기존의 방법들은 지수승 연산을 병렬처리가 가능한 Right-to-Left 이진 방법으로 구성하여 연산시간을 줄이는 방법을 사용하였다. 본 논문에서는 기존의 다항식 기저에서 Right-to-Left 이진 방법으로 구성되었던 다항식의 지수승기를 약한 쌍대 기저 기반에서 삼항 기약다항식을 이용한 Left-to-Right 이진 형태로 구성한다. 제안하는 방법은 Left-to-Right는 고정된 다항식을 곱한다는 점에 착안, 사전계산을 이용하여 연산량을 감소시킨다. 본 논문에서 제안하는 방법은 제곱기(squarer)와 곱셈기(multiplier)를 모두 수행하는 시간이 기존 지수승기의 곱셈기의 연산 시간보다 같거나 작아 Left-to-Right 형태와 Right-to-Left 형태의 기존 지수승기보다 각각 기약 다항식이 $x^m+x+1$의 경우 약 17%, 10%, $x^m+x^k+1(1의 경우 약 21%, 9%, $x^m+x^{m/2}+1$의 경우 15%, 1%의 시간이 단축된다.

불필요한 연산이 없는 카라슈바 알고리즘과 하드웨어 구조 (An Efficient Architecture for Modified Karatsuba-Ofman Algorithm)

  • 장남수;김창한
    • 대한전자공학회논문지SD
    • /
    • 제43권3호
    • /
    • pp.33-39
    • /
    • 2006
  • Divide-and-Conquer방법은 병렬 곱셈기의 구성에 잘 적용되며 가장 대표적으로 카라슈바 방법이 있다. Leone은 최적 반복 회수를 카라슈바 알고리즘에 적용하였으며 Ernst는 다중 분할 카라슈바 방법을 제안하였다. 본 논문에서는 카라슈바 알고리즘에서 불필요한 연산이 제거된 불필요한 연산이 없는 카라슈바 알고리즘과 효율적인 하드웨어 구조를 제안한다. 본 논문에서 제안하는 알고리즘은 기존의 카라슈바 알고리즘에 비교하여 같은 시간 복잡도를 가지나 공간 복잡도를 효율적으로 감소시킨다. 특히 확장체의 차수 n이 홀수 및 소수일 때 더 효율적이며 최대 43%까지 공간 복잡도를 줄일 수 있다.

OpenCL을 이용한 랜더링 노이즈 제거를 위한 뉴럴 네트워크 가속기 구현 (Implementation of Neural Network Accelerator for Rendering Noise Reduction on OpenCL)

  • 남기훈
    • 문화기술의 융합
    • /
    • 제4권4호
    • /
    • pp.373-377
    • /
    • 2018
  • 본 논문에서는 OpenCL을 이용한 랜더링 노이즈 제거를 위한 가속기 구현을 제안한다. 렌더링 알고리즘 중에 고품질 그래픽스를 보장하는 레이트레이싱을 선택하였다. 레이 트레이싱은 레이를 사용하여 렌더링하는데 레이를 적게 사용하면 노이즈가 발생한다. 레이를 많이 사용하게 되면 고화질의 이미지를 생성할 수 있으나 연산 시간이 상대적으로 길어지게 된다. 레이를 적게 사용하면서 연산시간을 줄이기 위해 뉴럴 네트워크를 이용한 LBF(Learning Based Filtering) 알고리즘을 적용하였다. 뉴럴 네트워크를 사용한다고 해서 항상 최적의 결과가 나오지는 않는다. 본 논문에서는 성능향상을 위해 일반적인 행렬 곱셈을 기반으로 하는 새로운 기법의 행렬 곱셈 접근법을 제시하였다. 개발환경으로는 고속병렬 처리가 특화된 OpneCL을 사용하였다. 제안하는 구조는 Kintex UltraScale XKU690T-2FDFG1157C FPGA 보드에서 검증하였다. 하나의 픽셀에 사용되는 파라미터를 계산 시간은 Verilog-HDL 구조보다 약 1.12배 빠른 것으로 확인했다.

저전력 및 효율적인 면적을 갖는 PRML Read Channel 용 FIR 필터 (A Low Power and Area Efficient FIR filter for PRML Read Channels)

  • 조병각;강진용;선우명훈
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 제13회 신호처리 합동 학술대회 논문집
    • /
    • pp.255-258
    • /
    • 2000
  • 본 논문에서는 효율적인 면적의 저전력 FIR 필터를 제안한다. 제안된 필터는 6 비트 8 탭의 구조를 갖는PRML(Partial-Response Maximum Likelihood) 디스크드라이브 read channel용 FIR 필터이다 제안된 구조는 병렬연산 구조를 채택하고 있으며 네 단의 파이프라인 구조를 가지고 있다. 곱셈을 위하여 부스 알고리즘이 사용되며 압축기를 이용하여 덧셈을 수행한다. 저전력을 위해 CMOS 패스 트랜지스터를 사용하였으며 면적을 줄이기 위해 single-rail 로직을 사용하였다 제안된 구조를 0.65㎛ CMOS 공정을 이용하여 설계하였으며1.88 × 1.38㎟의 면적을 차지하였고 HSPICE 시뮬레이션 결과 3.3V의 공급전압에서 100㎒로 동작시 120㎽의 전력을 소모한다. 제안된 구조는 기존의 구조들에 비해 약 11%의 전력이 감소했으며 약 33%의 면적이 감소하였다.

  • PDF

Vector-radix 2차원 고속 DCT의 VLSI 구현을 위한 효율적인 어레이 알고리듬 (An Efficient Array Algorithm for VLSI Implementation of Vector-radix 2-D Fast Discrete Cosine Transform)

  • 신경욱;전흥우;강용섬
    • 한국통신학회논문지
    • /
    • 제18권12호
    • /
    • pp.1970-1982
    • /
    • 1993
  • 본 논문에서는 vector-radix 2차원 고속 DCT(VR-FCT)를 VLSI 병렬계산하기 위한 효율적인 어레이 알고리듬을 제안하고, 이를 집적회로로 구현하기 위한 회로를 설계하였다. VR-FCT 알고리듬의 버터플라이 연산부분을 2차원 어레이에 매핑하여 이를 병렬 및 파이프라인 처리함을써 VR-FCT 알고리듬의 고속성과 2차원 어레이의 병렬성 및 국부통신 특성을 동시에 이용할 수 있다는 특징을 갖는다. 제안된 구현방식은 RCA 방식과는 달리 transposition 메모리가 필요치 않으며, 2차원 어레이의 구조적인 규칙성, 모듈성 및 국부연결성 등에 의해 회로설계 시간의 단축, 설계검증 및 설계변경등이 용이하여 VLSI 구현에 매우 적합하다. 연산회로는 곱셈기를 사용하기않고 가산기만으로 설계하였으며, 2의 보수연산 대신에 Canonic-Signed Didit(CSD) 코드를 사용함으로써 약 30%의 가산횟수를 줄일 수 있었다. 제안된 방법의 DCT 연산과정을 C언어로 모델링하여 회로의 유한 레지스터 길이에 대한 연산정밀도를 분석하였다. 제안된 어레이 알고리듬의 시간성능은 (N*N) 2차원 DCT에 대해 O(N+Nnzd-log2N)의 시간 복잡도를 갖는다. 시뮬레이션 결과고부터 Nnzp=4이고 50MHz 클럭이 사용되는 경우, (8*8) DCT계산에 약 0.88 sec가 소요괴며, 약 72*10 pixels/sec의 연산성능이 예상된다.

  • PDF

Radix-2 MBA 기반 병렬 MAC의 VLSI 구조 (New VLSI Architecture of Parallel Multiplier-Accumulator Based on Radix-2 Modified Booth Algorithm)

  • 서영호;김동욱
    • 대한전자공학회논문지SD
    • /
    • 제45권4호
    • /
    • pp.94-104
    • /
    • 2008
  • 본 논문에서는 고속의 곱셈-누적 연산을 수행할 수 있는 새로운 MAC의 구조를 제안한다. 곱셈과 누적 덧셈 연산을 통합하고 하이브리드 형태의 CSA 구조를 고안하여 임계경로를 감소시키고 출력율을 개선하였다. 즉, 가장 큰 지연시간을 갖는 누적기 자체를 제거하고 누적기의 기능을 CSA에 포함시킴으로써 전체적인 성능을 향상시킨다. 제안된 CSA 트리는 1의 보수 기반의 MBA 알고리즘을 이용하고, 연산자의 밀도를 높이고자 부호비트를 위한 수정된 배열형태를 갖는다. 또한 최종 덧셈기의 비트수를 줄이기 위해서 CSA 트리 내에 2비트 CLA를 사용하여 하위 비트의 캐리를 전파하고 하위 비트들에 대한 출력을 미리 생성한다. 또한 파이프라인의 효율을 최적화시켜 출력율을 증가시키고자 최종 덧셈기의 출력이 아닌 합과 캐리 형태의 중간 연산결과들을 누적시킨다. 제안한 하드웨어를 설계한 후에 $250{\mu}m,\;180{\mu}m,\;130{\mu}m$, 그리고 90nm CMOS 라이브러리를 이용하여 합성하였다. 이론 및 실험적인 결과를 토대로 제안한 MAC의 하드웨어 자원, 지연시간, 그리고 파이프라인 등의 결과에 대해 분석하였다. 지연시간은 수정된 Sakurai의 alpha power low를 이용하였다. 결과를 살펴보면 제안한 MAC은 표준 설계에 대해서는 여러 측면에서 매우 우수한 특성을 보였고, 최근 연구와 비교할 때 클록속도는 거의 유사하면서 성능은 두 배로 우수하였다.

고속 디지털 신호처리를 위한 MBA기반 병렬 MAC의 효율적인 구조 (A Efficient Architecture of MBA-based Parallel MAC for High-Speed Digital Signal Processing)

  • 서영호;김동욱
    • 대한전자공학회논문지SD
    • /
    • 제41권7호
    • /
    • pp.53-61
    • /
    • 2004
  • 본 논문에서는 고속의 곱셈-누적 연산을 수행할 수 있는 새로운 MAC(Multiplier- Accumulator)의 구조를 제안하였다. 부분 곱의 생성을 위해서 1의 보수 기반의 고속 Booth 알고리즘(Modified Booth Algorithm, MBA)를 이용하였고 다수의 부분 곱을 더하기 위해서 CSA(Carry Save Adder)를 이용하였다. 부분 곱을 더하는 과정에서 Booth 인코딩 시 이용한 1의 보수 체계를 2의 보수 체계로 보상하고 이전 합과 캐리를 누적하는 연산을 수행하여 고속의 누적 연산이 가능한 구조를 제안한다. 또한 부분 곱의 덧셈에서 하위 비트들을 2 비트 CLA(Carry Look-ahead Adder)를 이용하여 연산함으로써 최종 덧셈기의 입력 비트수를 줄임으로써 전체적인 임계경로를 감소시켰다. 제안된 MAC을 JPEG2000을 위한 DWT (Discrete Wavelet Transform) 필터링 연산에 적용하여 고속의 디지털 신호처리가 가능함을 보였고 기존의 연구와 비교하여 향상된 성능을 보이는 것을 확인하였다.

타원곡선 암호 시스템의 고속 구현을 위한 VLSI 구조 (VLSI Architecture for High Speed Implementation of Elliptic Curve Cryptographic Systems)

  • 김창훈
    • 정보처리학회논문지C
    • /
    • 제15C권2호
    • /
    • pp.133-140
    • /
    • 2008
  • 본 논문에서는 $GF(2^{163})$타원곡선 암호 프로세서를 제안한다. 제안한 암호 프로세서는 타원곡선 정수 곱셈을 위해 수정된 Loez-Dahab Montgomery 알고리즘을 채택하고, $GF(2^{163})$상의 산술 연산을 위해 가우시안 정규 기저(Gaussian Normal Basis: GNB)를 이용한다. 높은 처리율을 위해 Lopez-Dahab 방식에 기반한 규칙적인 주소화 방식의 병렬 타원곡선 좌표 덧셈 및 배 연산 알고리즘을 유도하고 $GF(2^{163})$상의 연산을 수행하는 두 개의 워드-레벨 산술 연산기(Arithmetic Unit: AU)를 설계한다. 제안된 타원곡선 암호 프로세서는 Xilinx사의 XC4VLX80 FPGA 디바이스에 구현되었으며, 24,263개의 슬라이스를 사용하고 최대 동작주파수는 143MHz이다. 제안된 구조를 Shu 등의 하드웨어 구현과 비교했을 때 하드웨어 복잡도는 약 2배 증가 하였지만 4.8배의 속도 향상을 보인다. 따라서 제안된 타원곡선 암호 프로세서는 네트워크 프로세서와 웹 서버등과 같은 높은 처리율을 요구하는 타원곡선 암호시스템에 적합하다.