• 제목/요약/키워드: 연산 지도

검색결과 4,001건 처리시간 0.033초

HEVC/VP9 4×4 Transform 통합 블록 설계 (Design of Unified HEVC/VP9 4×4 Transform Block)

  • 정슬기;이성수
    • 전기전자학회논문지
    • /
    • 제19권3호
    • /
    • pp.392-399
    • /
    • 2015
  • 본 논문에서는 HEVC와 VP9 코덱의 계수 변환 (Transform)을 수행하는 통합형 아키텍쳐를 제안하여 하드웨어 크기를 줄이고자 한다. 제안하는 아키텍쳐는 HEVC $4{\times}4$ IDCT, HEVC $4{\times}4$ IDST, VP9 $4{\times}4$ IDCT, VP9 $4{\times}4$ IADST를 통합 하드웨어에서 처리가 가능하다. HEVC $4{\times}4$ IDCT와 VP9 $4{\times}4$ IDCT는 계수의 스케일만 다를 뿐 동일한 IDCT 연산을 사용하며, 마찬가지로 HEVC $4{\times}4$ IDST와 VP9 $4{\times}4$ IADST도 계수의 스케일만 다를 뿐 동일한 IDST 연산을 사용한다. 더욱이 IDCT 연산과 IDST 연산에는 상당히 많은 유사점이 있어 일부 하드웨어를 공동으로 사용할 수 있다. 따라서 제안하는 하드웨어는 4가지 연산에 대해 곱셈기의 계수는 각각 다르지만 버터플라이 덧셈기등은 공통으로 사용하여 통합적으로 수행한다. 0.18um 공정에서 합성했을 때 게이트 수가 약 6,679 게이트로 기존 아키텍처 대비 25.3% 감소함을 확인하였다.

고속 퓨리어변환용 2차원 시스토릭 어레이를 위한 처리요소의 설계 및 제작 (Design and Fabrication of a Processing Element for 2-D Systolic FFT Array)

  • 이문기;신경욱;최병윤
    • 대한전자공학회논문지
    • /
    • 제27권3호
    • /
    • pp.108-115
    • /
    • 1990
  • 고속 퓨리어변화(Fast Fourier Transform)연산용 2차원 시스토릭 어레이의 기본 구성요소인 단위 처리요소(Unit processing element)를 직접회로로 설계, 제작하고 제작된 칩을 평가하였다. 설계된 칩은 FFT 연산을 위한 데이타셔플링 기능과 반쪽 버터플라이 연산기능을 수행한다. 약 6,500여개의 트랜지스터로 구성된 이 칩은 표준셀 방식으로 설계되었으며, 2미크론 이중 금속 P-Well CMOS 공정으로 제작되었다. 제작된 칩을 웨이퍼 상태로 프로브카드를 이용하여 평가하였으며 그 결과, 20MHz 클럭 주파수에서 반쪽 버터플라이 연산이 0.5${\mu}sec$에 수행됨을 확인하였다. 본 논문에서 설계, 제작된 칩을 이용하여 1024-point FFT를 연산하는 경우 11.2${\mu}sec$의 시간이 소요될 것으로 예상된다.

  • PDF

이진 가중치 신경망의 하드웨어 구현을 위한 고정소수점 연산 정확도 분석 (Accuracy Analysis of Fixed Point Arithmetic for Hardware Implementation of Binary Weight Network)

  • 김종현;윤상균
    • 전기전자학회논문지
    • /
    • 제22권3호
    • /
    • pp.805-809
    • /
    • 2018
  • 본 연구에서는 이진 가중치 신경망(BWN)을 부동소수점 데이터를 사용하여 학습시킨 후에, 학습된 파라미터와 주요연산을 고정소수점으로 근사화시키는 과정에서 정확도의 변화를 분석하였다. 신경망을 이루고 있는 각 계층의 입력 데이터와 컨볼루션 연산의 계산에 고정소수점 수를 사용했으며, 이때 고정소수점 수의 전체 bit 수와 소수점 이하 bit 수에 변화를 주면서 정확도 변화를 관찰하였다. 각 계층의 입력 값과 중간 계산값의 정수 부분의 손실이 발생하지 않으면 고정소수점 연산을 사용해도 부동소수점 연산에 비해 큰 정확도 감소가 없었다. 그리고 오버플로가 발생하는 경우에 고정소수점 수의 최대 또는 최소값으로 근사시켜서 정확도 감소를 줄일 수 있었다. 이 연구결과는 FPGA 기반의 BWN 가속기를 구현할 때에 필요한 메모리와 하드웨어 요구량을 줄이는 데 사용될 수 있다.

항공기 기반 FMCW-SAR 영상복원을 위한 간소화된 분할연산기법 (Simplified Factorizing-Technique for Airborne FMCW-SAR Image Reconstruction)

  • 황지환;김덕진;김진우;옥재우;신희섭;유응노
    • 한국전자파학회논문지
    • /
    • 제28권9호
    • /
    • pp.723-732
    • /
    • 2017
  • 본 논문에서는 항공기 기반 FMCW-SAR(Frequency Modulated Continuous Wave - Synthetic Aperture Radar) 영상복원을 위해 적용된 기존 back-projection 알고리즘의 계산 효율을 높이고, 연산과정의 복잡도를 단순화시킨 분할연산기법을 제안하며, 이를 적용한 SAR 영상 복원 과정에 대해 설명한다. 제안된 분할연산기법은 상대적으로 좁은 주사폭과 긴 합성개구면을 갖는 항공기 기반 FMCW-SAR 시스템에 효과적으로 적용이 가능하며, back-projection 알고리즘의 영상합성과정에서 분할된 입력 원시자료와 출력 복원영상 간의 상호 기여도가 낮은 자료를 계산 과정에서 생략하여 계산 효율을 높인 연산법이다. 또한, 실제 항공기 기반 FMCW-SAR 원시자료 복원과정에 적용하여 계산 효율의 개선 정도를 비교분석하였다.

ARMv8 상에서 LEA 암호화 고속 구현 (High Speed Implementation of LEA on ARMv8)

  • 서화정
    • 한국정보통신학회논문지
    • /
    • 제21권10호
    • /
    • pp.1929-1934
    • /
    • 2017
  • 경량 블록암호화 (Lightweight Encryption Algorithm, LEA)는 연산의 효율성과 높은 보안성으로 인해 가장 각광받고 있는 블록암호화 알고리듬이다. 해당 블록암호화는 실제 응용프로그램에서도 많이 사용되고 있으며 서비스 가용성을 높이기 위해 연산 성능을 개선하는 연구가 많이 진행되고 있다. 본 논문에서는 최신 ARMv8 프로세서 상에서 LEA 연산을 최적화하는 방안에 대해 제안한다. 구현은 새로운 SIMD 명령어 셋인 NEON을 통해 최적화되었으며 병렬화된 연산을 통해 동시에 24 번의 암호화 연산을 수행하도록 한다. 메모리 접근 횟수를 줄이기 위해 활용가능한 모든 NEON 레지스터에 중간 계산값을 할당하여 활용하였다. 해당 구현 결과는 속도 관점에서 평가되었으며 ARMv8 상에서 LEA 암호 구현은 Apple A7 그리고 Apple A9 프로세서 상에서 각각 2.4 cycles/byte 그리고 2.2 cycles/byte 안에 수행 가능함을 확인할 수 있었다.

SHA-1과 HAS-160과 의사 난수 발생기를 구현한 해쉬 프로세서 설계 (Design of Hash Processor for SHA-1, HAS-160, and Pseudo-Random Number Generator)

  • 전신우;김남영;정용진
    • 한국통신학회논문지
    • /
    • 제27권1C호
    • /
    • pp.112-121
    • /
    • 2002
  • 본 논문에서는 미국과 한국의 해쉬 함수 표준인 SHA-1과 HAS-160 해쉬 알고리즘, 그리고 SHA-1을 이용한 의사 난수 발생기를 구현한 프로세서를 설계하였다. SHA-1과 HAS-160이 동일한 단계 연산을 가지므로, 한 단계 연산만을 구현하여 공유함으로써 하드웨어 리소스를 감소시켰다. 그리고 메시지 변수의 사전 계산과 단계 연산을 두 단계의 파이프라인 구조로 구현함으로써 한 개의 클럭으로 한 단계 연산을 수행하는 방식보다 최장지연경로는 1/2로 줄고, 총 단계 연산에 필요한 클럭 수는 하나만 증가하므로 성능은 약 2배 향상되었다. 그 결과, 설계한 해쉬 프로세서는 삼성 0.5 um CMOS 스탠다드 셀 라이브러리를 근거로 산출할 때, 100 MHz의 동작 주파수에서 약 624 Mbps의 성능을 얻을 수 있다. 그리고 의사 난수 발생기로 사용될 때는 약 195 Mbps의 난수 발생 성능을 가진다. 이러한 성능은 지금까지 상용화된 국내외의 어느 해쉬 프로세서보다 빠른 처리 시간을 가지는 것으로 판단된다.

플래시메모리-SSD의 인덱스 연산 성능 향상을 위한 압축된 핫-콜드 클러스터링 기법 (A Compressed Hot-Cold Clustering to Improve Index Operation Performance of Flash Memory-SSD Systems)

  • 변시우
    • 한국산학기술학회논문지
    • /
    • 제11권1호
    • /
    • pp.166-174
    • /
    • 2010
  • SSD는 데스크탑 및 이동형 컴퓨터의 저장 장치를 지원하는 우수한 미디어이다. SSD는 비휘발성, 낮은 전력 소모, 빠른 데이터 접근 속도 등의 특징으로 데스크탑 및 서버용 데이터베이스의 핵심 저장 요소가 되었다. 하지만, 일반 RAM 메모리에 비하여 상대적으로 느린 연산 특성을 고려하여 기존의 전통적인 인덱스 관리 기법을 개선할 필요가 있다. 이를 위하여, 본 논문은 CHC-Tree 라고 하는 압축된 핫-콜드 클러스터링에 기반하는 새로운 인덱스 관리 기법을 제안한다. CHC-Tree는 인덱스 노드를 핫-콜드 세그먼트로 분류하며, 인덱스 노드의 키와 포인터를 압축한다. 콜드 세그먼트의 비활용노드의 오프셋 압축으로 느린 쓰기연산의 부담을 줄인다. 또한, 실험 결과를 통하여 기존의 B-Tree 기반의 인덱스 관리 기법보다 인덱스 검색 연산에서 26%, 인덱스 수정 연산에서 23% 이상 우수함을 확인하였다.

Block-DCT를 이용한 속도 제한 표지판 실시간 인식 알고리듬의 설계 (Design of a Real-time Algorithm Using Block-DCT for the Recognition of Speed Limit Signs)

  • 한승화;조한민;김광수;황선영
    • 한국통신학회논문지
    • /
    • 제36권12B호
    • /
    • pp.1574-1585
    • /
    • 2011
  • 본 논문에서 지능형 안전 자동차 시스템을 위해 연산량를 줄인 속도 제한 표지판 실시간 인식 방법을 제안한다. 제안된 방법은 관심영역의 전체 픽셀 정보를 특징으로 사용한 기존 방법의 큰 연산량을 줄이기 위해 적은 수의 DCT 계수를 선택하고, 격자구조로 분할된 영상에 대해 Block-DCT를 이용하여 산술 연산을 효과적으로 줄였다. 제안된 알고리듬은 연산량을 줄이기 위해 제안된 상관계수와 분산을 이용한 판별식에 따라 DCT 계수를 선택하고 이를 선형 판별법과 Mahalanobis Distance를 이용하여 속도 제한 표지판을 인식한다. 인식 성능을 높이기 위해 연속 프레임의 누적 분류 결과를 사용한다. 실험 결과 연속된 프레임에 대하여 100.0 %의 인식률을 보이며 기존 방식 대비 곱셈 연산량은 69.3 %, 덧셈은 67.9 % 감소를 확인할 수 있었다.

다중표준 OFDM 시스템용 가변길이 FFT/IFFT 프로세서 (A Variable-Length FFT/IFFT Processor for Multi-standard OFDM Systems)

  • 임창완;신경욱
    • 한국통신학회논문지
    • /
    • 제35권2A호
    • /
    • pp.209-215
    • /
    • 2010
  • 다중 표준을 지원하는 OFDM 기반 통신 시스템용 가변길이 FFT/IFFT 프로세서 (VL_FCore)를 설계하였다. VL_FCore는 $N=64{\times}2^k\;(0{\leq}k{\leq}7)$의 8가지 길이의 FFT/IFFT를 선택적으로 연산할 수 있으며, in-place 방식의 단일 메모리 구조를 기반으로 FFT 길이에 따라 radix-4와 radix-2 DIF 알고리듬의 혼합구조가 적용된다. 중간 결과 값의 크기에 따른 2단계 조건적 스케일링 기법을 적용하여 메모리 크기 감소와 연산 정밀도 향상을 이루었다. 설계된 VL_FCore의 성능을 평가한 결과, 64점~8,192점 FFT 연산에 대해 평균 60 dB 이상의 SQNR 성능을 가지며, $0.35-{\mu}m$ CMOS 셀 라이브러리로 합성하여 23,000 게이트와 32 Kbytes의 메모리로 구현되었다. VL_FCore는 75-MHz@3.3-V의 클록으로 동작하며, 64점 FFT 연산에 $2.25-{\mu}s$, 8,192점 FFT 연산에 $762.7-{\mu}s$가 소요되어 다양한 OFDM 통신 시스템의 요구조건을 만족한다.

보청기를 위한 IMCRA 기반 저연산 음성 향상 알고리즘 (Low-Complexity Speech Enhancement Algorithm Based on IMCRA Algorithm for Hearing Aids)

  • 전유용;이상민
    • 재활복지공학회논문지
    • /
    • 제11권4호
    • /
    • pp.363-370
    • /
    • 2017
  • 본 논문에서는 향상된 최소값 제어 재귀 평균 (improved minima controlled recursive averaging, IMCRA) 알고리즘과 로그 최소값 평균 제곱 오차 (log minimum mean square error, logMMSE)를 기반으로 한 저연산 음성 향상 알고리즘을 제안한다. IMCRA 알고리즘은 버퍼를 이용하여 일정 구간에서 입력 신호 전력의 최소값을 추적하고 최소값과 입력 신호의 비율을 통해 음성 존재를 확인한다. 이러한 과정에서 많은 연산이 필요하며 연산량을 줄이기 위해서 음성 존재 확률을 기반으로한 주파수 밴드별 시변 스무딩으로 최소값을 추적한다. 제안된 알고리즘은 0dB, 5dB, 10dB 그리고 15dB 신호 대 잡음비에서 평균 2.778%, 3.481%, 2.980% 그리고 2.162% 음성 품질이 향상되었으며, 평균 9.570% 연산량이 감소한 것을 확인하였다.