• 제목/요약/키워드: Hardware Resources

검색결과 442건 처리시간 0.024초

FPGA를 이용한 디지털 계측 시스템의 설계 및 구현 (Implementation and Design of Digital Instruments System using FPGA)

  • 최현준;장석우
    • 디지털산업정보학회논문지
    • /
    • 제9권2호
    • /
    • pp.55-61
    • /
    • 2013
  • A field-programmable gate array (FPGA) is an integrated circuit designed to be configured by a customer or a designer after manufacturing. The FPGA configuration is generally specified using a hardware description language (HDL), similar to that used for an application-specific integrated circuit (ASIC) (circuit diagrams were previously used to specify the configuration, as they were for ASICs, but this is increasingly rare). Contemporary FPGAs have large resources of logic gates and RAM blocks to implement complex digital computations. In this paper, we implement a system of digital instrumentation using FPGA. This system consists of the trigger part, memory address controller part, control FSM part, Encoder part, LCD controller part. The hardware implement using FPGA and the verification of the operation is done in a PC simulation. The proposed hardware was mapped into Cyclone III EP2C5Q208 from Altera and used 1,700(40%) of Logic Element (LE). The implemented circuit used 24,576-bit memory element with 6-bit input signal. The result from implementing in hardware (FPGA) could operate stably in 140MHz.

블록암호 알고리듬 LEA의 효율적인 하드웨어 구현 (An Efficient Hardware Implementation of Block Cipher Algorithm LEA)

  • 성미지;박장녕;신경욱
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2014년도 추계학술대회
    • /
    • pp.777-779
    • /
    • 2014
  • LEA(Lightweight Encryption Algorithm)는 2012년 국가보안기술연구소(NSRI)에서 개발한 128비트 고속 경량 블록암호 알고리듬이다. LEA는 128/192/256비트 마스터키를 사용하여 128비트 평문을 128비트 암호문으로, 또는 그 역으로 변환한다. 라운드 변환블록의 암호화 연산과 복호화 연산의 하드웨어 자원이 공유되도록 설계하였으며, 또한 키 스케줄러도 암호화와 복호화의 하드웨어 자원이 공유되도록 설계하여 저전력, 저면적 구현을 실현했다. 설계된 LEA 프로세서는 FPGA 구현을 통해 하드웨어 동작을 검증하였다.

  • PDF

Training-Free Hardware-Aware Neural Architecture Search with Reinforcement Learning

  • Tran, Linh Tam;Bae, Sung-Ho
    • 방송공학회논문지
    • /
    • 제26권7호
    • /
    • pp.855-861
    • /
    • 2021
  • Neural Architecture Search (NAS) is cutting-edge technology in the machine learning community. NAS Without Training (NASWOT) recently has been proposed to tackle the high demand of computational resources in NAS by leveraging some indicators to predict the performance of architectures before training. The advantage of these indicators is that they do not require any training. Thus, NASWOT reduces the searching time and computational cost significantly. However, NASWOT only considers high-performing networks which does not guarantee a fast inference speed on hardware devices. In this paper, we propose a multi objectives reward function, which considers the network's latency and the predicted performance, and incorporate it into the Reinforcement Learning approach to search for the best networks with low latency. Unlike other methods, which use FLOPs to measure the latency that does not reflect the actual latency, we obtain the network's latency from the hardware NAS bench. We conduct extensive experiments on NAS-Bench-201 using CIFAR-10, CIFAR-100, and ImageNet-16-120 datasets, and show that the proposed method is capable of generating the best network under latency constrained without training subnetworks.

메모리 크기에 효율적인 적분영상 하드웨어 설계 연구 (A Study of Integral Image Hardware Design for Memory Size Efficiency)

  • 이수현;정용진
    • 전자공학회논문지
    • /
    • 제51권9호
    • /
    • pp.75-81
    • /
    • 2014
  • 적분영상은 입력영상의 픽셀 값을 기준좌표부터 순차적으로 누적하여 만든 영상으로, Haar-like features와 같은 네모난 박스 모양의 필터 연산을 효율적으로 처리하기 위하여 사용된다. 그러나 적분영상은 입력영상보다 3배 이상 많은 메모리를 소모하기 때문에, 메모리 자원이 제한적인 하드웨어 설계 환경에서는 사용이 어렵다. 본 논문에서는 효율적인 메모리 사용을 위한 적분영상 하드웨어 설계 방법을 제안한다. 해당 방법은 적분영상 이외에 세로적분영상과 가로적분영상을 생성하고, 입력영상을 재사용 하는 방법을 사용한다. 그리고 박스 필터의 크기에 따라 modulo 연산을 적용하여 적분영상의 데이터 크기를 줄이는 방법을 함께 적용하였다. 적분 영상 데이터를 읽기 위해 나누어진 영상 데이터를 다시 덧셈해야하는 연산 오버헤드가 발생하지만, 4개의 데이터를 단순히 더하는 연산이므로 병렬처리가 가능한 하드웨어 환경에서는 큰 영향을 미치지 않는다. Xilinx사의 Virtex5-LX330T를 대상으로 실험한 결과 $640{\times}480$ 크기의 8bit gray-scale 입력영상에서 최대 $32{\times}32$ 크기의 필터사용을 기준으로 50%의 적분영상 메모리를 감소시킬 수 있다.

KVN 관측모드별 대전상관기의 상관결과 고찰 (A STUDY ON THE RELIABILITY OF THE DAEJEON HARDWARE CORRELATOR FOR THE KVN OBSERVATION MODES)

  • 오세진;노덕규;염재환;오충식;이상성;정동규;김효령;정현수
    • 천문학논총
    • /
    • 제31권2호
    • /
    • pp.11-19
    • /
    • 2016
  • This paper presents the results of test observations toward a point source, 4C39.25, for observation modes with various bandwidths and numbers of IF streams in order to examine a reliability of the Daejeon hardware correlator performance for correlating VLBI (Very Long Baseline Interferometry) data obtained with the several observation modes of the KVN (Korean VLBI Network). We used a DiFX software correlator (DiFX) as a reference, for investigating the output visibilities from the Daejeon corelator. It is found that the band shapes of the output visibilities from two correlators are similar to each other and the correlated flux density for each baseline obtained from the Daejeon hardware correlator is lower by 3 - 7% than that from the DiFX. The flux difference is attributed to the limitation of FPGA resources and the difference of fringe rotation algorithm of the Daejeon hardware correlator. The conversion factor, 0.93 ~ 0.97, is proposed for future correlation with the Daejeon hardware correlator.

디지털 홀로그램의 고속 생성을 위한 병렬화 알고리즘 및 셀 기반의 하드웨어 구조 (A New Parallelizing Algorithm and Cell-based Hardware Architecture for High-speed Generation of Digital Hologram)

  • 서영호;최현준;유지상;김동욱
    • 방송공학회논문지
    • /
    • 제16권1호
    • /
    • pp.54-63
    • /
    • 2011
  • 본 논문에서는 고속으로 홀로그램을 생성하기 위해 새로운 컴퓨터 생성 홀로그램(computer-generated hologram, CGH) 수식을 제안하고, 셀 기반의 VLSI(very large scale integrated circuit) 구조를 제안하였다. 기본 CGH 수식에서 가로 또는 세로 방향의 연산 규칙을 찾아낸 후 가로 또는 세로 방향의 홀로그램 화소를 병렬적으로 구할 수 있는 수식을 유도하였다. 제안한 수식을 바탕으로 초기 파라미터 연산기(initial parameter calculator)와 업데이트-위상 연산기(update-phase calculator)로 구성된 CGH 셀의 구조를 제안하고 하드웨어로 구현하였다. 수식의 변형을 통해서 하드웨어를 간략화 시킬 수 있었고, CGH의 확장을 통해 가로 방향으로 병렬화시킬 수 있는 하드웨어 구조도 보였다. 실험에서는 하드웨어에 사용된 자원을 분석하였다. CGH 커널과 프로세서의 구조는 이전 연구에서 사용된 플랫폼을 그대로 사용하였다.

H.264 비디오 코덱을 위한 고속 움직임 예측기의 하드웨어 구조 (A New Hardware Architecture of High-Speed Motion Estimator for H.264 Video CODEC)

  • 임정훈;서영호;최현준;김동욱
    • 방송공학회논문지
    • /
    • 제16권2호
    • /
    • pp.293-304
    • /
    • 2011
  • 본 논문에서는 H.264/AVC 인코더에서 가장 많은 연산 시간이 소요되는 움직임 추정(motion estimation, ME) 동작을 위한 하드웨어의 구조를 제안하고 IP(intellectual property) 형태로 구현하였다. 고속 움직임 추정기의 구조는 버퍼(buffer), PU 어레이(processing unit array), SAD 선택기(SAD selector), MV 생성기(motion vector generator) 등으로 구성되어 있다. PU 어레이는 16개의 PU로 구성되어 있고, 각각의 PU는 16개의 PE(processing element)로 이루어져 있다. 제안한 하드웨어의 동작적인 특징은 외부메모리 접근량을 줄이기 위해 현재와 참조프레임의 데이터를 재사용한다는 것과 SAD연산을 수행할 때 클록의 손실 없이 계산을 할 수 있다는 것이다. 구현한 고속 움직임 추정기는 Altera 사의 FPGA인 StatixIII EP3SE80F1152C2에서 3%의 자원을 사용하였고, 최대 동작주파수는 446.43MHz이었다. 따라서 구현한 하드웨어는 1080p 영상을 최대 50fps로 처리할 수 있다.

Mobile Phone Camera의 이미지 프레임 단위 처리를 위한 소형화된 Serial-Divider의 하드웨어 구현 (Hardware Implementation of Minimized Serial-Divider for Image Frame-Unit Processing in Mobile Phone Camera.)

  • 김경린;이성진;김현수;김강주;강봉순
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2007년도 추계종합학술대회
    • /
    • pp.119-122
    • /
    • 2007
  • 본 논문에서는 모바일 폰 카메라의 프레임 단위 영상 신호 처리 과정에서 필요한 나눗셈 연산을 위한 나눗셈기 설계 방법을 제안한다. 나눗셈기의 내부 데이터 처리 방법에는 직렬 방식과 병렬 방식이 있다. 직렬방식은 실시간 연산이 가능한 반면에 많은 비교기와 Buffer Memory의 사용으로 인해 하드웨어 사이즈가 크다. 병렬방식은 실시간 연산을 할 수 없지만 하나의 비교기를 공유해서 연산함으로 직렬방식에 비해 하드웨어 크기를 줄일 수 있다. 이미지 처리를 위한 프레임 단위 연산은 실시간 연산을 필요로 하지 않으므로 하드웨어 자원으 효율성을 위해 직렬방식 나눗셈기를 적용한다. 입출력 조건을 동일하게 해서 병렬방식과 직렬방식의 나눗셈을 구현하여 하드웨어 크기를 비교 했을 때 동일한 동작 주파수에서 직렬방식의 나눗셈기가 병렬방식의 나눗셈기의 대락 1/8 정도의 하드웨어 크기를 가지는 것을 확인하였다.

  • PDF

Study of an In-order SMT Architecture and Grouping Schemes

  • Moon, Byung-In;Kim, Moon-Gyung;Hong, In-Pyo;Kim, Ki-Chang;Lee, Yong-Surk
    • International Journal of Control, Automation, and Systems
    • /
    • 제1권3호
    • /
    • pp.339-350
    • /
    • 2003
  • In this paper, we propose a simultaneous multithreading (SMT) architecture that improves instruction throughput by exploiting instruction level parallelism (ILP) and thread level parallelism (TLP). The proposed architecture issues and completes instructions belonging to the same thread in exact program order. The issue and completion policy greatly reduces the design complexity and hardware cost of our architecture, compared with others that employ out-of-order issue and completion. On the other hand, when the instructions belong to different threads, the issue and completion orders for those instructions may not necessarily be identical to the fetch order. The processor issues instructions simultaneously from multiple threads to functional units by exploiting ILP and TLP, and by dynamic resource sharing. That parallel execution notably improves performance and resource utilization with minimal additional hardware cost over the conventional superscalar processors. This paper proposes an SMT architecture with grouping as well as one without grouping. Without grouping, all threads dynamically and flexibly share most resources. On the other hand, in the SMT architecture with grouping, in which resources and threads are divided into several groups for design simplification, resources are shared only among threads belonging to the same group as those resources. Simulation results show that our processors with four and eight threads improve performance by three or more times over the conventional superscalar processor with comparable execution resources and policies, and that reasonable grouping reduces the design complexity of SMT processors with little negative effect on performance.