• 제목/요약/키워드: Register bank

검색결과 14건 처리시간 0.02초

SVC 복호화기에서 Inter Layer 업-샘플링의 효과적인 구조 (An Efficient Architecture of Inter Layer Up-sampling in Scalable Video Decoder)

  • 기대욱;김재호
    • 한국정보통신학회논문지
    • /
    • 제14권3호
    • /
    • pp.621-627
    • /
    • 2010
  • 본 논문에서는 SVC 복호화기에서 각 계층간 Inter layer 업-샘플링을 효과적으로 구현하기 위한 하드웨어 구조를 제안한다. 제안하는 구조에서 수직, 수평 방향 업-샘플링을 위한 register bank와 보간 모듈이 설계된다. 제안 구조를 사용하여 SRAM 메모리가 감소되고 JSVM과 비교해서 약 41%의 메모리 밴드위스가 감소되었다.

딥러닝 합성곱에서 데이터 재사용에 최적화된 GPGPU 설계 (Design of an Optimized GPGPU for Data Reuse in DeepLearning Convolution)

  • 남기훈;이광엽;정준모
    • 전기전자학회논문지
    • /
    • 제25권4호
    • /
    • pp.664-671
    • /
    • 2021
  • 본 논문은 합성곱 신경망에 데이터 재사용 방법을 효과적으로 적용하여 연산 횟수와 메모리 접근 횟수를 줄일 수 있는 GPGPU구조를 제안한다. 합성곱은 kernel과 입력 데이터를 이용한 2차원 연산으로 kernel이 slide하는 방법으로 연산이 이루어 진다. 이때, 합성곱 연산이 완료될 때 까지 kernel을 캐시메모리로 부터 전달 받는 것이 아니고 내부 레지스터를 이용하는 재사용 방법을 제안한다. SIMT방법으로 명령어가 실행되는 GPGPU의 원리 이용하여 데이터 재사용의 효과를 높이기 위해 합성곱에 직렬 연산 방식을 적용하였다. 본 논문에서는 레지스터기반 데이터 재사용을 위하여 kernel을 4×4로 고정하고 이를 효과적으로 지원하기 위한 warp 크기와 레지스터 뱅크를 갖는 GPGPU를 설계하였다. 설계된 GPGPU의 합성곱 신경망에 대한 성능을 검증하기 위해 FPGA로 구현한 뒤 LeNet을 실행시키고 TensorFlow를 이용한 비교 방법으로 AlexNet에 대한 성능을 측정하였다. 측정결과 AlexNet기준 1회 학습 속도는 0.468초이며 추론 속도는 0.135초이다.

생태 분야 데이터 리포지터리 운영 현황 분석 및 EcoBank 서비스 제안 (Analysis of Ecological Data Repository Operation Status and EcoBank Service Proposal)

  • 김주섭;강효숙;김선태
    • 한국문헌정보학회지
    • /
    • 제57권4호
    • /
    • pp.289-310
    • /
    • 2023
  • 데이터 공유 및 재사용은 필수가 되었다. 데이터 리포지터리는 이러한 데이터 공유 및 재사용을 위한 핵심 도구이다. 본 연구의 목적은 국립생태원이 구축 및 운영 중인 EcoBank의 서비스를 제안하기 위함이다. 연구 목적을 달성하기 위하여 re3data.org에 등록된 생태 분야 해외 데이터 리포지터리 123개 중 10개를 선정하여 조사 및 분석하였다. 분석 결과 3가지 서비스가 공통으로 도출되었다. 3가지 서비스는 첫째, 연구데이터 정책, 둘째, 연구데이터 품질 검토 그리고 연구데이터 관리 교육 및 워크숍으로 구성된다. 여기에 EcoBank의 글로벌한 데이터 공유를 위해서는 re3data.org와 같은 데이터 리포지터리 레지스트리에 등록을 해야 하며 리포지터리의 신뢰성 및 품질 확보를 위한 인증을 추진할 것을 제안해 본다.

카페리 대상 화물 선적 관리시스템 활용에 대한 연구 (A Study on the Use of Cargo Shipping Management System for Car Ferry)

  • 이훈;이승일
    • 한국항해항만학회:학술대회논문집
    • /
    • 한국항해항만학회 2021년도 추계학술대회
    • /
    • pp.19-20
    • /
    • 2021
  • 국내 카페리의 경우 화물 선적 및 관리를 위한 전용 정보시스템을 운용하지 않고, 한국선급으로부터 사전에 승인된 화물 배치 도면을 준수해야 하는 제약 등의 사유로 화물 예약 시점에 화물 종류 및 수량에 따른 선내 배치가 불가하다. 이런 이유로 카페리 대상 화물 선적 관리작업을 개선할 목적으로 컨테이너 선박 및 터미널에서 운용 중인 유사 정보시스템 활용을 위한 연구이다.

  • PDF

Dual-Port SDRAM Optimization with Semaphore Authority Management Controller

  • Kim, Jae-Hwan;Chong, Jong-Wha
    • ETRI Journal
    • /
    • 제32권1호
    • /
    • pp.84-92
    • /
    • 2010
  • This paper proposes the semaphore authority management (SAM) controller to optimize the dual-port SDRAM (DPSDRAM) in the mobile multimedia systems. Recently, the DPSDRAM with a shared bank enabling the exchange of data between two processors at high speed has been developed for mobile multimedia systems based on dual-processors. However, the latency of DPSDRAM caused by the semaphore for preventing the access contention at the shared bank slows down the data transfer rate and reduces the memory bandwidth. The methodology of SAM increases the data transfer rate by minimizing the semaphore latency. The SAM prevents the latency of reading the semaphore register of DPSDRAM, and reduces the latency of waiting for the authority of the shared bank to be changed. It also reduces the number of authority requests and the number of times authority changes. The experimental results using a 1 Gb DPSDRAM (OneDRAM) with the SAM controllers at 66 MHz show 1.6 times improvement of the data transfer rate between two processors compared with the traditional controller. In addition, the SAM shows bandwidth enhancement of up to 38% for port A and 31% for port B compared with the traditional controller.

첨단운전자보조시스템용 이동객체검출을 위한 광학흐름추정기의 설계 및 구현 (Design and Implementation of Optical Flow Estimator for Moving Object Detection in Advanced Driver Assistance System)

  • 윤경한;정용철;조재찬;정윤호
    • 한국항행학회논문지
    • /
    • 제19권6호
    • /
    • pp.544-551
    • /
    • 2015
  • 본 논문에서는 첨단 운전자 보조 시스템 (ADAS; advanced driver assistance system) 용 이동객체검출 (MOD; moving object detection)을 위한 광학흐름추정기 (OFE; optical flow estimator) 의 하드웨어 구조 설계 결과를 제시하였다. 광학흐름추정 알고리즘은 차량 환경에서 높은 정확도를 나타내는 광역 최적화 (global optimization) 기반 Brox 알고리즘을 적용하였다. Brox 알고리즘의 에너지 범함수 (energy functional)를 최소화 하는 과정에서 생성되는 Euler-Lagrange 방정식을 풀기 위해 하드웨어 구현에 용이한 Cholesky factorization이 적용되었으며, 메모리 접근율 (memory access rate)를 줄이기 위해 시프트 레지스터 뱅크 (shift register bank)를 도입하였다. 하드웨어 구현은 Verilog-HDL을 사용하였으며, FPGA 기반 설계 및 검증이 수행되었다. 제안된 광학흐름추정기는 40.4K개의 logic slice 및 155개의 DSP48s, 11,290 Kbit의 block memory로 구현되었다.

동기식 기억소자를 위한 레지스터를 이용한 병렬 파이프라인 방식 (Register-Based Parallel Pipelined Scheme for Synchronous DRAM)

  • Song, Ho Jun
    • 전자공학회논문지A
    • /
    • 제32A권12호
    • /
    • pp.108-114
    • /
    • 1995
  • Recently, along wtih the advance of high-performance system, synchronous DRAM's (SDRAM's) which provide consecutive data output synchronized with an external clock signal, have been reported. However, in the conventional SDRAM's which utilize a multi-stage serial pipelined scheme, the column path is divided into multi-stages depending on CAS latency N. Thus, as the operating speed and CAS latency increase, new stages must be added, thereby causing a large area penalty due to additinal latches and I/O lines. In the proposed register-based parallel pipelined scheme, (N-1) registers are located between the read data bus line pair and the data output buffer and the coming data are sequentially stored. Since the column data path is not divided and the read data is directly transmitted to the registers, the busrt read operation can easily be achieved at higher frequencies without a large area penalty and degradation of internal timing margin. Simulation results for 0.32um-Tech. 4-Bank 64M SDRAM show good operation at 200MHz and an area increment is less than 0.1% when CAS latency N is increased from 3 to 4.. This pipelined scheme is more advantageous as the operating frequency increases.

  • PDF

다중 메모리 뱅크 구조를 위한 고속의 자료 할당 기법 (Rapid Data Allocation Technique for Multiple Memory Bank Architectures)

  • 조정훈;백윤홍;최준식
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.196-198
    • /
    • 2003
  • Virtually every digital signal processors(DSPs) support on-chip multi- memory banks that allow the processor to access multiple words of data from memory in a single instruction cycle. Also, all existing fixed-point DSPs have irregular architecture of heterogeneous register which contains multiple register files that are distributed and dedicated to different sets of instructions. Although there have been several studies conducted to efficiently assign data to multi-memory banks, most of them assumed processors with relatively simple, homogeneous general-purpose resisters. Therefore, several vendor-provided compilers fer DSPs were unable to efficiently assign data to multiple data memory banks. thereby often failing to generate highly optimized code fer their machines. This paper presents an algorithm that helps the compiler to efficiently assign data to multi- memory banks. Our algorithm differs from previous work in that it assigns variables to memory banks in separate, decoupled code generation phases, instead of a single, tightly-coupled phase. The experimental results have revealed that our decoupled algorithm greatly simplifies our code generation process; thus our compiler runs extremely fast, yet generates target code that is comparable In quality to the code generated by a coupled approach

  • PDF

SIMT구조 GP-GPU의 명령어 처리 성능 향상을 위한 Dispatch Unit과 Operand Selection Unit설계 (Design of a Dispatch Unit & Operand Selection Unit for Improving the SIMT Based GP-GPU Instruction Performance)

  • 곽재창
    • 전기전자학회논문지
    • /
    • 제19권3호
    • /
    • pp.455-459
    • /
    • 2015
  • 본 논문은 그래픽 처리 뿐 만 아니라 범용 연산의 가속화를 지원하기 위한 SIMT 구조 GP-GPU의 Dispatch Unit과 Operand Selection Unit을 제안한다. Warp Scheduler로부터 발행된 명령어에서 사용되는 Operand의 모든 정보를 Decoding 하면 불필요한 Operand Load가 발생하여 레지스터 부하가 발생 한다. 이러한 문제점을 해결하기 위해 Pre-decoding방법을 사용하여 Operand의 정보만을 먼저 Decoding 하여 Operand Load를 줄이고, 레지스터의 부하를 줄일 수 있는 방법을 제안한다. 제안하는 Dispatch Unit에서 나온 Operand 정보들을 레지스터 뱅크 충돌을 방지하는 방법을 적용한 Operand Selection Unit에 전달해 전체적인 처리 성능을 향상 시켰다. Modelsim 10.0b를 이용하여 Warp Scheduler로부터 발행된 10,000개의 임의의 명령어를 처리하여 소요되는 총 Clock Cycle을 측정하였다. 본 논문에서 제안한 Pre-Decoding 기능을 탑재한 Dispatch Unit과 Operand Selection Unit을 적용하여 기존의 방법들 보다 각각 약 11%, 24%의 처리 효율이 증가한 것을 확인 할 수 있었다.

다수의 레지스터를 확보하기 위한 ARM Thumb 레지스터 뱅크의 제안 (Banked Register File for ARM Thumb to Secure More Registers)

  • 이제형;박진표;문수묵
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (A)
    • /
    • pp.781-783
    • /
    • 2005
  • ARM 프로세서는 내장형 시스템에서 가장 널리 사용되는 32비트 마이크로 프로세서 중 하나이며, Thumb 명령어 세트는 보다 작은 코드 크기를 위해 제공하는 16비트 확장 명령어 세트이다. Thumb의 약점중의 하나는 줄어든 명령어 길이 때문에 이용할 수 있는 레지스터의 개수가 반으로 줄어든다는 것인데 결과적으로 가용 레지스터의 부족으로 인해 spill 코드가 빈번하게 발생할 수 있다. 우리는 약간의 하드웨어 및 명령어 수정을 통해 뱅크(bank)로 이루어진 레지스터 파일을 제공하고자 한다. 이로 인해 컴파일러는 보다 여유 있는 레지스터를 확보하게 되어 spill 코드가 줄어들게 되므로 보다 작은 크기의 코드를 얻어낼 수 있다. 이 변화된 형태의 레지스터 파일을 운용하기 위한 효율적인 레지스터 할당기법이 요구되며, 제안하는 영역기반 레지스터 할당기법을 통해 이이 최적화된 Thumb 코드 대비 약 $5.1\%$의 코드 크기 감소효과를 볼 수 있었다.

  • PDF