• 제목/요약/키워드: 레지스터

검색결과 506건 처리시간 0.022초

희소코드모션을 위한 효율적인 알고리즘 (An Efficient Algorithm for Sparse Code Motion)

  • 신현덕;유희종;안희학
    • 정보처리학회논문지A
    • /
    • 제12A권1호
    • /
    • pp.79-86
    • /
    • 2005
  • 이 논문에서는 계산적으로나 수명적으로 코드를 최적화 하기 위해 절제된 코드 모션 알고리즘을 제안한다. 제한한 알고리즘은 BCM과 LCM 알고리즘을 확장한 SpCM 알고리즘이다. SpCM 알고리즘에서 BCM 알고리즘은 계산적으로 최적의 코드 모션을 수행하며, LCM 알고리즘은 레지스터 압박을 감소시킨다. 일반적으로, 코트 모션 알고리즘은 계산의 최적화와 레지스터 압박에 관련된 실행시간 최적화를 실행한다. 이 논문에서는 계산 비용과 레지스터 압박에 코드의 크기를 고려하는 부분을 추가하였다. 코드의 계산적 최적화와 수명적 최적화에 이어 코드의 크기를 고려하는 SpCM 알고리즘에 의해 코드 모션의 최적화 결과를 얻을 수 있다. 이 논문에서 제안한 알고리즘은 모든 불필요한 코드 모션을 억제시키기 때문에 계산적으로나 수명적으로 최적인 알고리즘이라 할 수 있다.

SIMD 프로그래머블 셰이더를 위한 멀티포트 레지스터 파일 설계 및 구현 (Multi-Port Register File Design and Implementation for the SIMD Programmable Shader)

  • 윤완오;김경섭;정진하;최상방
    • 대한전자공학회논문지SD
    • /
    • 제45권9호
    • /
    • pp.85-95
    • /
    • 2008
  • 3D 그래픽 알고리즘은 특성상 방대한 양의 스트림 데이터에 대하여 복잡한 연산을 수행하여야 한다. 이러한 알고리즘을 하드웨어에서 신속하게 수행할 수 있는 버텍스 셰이더와 픽셀 세이더의 도입으로 그래픽 프로세서는 "소프트웨어 셰이더의 하드웨어화"라는 목표를 어느 정도 달성한 것처럼 보이지만, 여전히 Z-버퍼 기반이라는 특정 알고리즘의 틀에서 벗어나지 못하고 있다. 향후 그래픽 프로세서가 궁극적으로 추구하는 모델은 알고리즘에 독립적인 그리고 버텍스 셰이더와 픽셀 셰이더가 통합된 셰이더로 발전할 것이다. 본 논문에서는 프로그래머블 통합 셰이더 프로세서에서 고성능 3차원 컴퓨터 그래픽 영상을 지원하기 위한 멀티포트 레지스터 파일 모델을 설계하고 구현하였다. 설계한 멀티포트 레지스터 파일을 기능적 레벨에서 시뮬레이션을 하여 그 성능을 검증 하였으며, FPGA Virtex-4(xc4vlx200)에 직접 구현하여 하드웨어 리소스 사용율과 속도를 확인 하였다.

저비용 내장형 멀티미디어 프로세서를 위한 분할 레지스터 접근 구조 (A Partial Access Mechanism on a Register for Low-cost Embedded Multimedia ASIP)

  • 조민영;정하영;이용석
    • 대한전자공학회논문지SD
    • /
    • 제45권9호
    • /
    • pp.50-56
    • /
    • 2008
  • 본 논문은 저비용 내장형 멀티미디어 프로세서를 위한 레지스터 분할 접근 구조를 제안한다. 저비용 내장형 시스템에서 SIMD 명령어 지원은 SIMD 지원 레지스터 파일과 실행유닛들의 추가에 따른 비용의 증가 때문에 적용이 어렵다. 제안한 구조는 하드웨어의 부담을 최소화하면서 SIMD 연산 수행을 지원하여 전체적인 성능을 향상 시킬 수 있는 구조다. ASIP을 설계하여 제안한 구조를 적용시켰으며 DSP 벤치마크에서 명령어 적용에 따른 실행 사이클의 변화를 비교하였다. 설계한 ASIP을 TSMC 0.25$\mu$m 공정으로 합성하여 제안한 구조 적용에 따른 면적 증가 및 전체적인 성능 향상을 분석하였다. 실험 결과 제안한 구조는 성능은 약 38% 향상되었고, 면적은 13.4% 증가하였다.

18000-3 PJM 모드 태그의 동기부 및 복조부 하드웨어 설계 (Hardware Design of the Synchronizer and the Demodulator of a 18000-3 PJM Mode Tag)

  • 전돈국;양훈기
    • 한국ITS학회 논문지
    • /
    • 제10권2호
    • /
    • pp.77-83
    • /
    • 2011
  • 본 논문에서는 18000-3 모드 3로 국제표준화된 13.56MHz RFID PJM(Phase Jitter Modulation) 모드 태그의 동기부 및 복조부 설계를 위해서 최근에 제안된 동기, 복조 알고리즘을 최적화하여 설계하고 구현하는 과정을 보인다. 두 알고리즘을 분석하여 불필요한 레지스터 사용을 최소화하고 국제표준에 근거하여 구현하며, 시뮬레이션 및 테스트는 모델심(Modelsim)과 알테라(Altera) FPGA를 이용하여 검증한다. 3개의 상관기로 구성된 동기부를 구현하기 위해서 총 1,024(16bit ${\times}$ 64cycle)개의 레지스터를 사용하고, 2개의 상관기를 갖는 복조부를 구현하기 위해서 128(2bit ${\times}$ 64cycle)개의 레지스터를 사용한다. 마지막으로 동기부, 복조부를 연동시켜 시뮬레이션을 수행하여, 잡음환경에서 SNR -2dB일 경우에 는 87%의 성공률을, 4dB 이상일 경우에는 100% 성공함을 보인다.

SIMT구조 GP-GPU의 명령어 처리 성능 향상을 위한 Dispatch Unit과 Operand Selection Unit설계 (Design of a Dispatch Unit & Operand Selection Unit for Improving the SIMT Based GP-GPU Instruction Performance)

  • 곽재창
    • 전기전자학회논문지
    • /
    • 제19권3호
    • /
    • pp.455-459
    • /
    • 2015
  • 본 논문은 그래픽 처리 뿐 만 아니라 범용 연산의 가속화를 지원하기 위한 SIMT 구조 GP-GPU의 Dispatch Unit과 Operand Selection Unit을 제안한다. Warp Scheduler로부터 발행된 명령어에서 사용되는 Operand의 모든 정보를 Decoding 하면 불필요한 Operand Load가 발생하여 레지스터 부하가 발생 한다. 이러한 문제점을 해결하기 위해 Pre-decoding방법을 사용하여 Operand의 정보만을 먼저 Decoding 하여 Operand Load를 줄이고, 레지스터의 부하를 줄일 수 있는 방법을 제안한다. 제안하는 Dispatch Unit에서 나온 Operand 정보들을 레지스터 뱅크 충돌을 방지하는 방법을 적용한 Operand Selection Unit에 전달해 전체적인 처리 성능을 향상 시켰다. Modelsim 10.0b를 이용하여 Warp Scheduler로부터 발행된 10,000개의 임의의 명령어를 처리하여 소요되는 총 Clock Cycle을 측정하였다. 본 논문에서 제안한 Pre-Decoding 기능을 탑재한 Dispatch Unit과 Operand Selection Unit을 적용하여 기존의 방법들 보다 각각 약 11%, 24%의 처리 효율이 증가한 것을 확인 할 수 있었다.

레이스터 인서션 Backbone 링 네트워크에 관한 연구 (A Design of a Register Insertion Backbone Ring Network)

  • 강철신
    • 한국통신학회논문지
    • /
    • 제17권8호
    • /
    • pp.796-804
    • /
    • 1992
  • 본 논문은 레지스터 인서션 링 구조를 사용한 Backbone 네트워크의 디자인에 관하여 연구하였다. 고속의 레지스터 인서션 Backbone 링 네트워크는 적은 비용으로 간단한 모듈라 구조와 Concurrent Communication을 통하여 네트워크간의 빠른 속도의 데이타 통신을 가능케하여 준다. 큰 네트워크를 형성하기 위하여 국부 지역 통신망(근거리 통신망, Local Area Network:LAN)들과 접속되어 있는 브릿지 노드들이 Pint-to-Point로 연결되어 레지스터 인서선 Backbone링을 형성한다. 본 논문에서 제안된 브릿지 노드는 불필요하게 데이타 메시지가 링으로 유입되는 것을 막기 위하여 Local Address Filtering을 하여 Backbone링의 통신량을 현저하게 줄이며, Remote Adress Filtering을 하여 LAN 세그먼트내의 통신량을 감소시키므로 그 성능 특성을 극대화 시킨다. 또한 본 논ㅁ누에서는 네트워크의 Reconfiguration을 쉽게 하기 위하여 자동 학습 기능이 고안되었다. 그리고 Throushput 분석에 의해서 Backbone 링에 사용되는 전송매체의 Bandwidth를 예측하여 설계하는 방법이 연구되었다.

  • PDF

EM에서 SPARC 코드로 효율적인 코드 확장 (An Efficient Code Expansion from EM to SPARC Code)

  • 오세만;윤영식
    • 한국정보처리학회논문지
    • /
    • 제4권10호
    • /
    • pp.2596-2604
    • /
    • 1997
  • ACK는 가상 스택 기계에 기반을 둔 EM 중간 코드로부터 레지스터 구조에 기반을 둔 SPARC 기계에 대한 목적 코드를 생성하기 위해서는 코드 확장기(code expander)를 이용하고 있다. 따라서 EM 코드로부터 SPARC 목적 코드를 생성하기 위해 스택 지향 구조로부터 레지스터 지향 구조로 변환하여야 한다. 코드 확장기를 이용한 SPARC 코드 생성 기법은 각 EM 명령어에 대해 SPARC 코드로 확장하는 루틴들로 구성되며 코드 생성기에 비해 코드의 질을 개선하기 위해 푸쉬-팝 최적화 동작을 수행한다. 하지만 코드 확장시에 별도의 자원과 관리를 요구하는 혼합 스택(hybrid stack)을 이용하고 있으며 전단부의 정보 손실로 레지스터 윈도우를 이용한 효율적인 매개변수 전달을 고려하지 않는다. 본 논문에서는 ACK의 전체적인 구조의 변경 없이 목적 기계의 스택과 매개변수 전달을 고려하나 효율적인 SPARC 코드를 생성하기 위해 EM 트리를 이용한 SPARC 코드 확장기를 설계하고 구현하였다. 이를 위해, 순차적인 EM 코드를 입력으로 받아 스택 속성을 반영한 트리로 구성하며 혼합 스택을 제거하기 위해 지역 변수 정보를 별도로 관리하였다. EM 트리의 순회 및 확장 과정에서 목적 코드를 생성할 수 있는 루틴을 통하여 목적 코드를 출력하며 추출된 정보와 노드의 성격에 출력 시기와 목적 코드를 결정한다.

  • PDF

딥러닝 합성곱에서 데이터 재사용에 최적화된 GPGPU 설계 (Design of an Optimized GPGPU for Data Reuse in DeepLearning Convolution)

  • 남기훈;이광엽;정준모
    • 전기전자학회논문지
    • /
    • 제25권4호
    • /
    • pp.664-671
    • /
    • 2021
  • 본 논문은 합성곱 신경망에 데이터 재사용 방법을 효과적으로 적용하여 연산 횟수와 메모리 접근 횟수를 줄일 수 있는 GPGPU구조를 제안한다. 합성곱은 kernel과 입력 데이터를 이용한 2차원 연산으로 kernel이 slide하는 방법으로 연산이 이루어 진다. 이때, 합성곱 연산이 완료될 때 까지 kernel을 캐시메모리로 부터 전달 받는 것이 아니고 내부 레지스터를 이용하는 재사용 방법을 제안한다. SIMT방법으로 명령어가 실행되는 GPGPU의 원리 이용하여 데이터 재사용의 효과를 높이기 위해 합성곱에 직렬 연산 방식을 적용하였다. 본 논문에서는 레지스터기반 데이터 재사용을 위하여 kernel을 4×4로 고정하고 이를 효과적으로 지원하기 위한 warp 크기와 레지스터 뱅크를 갖는 GPGPU를 설계하였다. 설계된 GPGPU의 합성곱 신경망에 대한 성능을 검증하기 위해 FPGA로 구현한 뒤 LeNet을 실행시키고 TensorFlow를 이용한 비교 방법으로 AlexNet에 대한 성능을 측정하였다. 측정결과 AlexNet기준 1회 학습 속도는 0.468초이며 추론 속도는 0.135초이다.

지구과학 논문의 언어 특성 이해: 레지스터 분석 (Understanding of the Linguistic Features of Earth Science Treatises: Register Analysis Approach)

  • 맹승호;신명환;차현정;함석진;신현정;김찬종
    • 한국지구과학회지
    • /
    • 제31권7호
    • /
    • pp.785-797
    • /
    • 2010
  • 이 연구에서는 과학 논문 레지스터를 분석하여 지구과학 논문의 언어 특성을 탐색하였다. 연구 자료로 지질과학, 대기과학, 해양과학의 한국어 논문 1편씩을 선정하였다. 지구과학 논문 레지스터의 특징은 다음과 같다. 첫째, 주제부와 설명부 간의 의미적, 지시적 연결이 체계적으로 이루어지고 있으며, 이를 통해 텍스트가 제시하려는 메시지와 요점이 통일적으로 응집력 있게 제시되었다. 둘째, 각 텍스트의 장르 요소에 따라 연역적 추론 또는 귀추적 추론 관계 및 인과 관계를 나타내는 술어들이 사용되었으며, 논리적 관계는 접속어구보다는 술어의 유형을 통해 표현되었다. 셋째, 대부분의 논문 텍스트에서 가능성을 나타내는 인식적 술어를 사용하여 과학자들의 해석과 설명 및 주장을 간접적으로 표현하는 약한 상호관계를 형성하였다. 연구 결과를 근거로 학생들이 과학 학습 과정에서 과학 텍스트에 대한 문해 능력을 높이고, 과학자들의 지식 구성 방식을 이해하기 위해서는 과학 글에서 각 문장을 구성하는 주제부와 설명부의 연결 관계를 파악하고, 술어의 유형에 따라 논리적 관계를 조사하는 과학 언어 풀어내기 활동이 과학 교육과정에 포함되어야 함을 논의하였다.

실시간 영상압축과 복원시스템을 위한 DWT기반의 영상처리 프로세서의 VLSI 설계 (VLSI Design of DWT-based Image Processor for Real-Time Image Compression and Reconstruction System)

  • 서영호;김동욱
    • 한국통신학회논문지
    • /
    • 제29권1C호
    • /
    • pp.102-110
    • /
    • 2004
  • 본 논문에서는 이차원 이산 웨이블릿 변환을 이용한 실시간 영상 압축 및 복원 프로세서의 구조를 제안하고 ASIC(Application specific integrated circuit) 라이브러리를 이용하여 최소의 하드웨어로 구현하였다. 구현된 하드웨어에서 데이터 패스부는 웨이블릿 변환과 역변환을 수행하는 DWT 커널(Kernel)부, 양자화기 및 역양자화기, 허프만 엔코더 및 디코더, 웨이블릿 역변환 시 계수의 덧셈을 수행하는 덧셈기 및 버퍼, 그리고 입출력을 위한 인터페이스와 버퍼로 구성하였다. 제어부는 프로그래밍 레지스터와 명령어를 디코딩하여 제어 신호를 생성하는 주 제어부, 그리고 상태를 외부로 알리는 상태 레지스터로 구성된다. 프로그래밍 조건에 따라서 영상을 압축할 때의 출력은 웨이블릿 계수, 양자화 계수 혹은 양자화 인덱스, 그리고 허프만 코드 중에서 선택하여 발생할 수 있고 영상을 복원할 때의 출력은 허프만 디코딩 결과, 복원된 양자화 계수 그리고 복원된 웨이블릿 계수 중에서 선택하여 발생할 수 있다. 프로그래밍 레지스터는 총 16개로 구성되어 있는데 각각이 한번의 수직 혹은 수평 방향의 웨이블릿 변환을 수행할 수 있고 각각의 레지스터들이 차례대로 동작하기 때문에 4 레벨의 웨이브릿 변환을 한번의 프로그래밍으로 수행가능하다. 구현된 하드웨어는 Hynix 0.35m CMOS 공정의 합성 라이브러리를 가지고 Synopsys 합성툴을 이용하여 게이트 레벨의 네트리스트(Netlist)를 추출하였고 이 네트리스트로부터 Vela 툴을 이용하여 타이밍정보를 추출하였다. 추출된 네트리스트와 타이밍정보(sdf 파일)를 입력으로 하여 NC-Verilog를 이용하여 타이밍 시뮬레이션을 수행하여 구현된 회로를 검증하였다. 또한 Apollo 툴을 이용하여 PNR(Place and route) 및 레이아웃을 수행하였다. 구현된 회로는 약 5만 게이트의 적은 하드웨어 자원을 가지고 최대 80MHz에서 동작 가능하였다.