• 제목/요약/키워드: 명령어 인출

검색결과 15건 처리시간 0.026초

명령어 캐시미스중에서도 파이프라인의 고착을 피할 수 있는 VLIW 구조의 성능향상 (Performance Improvement of a VLIW ARchitecture without Pipeline-Stall during Instruction Cache Miss)

  • 지승현;박노광;김석일
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제26권3호
    • /
    • pp.301-312
    • /
    • 1999
  • 본 논문에서는 명령어 수준의 병렬성을 다루는 세 가지 프로세서 모델을 정의하고 각 모델별로 명령어 파이프라인을 운용하는 방법에 다른 실행사이클의 변화를 연구하였다. 본 논문에서 고려한 세가지 모델은1) 긴 명령어 인출시 캐시미스가 발생하면 명령어 파이프라인이 정지되는 전통적인 VLIW 구조, 2) 전통적인 VLIW 구조와 같이 긴 명령어 인출시 캐시미스가 발생하면 명령어 파이프라인이 정지되나 실시간에 긴 명령어를 실행 유니트로 스케줄링할 수있으므로 목적 코드에서 LNOP를 제거할 수 있는 구조 및 3)2)의 구조에서 긴 명령어를 인출하는 과정에서 캐시미스가 발생하더라도 LNOP을 분석 유니트로 제공하여 명령어 파이프라인을 계속 진행시키는 구조의 세 가지이다. 연구결과, 세 번째 구조에서 발생되는 LNOP 의 수는 첫 번째 구조와 두 번째 구조에 비하여 적어서 동일한 응용 프로그램을 처리하는데 필요한 실행사이클의 수가 가장 짧았다. 여러 가지 벤치 마크들에 대한 모의 실험에서도 세 번째 구조가 다른 구조의 프로세서에 비하여 실행사이클의 수가 가장 짧음을 확인할 수 있었다.

목적 코드에서 LNOP 코드가 제거됨에 따른 SVLIW 구조의 성능 향상 (Performance Improvement of SVLIW Architectures by Removing LNOPs from An Object Code)

  • 정보윤;전중남;김석일
    • 한국정보처리학회논문지
    • /
    • 제4권9호
    • /
    • pp.2269-2279
    • /
    • 1997
  • SVLIW (Superscalar VLIW) 프로세서는 실시간에 긴 명령어를 스케줄하는 VLIW 프로세서의 일종으로 인출되어 실행될 긴 명령어가 사용할 자원과 앞서 인출되어 수행중인 긴 명령어가 사용하는 자원간에 충돌이 발생하면 인출하여 실행하려는 긴 명령어를 수행하지 않고 NOP으로만으로 구성된 긴 명령어(LNOP: Long NOP word)를 할당하여 긴 명령어간의 충돌로 인한 계산의 오류를 피한다. 따라서 SVLIW 프로세서에서는 목적 코드 내에서 LNOP을 제거할 수 있다. 본 논문에서는 목적 코드에서 LNOP이 제거됨에 따라 캐쉬 적중률이 얼마나 향상되는지를 분석하고 이로 인하여 예상되는 성능 향상을 연구하였다. 여러 가지의 벤치 마크 프로그램에 대한 모의 실험 결과, SVLIW 프로세서 구조는 기존의 VLIW 프로세서 구조에 비하여 성능이 5%이상 향상됨이 확인될 수 있었다.

  • PDF

가변적 하드웨어 구성에 대한 수퍼스칼라 프로세서의 성능 예측 모델 (An Analytical Performance Model for Supercalar Processors)

  • 이종복
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (3)
    • /
    • pp.24-26
    • /
    • 1999
  • 본 논문에서는 주어진 윈도우에 대하여 수퍼스칼라 프로세서의 하드웨어를 구성하는 기본 요소인 인출율과 연산 유닛의 개수로 표현되는 성능 예측 모델을 제시하였다. 이때, 수퍼스칼라 프로세서에서 실행되는 벤치마크 프로그램은 매 싸이클당 각 명령어 개수가 시행되는 확률과 분기 예측 정확도에 의하여 특성화된다. 초기의 실험으로 각종 파라미터를 획득한 후에는 다양한 연산유닛과 인출율을 갖는 수퍼스칼라 프로세서의 성능을 본 논문에서 제안하는 모델에 의하여 간단하게 구할 수 있다. 명령어 자취 모의실험(trace-driven simulation)으로 측정한 성능과 본 논문에서 제안하는 성능 예측 모델에 의한 성능을 비교한 결과, 3.8%의 평균오차를 기록하였다.

  • PDF

확장 버퍼 캐쉬의 설계 및 성능 평가 (Design and Performance Evaluation of Expansion Buffer Cache)

  • 홍원기
    • 정보처리학회논문지A
    • /
    • 제11A권7호
    • /
    • pp.489-498
    • /
    • 2004
  • VLIW 프로세서는 간단한 하드웨어 구조로 인해 저전력 및 고성능을 제공하여 임베디드 시스템에 매우 적합한 프로세서 구조로 인식되고 있다. 그러나 VLIW 프로세서는 동시에 수행 가능한 명령어들의 집합인 명령어 패킷 길이가 일정하지 않기 때문에 메모리 접근 지연 시간이 늘어나는 문제점을 안고 있다. 이는 가변 길이의 명령어 패킷으로 인해 일부 명령어 패킷이 두개의 캐쉬 블록에 걸쳐 있게 되고(스트래들 명령어 패킷), 이러한 명령어 패킷을 읽어 오기 위해 두 번의 캐쉬 접근이 요구되기 때문이다. 본 논문에서는 명령어 인출 대역폭을 높여줄 뿐만 아니라 명령어 캐쉬의 전력 소모를 낮춰주는 확장 버퍼 캐쉬를 제안한다. 확장 버퍼 캐쉬는 메인 캐쉬와 함께 스트래들 명령어 패킷의 일부를 저장하기 위한 소량의 확장 버퍼 캐쉬를 갖고 있으며 스트래들 명령어 패킷으로 인해 추가적으로 발생하는 캐쉬 접근을 줄여준다. 실험 결과 스트래들 명령어 패킷으로 인한 캐쉬 접근을 줄여 줌으로써 확장 버퍼 캐쉬는 기존 명령어 캐쉬에 비해 약 $5{\~}9{\%}$의 성능 전력${\cdot}$비용 향상을 가져옴을 확인할 수 있었다.

부분 압축 명령어를 위한 캐쉬 구조의 설계 및 평가 (Design and Evaluation of Cache Structure for Semi-packed Instruction)

  • 홍원기;이승엽;김신덕
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제28권5호
    • /
    • pp.245-258
    • /
    • 2001
  • VLIW에서는 프로그램 코드를 병렬화 하는 작업이 모두 컴파일러에 의해서만 이루어진다. 따라서 병렬로 수행될 연산어들을 명시적으로 나타내 주어야 하며, 이를 위한 명령어 인코딩 방식으로 전개 인코딩 방식과 압축 인코딩 방식이 사용되어 왔다. 각 인코딩 방식들은 명령어의 적재 및 검색을 위해 서로 다른 캐쉬 구조를 필요로 하는데, 전개 인코딩 방식으로 비압축 캐쉬를 압축 인코딩 방식으로 압축 캐쉬를 사용하고 있다. 그러나 이들은 각각 무효 연산어로 인한 메모리 활용 효율 저하와 복원 과정으로 인한 명령어 인출 오버헤드의 증가라는 문제점을 안고 있다. 본 논문에서는 부분적으로 명령어 길이를 일정하게 유지하는 부분 압축 인코딩을 사용해 메모리 활용 효율을 높이는 동시에 명령어 인출 오버헤드를 줄일 수 있는 분할 캐쉬 구조를 제안한다. 각 캐쉬 구조를 구현하는데 필요한 칩 영역을 계산하여, 분할 캐쉬가 비교적 비용 효율적인 캐쉬 구조임을 확인하였다. 모의 실험을 통한 메모리 활용 효율 측정 결과 하드웨어 비용의 증가를 고려하더라도 분할 캐쉬는 비압축 캐쉬에 비해 최고 약 3배의 메모리 활용 효율을 얻을 수 있었다. 각 캐쉬 구조를 일차 캐쉬로 하는 VLIW 시스템들의 성능 측정 결과는 TCSC(블록 집중형 분할 캐쉬)를 사용한 시스템이 비용 대비 성능 면에서 가장 우수한 것으로 나타났다.

  • PDF

명령어 플래시 메모리를 위한 고성능 이중 버퍼 시스템 설계 (The Instruction Flash memory system with the high performance dual buffer system)

  • 정보성;이정훈
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권2호
    • /
    • pp.1-8
    • /
    • 2011
  • NAND형 플래시 메모리는저전력, 저렴한 가격, 그리고 대용량 저장매체로 하드디스크 대용을 위하여 많은 연구가 이루어지고 있다. 특히 기존의 캐쉬 구조인 버퍼 시스템을 이용한 플래시 메모리의 성능향상 연구가 이루어지지만 대부분이 데이터 관련 연구이다. 따라서 본 연구에서는 기존의 캐쉬 구조의 버퍼를 이용한 고성능 명령어 플래시 메모리를 구현하였다. 제안된 명령어 플래시 메모리 시스템은 분기 명령어를 위한 시간적 버퍼(victim buffer), 명령어의 대표적인 특징인 순차적 인출을 위한 공간적 버퍼(spatial buffer)로 이루어져 있다. 즉, 제안된 명령어 플래시 메모리의 공간적 버퍼는 큰 페칭 크기를 가지므로 명령어의 순차적 인출에 효과적이며, 작은 페칭 크기를 가지는 시간적 버퍼는 공간적 버퍼에 참조된 명령어를 저장하게 되므로 다시 참조를 위한 분기 명령어에 효과적이다. 시뮬레이션 결과 평균 접근 실패율의 경우 미디어 응용군에 대해 4배 크기의 2-웨이 버퍼, 희생 버퍼, 그리고 2배 크기의 완전연관 버퍼에 비해 평균 77% 감소 효과를 얻을 수 있었다.

고속 정적 RAM 명령어 캐시를 위한 방사선 소프트오류 검출 기법 (Radiation-Induced Soft Error Detection Method for High Speed SRAM Instruction Cache)

  • 권순규;최현석;박종강;김종태
    • 한국통신학회논문지
    • /
    • 제35권6B호
    • /
    • pp.948-953
    • /
    • 2010
  • 본 논문에서는 슈퍼스칼라 구조를 가진 시스템의 명령어 캐시에서 효율적으로 소프트오류를 검출할 수 있는 기법을 제안한다. 명령어 캐시로 주로 사용되는 고속 정적 RAM(Random Access Memory)에 적용할 수 있으며 1D 패리티와 인터리빙을 통해 기존 기법들과 비교하여 더 적은 메모리 오버헤드로 연집오류를 검출할 수 있다. 정적 RAM에서는 소프트오류의 발생만을 확인하고 검출된 소프트오류의 정정은 명령어 캐시의 캐시 미스와 같이 처리하여 하위 메모리로부터 명령어들을 다시 인출하는 방식이다. 이를 통해 명령어 캐시의 성능에 영향을 주지 않으면서 연집오류를 검출하고 정정할 수 있으며 최대 4$\times$4의 윈도우 내에서 발생된 연집오류를 검출 할 수 있다. 제안된 방식을 이용하면 256비트 $\times$ 256비트 크기의 메모리에서 기존의 4-way 인터리빙 기법에서 검출에 필요한 패리티 크기의 25%만으로도 동일한 4비트의 연집오류를 검출 할 수 있다.

완전한 파이프라인 방식의 비순차실행 수퍼스칼라 프로세서의 VHDL 설계 (VHDL Design for Out-of-Order Superscalar Processor of A Fully Pipelined Scheme)

  • 이종복
    • 한국인터넷방송통신학회논문지
    • /
    • 제21권1호
    • /
    • pp.99-105
    • /
    • 2021
  • 오늘날 멀티코어 프로세서, 시스템 반도체, 그래픽처리장치를 막론하고 그것을 구성하는 기본 단위 또는 필수적으로 투입되는 CPU의 기본단위는 수퍼스칼라 프로세서이다. 따라서, 고성능의 비순차실행 수퍼스칼라 프로세서가 채택되어야만 위에서 거론된 시스템의 성능을 극대화할 수 있다. 수퍼스칼라 프로세서는 완전한 파이프라인 방식으로 재배열버퍼와 예약스테이션을 이용하여 명령어를 동적 스케줄링 함으로써, 매 싸이클 당 복수 개의 명령어를 인출, 발행, 실행 및 기록한다. 본 논문에서는 예측실행 기능이 있는 완전한 파이프라인 방식의 비순차실행 수퍼스칼라 프로세서를 VHDL로 설계하고, GHDL로 검증하였다. 모의실험 결과, ARM 명령어로 구성된 프로그램에 대한 연산을 성공적으로 수행할 수 있었다.

명령어 선 인출기의 전력 성능 (Power Performance of Instruction Pre-Fetch Unit)

  • 송영규;오형철
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 1999년도 하계종합학술대회 논문집
    • /
    • pp.365-368
    • /
    • 1999
  • In this paper, we investigate the effect of adopting branch-penalty compensation schemes on the power performance of TLBs(Translation Look-aside Buffers) and instruction caches. We found that the double-buffer branch-penalty compensation scheme can reduce the power consumption of the TLBs and the instruction caches considered by up to 14-21.3%. The power consumption is estimated through simulation at the architectural level, using the Kamble/Ghose method

  • PDF

분기 명령어의 조기 예측을 통한 예측지연시간 문제 해결 (Early Start Branch Prediction to Resolve Prediction Delay)

  • 곽종욱;김주환
    • 정보처리학회논문지A
    • /
    • 제16A권5호
    • /
    • pp.347-356
    • /
    • 2009
  • 정교한 분기 예측기의 설계는 오늘날의 프로세서 성능 향상에 중요한 역할을 하게 되었다. 분기 예측의 정확도가 더욱 더 중요해 지면서 정확도의 향상을 위한 다수의 기법들이 제안되었지만, 기존의 연구들은 예측 지연 시간을 간과하는 경향이 있었다. 본 논문에서는 예측 지연 시간 문제를 해결하고자 조기 예측 기법 (ESP, Early Start Prediction)을 제안한다. 조기 예측 기법은 분기 예측에 있어서 활용되는 분기 명령어의 주소 대신 그것과 일대일 대응이 되는 기본 블록의 시작 주소 (BB_SA, Basic Block Start Address)를 이용한다. 즉, 분기 명령어의 주소가 사용되는 기존의 환경에서, BB_SA를 활용하여 조기 예측을 시작함으로써, 예측 지연 시간을 숨긴다. 또한 제안된 기법은 짧은 간격 숨김 기법(short interval hiding technique)을 통해 보다 더 나은 성능 향상을 기대할 수 있다. 실험 결과 본 논문에서 제안된 기법은 예측 지연 시간을 줄임으로써, 예측 지연 시간이 1 사이클인 이상적인 분기 예측기의 성능에 0.25% 이내로 근접한 IPC 결과를 얻었다. 또한 기본 블록의 시작주소와 분기 명령어 사이에 짧은 간격을 가질 경우에 대한 개선 방법을 추가적으로 적용시킬 경우, 기존의 방식과 비교하여 평균 4.2%, 최대 10.1%의 IPC 향상을 가져왔다.