• Title/Summary/Keyword: 수퍼파이프

Search Result 10, Processing Time 0.028 seconds

VHDL Design for Out-of-Order Superscalar Processor of A Fully Pipelined Scheme (완전한 파이프라인 방식의 비순차실행 수퍼스칼라 프로세서의 VHDL 설계)

  • Lee, Jongbok
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.21 no.1
    • /
    • pp.99-105
    • /
    • 2021
  • Today, a superscalar processor is the basic unit or an essential component of a multi-core processor, SoCs, and GPUs. Hence, a high-performance out-of-order superscalar processor must be adopted for these systems to maximize its performance. The superscalar processor fetches, issues, executes, and writes back multiple instructions per cycle by utilizing reorder buffers and reservation stations to dynamically schedule instructions in a pipelined scheme. In this paper, a fully pipelined out-of-order superscalar processor with speculative execution is designed with VHDL and verified with GHDL. As a result of the simulation, the program composed of ARM instructions is successfully performed.

Process Algebraic Approach to Timing Analysis of Superscalar Processor Programs (프로세스 대수에 기반을 둔 수퍼스칼라 프로세서 프로그램의 시간 분석)

  • Yoo, Hee-Jun;Lee, Ki-Huen;Choi, Jin-Young
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.27 no.2
    • /
    • pp.200-208
    • /
    • 2000
  • Multi-ports register could shared several instructions at the same time in read operation. We address a formal methods for describing timing analysis and resource restriction in pipeline super scalar process that having multi-Port registers. First, we specify in-order pipeline instructions, and then, extend timing analysis in out-of-order super-scalar. In this case, we find instruction pairs in any cycle which can execute same time, We use ACSR(Algebra of Communicating Shared Resources), a branch of formal methods based on process algebra, for instruction specification and modelling.

  • PDF

FPGA Design and Implementation of A Pipelined Out-of-Order Superscalar Processor (파이프라인식 비순차실행 수퍼스칼라 프로세서의 FPGA 설계 및 구현)

  • Jongbok Lee
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.23 no.3
    • /
    • pp.153-158
    • /
    • 2023
  • Domestically, the importance of system semiconductor design is increasing, and the balanced development with the high-end memory semiconductors should be promoted. Using Xilinx Vivado as a development enivronment tool, it reduces time and cost dramatically in implementing the processor on FPGA. In this paper, the VHDL language which provides record data structure for an efficient digital system design is used for designing a pipelined out-of-order superscalar processor. It has been simulated extensively, synthesized and implemented on FPGA and verified by Integrated Logic Analyzer. As a result, the pipelined out-of-order superscalar processor could be executed successfully.

The Effect of Heat Input on the Pitting Corrosion Resistance of the Weld of Super Duplex Stainless Steel (수퍼 이상 스테인리스강의 내식성에 미치는 입열의 영향)

  • 성희준;주정권;이철환;김대순
    • Proceedings of the KWS Conference
    • /
    • 2004.05a
    • /
    • pp.134-135
    • /
    • 2004
  • 해양구조물의 설치 환경 및 제품의 사용환경이 악화됨에 따라서 높은 내식성을 보이는 수퍼 이상 스테인리스강(이하: SDSS)의 사용이 많아지고 있다. 해양 구조물에 사용되는 SDSS는 대부분이 파이프자재로서 내부에서의 접근이 불가능하여 용접은 GTAW로 초층을 용접하여 이면 비드를 형성시키는 One side 용접법이 채택되고 있다. (중략)

  • PDF

A Prefetch Architecture with Efficient Branch Prediction for a 64-bit 4-way Superscalar Microprocessor (64비트 4-way 수퍼스칼라 마이크로프로세서의 효율적인 분기 예측을 수행하는 프리페치 구조)

  • 문상국;문병인;이용환;이용석
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.25 no.11B
    • /
    • pp.1939-1947
    • /
    • 2000
  • 본 논문에서는 명령어의 효율적인 페치를 위해 분기 타겟 주소 전체를 사용하지 않고 캐쉬 메모리(cache memory) 내의 적은 비트 수로 인덱싱 하여 한 클럭 사이클 안에 최대 4개의 명령어를 다음 파이프라인으로 보내줄 수 있는 방법을 제시한다. 본 프리페치 유닛은 크게 나누어 3개의 영역으로 나눌 수 있는데, 분기에 관련하여 미리 부분적으로 명령어를 디코드 하는 프리디코드(predecode) 블록, 타겟 주소(NTA : Next Target Address) 테이블 영역을 추가시킨 명령어 캐쉬(instruction cache) 블록, 전체 유닛을 제어하고 가상 주소를 관리하는 프리페치(prefetch) 블록으로 나누어진다. 사용된 명령어들은 SPARC(Scalable Processor ARChitecture) V9에 기준 하였고 구현은 Verilog-HDL(Hardwave Description Language)을 사용하여 기능 수준으로 기술되고 검증되었다. 구현된 프리페치 유닛은 명령어 흐름에 분기가 존재하더라도 단일 사이클 안에 4개까지의 명령어들을 정확한 예측 하에 다음 파이프라인으로 보내줄 수 있다. 또한 NTA를 사용한 방법은 같은 수의 레지스터 비트를 사용하였을 때 BTB(Branch Target Buffer)를 사용하는 방법과 비교하여 2배정도 많은 개수의 분기 명령 주소를 저장할 수 있는 장점이 있다.

  • PDF

Performance Improvement of Reorder Buffer in Out-of-order Issue Superscalar Processors (비순차이슈 수퍼스칼라 프로세서에서 리오더버퍼의 성능개선)

  • Jang, Mun-Seok;Lee, Jeong-U;Choe, Sang-Bang
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.28 no.1_2
    • /
    • pp.90-102
    • /
    • 2001
  • 리오더버퍼는 명령어를 비순차로 이슈하는 수퍼스칼라 파이프라인에서의 명령어 실행을 순차적으로 완료하는데 사용된다. 본 논문에서는 리오더버퍼에 의하여 발생할 수 있는 명령어의 스테그네이션(stagnation)을 효율적으로 제거시킬 뿐만 아니라 리오더버퍼의 크기를 감소시킬 수 있는 쉘터버퍼를 사용한 리오더버퍼 구조를 제안하였다. 시뮬레이션을 수행한 결과 리오더버퍼의 엔트리 개수가 8개에서 32개 사이일 때 쉘터버퍼는 단지 1개 또는 2개만 사용하여도 뚜렷한 성능 향상을 얻을 수 있음을 보여준다. 쉘터버퍼를 4개 사용했을 때는 2개만 사용했을 경우와 비교하여 주목할만한 성능 향상은 없었다. 이는 쉘터버퍼를 2개만 사용하여도 대부분의 스테그네이션을 제거하는데 충분함을 보여준다. 실행율의 손실이 없는 상태에서 2개의 쉘터버퍼를 사용하면 Whetstone 벤치마크 프로그램에서는 44%, FFT 벤치마크 프로그램에서는 50%, FM 벤치마크 프로그램에서는 60%, Linpack 벤치마크 프로그램에서는 75%의 리오더버퍼의 크기를 줄일 수 있었다. 쉘터버퍼를 사용했을 때 수행 시간 역시 Whetstone에서는 19.78%, FFT에서는 19.67%, FM에서는 23.93%, Linpack에서는 8.65%의 성능 향상을 얻을 수 있었다.

  • PDF

A Study of using Wall Function for Numerical Analysis of High Reynolds Number Turbulent Flow (고 레이놀즈수 유동의 수치해석시 벽함수 사용에 관한 연구)

  • Choi, Jung-Kyu;Kim, Hyoung-Tae
    • Journal of the Society of Naval Architects of Korea
    • /
    • v.47 no.5
    • /
    • pp.647-655
    • /
    • 2010
  • In this paper, a numerical study is carried out for super-pipe, flat plate and axisymmetric body flows to investigate a validity of using wall function and high $y_1^+$ in calculation of high Reynolds number flow. The velocity profiles in boundary layer agree well with the law of the wall. And it is found that the range of $y^+$��which validated the logarithmic law of the wall grows with increasing Reynolds number. From the result, an equation is suggested that can be used to estimate a maximum $y^+$ value of validity of the log law. And the slope(1/$\kappa$) of the log region of the numerical result is larger than that of experimental data. On the other hand, as $y_1^+$ is increasing, both the friction and the pressure resistances tend to increase finely. When using $y_1^+$ value beyond the range of log law, the surface shear stress shows a significant error and the pressure resistance increases rapidly. However, when using $y_1^+$ value in the range, the computational result is reasonable. From this study, the use of the wall function with high value of $y_1^+$ can be justified for a full scale Reynolds number ship flow.

Propagation of Structural Waves along Waveguides with Non-Uniformities Using Wavenumber Domain Finite Elements (국부적 불연속을 갖는 도파관을 따라 전파되는 파동에 대한 파수 영역 유한 요소 해석)

  • Ryue, Jungsoo
    • The Journal of the Acoustical Society of Korea
    • /
    • v.33 no.3
    • /
    • pp.191-199
    • /
    • 2014
  • Wave reflection and transmission characteristics in waveguides are an important issue in many engineering applications. A combined spectral element and finite element (SE/FE) method is used to investigate the effects of local non-uniformities but limited at relatively low frequencies because the SE is formulated by using a beam theory. For higher frequency applications, a method named a combined spectral super element and finite element (SSE/FE) method was presented recently, replacing spectral elements with spectral super elements. This SSE/FE approach requires a long computing time due to the coupling of SSE and FE matrices. If a local non-uniformity has a uniform cross-section along its short length, the FE part could be further replaced by SSE, which improves performance of the combined SSE/FE method in terms of the modeling effort and computing time. In this paper SSEs are combined to investigate the characteristics of waves propagating along waveguides possessing geometric non-uniformities. Two models are regarded: a rail with a local defect and a periodically ribbed plate. In the case of the rail example, firstly, the results predicted by a combined SSE/FE method are compared with those from the combined SSEs in order to justify that the combined SSEs work properly. Then the SSEs are applied to a ribbed plate which has periodically repeated non-uniformities along its length. For the ribbed plate, the propagation characteristics are investigated in terms of the propagation constant.

Analytical Models and their Performance Analysis of Superscalar Processors (수퍼스칼라 프로세서의 해석적 모델 및 성능 분석)

  • Kim, Hak-Jun;Kim, Seon-Mo;Choe, Sang-Bang
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.26 no.7
    • /
    • pp.847-862
    • /
    • 1999
  • 본 논문에서는 유한버퍼의(finite-buffered) 동기화된(synchronous) 큐잉모델(queueing model)을 이용하여 명령어들간의 병렬성, 분기명령의 빈도수, 분기예측(branch prediction)의 정확도, 캐쉬미스 등의 파라미터들을 고려하여 프로세서의 명령어 실행율을 예측하며 캐쉬의 성능과 파이프라인 성능간의 관계를 분석할 수 있는 새로운 해석적 모델을 제안하였다. 해석적 모델은 모델의 타당성을 검증하기 위해서 시뮬레이션을 수행하여 얻은 결과와 비교하였다. 해석적 모델과 시뮬레이션을 비교한 결과 대부분 10% 오차 내에서 일치하였다. 본 연구를 통하여 얻은 해석적 모델을 사용하면 시뮬레이션에서는 드러나지 않는 성능제약의 원인에 대한 명확한 규명이 가능하기 때문에 성능향상을 위한 설계자료를 얻을 수 있으며, 시스템 성능 밸런스를 위한 캐쉬와 비순차이슈 파이프라인 성능간의 관계에 대한 정확한 분석이 가능하다.Abstract This research presents a novel analytic model to predict the instruction execution rate of superscalar processors using the queuing model with finite-buffer size and synchronous operation mode. The proposed model is also able to analyze the performance relationship between cache and pipeline. The proposed model takes into account various kinds of architectural parameters such as instruction-level parallelism, branch probability, the accuracy of branch prediction, cache miss, and etc.. To prove the correctness of the model, we performed extensive simulations and compared the results with the analytic model. Simulation results showed that the proposed model can estimate the average execution rate accurately within 10% error compared to simulation results. The proposed model can explain the causes of performance bottleneck which cannot be uncovered by the simulation method only. The model is also able to show the effect of the cache miss on the performance of out-of-order issue superscalar processors, which can provide an valuable information in designing a balanced system.

Optimistic Colescing Technique for Copy Elimination in ILP Instruction Scheduling (ILP 명령 스케쥴링에서의 복사 제거를 위한 낙관적 융합 기법)

  • Park, Jin-Pyo;Mun, Su-Muk
    • Journal of KIISE:Software and Applications
    • /
    • v.26 no.5
    • /
    • pp.692-701
    • /
    • 1999
  • 수퍼스칼라(superscalar)나 VLIW 와 같은 명령어 수준 병렬화(ILP) 프로세서의 성능을 극대화하는 과감한 명령어 스케쥴링은 소프트웨어 파이프라이닝과같은 스케쥴링 과정을 거치면서 일반적인 복사 명령어 제거 기법으로 없앨 수 없는 서로 간섭하는 복사 명령을 많이 만들어내는데 루프 내부에 생성된 이러한 복사명령은 적절한 루프 펼침을 수행하여 간섭관계를 없앰으로서 제거할 수 있다. 본 논문에서는 이와 같이 루프 펼침이 수행된 루프 내부의 복사명령을 제거하는 기법으로 그래프 컬러링 상에 구현한 낙관적 융합기법을 제안한다. 그래프 컬러링에서의 융합기법은 간선의 개수가 많은 노드를 만들어 낼수 있으므로 채색성에 부정적인 영향을 주는 것으로 알려져 왔으나 본 기법에서는 융합되는 노드에 동시에 간섭하는 노드의 간선의 수가 줄어드는 긍정적인 영향을 최대한 이용하여 채색성을 높이고 융합된 노드에 대한 실제 버림(spill)이 일어나는 경우 유효 범위 분절(live range splitting)을 통하여 버림의 부담을 최대한 줄이도록 하였으며 이를 VLIW 스케쥴링 된 SPEC 정수벤치마크 루프내부의 복사 명령 제거에 적용한 결과 제거 가능한 복사 명령의 99%를 제거하면서도 버림명령은 다른 융합 기법과 비교하여 가장 적게 발생하는 우수한 결과를 얻을수 있었다.