• 제목/요약/키워드: Cache architectures

검색결과 32건 처리시간 0.03초

Two-Level Scratchpad Memory Architectures to Achieve Time Predictability and High Performance

  • Liu, Yu;Zhang, Wei
    • Journal of Computing Science and Engineering
    • /
    • 제8권4호
    • /
    • pp.215-227
    • /
    • 2014
  • In modern computer architectures, caches are widely used to shorten the gap between processor speed and memory access time. However, caches are time-unpredictable, and thus can significantly increase the complexity of worst-case execution time (WCET) analysis, which is crucial for real-time systems. This paper proposes a time-predictable two-level scratchpad-based architecture and an ILP-based static memory objects assignment algorithm to support real-time computing. Moreover, to exploit the load/store latencies that are known statically in this architecture, we study a Scratch-pad Sensitive Scheduling method to further improve the performance. Our experimental results indicate that the performance and energy consumption of the two-level scratchpad-based architecture are superior to the similar cache based architecture for most of the benchmarks we studied.

CPU-GPU간 긴밀성을 위한 효율적인 공유메모리 접근 방법과 검증 시스템 구현 (Implementation of Integrated CPU-GPU for Efficient Uniform Memory Access Method and Verification System)

  • 박현문;권진산;황태호;김동순
    • 대한임베디드공학회논문지
    • /
    • 제11권2호
    • /
    • pp.57-65
    • /
    • 2016
  • In this paper, we propose a system for efficient use of shared memory between CPU and GPU. The system, called Fusion Architecture, assures consistency of the shared memory and minimizes cache misses that frequently occurs on Heterogeneous System Architecture or Unified Virtual Memory based systems. It also maximizes the performance for memory intensive jobs by efficient allocation of GPU cores. To test between architectures on various scenarios, we introduce the Fusion Architecture Analyzer, which compares OpenMP, OpenCL, CUDA, and the proposed architecture in terms of memory overhead and process time. As a result, Proposed fusion architectures show that the Fusion Architecture runs benchmarks 55% faster and reduces memory overheads by 220% in average.

Genetic algorithm-based content distribution strategy for F-RAN architectures

  • Li, Xujie;Wang, Ziya;Sun, Ying;Zhou, Siyuan;Xu, Yanli;Tan, Guoping
    • ETRI Journal
    • /
    • 제41권3호
    • /
    • pp.348-357
    • /
    • 2019
  • Fog radio access network (F-RAN) architectures provide markedly improved performance compared to conventional approaches. In this paper, an efficient genetic algorithm-based content distribution scheme is proposed that improves the throughput and reduces the transmission delay of a F-RAN. First, an F-RAN system model is presented that includes a certain number of randomly distributed fog access points (F-APs) that cache popular content from cloud and other sources. Second, the problem of efficient content distribution in F-RANs is described. Third, the details of the proposed optimal genetic algorithm-based content distribution scheme are presented. Finally, simulation results are presented that show the performance of the proposed algorithm rapidly approaches the optimal throughput. When compared with the performance of existing random and exhaustive algorithms, that of the proposed method is demonstrably superior.

스케일러블 그래픽스 알고리즘 (Scalable Graphics Algorithms)

  • 윤성의
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2008년도 학술대회 3부
    • /
    • pp.224-224
    • /
    • 2008
  • Recent advances in model acquisition, computer-aided design, and simulation technologies have resulted in massive databases of complex geometric data occupying multiple gigabytes and even terabytes. In various graphics/geometric applications, the major performance bottleneck is typically in accessing these massive geometric data due to the high complexity of such massive geometric data sets. However, there has been a consistent lower growth rate of data access speed compared to that of computational processing speed. Moreover, recent multi-core architectures aggravate this phenomenon. Therefore, it is expected that the current architecture improvement does not offer the solution to the problem of dealing with ever growing massive geometric data, especially in the case of using commodity hardware. In this tutorial, I will focus on two orthogonal approaches--multi-resolution and cache-coherent layout techniques--to design scalable graphics/geometric algorithms. First, I will discuss multi-resolution techniques that reduce the amount of data necessary for performing geometric methods within an error bound. Second, I will explain cache-coherent layouts that improve the cache utilization of runtime geometric applications. I have applied these two techniques into rendering, collision detection, and iso-surface extractions and, thereby, have been able to achieve significant performance improvement. I will show live demonstrations of view-dependent rendering and collision detection between massive models consisting of tens of millions of triangles on a laptop during the talk.

  • PDF

멀티미디어 응용을 위한 저전력 데이터 캐쉬 구조 및 마이크로 아키텍쳐 수준 관리기법 (Low-Power Data Cache Architecture and Microarchitecture-level Management Policy for Multimedia Application)

  • 양훈모;김정길;박기호;김신덕
    • 정보처리학회논문지A
    • /
    • 제13A권3호
    • /
    • pp.191-198
    • /
    • 2006
  • 최근 디지털 멀티미디어 응용기기는 휴대 편의성은 물론 하나의 기기에서 다양한 멀티미디어 데이터 처리를 가능하게 하는 기능적 집적이 이루어지고 있다. 이와 같은 추세는 기기가 처리해야 하는 데이터 양의 증가와 이를 수행하기 위하여 요구되는 온칩 메모리의 크기 및 연산 유닛의 고성능화를 요구하여 전력 소비량의 증가를 유발시킨다. 연산 엔진에서 사용되는 대표적인 온칩 메모리인 캐쉬는 전력 사용에 있어서 중요한 비율을 차지하는 구조로 저전력 설계를 위한 구조적 개선의 주요 대상이다. 본 논문에서는 멀티미디어 응용을 수행하는 연산 엔진의 데이터 캐쉬에서 소비되는 전력을 감소시키기 위하여 멀티미디어 응용의 데이터 사용 특성을 파악하여 이 특성을 전력소비를 감소시키는 목적으로 활용 가능한 분할된 캐쉬구조를 제안한다. 그리고 각각의 분할된 캐쉬에 대하여 특정 주소 영역의 데이터 참조를 고정시킴으로써 얻을 수 있는 전력 소비면의 성능 향상을 평가한다. 시뮬레이션 결과 제안하는 캐쉬 구조는 같은 크기의 직접사상 캐쉬, 2중연관 캐쉬, 4중연관 캐쉬에 대해 유사한 성능을 나타내면서, 각각의 기존 캐쉬 구조와 비교하였을 경우 33.2%, 53.3% 및 70.4%만큼 감소된 전력으로 동작 가능하다.

Guarded Operation을 이용한 명령어 어드레싱 방법 및 구현 (Instruction addressing method and implemetation for low pouter system by using guarded operation)

  • 이세환;곽승호;이문기
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 하계종합학술대회 논문집(2)
    • /
    • pp.345-348
    • /
    • 2001
  • In this paper, we present a effective low-power technique which can reduce significantly the switching activity in instruction address bus, pipeline and I-cache. Using this method, named Guarded Operation, we has implemented address register. address bus architecture without complex hardware and designed loop buffer without tag. These architectures reduce 67% of switching activity with little overhead and also increase instruction-fetch performance.

  • PDF

PCS 네트워크에서 3-레벨 데이터베이스 구조를 위한 효과적인 위치 캐시 기법 (An Efficient Location Cache Scheme for 3-level Database Architecture in PCS Networks)

  • 한연희;송의성;황종선;정영식
    • 한국정보과학회논문지:정보통신
    • /
    • 제29권3호
    • /
    • pp.253-264
    • /
    • 2002
  • 최근에, 개인 통신 시스템(PCS)에서 증가하는 개인 사용자의 수요에 대처하기 위하여 위치 관리 데이타베이스의 계층적 구조가 제안되어 왔다. 특히, 3-레벨 계층적 데이타베이스 구조는 현재 셀룰러 이동 시스템에 쉽게 적용 가능하며, 이 구조에서는 기존 HLR과 VLR 사이에 새로운 부가적 데이터베이스인 지역 위치 데이타베이스 RLR이 위치한다. 본 논문은 이동단말의 위치 관리를 위한 효과적인 캐시 기법인 이중 T-임계값 위치 캐시 기법을 제안한다. 이 기법은 IS-41과 GS에 적용된 위치 관리 데이타베이스의 2-레벨 구조에 응용할 수 있는 기존 T-임계값 캐시 기법을 확장한 것이다. 제안하는 기법은 2개의 캐시 정보, 즉 현재 피 호출 이동단말을 서비스하고 있는 VLR과 RLR 정보를 함께 이용한다. 이 두개기 캐시 정보를 통하여, 등록 영역(RA)의 지역성과 RLR에 의해 관리되는 영역인 지역 등록 영역(RRA)의 지역성을 동시에 이용할 수 있다. 또한, 제안하는 기법은 두 개의 캐시 정보가 유효한지를 결정하기 위하여 각각에 대응되는 두 개의 임계값을 이용한다. 한편, RRA 상주시간을 모델링하기 위하여, Branching Erlang-$\infty$ 분포를 이용하고, 이것을 이용한 비용 분석은 제안하는 기법이 이동단말의 대부분의 유형에 대하여 네트워크와 데이타베이스 비용을 대폭 감소시킴을 보여준다.

최신 마이크로프로세서에서 2차 캐쉬 적중률 증가를 고려한 LU-SGS 코드의 가속 (Acceleration of LU-SGS Code on Latest Microprocessors Considering the Increase of Level 2 Cache Hit-Rate)

  • 최정열;오세종
    • 한국항공우주학회지
    • /
    • 제30권7호
    • /
    • pp.68-80
    • /
    • 2002
  • 최신 마이크로프로세서에서 성능 최적화된 수치 코드를 작성하는 접근법을 제시하였다. 국소화로 지칭한 이 코드 최적화 방법은 모든 최신 마이크로프로세서에서 채용되는 2차 캐시의 사용을 최대화하고 시스템의 주기억장치에 대한 접근을 최소화하는 개념이다. 본 연구에서는 유체역학 문제의 해결을 위한 LU-SGS 해법을 3 단계에 걸쳐 국소화 하였으며, 요즈음 널리 이용되고 있는 여러 가지 마이크로프로세서들에 대해 시험을 수행하였다. 국소 최적화 개념의 시험 결과는, 컴퓨터 시스템에 따라서는, 같은 컴퓨터에서 완전히 동일한 해를 기본 알고리즘에 비해 7.35배까지 빨리 얻을 수 있는 주목할 만한 성능을 보여 주었다.

목적 코드에서 LNOP 코드가 제거됨에 따른 SVLIW 구조의 성능 향상 (Performance Improvement of SVLIW Architectures by Removing LNOPs from An Object Code)

  • 정보윤;전중남;김석일
    • 한국정보처리학회논문지
    • /
    • 제4권9호
    • /
    • pp.2269-2279
    • /
    • 1997
  • SVLIW (Superscalar VLIW) 프로세서는 실시간에 긴 명령어를 스케줄하는 VLIW 프로세서의 일종으로 인출되어 실행될 긴 명령어가 사용할 자원과 앞서 인출되어 수행중인 긴 명령어가 사용하는 자원간에 충돌이 발생하면 인출하여 실행하려는 긴 명령어를 수행하지 않고 NOP으로만으로 구성된 긴 명령어(LNOP: Long NOP word)를 할당하여 긴 명령어간의 충돌로 인한 계산의 오류를 피한다. 따라서 SVLIW 프로세서에서는 목적 코드 내에서 LNOP을 제거할 수 있다. 본 논문에서는 목적 코드에서 LNOP이 제거됨에 따라 캐쉬 적중률이 얼마나 향상되는지를 분석하고 이로 인하여 예상되는 성능 향상을 연구하였다. 여러 가지의 벤치 마크 프로그램에 대한 모의 실험 결과, SVLIW 프로세서 구조는 기존의 VLIW 프로세서 구조에 비하여 성능이 5%이상 향상됨이 확인될 수 있었다.

  • PDF

Optimization of LU-SGS Code for the Acceleration on the Modern Microprocessors

  • Jang, Keun-Jin;Kim, Jong-Kwan;Cho, Deok-Rae;Choi, Jeong-Yeol
    • International Journal of Aeronautical and Space Sciences
    • /
    • 제14권2호
    • /
    • pp.112-121
    • /
    • 2013
  • An approach for composing a performance optimized computational code is suggested for the latest microprocessors. The concept of the code optimization, termed localization, is maximizing the utilization of the second level cache that is common to all the latest computer systems, and minimizing the access to system main memory. In this study, the localized optimization of the LU-SGS (Lower-Upper Symmetric Gauss-Seidel) code for the solution of fluid dynamic equations was carried out in three different levels and tested for several different microprocessor architectures widely used these days. The test results of localized optimization showed a remarkable performance gain of more than two times faster solution than the baseline algorithm for producing exactly the same solution on the same computer system.