• 제목/요약/키워드: L2-Cache

검색결과 57건 처리시간 0.022초

동적으로 할당된 구조체를 위한 압축된 필드 재배치 (Compact Field Remapping for Dynamically Allocated Structures)

  • 김정은;한환수
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권10호
    • /
    • pp.1003-1012
    • /
    • 2005
  • 내장형 시스템과 범용 시스템의 가장 큰 차이는 유한한 전력인 배터리를 사용한다는 것과 대용량의 디스크를 사용하지 않고 메모리에 의존한다는 것이다. 특히 멀티미디어 데이타를 처리하는 응용프로그램이 늘어감에 따라 메모리 사용량이 기하급수적으로 증가하고 있어서 메모리가 성능과 에너지 소비의 병목지점으로 작용하게 되었다. 따라서 데이타 접근 비용을 줄이고자 하는 시도가 많이 이루어지고 있다. 대부분의 프로그램은 지역성을 갖는다. 지역성은 한번 참조된 데이타가 조만간 다시 참조된다는 시간적 지역성(temporal locality)과 근접한 곳에 할당된 데이타끼리 함께 참조된다는 공간적 지역성(spatial locality)으로 나눌 수 있다. 최근의 많은 임베디드시스템은 이 두 가지 지역성을 이용한 캐시 메모리를 사용함으로써 메모리 접근 시간을 대폭 줄이고 있다. 우리는 이 논문에서 낭비되는 메모리 공간을 줄이고, 캐시 실패율(cache miss rate)과 프로그램 수행시간을 줄일 수 있도록 구조체 형식의 데이타를 항목(field)별로 재배치시키는 알고리즘을 제안하고자 한다. 이 알고리즘은 동적으로 할당되는 구조체의 각 필드를 압축된 형태로 모아서 재배치함으로써, 실험에서 사용한 Olden 벤치마크의 Ll캐시 실패는 평균 $13.9\%$를, L2 캐시 실패는 평균 $15.9\%$를 이전 연구들보다 줄일 수 있었다. 수행시간 또한 이전의 방법보다 평균 $10.9\%$ 줄인 결과를 얻을 수 있었다.

코어와 L2 캐쉬의 수직적 배치 관계에 따른 3차원 멀티코어 프로세서의 온도 분석 (Analysis on the Temperature of 3D Multi-core Processors according to Vertical Placement of Core and L2 Cache)

  • 손동오;안진우;박재형;김종면;김철홍
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권6호
    • /
    • pp.1-10
    • /
    • 2011
  • 멀티코어 프로세서를 설계하는데 있어서 구성요소들을 연결하는 와이어 길이의 증가로 인한 지연 현상은 성능향상에 큰 걸림돌이 되고 있다. 멀티코어 프로세서의 와이어 지연 문제를 해결하기 위하여 최근에는 3차원 구조의 멀티코어 프로세서 설계 기술이 많은 주목을 받고 있다. 3차원 구조 멀티코어 프로세서 설계 기술은 코어들을 수직으로 적층함으로써, 물리적인 연결망 길이를 크게 감소시켜 성능향상과 함께 연결망에서 소비되는 전력을 줄일 수 있다. 하지만 많은 전력을 소모하는 회로를 수직으로 적층함으로써 전력밀도가 증가하여 프로세서 내부의 온도가 크게 상승하는 문제를 가지고 있다. 본 논문에서는 3차원 구조 멀티코어 프로세서에서의 발열문제를 해결 할 수 있는 플로어플랜 방법을 제안하기 위해 칩 내부에 적층되는 코어의 수직적 배치 형태를 다양하게 변화시키면서 그에 따른 온도 변화를 살펴보고자 한다. 실험 결과를 통해, 프로세서 내부의 온도 감소를 위해서는 코어와 L2 캐쉬를 수직으로 인접하게 적층함으로써 코어의 온도를 낮추는 기법이 매우 효과적임을 알 수 있다. 코어와 코어가 수직으로 상호 인접하는 플로어플랜과 비교하여, 코어와 L2 캐쉬를 수직으로 인접하게 배치시키는 기법이 4-레이어 구조의 경우에는 평균 22%, 2-레이어 구조의 경우 평균 13%의 온도 감소 효과를 보임을 알 수 있다.

하드웨어 Trojan 사례 연구: 캐시 일관성 규약을 악용한 DoS 공격 (A Case Study on Hardware Trojan: Cache Coherence-Exploiting DoS Attack)

  • 공선희;홍보의;서태원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 추계학술발표대회
    • /
    • pp.740-743
    • /
    • 2015
  • The increasing complexity of integrated circuits and IP-based hardware designs have created the risk of hardware Trojans. This paper introduces a new type of threat, the coherence-exploiting hardware Trojan. This Trojan can be maliciously implanted in master components in a system, and continuously injects memory read transactions on to bus or main interconnect. The injected traffic forces the eviction of cache lines, taking advantage of cache coherence protocols. This type of Trojans insidiously slows down the system performance, incurring Denial-of-Service (DoS) attack. We used Xilinx Zynq-7000 device to implement and evaluate the coherence-exploiting Trojan. The malicious traffic was injected through the AXI ACP interface in Zynq-7000. Then, we collected the L2 cache eviction statistics with performance counters. The experiment results reveal the severe threats of the Trojan to the system performance.

블록 분류에 기반한 데이타베이스의 효율적 캐쉬 관리 기법 (Efficient Cache Management Scheme in Database based on Block Classification)

  • 신일훈;고건
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제29권7호
    • /
    • pp.369-376
    • /
    • 2002
  • LRU는 비균등 참조 패턴을 보이는 데이타베이스의 캐쉬 교체 정책으로 적합하지 않음에도 불구하고, 적절한 대안 부재로 인해 대부분의 데이타베이스 시스템에서 캐쉬 교체 정책으로 이용되어 왔다. 본 논문은 실제 데이타베이스 트레이스 분석을 통해 데이타베이스의 블록 참조 패턴을 추출하고, 이를 바탕으로 새로운 캐쉬 교체 정책을 제안한다. 데이타베이스의 트레이스 분석 결과, 전체 시간동안 거의 참조되지 않는 블록이 전체의 70% 가량을 차지하였다. 그리고 블록의 재참조 가능성에 미치는 최근도(recency)의 영향력이 시간적 지역성으로 인해 처음엔 강력하지만, LRU 스택거리가 증가함에 따라 급격히 감소하여, 결국엔 사라지는 현상을 관찰하였다. 이 관찰을 토대로, 본 논문은 전체 블록을 재참조 가능성과 재참조 가능성에 대한 최근도의 영향력을 기준으로 4개의 그룹으로 분류하고, 각 그룹의 참조 특징에 적합한 우선순위 평가 방법을 운용하는 RCB(Reference Characteristic Based) 캐쉬 교체 정책을 제안한다. RCB 정책은 재참조 가능성이 극히 낮은 블록은 다른 블록보다 캐쉬에서 빨리 교체하며, 오랜 시간 참조되지 않은 블록에 대해서는 참조빈도에 의거하여 블록의 우선순위를 결정한다. 실제 데이터베이스 워크로드를 통한 모의실험 수행 결과, RCB 정책은 기존의 다른 교체 정책들(LRU, 2Q, LRU-K, LRFU)보다 우수한 성능을 나타냈으며, 특히 LRU에 비해서는 약 5 ~ 12.7% 정도, 캐쉬적중실패 회수를 줄였다. RCB 정책의 시간복잡도는 O(l)로서 LRU, 2Q 등과 동일하며, 캐쉬 크기를 N이라 할 때 시간복잡도가 $O(log_2N)$인 LFU와 LRU-K, 그리고 O(1)부터 $O(log_2N)$ 사이의 값을 갖는 LRFU보다 우수하다.

임베디드 프로세서의 L2 캐쉬를 위한 오류 정정 회로에 관한 연구 (A Study on an Error Correction Code Circuit for a Level-2 Cache of an Embedded Processor)

  • 김판기;전호윤;이용석
    • 대한전자공학회논문지SD
    • /
    • 제46권1호
    • /
    • pp.15-23
    • /
    • 2009
  • 정확한 연산이 필요한 마이크로프로세서에서 소프트 에러에 대한 면밀한 연구들이 진행되었다. 마이크로프로세서 구성원 중에서도 메모리 셀은 소프트 에러에 가장 취약하고, 소프트 에러가 발생했을 때 중요한 정보들과 명령어들을 가지고 있기 때문에 전체 프로세스와 동작에 큰 영향을 미치게 된다. 아키텍처 레벨에서 이러한 소프트 에러를 발견하고 정정하기 위한 방법으로 오류 검출 및 정정 코드가 많이 사용되고 있으며, Itanium, IBM PowerPC G5등의 마이크로프로세서는 Hamming 코드와 Hasio 코드를 L2 캐쉬에 사용하고 있다. 하지만 이러한 연구들은 대형 서버에 국한되었으며 전력 소모에 대한 고려는 되지 않았다. 고집적 저전력 임베디드 마이크로프로세서의 출현과 함께 동작과 문턱 전압이 낮아짐에 따라 임베디드 마이크로프로세서에서도 오류 검출 및 정정 회로의 필요하게 되었다. 본 논문에서는 SimpleScalar-ARM을 이용하여 L2캐쉬의 입출력 데이터를 분석하고, 임베디드 마이크로프로세서에 적합한 32 비트 오류 검출 및 정정 회로의 H-matrix를 제안한다. 그래서 H-spice를 사용하여 modified Hamming 코드와 비교한다. 본 실험을 위해 MiBench 벤치마크 프로그램과 TSMC 0.18um 공정이 사용되었다.

Multicore-Aware Code Co-Positioning to Reduce WCET on Dual-Core Processors with Shared Instruction Caches

  • Ding, Yiqiang;Zhang, Wei
    • Journal of Computing Science and Engineering
    • /
    • 제6권1호
    • /
    • pp.12-25
    • /
    • 2012
  • For real-time systems it is important to obtain the accurate worst-case execution time (WCET). Furthermore, how to improve the WCET of applications that run on multicore processors is both significant and challenging as the WCET can be largely affected by the possible inter-core interferences in shared resources such as the shared L2 cache. In order to solve this problem, we propose an innovative approach that adopts a code positioning method to reduce the inter-core L2 cache interferences between the different real-time threads that adaptively run in a multi-core processor by using different strategies. The worst-case-oriented strategy is designed to decrease the worst-case WCET among these threads to as low as possible. The other two strategies aim at reducing the WCET of each thread to almost equal percentage or amount. Our experiments indicate that the proposed multicore-aware code positioning approaches, not only improve the worst-case performance of the real-time threads but also make good tradeoffs between efficiency and fairness for threads that run on multicore platforms.

Prefetch하는 웹 캐쉬 프록시의 성능에 대한 연구 (A Study on the Performance of Prefetching Web Cache Proxy)

  • 백윤철
    • 한국컴퓨터산업학회논문지
    • /
    • 제2권11호
    • /
    • pp.1453-1464
    • /
    • 2001
  • 인터넷 사용자의 폭발적인 증가로 인해 웹 서비스는 심각한 성능상의 지연을 보이고 있다. 인기 있는 웹사이트의 입장에서는 많은 요청으로 인하여 원활한 서비스를 제공하기 어렵고, 사용자 또한 만족스러운 수준의 응답시간을 제공받지 못한다. 이에 대한 해결책으로 제시된 웹캐슁은 서버에 대한 요청을 흡수하여 전체적인 교통량을 줄이며 사용자에게는 보다 빠른 응답을 제공한다. 본 논문에서는 미국의 웹 캐쉬 프로젝트인 NLANR(National Laboratory for Applied Network Research)의 최상위 캐쉬들로부터 생성된 트레이스와 서울대에 위치한 교육망 캐쉬의 트레이스를 이용하여 웹 캐쉬 트래픽의 특성들에 관해 분석하고, 이들로부터 얻은 각종 특성 자료를 바탕으로, 미래에 필요하리라고 여겨지는 웹 오브젝트를 미리 가져오는 prefetch 방법을 제시하였으며 그로 인한 효과에 관해 분석하였다. 그 결과, l∼3% 정도 일일 평균 적중률의 향상과 최대 5% 정도의 평균 응답시간의 개선을 기대할 수 있음을 발견하였다.

  • PDF

BIT SLICE SIGNAL PROCESSOR를 이용한 DCT의 구현 (Implementation of DCT using Bit Slice Signal Processor)

  • 김동록;고석빈;백승권;이태수;민병구
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1987년도 전기.전자공학 학술대회 논문집(II)
    • /
    • pp.1449-1453
    • /
    • 1987
  • A microprogrammable Bit Slice Sinal Processor for image processing is implemented. Processing speed is increased by the parallelism in horizontal microprogram using 120bits microcode, pipelined architecture, 2 bank memory switching that interfaces with the Host through DMA, a variable clock control, overflow checking H/W,look-up table method and cache memory. With this processor, a DCT algorithm which uses 2-D FFT is performed. The execution time for $512{\times}512{\times}8$ image is 12 sec when 16 bit operation is runned, and the recovered image has acceptable quality with MSE 0.276%.

  • PDF

레이블 스위칭 네트웍 상에서 L2A 캐쉬 대체기법 (L2A Cache Replacement Scheme for Label Switching Network)

  • 김남기;황인철;윤현수
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2000년도 춘계학술발표논문집
    • /
    • pp.386-389
    • /
    • 2000
  • 인터넷이 급속도로 발전되면서 트래픽이 폭발적으로 증가하여 현재 라우터에 많은 부담을 주고 있다. 반면 스위칭 기술은 라우팅보다 빠르게 데이터를 전송할수 있다. 그 결과 라우터 병목 현상을 해결하고자 IP 라우팅이 스위칭 기술을 접목한 레이블 스위칭 네트웍이 출현하게 되었다. 레이블 스위칭 기술중 데이터 기반 레이블 스위칭에서 매우 중요한 것은 캐쉬 테이블 관리이다. 캐쉬 테이블에는 흐름 분류를 위한 정보와 레이블 스위칭을 위한 정보를 저장하고 있는데 캐쉬 테이블 크기는 라우터자원에 의해 제약을 받으므로 캐쉬 대체기법이 필요하게 된다. 따라서 효율적이 캐쉬테이블 관리를 위해 인터넷 트래픽 특성을 고려한 캐쉬 대체 기법에 관한 연구가 필요하다. 본 논문에서는 인터넷 트래픽 특성을 고려해 LFC 기법과 LRU 기법의 단점을 보완한 L2A 캐쉬 대체 기법을 제안한다. L2A 기법은 기본적인 FIFO , LFC, LRU 기법보다 나은 성능을 보이며 특히 캐쉬 크기가 작을 경우에도 타 기법에 비해 탁월한 성능을 유지한다.

  • PDF

Bounding Worst-Case Performance for Multi-Core Processors with Shared L2 Instruction Caches

  • Yan, Jun;Zhang, Wei
    • Journal of Computing Science and Engineering
    • /
    • 제5권1호
    • /
    • pp.1-18
    • /
    • 2011
  • As the first step toward real-time multi-core computing, this paper presents a novel approach to bounding the worst-case performance for threads running on multi-core processors with shared L2 instruction caches. The idea of our approach is to compute the worst-case instruction access interferences between different threads based on the program control flow information of each thread, which can be statically analyzed. Our experiments indicate that the proposed approach can reasonably estimate the worst-case shared L2 instruction cache misses by considering the inter-thread instruction conflicts. Also, the worst-case execution time (WCET) of applications running on multi-core processors estimated by our approach is much better than the estimation by simply assuming all L2 instruction accesses are misses.