• 제목/요약/키워드: Cache utilization

검색결과 51건 처리시간 0.025초

웹 프락시 서버를 위한 적응형 캐시 교체 정책 (An Adaptive Cache Replacement Policy for Web Proxy Servers)

  • 최승락;김미영;박창섭;조대현;이윤준
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제29권6호
    • /
    • pp.346-353
    • /
    • 2002
  • 월드 와이드 웹 사용의 폭발적인 증가는 네트워크 트래픽과 서버 부하의 급격한 증가를 초래 하였다. 이러한 문제를 해결하기 위해 웹 프락시 캐싱 기술은 빈번히 요청되는 웹 문서를 사용자와 인접한 위치에 설치된 프락시(proxy)에 저장한다. 캐시 성능을 결정짓는 가장 중요한 요소는 캐시 교체 정책으로서, 가까운 미래에 빈번히 요청될 문서들을 저장하기 위해 사용된다. 캐시 교체 정책이 문서의 인기도를 정확히 예측하기 위해서는 웹 프락시 워크로드의 특성을 반영하는 것이 중요하다. 시간 지역성과 Zipf 빈도 분포는 웹 프락시 워크로드에서 빈번히 관찰되는 특성으로서 문서의 인기도를 예측하기 위한 중요한 속성들이다. 본 논문은 1) LFU를 기반으로 하여 Zipf 빈도 분포를 반영하며, 2) 문서들의 시간에 따른 인기도 감소를 효율적으로 측정하여 시간 지역성을 적응적으로 반영하는 적응형 LFU(ALFU) 캐시 교체 정책을 제안한다. 트레이스 기반의 모의 실험을 통해 다른 교체 정책들과 ALFU를 비교 분석한다. 실험 결과, ALFU는 다른 교체 정책보다 우수한 성능을 보였다.

불필요한 콜백을 제거한 회피 기반의 캐쉬 일관성 알고리즘 (An Avoidance-Based Cache Consistency Algorithm without Unnecessary Callback)

  • 김치연
    • 한국항행학회논문지
    • /
    • 제10권2호
    • /
    • pp.120-127
    • /
    • 2006
  • 클라이언트의 데이터 캐슁은 클라이언트에서 데이터가 캐쉬되고 운영되는 환경에서 서버와의 상호작용을 하기 위한 중요한 기술이다. 캐슁은 네트워크 지연을 감소시키고 클라이언트의 자원 활용을 증가시키는 방법이다. 이와 같은 클라이언트-서버 환경에서 클라이언트에서 수행되는 응용 프로그램의 정확성을 보장하기 위해서는 캐쉬 일관성 알고리즘이 필요하다. 이 논문에서는 새로운 비동기적 회피 기반의 캐쉬 일관성 알고리즘을 제안한다. 제안하는 방법에서는 잠금 모드를 단순하게 유지하고, AACC에서 잠금 상승으로 인하여 발생하는 불필요한 callback 메시지를 제거함으로써 AACC보다 적은 메시지 교환을 가짐을 보였다. 제안하는 알고리즘의 정확성을 증명하기 위해서는 1-사본 직렬성을 사용하였다.

  • PDF

HiPi-bus 구조의 다중 프로세서 시스템에서의 잠금장치 (A Lock Mechanism for HiPi-bus Based Multiprocessor Systems)

  • 윤용호;임인칠
    • 전자공학회논문지B
    • /
    • 제30B권2호
    • /
    • pp.33-43
    • /
    • 1993
  • Lock mechanism is essential for synchronization on the multiprocessor systems. Lock mechanism needs to reduce the time for lock operation in low lock contention. Lock mechanism must consider the case of the high lock contention. The conventional lock control scheme in memory results in the increase of bus traffic and memory utilization in lock operation. This paper suggests a lock scheme which stores the lock data in cache and manages it efficiently to reduce the time spent in lock operation when the lock contention is low on a multiprocessor system built on HiPi-bus(Highly Pipelined bus). This paper also presents the design of the HIPi-CLOCK (Highly Pipelined bus Cache LOCK mechanism) which transfere the data from on cache to another when the lock contention is high. The designed simulator compares the conventional lock scheme which controls the lock in memory with the suggested HiPi-CLOCK scheme in terms of the RMW(Read-Modify-Write) operation time using simulated trace. It is shown that the suggested lock control scheme performance is over twice than that of the conventional method in low lock contention. When the lock contention is high, the performance of the suggested scheme increases as the number of the shared lock data increases.

  • PDF

스케일러블 그래픽스 알고리즘 (Scalable Graphics Algorithms)

  • 윤성의
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2008년도 학술대회 3부
    • /
    • pp.224-224
    • /
    • 2008
  • Recent advances in model acquisition, computer-aided design, and simulation technologies have resulted in massive databases of complex geometric data occupying multiple gigabytes and even terabytes. In various graphics/geometric applications, the major performance bottleneck is typically in accessing these massive geometric data due to the high complexity of such massive geometric data sets. However, there has been a consistent lower growth rate of data access speed compared to that of computational processing speed. Moreover, recent multi-core architectures aggravate this phenomenon. Therefore, it is expected that the current architecture improvement does not offer the solution to the problem of dealing with ever growing massive geometric data, especially in the case of using commodity hardware. In this tutorial, I will focus on two orthogonal approaches--multi-resolution and cache-coherent layout techniques--to design scalable graphics/geometric algorithms. First, I will discuss multi-resolution techniques that reduce the amount of data necessary for performing geometric methods within an error bound. Second, I will explain cache-coherent layouts that improve the cache utilization of runtime geometric applications. I have applied these two techniques into rendering, collision detection, and iso-surface extractions and, thereby, have been able to achieve significant performance improvement. I will show live demonstrations of view-dependent rendering and collision detection between massive models consisting of tens of millions of triangles on a laptop during the talk.

  • PDF

데이터 병렬 프로그램에서 배리어 대기시간의 분석 (Analysis of Barrier Waiting Times in Data Parallel Programs)

  • 정인범
    • 산업기술연구
    • /
    • 제21권A호
    • /
    • pp.73-80
    • /
    • 2001
  • Barrier is widely used for synchronization in parallel programs. Since the process arrived earlier than others should wait at the barrier, the total processor utilization decreases. In this paper, to find the sources of the barrier waiting time, parallel programs are executed on the various grain sizes through execution-driven simulations. In simulation studies, we found that even if approximately equal amounts of work are distributed to each processor, all processes may not arrive at a barrier at the same time. The reasons are that the different numbers of cache misses and instructions within partitioned grains result in the difference in arrival time of processors at the barrier.

  • PDF

5G Network Communication, Caching, and Computing Algorithms Based on the Two-Tier Game Model

  • Kim, Sungwook
    • ETRI Journal
    • /
    • 제40권1호
    • /
    • pp.61-71
    • /
    • 2018
  • In this study, we developed hybrid control algorithms in smart base stations (SBSs) along with devised communication, caching, and computing techniques. In the proposed scheme, SBSs are equipped with computing power and data storage to collectively offload the computation from mobile user equipment and to cache the data from clouds. To combine in a refined manner the communication, caching, and computing algorithms, game theory is adopted to characterize competitive and cooperative interactions. The main contribution of our proposed scheme is to illuminate the ultimate synergy behind a fully integrated approach, while providing excellent adaptability and flexibility to satisfy the different performance requirements. Simulation results demonstrate that the proposed approach can outperform existing schemes by approximately 5% to 15% in terms of bandwidth utilization, access delay, and system throughput.

최신 마이크로프로세서에서 2차 캐쉬 적중률 증가를 고려한 LU-SGS 코드의 가속 (Acceleration of LU-SGS Code on Latest Microprocessors Considering the Increase of Level 2 Cache Hit-Rate)

  • 최정열;오세종
    • 한국항공우주학회지
    • /
    • 제30권7호
    • /
    • pp.68-80
    • /
    • 2002
  • 최신 마이크로프로세서에서 성능 최적화된 수치 코드를 작성하는 접근법을 제시하였다. 국소화로 지칭한 이 코드 최적화 방법은 모든 최신 마이크로프로세서에서 채용되는 2차 캐시의 사용을 최대화하고 시스템의 주기억장치에 대한 접근을 최소화하는 개념이다. 본 연구에서는 유체역학 문제의 해결을 위한 LU-SGS 해법을 3 단계에 걸쳐 국소화 하였으며, 요즈음 널리 이용되고 있는 여러 가지 마이크로프로세서들에 대해 시험을 수행하였다. 국소 최적화 개념의 시험 결과는, 컴퓨터 시스템에 따라서는, 같은 컴퓨터에서 완전히 동일한 해를 기본 알고리즘에 비해 7.35배까지 빨리 얻을 수 있는 주목할 만한 성능을 보여 주었다.

공유 메모리를 갖는 다중 프로세서 컴퓨터 시스팀의 설계 및 성능분석

  • 최창열;박병관;박승규;오길록
    • ETRI Journal
    • /
    • 제10권3호
    • /
    • pp.83-91
    • /
    • 1988
  • 본 논문에서는 pended 프로토콜에 기반을 둔 단일 시스팀 버스와 공유 메모리를 중심으로 구성된 다중프로세서 컴퓨터시스팀의 성능을 해석하였다. 캐쉬 메모리 적중률, 시스팀 내의 프로세서 수, 메모리 모듈의 수와 입력 큐의 유무를 변수로 하여 시스팀 버스와 프로세서의 이용률, 메모리 충돌 현상의 정도, 즉 제안된 시스팀 구조에 대한 하드웨어 측면에서의 성능을 시뮬레이션을 통해 예측 분석하였다. 공유 메모리를 갖는 다중프로세서의 주요한 시스팀 성능 요소는 캐쉬 메모리의 적중률과 효과적인 공유 메모리 갱신 알고리즘, 시스팀 버스의 효율적인 다중프로세서 지원 기능 등이며 캐쉬 메모리 적중률이 프로세서 수의 증가에 따른 시스팀 성능의 선형적인 증가와 밀접한 관계를 나타내었다.

  • PDF

스누핑 프로토콜을 사용하는 NUMA 시스템의 계층적 링 구조로의 확장 (Hierarchical Ring Extension of NUMA Systems using Snooping Protocol)

  • 성현중;김형호;장성태;전주식
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제26권11호
    • /
    • pp.1305-1317
    • /
    • 1999
  • NUMA 구조는 원격 메모리에 대한 접근이 불가피한 구조적 특성 때문에 상호 연결망이 성능을 좌우하는 큰 변수가 된다. 기존에 대중적으로 사용되던 버스는 물리적 확장성 및 대역폭에서 대규모 시스템을 구성하는 데 한계를 보인다. 이를 대체하는 고속의 지점간 링크를 사용한 링 구조는 버스가 가지는 확장성 및 대역폭의 한계라는 단점을 개선하였으나, 많은 클러스터가 연결되는 경우에는 전송 지연시간이 증가하는 문제점을 가지고 있다. 본 논문에서는 스누핑 프로토콜이 적용된 링 구조에서 클러스터 개수 증가에 따른 지연시간 증가의 문제점을 보완하기 위해 계층적 링 구조로의 확장을 제안하고, 이 구조에 효과적인 캐쉬 일관성 프로토콜을 설계하였다. 전역 링과 지역 링을 연결하는 브리지는 캐쉬 프로토콜을 관리하며 이 프로토콜에 의해 지역 링의 부하를 줄일 수 있도록 트랜잭션을 필터링하는 역할도 담당함으로써 시스템의 성능을 향상시킨다. probability-driven 시뮬레이터를 통해 계층적 링 구조가 시스템의 성능 및 링 이용률에 미치는 영향을 알아본다. Abstract Since NUMA architecture has to access remote memory, interconnection network performance determines performance of NUMA architecture. Bus, which has been used as popular interconnection network of NUMA, has a limit to build a large-scale system because of limited physical scalability and bandwidth. Ring interconnection network, composed of high-speed point-to-point link, made up for bus's defects of scalability and bandwidth. But, it also has problem of increasing delay as the number of clusters is increased. In this paper, we propose a hierarchical expansion of snoop-based ring architecture in order to overcome ring's defects of increasing delay. And we also design an efficient cache coherence protocol adopted to this architecture. Bridge, which connects local ring and global ring, maintains cache coherence protocol and does snoop-filtering which reduces local ring and cluster bus utilization. Therefore bridge can improve performance of this system. We analyze effects of hierarchical architecture on the performance of system and utilization of point-to-point links using probability-driven simulator.

데이타 캐시의 활용도를 높이는 동적 선인출 필터링 기법 (Dynamic Prefetch Filtering Schemes to enhance Utilization of Data Cache)

  • 전영숙;김석일;전중남
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제35권1호
    • /
    • pp.30-43
    • /
    • 2008
  • Load/store와 같은 메모리 참조 명령어는 프로세서의 고속 수행을 방해하는 주요인이다. 캐시 선인출 기법은 메모리 참조에 따른 지연시간을 줄이는 효과적인 방법이다. 그러나 너무 적극적으로 선인출 할 경우에 캐시 오염을 유발시켜 선인출에 의한 장점을 상쇄시킨다. 본 연구에서는 캐시의 오염을 줄이기 위해 동적으로 필터 테이블을 참조하여 선인출 명령을 수행할 지의 여부를 결정하는 네 가지 필터링 기법들을 비교 평가한다. 먼저 기존 연구에서의 문제점을 분석하기 위해 이진 상태 기법을 보였는데, 이 기법은 기존 연구와 같이 N:1 매핑을 사용하는 반면, 각 엔트리의 값을 1비트로 하여 두 가지 상태값을 갖도록 하였다. 비교 연구를 위해 완전 상태 기법을 제시하여 비교 기준으로 사용하였다. 마지막으로 본 논문의 주 아이디어인 정교한 필터링을 위한 블록주소 참조 기법을 제안하였다 이 기법은 이진 상태 기법과 같은 테이블 길이를 가지며, 각 엔트리의 내용은 완전 상태 기법과 같은 항목을 가지도록 하여 최근에 미 사용된 데이타의 블록주소가 필터 테이블의 하나의 엔트리와 대응되도록 1:1 매핑을 하였다. 일반적으로 많이 사용되는 일반 벤치마크 프로그램과 멀티미디어 벤치마크 프로그램들에 대하여 실험한 결과, 제안한 블록주소 참조 기법(BAL)이 기존 연구인 동적 필터 기법(2-bitSC)과 비교하여 캐시 미스율이 10.5% 감소하였다.