• Title/Summary/Keyword: 캐시메모리

Search Result 242, Processing Time 0.03 seconds

Performance Improvement of Meta-search Scheme for Comparison Shopping Sites using Memory Cache (메모리 캐시를 이용한 비교 쇼핑 사이트들에 대한 메타검색의 성능 향상)

  • 조강의;조성제;우진운
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10c
    • /
    • pp.718-720
    • /
    • 2001
  • 최근 비교 쇼핑 에이전트 기술을 적용하여 소비자가 원하는 상품을 최적의 가격으로 구매할 수 있도록 여러 쇼핑몰들의 상품 정보를 검색해 주는 비교 쇼핑 사이트들이 등장하고 있다. 이러한 비교 쇼핑 사이트들이 경우에 따라서 최적의 가격을 제시해 주지 못하고, 소비자가 원하는 상품에 대한 가격 비교가 쉽지 않기 때문에 실시간 검색 에이전트를 이용하는 베타검색이 제안되었다. 이 방법은 상품 검색에서의 신뢰도는 높였지만 시스템의 성능 면에서는 좋은 효율성을 보이지 않았다. 본 논문에서는 데이터베이스와 메모리 캐시 공간을 이용함으로써 성능이 향상된 베타검색을 사용하는 메타-비교 쇼핑 에이전트 시스템을 제안한다.

  • PDF

Optimizing Both Cache and Disk Performance of R-Trees (R-Tree를 위한 캐시와 디스크 성능 최적화)

  • 박명선;이석호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04a
    • /
    • pp.749-751
    • /
    • 2003
  • R-Tree는 일반적으로 트리 노드의 크기를 디스크 페이지의 크기와 같게 함으로써 I/O 성능에 최적이 되도록 구현한다. 최근에는 CPU 캐시 성능을 최적화하는 R-Tree의 변형이 개발되었다. 이는 노드의 크기를 캐시 라인 크기의 수 배로 하고 MBR에 저장되는 키를 압축하여 노드 하나에 더 많은 엔트리를 저장함으로써 가능하였다. 그러나, 디스크 최적 R-Tree와 CPU 캐시 최적 R-Tree의 노드 크기 사이에는 수십-수백 바이트와 수-수십 킬로바이트라는 큰 차이가 있으므로, 디스크 최적 R-Tree는 캐시 성능이 나쁘고, CPU 캐시 최적 H-Tree는 나쁜 디스크 성능을 보이는 문제점을 가지고 있다. 이 논문에서는 CPU 캐시와 디스크에 모두 최적인 R-Tree. TR-Tree를 제안한다. 먼저, 디스크 페이지 안에 들어가는 페이지 내부 트리의 높이와 단말, 중간 노드의 크기를 결정하는 방법을 제시한다. 그리고, 이틀 이용하여 TR-Tree의 검색 연산에 필요한 캐시 미스 수를 최소화였고. TR-Tree의 검색 성능을 최적화하였다. 또한, 디스크 I/O 성능을 최적화하기 위해 메모리 노드들을 디스크 페이지에 잘 맞게 배치하였다. 여기에서 구현한 TR-Tree는 디스크 최적 R-Tree보다 삽입 연산에서 6에서 28배 정도 빨랐으며, 검색 연산에서는 1.28배에서 2배의 성능 향상을 보였다.

  • PDF

The low-power cache design for embedded systems (내장형 시스템을 위한 저전력 캐시 설계)

  • Jung, Hoi-Tae;Suh, Hyo-Joong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2008.05a
    • /
    • pp.532-535
    • /
    • 2008
  • 내장형 시스템에서 캐시 메모리는 시스템의 성능과 전력 소모에 매우 큰 비중을 차지한다. 일반적인 내장형 시스템에 적용되는 집합 연관 구조 캐시는 모든 웨이에 전력을 공급해야 하므로 전력 소모 효율성이 매우 낮다. 이러한 단점을 보완하기 위해 순차 접근 캐시는 데이터가 존재하는 하나의 캐시만 항상 전력을 공급하게 하는 구조를 제안하지만 모든 작업에 1사이클이 더 소모되는 단점을 갖는다. 캐시 웨이 예측 기법은 적중 시 1사이클의 시간에 1개의 웨이에 만 전력을 공급하게 하는 최상의 구조를 갖지만 적중 실패 시 일반적인 집합 연관 구조보다 1사이클이 더 소모되고 똑같은 전력 소비를 가져오는 단점을 갖는다. 본 논문에서는 이 두 구조의 절충안을 통해 데이터 적중 시 웨이 예측 기법과 같은 성능을 가지며 실패 시에도 순차 접근 캐시와 동일한 성능을 보이는 새로운 내장형 시스템을 위한 저전력 캐시 구조를 제안한다.

Bus Splitting Techniques for MPSoC to Reduce Bus Energy (MPSoC 플랫폼의 버스 에너지 절감을 위한 버스 분할 기법)

  • Chung Chun-Mok;Kim Jin-Hyo;Kim Ji-Hong
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.33 no.9
    • /
    • pp.699-708
    • /
    • 2006
  • Bus splitting technique reduces bus energy by placing modules with frequent communications closely and using necessary bus segments in communications. But, previous bus splitting techniques can not be used in MPSoC platform, because it uses cache coherency protocol and all processors should be able to see the bus transactions. In this paper, we propose a bus splitting technique for MPSoC platform to reduce bus energy. The proposed technique divides a bus into several bus segments, some for private memory and others for shared memory. So, it minimizes the bus energy consumed in private memory accesses without producing cache coherency problem. We also propose a task allocation technique considering cache coherency protocol. It allocates tasks into processors according to the numbers of bus transactions and cache coherence protocol, and reduces the bus energy consumption during shared memory references. The experimental results from simulations say the bus splitting technique reduces maximal 83% of the bus energy consumption by private memory accesses. Also they show the task allocation technique reduces maximal 30% of bus energy consumed in shared memory references. We can expect the bus splitting technique and the task allocation technique can be used in multiprocessor platforms to reduce bus energy without interference with cache coherency protocol.

A $CST^+$ Tree Index Structure for Range Search (범위 검색을 위한 $CST^+$ 트리 인덱스 구조)

  • Lee, Jae-Won;Kang, Dae-Hee;Lee, Sang-Goo
    • Journal of KIISE:Databases
    • /
    • v.35 no.1
    • /
    • pp.17-28
    • /
    • 2008
  • Recently, main memory access is a performance bottleneck for many computer applications. Cache memory is introduced in order to reduce memory access latency. However, it is possible for cache memory to reduce memory access latency, when desired data are located on cache. EST tree is proposed to solve this problem by improving T tree. However, when doing a range search, EST tree has to search unnecessary nodes. Therefore, this paper proposes $CST^+$ tree which has the merit of CST tree and is possible to do a range search by linking data nodes with linked lists. By experiments, we show that $CST^+$ is $4{\sim}10$ times as fast as CST and $CSB^+$. In addition, rebuilding an index Is an essential step for the database recovery from system failure. In this paper, we propose a fast tree index rebuilding algorithm called MaxPL. MaxPL has no node-split overhead and employs a parallelism for reading the data records and inserting the keys into the index. We show that MaxPL is $2{\sim}11$ times as fast as sequential insert and batch insert.

Memory Management based Hybrid Transactional Memory Scheme for Efficiently Processing Transactions in Multi-core Environment (멀티코어 환경에서 효율적인 트랜잭션 처리를 위한 메모리 관리 기반 하이브리드 트랜잭셔널 메모리 기법)

  • Jang, Yeon-Woo;Kang, Moon-Hwan;Chang, Jae-Woo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.04a
    • /
    • pp.795-798
    • /
    • 2017
  • 최근 멀티코어 프로세서가 개발됨에 따라 병렬 프로그래밍은 멀티코어를 효과적으로 활용하기 위한 기법으로 그 중요성이 높아지고 있다. 트랜잭셔널 메모리는 처리 방식에 따라 HTM, STM, HyTM으로 구분되며, 최근 HTM 및 STM 결합한 HyTM 이 활발히 연구되고 있다. 그러나 기존의 HyTM 는 HTM과 STM의 동시성 제어를 위해 블룸필터를 사용하는 반면, 블룸필터의 자체적인 긍정 오류를 해결하지 못한다. 아울러, 트랜잭션 처리를 위한 메모리 할당/해제를 기존의 락 메커니즘을 사용하여 관리한다. 따라서 멀티코어 환경에서 스레드 수가 증가할수록 트랜잭션 처리 효율이 떨어진다. 본 논문에서는 멀티코어 환경에서 효율적인 트랜잭션 처리를 위한 메모리 관리 기반 하이브리드 트랜잭셔널 메모리 기법을 제안한다. 제안하는 기법은 트랜잭션 처리에 최적화된 블룸필터를 제공함으로써, 병렬적으로 동시에 수행되는 서로 다른 환경의 트랜잭션에 대해 일관성 있는 처리를 지원한다. 아울러, CPU 캐시라인에 최적화된 메모리 기법을 통해, 메모리 할당량이 적은 트랜잭션은 로컬 캐시에 할당함으로써 트랜잭션의 빠른 처리를 지원한다.

Expanding Code Caches for Embedded Java Systems using Client Ahead-Of-Time Compilation (내장형 자바 시스템을 위한 클라이언트 선행 컴파일 기법을 이용한 코드 캐시 확장)

  • Hong, Sung-Hyun;Kim, Jin-Chul;Shin, Jin-Woo;Kwon, Jin-Woo;Lee, Joo-Hwan;Moon, Soo-Mook
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.16 no.8
    • /
    • pp.868-872
    • /
    • 2010
  • Many embedded Java systems are equipped with limited memory, which can constrain the code cache size provided for Java just-in-time compilation, affecting the Java performance. This paper proposes expanding the limited code cache when it is full, by saving the machine code for some methods in the code cache into the file system of the permanent storage and reloading it to the code cache when they are re-invoked later. This is applying the client ahead-of-time compilation during the execution time for the purpose of enlarging the code cache. Our experimental results indicate that the proposed execution method can improve the performance by as much as 1.6 times compared to the conventional method, when the code cache size is reduced by half.

A Hardware Cache Prefetching Scheme for Multimedia Data with Intermittently Irregular Strides (단속적(斷續的) 불규칙 주소간격을 갖는 멀티미디어 데이타를 위한 하드웨어 캐시 선인출 방법)

  • Chon Young-Suk;Moon Hyun-Ju;Jeon Joongnam;Kim Sukil
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.31 no.11
    • /
    • pp.658-672
    • /
    • 2004
  • Multimedia applications are required to process the huge amount of data at high speed in real time. The memory reference instructions such as loads and stores are the main factor which limits the high speed execution of processor. To enhance the memory reference speed, cache prefetch schemes are used so as to reduce the cache miss ratio and the total execution time by previously fetching data into cache that is expected to be referenced in the future. In this study, we present an advanced data cache prefetching scheme that improves the conventional RPT (reference prediction table) based scheme. We considers the cache line size in calculation of the address stride referenced by the same instruction, and enhances the prefetching algorithm so that the effect of prefetching could be maintained even if an irregular address stride is inserted into the series of uniform strides. According to experiment results on multimedia benchmark programs, the cache miss ratio has been improved 29% in average compared to the conventional RPT scheme while the bus usage has increased relatively small amount (0.03%).

A Low-Power Texture Mapping Technique for Mobile 3D Graphics (모바일 3D 그래픽스를 위한 저전력 텍스쳐 맵핑 기법)

  • Kim, Hyun-Hee;Kim, Ji-Hong
    • Journal of the Korea Society of Computer and Information
    • /
    • v.14 no.2
    • /
    • pp.45-57
    • /
    • 2009
  • ETexture mapping is a technique used for adding reality to an image in 3D graphics. However. this technique becomes the bottleneck of the 3D graphics pipeline because it requires large processing power and high memory bandwidth. For reducing memory latency in texture mapping, texture cache is used. As portable devices become smaller and they have power constraint, it is important to reduce the area and the power consumption of the texture cache. In this paper we propose using a small texture cache to reduce the area and the power consumption of the texture cache. Furthermore, we propose techniques to keep a performance comparable to large texture caches by using prefetch techniques and a victim cache. Simulation results show the proposed small texture cache can reduce the area and the power consumption up to 70% and 60%, respectively, by using $1{\sim}2K$ bytes texture cache compared to the conventional 16K bytes cache while keeping the performance.

A NUMA-aware VCPU Scheduling for Reducing Memory Access Latency in Virtualized Environments (NUMA 시스템 가상화 환경에서 메모리 접근 지연을 줄이기 위한 VCPU 스케줄링 기법)

  • Kim, Jung-Hoon;Kim, Jee-Hong;Eom, Young-Ik
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06a
    • /
    • pp.265-267
    • /
    • 2012
  • 최근 들어, 하드웨어 플랫폼은 다수의 코어 아키텍처의 메모리 대역폭을 유지하기 위해 NUMA 구조로 설계되고 있다. 이러한 NUMA 시스템 구조에서 다른 노드의 메모리에 접근할 경우, 더 많은 시간과 비용이 소모된다. 따라서 이를 고려한 스케줄링 기법들이 가상화 혹은 가상화되지 않은 시스템 환경에서 연구되고 있다. 하지만, 아직까지 NUMA 시스템 가상화 환경에서 리모트 접근을 제거함과 동시에 이에 따른 오버헤드를 최소화하는 연구는 없었다. 따라서 본 논문에서는 이러한 환경에서 메모리 접근 지연을 줄이기 위한 VCPU 스케줄링 기법을 제안한다. 본 기법은 노드별 페이지 테이블 관리, LRU 기반 게스트 스케줄러, 캐시 오염 태스크 전용 버퍼 관리 기술을 이용한다. 다른 기법들과의 비교 및 분석 결과에서 알 수 있듯이, 본 기법을 적용할 경우 NUMA 시스템 노드 간 리모트 접근을 없애고, 이에 따른 오버헤드를 최소화하며, 주어진 하드웨어 캐시를 효율적으로 사용할 수 있다.