• 제목/요약/키워드: memory access pattern

검색결과 53건 처리시간 0.021초

Algorithmic GPGPU Memory Optimization

  • Jang, Byunghyun;Choi, Minsu;Kim, Kyung Ki
    • JSTS:Journal of Semiconductor Technology and Science
    • /
    • 제14권4호
    • /
    • pp.391-406
    • /
    • 2014
  • The performance of General-Purpose computation on Graphics Processing Units (GPGPU) is heavily dependent on the memory access behavior. This sensitivity is due to a combination of the underlying Massively Parallel Processing (MPP) execution model present on GPUs and the lack of architectural support to handle irregular memory access patterns. Application performance can be significantly improved by applying memory-access-pattern-aware optimizations that can exploit knowledge of the characteristics of each access pattern. In this paper, we present an algorithmic methodology to semi-automatically find the best mapping of memory accesses present in serial loop nest to underlying data-parallel architectures based on a comprehensive static memory access pattern analysis. To that end we present a simple, yet powerful, mathematical model that captures all memory access pattern information present in serial data-parallel loop nests. We then show how this model is used in practice to select the most appropriate memory space for data and to search for an appropriate thread mapping and work group size from a large design space. To evaluate the effectiveness of our methodology, we report on execution speedup using selected benchmark kernels that cover a wide range of memory access patterns commonly found in GPGPU workloads. Our experimental results are reported using the industry standard heterogeneous programming language, OpenCL, targeting the NVIDIA GT200 architecture.

내장형 시스템을 위한 PMU (Performance Monitoring Unit) 기반 동적 XIP (eXecute In Place) 기법 ((PMU (Performance Monitoring Unit)-Based Dynamic XIP(eXecute In Place) Technique for Embedded Systems))

  • 김도훈;박찬익
    • 대한임베디드공학회논문지
    • /
    • 제3권3호
    • /
    • pp.158-166
    • /
    • 2008
  • These days, mobile embedded systems adopt flash memory capable of XIP feature since they can reduce memory usage, power consumption, and software load time. XIP provides direct access to ROM and flash memory for processors. However, using XIP incurs unnecessary degradation of applications' performance because direct access to ROM and flash memory shows more delay than that to main memory. In this paper, we propose a memory management framework, dynamic XIP, which can resolve the performance degradation of using XIP. Using a constrained RAM cache, dynamic XIP can dynamically change XIP region according to page access pattern to reduce performance degradation in execution time or energy consumption resulting from native XIP problem. The proposed framework consists of a page profiler gathering applications' memory access pattern using PMU and an XIP manager deciding that a page is accessed whether in main memory or in flash memory. The proposed framework is implemented and evaluated in Linux kernel. Our evaluation shows that our framework can reduce execution time at most 25% and energy consumption at most 22% compared with using XIP-only case adopted in general mobile embedded systems. Moreover, the evaluation shows that in execution time and energy consumption, our modified LRU algorithm with code page filters can reduce more than at most 90% and 80% respectively compared with applying just existing LRU algorithm to dynamic XIP.

  • PDF

A Technique for Improving the Performance of Cache Memories

  • Cho, Doosan
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제13권3호
    • /
    • pp.104-108
    • /
    • 2021
  • In order to improve performance in IoT, edge computing system, a memory is usually configured in a hierarchical structure. Based on the distance from CPU, the access speed slows down in the order of registers, cache memory, main memory, and storage. Similar to the change in performance, energy consumption also increases as the distance from the CPU increases. Therefore, it is important to develop a technique that places frequently used data to the upper memory as much as possible to improve performance and energy consumption. However, the technique should solve the problem of cache performance degradation caused by lack of spatial locality that occurs when the data access stride is large. This study proposes a technique to selectively place data with large data access stride to a software-controlled cache. By using the proposed technique, data spatial locality can be improved by reducing the data access interval, and consequently, the cache performance can be improved.

에너지 관점에서 임베디드 자바가상기계의 메모리 접근 형태 (Memory Access Behavior of Embedded Java Virtual Machine in Energy Viewpoint)

  • 양희재
    • 정보처리학회논문지A
    • /
    • 제12A권3호
    • /
    • pp.223-228
    • /
    • 2005
  • 임베디드 시스템에서 일반적으로 메모리가 가장 많은 에너지를 소비하는 것으로 알려지고 있다. 임베디드 자바가상기계의 경우도 마찬가지이며, 따라서 보다 에너지 효율이 높은 자바가상기계의 개발을 위해서는 자바 메모리의 에너지 사용을 최적화 하는 것이 무엇보다 중요하다. 본 논문에서는 자바 프로그램 실행 시 수많은 바이트코드들이 어떻게 논리적 메모리를 접근하는지 분석하였다. 이런 접근 형태 분석은 자바 메모리의 설계 및 구현 기술을 선택하는데 큰 통찰력을 제공해 준다 힙, 오퍼랜드 스택, 지역변수배열 등 세 가지 논리적 데이터 공간에 대해 각각 메모리 접근을 분석하였으며, 분석 결과 오퍼랜드 스택이 가장 빈번하게, 또한 균일하게 사용되었으며 힙이 가장 드물게, 그리고 불균일하게 사용되었음을 알 수 있었다. 힙과 지역변수배열은 읽기 위주로 사용되었으며, 오퍼랜드 스택은 읽기와 쓰기 비율이 크게 다르지 않았다.

멀티미디어 선반입에 적용 가능한 파일 액세스 패턴 기반의 선반입 시스템 (Prefetching System based on File Access Pattern Applicable to Multimedia Prefetching Scheme)

  • 황보준형;서대화
    • 한국멀티미디어학회논문지
    • /
    • 제4권6호
    • /
    • pp.489-499
    • /
    • 2001
  • This paper presents the SIC(Size-Interval-Count) prefetching system that can record the file access patterns of applications within a relatively small space of memory based on the repetitiveness of the file access patterns. The SICPS(SIC Prefetching System) is based on knowledge-based prefetching methods which includes high correctness in predicting future accesses of applications. The proposed system then uses the recorded file access patterns, referred to as "SIC access pattern information", to correctly predict the future accesses of the applications. The proposed prefetching system improved the response time by about 40% compared to the general file system and showed remarkable memory efficiency compared to the previously knowledge-based prefetching methods.

  • PDF

반복성을 고려한 파일 액세스 패턴 수집 기법 (File Access Pattern Collection Scheme based on Repetitiveness)

  • 황보준형;석성우;서대화
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제28권12호
    • /
    • pp.674-684
    • /
    • 2001
  • 본 논문에서는 액세스 패턴의 반복성을 이용하여 비교적 적은 메모리 공간을 사용하는 SIC (SiZe-Interval-Count) 선반입 기법을 제안한다. 최근에 연구되어진 지식기반의 선반입 기법은 응용프로그램의 액세스를 예측하여 정확한 선반입을 수행하는 기법이다. 이들 기법은 응용프로그램의 액세스 패턴을 기록하고, 기록된 액세스 패턴정보를 이용하여 다음에 요청될 블록을 예측하게 된다. 하지만 이 기법은 많은 메모리 공간의 사용을 필요로 한다. 따라서 제안된 선반입 기법에서는 "SIC 액세스 패턴 정보"를 이용하여 반복적인 액세스 패턴을 효율적으로 저장하고, 이를 이용하여 응용프로그램의 다음에 요청될 블록을 정확하게 예측한다. 본 논문의 선반입 기법은 일반 파일시스템에 비해 최고 40%의 응답속도 향상을 가져오며, 기존의 지식기반 선반입 기법에 비해 뛰어난 메모리 효율성을 보여준다.

  • PDF

DDR2 SDRAM을 이용한 비메모리 검사장비에서 정시성을 보장하기 위한 메모리 컨트롤러 개발 (Development of Memory Controller for Punctuality Guarantee from Memory-Free Inspection Equipment using DDR2 SDRAM)

  • 전민호;신현준;강철규;오창헌
    • 한국항행학회논문지
    • /
    • 제15권6호
    • /
    • pp.1104-1110
    • /
    • 2011
  • 현재의 반도체 검사장비는 테스트 패턴 프로그램을 위한 메모리로 시스템 설계가 간단하고 리프레시가 필요 없는 SRAM(static random access memory) 모듈을 채용하고 있다. 그러나 SRAM 모듈을 이용한 시스템 구성은 용량이 커질수록 장비의 부피가 증가하기 때문에 메모리 대용량화 및 장비의 소형화에 걸림돌이 되고 있다. DRAM(dynamic random access memory)을 이용하여 반도체 검사 장비를 제작할 경우 SRAM 보다 비용과 장비의 면적이 줄어드는 장점이 있지만 DRAM의 특성 상 메모리 셀 리프레시가 필요하여 정시성을 보장해야 하는 문제가 있다. 따라서 본 논문에서는 이러한 문제를 해결하기 위해 DDR2 SDRAM(double data rate synchronous dynamic random access memory)을 이용한 비메모리 검사장비에서 정시성을 보장해 주는 알고리즘을 제안하고 알고리즘을 이용한 메모리 컨트롤러를 개발하였다. 그 결과, DDR2 SDRAM을 이용할 경우 SRAM을 이용할 때 보다 가격과 면적이 줄어들어 가격측면에서는 13.5배 그리고 면적측면에서는 5.3배 이득이 있음을 확인하였다.

H.264/AVC 디코더의 움직임 보상을 위한 메모리 접근 감소 기법 (Memory Access Reduction Scheme for H.264/AVC Decoder Motion Compensation)

  • 박경오;홍유표
    • 한국통신학회논문지
    • /
    • 제34권4C호
    • /
    • pp.349-354
    • /
    • 2009
  • H.264/AVC 디코더의 하드웨어 구현 시 실시간 동작을 위한 가장 큰 장애 요소 중 하나인 외부 메모리 엑세스량을 크게 줄인 움직임 보상 기법을 제안한다. H.264/AVC 디코더의 움직임 보상용 참조 영상은 큰 용량 때문에 대게 외부 메모리에 보관되며, 참조 영역은 수시로 디코더 코어 내부로 읽혀지게 되는데, 단순히 참조 영역 단위별 순차적 메모리 접근을 할 경우 그 데이터 엑세스 량은 디코더의 실시간 동작이 불가능할 정도로 막대할 수가 있다. 본 논문에서는 참조 영역을 매크로블럭 단위로 분석하여 가급적 적은 메모리 엑세스로 필요한 참조 영역을 읽어 들이는 방식을 제안하고 있으며, 실험 결과 제안된 움직임 보상 기법은 단순한 순차적 참조 블록별 데이터 접근 방식 대비 외부 메모리 사용 대역폭을 약 30% 감소시킴을 확인할 수 있었다.

인공 신경망 가속기 온칩 메모리 크기에 따른 주메모리 접근 횟수 추정에 대한 연구 (Research on the Main Memory Access Count According to the On-Chip Memory Size of an Artificial Neural Network)

  • 조석재;박성경;박성정
    • 전기전자학회논문지
    • /
    • 제25권1호
    • /
    • pp.180-192
    • /
    • 2021
  • 이미지 인식 및 패턴 감지를 위해 널리 사용되는 알고리즘 중 하나는 convolution neural network(CNN)이다. CNN에서 대부분의 연산량을 차지하는 convolution 연산을 효율적으로 처리하기 위해 외부 하드웨어 가속기를 사용하여 CNN 어플리케이션의 성능을 향상 시킬 수 있다. 이러한 하드웨어 가속기를 사용함에 있어서 CNN은 막대한 연산량을 처리하기 위해 오프칩 DRAM에서 가속기 내부의 메모리로 데이터를 갖고 와야 한다. 즉 오프칩 DRAM과 가속기 내부의 온칩 메모리 혹은 글로벌 버퍼 사이의 데이터 통신이 CNN 어플리케이션의 성능에 큰 영향을 끼친다. 본 논문에서는 CNN 가속기 내의 온칩 메모리 혹은 글로벌 버퍼의 크기에 따른 주메모리 혹은 DRAM으로의 접근 횟수를 추산할 수 있는 시뮬레이터를 개발하였다. CNN 아키텍처 중 하나인 AlexNet에서, CNN 가속기 내부의 글로벌 버퍼의 크기를 증가시키면서 시뮬레이션 했을 때, 글로벌 버퍼 크기가 100kB 이상인 경우가 100kB 미만인 경우보다 가속기 내부와 오프칩 DRAM 간의 접근 횟수가 0.8배 낮은 것을 확인 했다.

하이브리드 플래시-디스크 저장장치용 Flash Translation Layer의 성능 개선을 위한 순차패턴 마이닝 기반 2단계 프리패칭 기법 (Improving Flash Translation Layer for Hybrid Flash-Disk Storage through Sequential Pattern Mining based 2-Level Prefetching Technique)

  • 장재영;윤언근;김한준
    • 한국전자거래학회지
    • /
    • 제15권4호
    • /
    • pp.101-121
    • /
    • 2010
  • 본 논문은 플래시 메모리와 하드디스크로 구성되는 하이브리드 저장장치의 성능을 높이기 위한 프리패칭 기법을 제안한다. 하이브리드 저장장치에 포함된 플래시 메모리는 하드디스크에 비해 쓰기/읽기 연산 속도가 상대적으로 빠르기 때문에 이를 캐시 공간처럼 활용하여 성능을 높일 수 있다. 프리패칭을 위한 기본 전략은 순차패턴 마이닝을 이용하는 것이며, 이를 이용하면 시간적 흐름을 가지는 과거 객체 참조열로부터 반복되는 객체 접근 패턴을 추출할 수 있다. 프리패칭 기법을 사용하여 하이브리드 저장장치의 성능을 최대화하기 위하여 본 논문은 두 가지 방법을 사용하였다. 첫 번째는 플래시 메모리 매핑을 위하여 기존의 FAST 알고리즘을 개선하였고, 두 번째는 제한된 플래시 메모리의 공간을 효율적으로 사용하기 위하여 프리패칭 단위로 파일 수준과 블록 수준을 동시에 고려하였다. 제안 기법의 효용성을 평가하기 위해 참조 지역성을 가지는 합성 데이터와 UCC 데이터를 활용하여 실험을 실시하여 제안된 방법의 우수성을 증명하였다.