• 제목/요약/키워드: Main memory access architecture

검색결과 25건 처리시간 0.028초

CPU-GPU간 긴밀성을 위한 효율적인 공유메모리 접근 방법과 검증 시스템 구현 (Implementation of Integrated CPU-GPU for Efficient Uniform Memory Access Method and Verification System)

  • 박현문;권진산;황태호;김동순
    • 대한임베디드공학회논문지
    • /
    • 제11권2호
    • /
    • pp.57-65
    • /
    • 2016
  • In this paper, we propose a system for efficient use of shared memory between CPU and GPU. The system, called Fusion Architecture, assures consistency of the shared memory and minimizes cache misses that frequently occurs on Heterogeneous System Architecture or Unified Virtual Memory based systems. It also maximizes the performance for memory intensive jobs by efficient allocation of GPU cores. To test between architectures on various scenarios, we introduce the Fusion Architecture Analyzer, which compares OpenMP, OpenCL, CUDA, and the proposed architecture in terms of memory overhead and process time. As a result, Proposed fusion architectures show that the Fusion Architecture runs benchmarks 55% faster and reduces memory overheads by 220% in average.

A Technique for Improving the Performance of Cache Memories

  • Cho, Doosan
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제13권3호
    • /
    • pp.104-108
    • /
    • 2021
  • In order to improve performance in IoT, edge computing system, a memory is usually configured in a hierarchical structure. Based on the distance from CPU, the access speed slows down in the order of registers, cache memory, main memory, and storage. Similar to the change in performance, energy consumption also increases as the distance from the CPU increases. Therefore, it is important to develop a technique that places frequently used data to the upper memory as much as possible to improve performance and energy consumption. However, the technique should solve the problem of cache performance degradation caused by lack of spatial locality that occurs when the data access stride is large. This study proposes a technique to selectively place data with large data access stride to a software-controlled cache. By using the proposed technique, data spatial locality can be improved by reducing the data access interval, and consequently, the cache performance can be improved.

CPU-GPU환경에서 효율적인 메인메모리 접근을 위한 융합 프로세서 구조 개발 (A Development of Fusion Processor Architecture for Efficient Main Memory Access in CPU-GPU Environment)

  • 박현문;권진산;황태호;김동순
    • 한국전자통신학회논문지
    • /
    • 제11권2호
    • /
    • pp.151-158
    • /
    • 2016
  • 이기종시스템 구조(HSA)는 두 유닛의 각각에 메모리 폴(pools)이 가상메모리를 통해 공유할 수 있게 됨에 따라 CPU와 GPU 아키텍처의 오랜 문제를 해결하였다. 그러나 물리적 실제 시스템에서는 가상메모리 처리를 위해 GPU와 GPU 사이의 빈번한 메모리 이동으로 병목현상(Bottleneck)과 일관성 요청(Coherence request)의 오버헤드를 갖게 된다. 본 연구는 CPU와 GPU간의 효율적인 메인 메모리 접근방안으로 퓨전프로세서 알고리즘을 제안하였다. CPU가 요청한 처리할 메모리 영역을 GPU의 코어에 맞게 분배 제어해주는 기능으로 작업관리자(Job Manager)와 Re-mapper, Pre-fetcher를 제안하였다. 이를 통해 CPU와 GPU간의 빈번한 메시지도 감소되고 CPU의 메모리주소에 없는 Page-Table 요청이 낮아져 두 매체간의 효율성이 증대되었다. 제안한 알고리즘의 검증 방안으로 QEMU(:short for Quick EMUlator)기반의 에뮬레이터를 개발하고 CUDA(:Compute Unified Device. Architecture), OpenMP, OpenCL 등의 알고리즘과 비교평가를 하였다. 성능평가 결과, 본 연구에서 제안한 융합 프로세서 구조를 기존과 비교했을 때 최대 198%이상 빠르게 처리되면서 메모리 복사, 캐시미스 등의 오버헤드를 최소화하였다.

라인 스캔 카메라를 위한 고속 영상 처리 시스템 설계 (Design of High-Speed Image Processing System for Line-Scan Camera)

  • 이운근;백광렬;조석빈
    • 제어로봇시스템학회논문지
    • /
    • 제10권2호
    • /
    • pp.178-184
    • /
    • 2004
  • In this paper, we designed an image processing system for the high speed line-scan camera which adopts the new memory model we proposed. As a resolution and a data rate of the line-scan camera are becoming higher, the faster image processing systems are needed. But many conventional systems are not sufficient to process the image data from the line-scan camera during a very short time. We designed the memory controller which eliminates the time for transferring image data from the line-scan camera to the main memory with high-speed SRAM and has a dual-port configuration therefore the DSP can access the main memory even though the memory controller are writing the image data. The memory controller is implemented by VHDL and Xilinx SPARTAN-IIE FPGA.

대용량 메모리 데이타 처리를 위한 범용 하드웨어 기반의 원격 메모리 시스템 (Large-Memory Data Processing on a Remote Memory System using Commodity Hardware)

  • 정형수;한혁;염헌영
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제34권9호
    • /
    • pp.445-458
    • /
    • 2007
  • 본 논문에서는 대용량 메모리 데이타 처리를 위한 범용 하드웨어 기반의 원격 메모리 시스템을 제안한다. 느린 디스크와 상대적으로 대단히 빠른 접근 속도를 보장하는 메모리 사이에 존재하게 되는 새로운 메모리 계층을 구현하기 위해, 본 논문에서는 다수의 일반적인 범용 데스크탑 PC들과 원격 직접메모리 접근 (이하 RDMA) 기능이 가능한 고속 네트워크를 최대한 활용하였다. 제안된 새로운 계층의 메모리는 합리적인 응답시간과 용량을 제공함으로서 비교적 적은 양의 성능 부담으로서 대용량의 메모리 상주 데이타베이스를 구동할 수 있게 되었다. 제안된 원격 메모리 시스템은 원격 메모리 페이지들을 관리하게 되는 원격 메모리 시스템과, 원격 메모리 페이지의 교체를 관리하게 되는 원격 메모리 페이저로 구성되어 있다. 범용으로 쓰이는 MySQL과 같은 데이타베이스를 이용한 TPC-C 실험 결과로 볼 때 제안된 원격 메모리 시스템은 일반적인 대용량 메모리 데이타 처리 시스템에서 요구하는 다양한 요구조건을 만족시킬 수 있을 것이라 생각된다.

핫스팟 접근영역 인식에 기반한 바이너리 코드 역전 기법을 사용한 저전력 IoT MCU 코드 메모리 인터페이스 구조 연구 (Low-Power IoT Microcontroller Code Memory Interface using Binary Code Inversion Technique Based on Hot-Spot Access Region Detection)

  • 박대진
    • 대한임베디드공학회논문지
    • /
    • 제11권2호
    • /
    • pp.97-105
    • /
    • 2016
  • Microcontrollers (MCUs) for endpoint smart sensor devices of internet-of-thing (IoT) are being implemented as system-on-chip (SoC) with on-chip instruction flash memory, in which user firmware is embedded. MCUs directly fetch binary code-based instructions through bit-line sense amplifier (S/A) integrated with on-chip flash memory. The S/A compares bit cell current with reference current to identify which data are programmed. The S/A in reading '0' (erased) cell data consumes a large sink current, which is greater than off-current for '1' (programmed) cell data. The main motivation of our approach is to reduce the number of accesses of erased cells by binary code level transformation. This paper proposes a built-in write/read path architecture using binary code inversion method based on hot-spot region detection of instruction code access to reduce sensing current in S/A. From the profiling result of instruction access patterns, hot-spot region of an original compiled binary code is conditionally inverted with the proposed bit-inversion techniques. The de-inversion hardware only consumes small logic current instead of analog sink current in S/A and it is integrated with the conventional S/A to restore original binary instructions. The proposed techniques are applied to the fully-custom designed MCU with ARM Cortex-M0$^{TM}$ using 0.18um Magnachip Flash-embedded CMOS process and the benefits in terms of power consumption reduction are evaluated for Dhrystone$^{TM}$ benchmark. The profiling environment of instruction code executions is implemented by extending commercial ARM KEIL$^{TM}$ MDK (MCU Development Kit) with our custom-designed access analyzer.

HEVC 복호화기의 메모리 접근 복잡도 분석 (An Analysis of Memory Access Complexity for HEVC Decoder)

  • 조송현;김영남;송용호
    • 전자공학회논문지
    • /
    • 제51권5호
    • /
    • pp.114-124
    • /
    • 2014
  • HEVC는 JCT-VC에 의해 개발된 최신 비디오 코딩 표준이다. HEVC는 H.264/AVC에 비해 약 2배의 주관적 코딩효율을 제공한다. HEVC 개발의 주요목표 중 하나는 UHD급 비디오를 효율적으로 코딩하는 것이기 때문에, HEVC는 UHD급 비디오를 코딩하는데 널리 사용될 것으로 예측된다. 이러한 고해상도 비디오의 복호화는 많은 양의 메모리 접근을 발생시키기 때문에 복호화 시스템은 고대역폭의 메모리 시스템 및 내부 통신 아키텍처가 필요하다. 이러한 요구사항을 파악하기 위해서 본 논문은 HEVC 복호화기의 메모리 접근 복잡도를 분석한다. 우리는 먼저 임베디드 프로세서와 데스크탑에서 동작하는 소프트웨어 HEVC 복호화기의 메모리 접근량을 측정하였다. 또한 우리는 HEVC 복호화기의 데이터흐름을 분석하여 HEVC 복호화기의 메모리 대역폭 모델을 만들었다. 측정결과, 소프트웨어 복호화기는 6.9~40.5GB/s의 DRAM 접근을 하였다. 또한 분석결과에 따르면 하드웨어 복호화기는 2.4GB/s의 DRAM 대역폭을 요구하는 것으로 파악된다.

분산 공유 메모리 시스템에서 메모리 접근지연을 줄이기 위한 이중 슬롯링 구조 (A Dual Slotted Ring Organization for Reducing Memory Access Latency in Distributed Shared Memory System)

  • 민준식;장태무
    • 정보처리학회논문지A
    • /
    • 제8A권4호
    • /
    • pp.419-428
    • /
    • 2001
  • 집적회로 기술의 발달은 처리기의 속도를 계속적으로 증가시켜 왔다. 처리기 응용분야의 주요한 도전은 공유 메모리 다중 처리기 시스템에서 고성능 처리기들을 효과적으로 사용하고자 하는 것이다. 우리는 상호 연결망 문제가 소규모의 공유 메모리 다중처리기 시스템에서 조차 완전히 해결되었다고 생각하지 않는다. 그 이유는 공유버스의 속도는 새로운 강력한 처리기들의 대역폭 요구를 수용할 수 없기 때문이다. 지난 수년간 점대점 단방향 연결은 매우 가능성 있는 상호 연결망 기술로서 대두되었다. 단일 슬롯링은 점대점 상호 연결망의 가장 간단한 형태이다. 단일 슬롯링 구조의 단점은 링에서 처리기의 수가 증가함에 따라 메모리 접근지연 시간이 선형적으로 증가한다는 것이다. 이런 이유로 우리는 캐쉬 기반의 다중처리기 시스템에서 단일 슬롯링을 대체할 수 있는 이중 슬롯링 구조를 제안한다. 또한 본 논문에서 새로운 스누핑 프로토콜을 사용하는 이중 슬롯링 구조를 분석하고 분석적모델과 모의 실험을 통하여 기존의 단일 슬롯링과 성능을 비교한다.

  • PDF

2차원 구조 대비 3차원 구조 GPU의 메모리 접근 효율성 분석 (Memory Delay Comparison between 2D GPU and 3D GPU)

  • 전형규;안진우;김종면;김철홍
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권7호
    • /
    • pp.1-11
    • /
    • 2012
  • 최근 반도체 공정 기술이 발달함에 따라 단일 프로세서에 적재되는 코어의 수가 크게 증가하였고, 이는 프로세서의 성능을 급격하게 향상시키는 계기가 되고 있다. 특히, 많은 수의 코어들로 구성된 GPU(Graphics Processing Unit)는 대규모 병렬성을 활용하여 연산처리 성능을 크게 향상시키고 있다. 하지만, 주 메모리 접근 지연시간이 GPU의 성능 향상을 제약하는 심각한 요인 중 하나로 제기되는 상황이다. 본 논문에서는 3차원 구조를 통한 GPU의 메모리 접근 효율성 향상에 대한 정량적 분석과 3차원 구조 적용 시 발생 가능한 문제점에 대하여 살펴보고자 한다. 일반적으로 메모리 명령어 비율은 평균적으로 전체 명령어의 30%를 차지하고, 메모리 명령어 중에서 주 메모리 접근과 관련된 글로벌/로컬 메모리 명령어가 차지하는 비율 또한 평균 60%이므로 주 메모리로의 접근 지연시간을 크게 감소시키는 3차원 구조를 적용한다면 GPU의 성능 또한 크게 향상시킬 수 있을 것으로 예상된다. 그러나 본 논문에서 수행한 실험 결과에 따르면 메모리 병목현상으로 인해 3차원 구조 GPU의 성능이 2차원 구조 GPU에 비해 크게 향상되지는 않음을 확인할 수 있다. 분석 결과에 의하면, 3차원 구조 GPU는 2차원 구조 GPU와 비교하여 메모리 병목현상으로 인한 성능 지연이 최대 245%까지 증가하기 때문이다. 본 논문에서는 3차원 구조 GPU를 대상으로 메모리 접근의 효율성과 문제점을 함께 분석함으로써, 3차원 GPU에 적합한 메모리 구조를 설계하기 위한 가이드라인을 제시하고자 한다.

ATM 교환기용 분산 주기억장치 상주 데이터베이스 시스템에서의 T-tree 색인 구조의 회복 기법 (The T-tree index recovery for distributed main-memory database systems in ATM switching systems)

  • 이승선;조완섭;윤용익
    • 한국통신학회논문지
    • /
    • 제22권9호
    • /
    • pp.1867-1879
    • /
    • 1997
  • DREAM-S는 ATM 네트워크용 교환 시스템에서 응용 프로그램들의 교환기 운용 데이터에 대한 실시간 처리 요구를 지원하기 위한 분산 주기억장치 상주 데이터베이스 시스템(Main Memory Database Systems)이다. DREAM-S는 클라이언트-서버 구조를 가지면서 서버 프로세서에만 디스크가 연결되어 있으며, 대량의 데이터로부터 원하는 데이터를 신속히 검색하기 위하여 T- Tree 색인 구조를 제공한다. 본 논문에서논 DREAM-S에서 T- Tree 색인 구조에 대한 회복 기법를 제안한다. 주기억장치 상주 데이터베이스는 디스크 상주 데이터베이스 보다 뛰어난 성능을 제공하지만 시스템 고장 시(정전 등과 같은 오류) 주기억장치에 저장된 모든 데이터(릴레이션과 색인 구조)가 파손될 수 있다. 따라서 고장 후 파손된 주기억장치 데이터베이스를 신속히 정상 데이터베이스 상태로 회복하는 회복 기법이 필수적이다. 제안된 회복 기법에서는 T-Tree 색인 구조를 각 프로세서의 주기억장치에만 유지하도록 함으로서 ATM 교환기 시스템의 성능에서 병복 현상을 일으킬 수 있는 서버 프로세서의 디스크 출입 오버헤드를 줄인다. 또한, 시스템 고장 후 서버와 모든 클라이언트 시스템들이 병렬 처리 방식으로 각자의 T- Tree(들)를 회복하도룩 함으로서 클라이언트 개수가 많은 경우에도 신속한 회복이 가능하도록 하였다.

  • PDF