• 제목/요약/키워드: memory access reduction

검색결과 72건 처리시간 0.036초

IoT 기반 간헐적 이벤트 로깅 응용에 최적화된 효율적 플래시 메모리 전력 소모 감소기법 (Efficient Flash Memory Access Power Reduction Techniques for IoT-Driven Rare-Event Logging Application)

  • 권지수;조정훈;박대진
    • 대한임베디드공학회논문지
    • /
    • 제14권2호
    • /
    • pp.87-96
    • /
    • 2019
  • Low power issue is one of the most critical problems in the Internet of Things (IoT), which are powered by battery. To solve this problem, various approaches have been presented so far. In this paper, we propose a method to reduce the power consumption by reducing the numbers of accesses into the flash memory consuming a large amount of power for on-chip software execution. Our approach is based on using cooperative logging structure to distribute the sampling overhead in single sensor node to adjacent nodes in case of rare-event applications. The proposed algorithm to identify event occurrence is newly introduced with negative feedback method by observing difference between past data and recent data coming from the sensor. When an event with need of flash access is determined, the proposed approach only allows access to write the sampled data in flash memory. The proposed event detection algorithm (EDA) result in 30% reduction of power consumption compared to the conventional flash write scheme for all cases of event. The sampled data from the sensor is first traced into the random access memory (RAM), and write access to the flash memory is delayed until the page buffer of the on-chip flash memory controller in the micro controller unit (MCU) is full of the numbers of the traced data, thereby reducing the frequency of accessing flash memory. This technique additionally reduces power consumption by 40% compared to flash-write all data. By sharing the sampling information via LoRa channel, the overhead in sampling data is distributed, to reduce the sampling load on each node, so that the 66% reduction of total power consumption is achieved in several IoT edge nodes by removing the sampling operation of duplicated data.

Accelerating Memory Access with Address Phase Skipping in LPDDR2-NVM

  • Park, Jaehyun;Shin, Donghwa;Chang, Naehyuck;Lee, Hyung Gyu
    • JSTS:Journal of Semiconductor Technology and Science
    • /
    • 제14권6호
    • /
    • pp.741-749
    • /
    • 2014
  • Low power double data rate 2 non-volatile memory (LPDDR2-NVM) has been deemed the standard interface to connect non-volatile memory devices such as phase-change memory (PCM) directly to the main memory bus. However, most of the previous literature does not consider or overlook this standard interface. In this paper, we propose address phase skipping by reforming the way of interfacing with LPDDR2-NVM. To verify effectiveness and functionality, we also develop a system-level prototype that includes our customized LPDDR2-NVM controller and commercial PCM devices. Extensive simulations and measurements demonstrate up to a 3.6% memory access time reduction for commercial PCM devices and a 31.7% reduction with optimistic parameters of the PCM research prototypes in industries.

Bit Flip Reduction Schemes to Improve PCM Lifetime: A Survey

  • Han, Miseon;Han, Youngsun
    • IEIE Transactions on Smart Processing and Computing
    • /
    • 제5권5호
    • /
    • pp.337-345
    • /
    • 2016
  • Recently, as the number of cores in computer systems has increased, the need for larger memory capacity has also increased. Unfortunately, dynamic random access memory (DRAM), popularly used as main memory for decades, now faces a scalability limitation. Phase change memory (PCM) is considered one of the strong alternatives to DRAM due to its advantages, such as high scalability, non-volatility, low idle power, and so on. However, since PCM suffers from short write endurance, direct use of PCM in main memory incurs a significant problem due to its short lifetime. To solve the lifetime limitation, many studies have focused on reducing the number of bit flips per write request. In this paper, we describe the PCM operating principles in detail and explore various bit flip reduction schemes. Also, we compare their performance in terms of bit reduction rate and lifetime improvement.

직접 메모리 접근 장치에서 버스트 데이터 전송 기능의 효과적인 활용 (Efficient Utilization of Burst Data Transfers of DMA)

  • 이종원;조두산;백윤흥
    • 대한임베디드공학회논문지
    • /
    • 제8권5호
    • /
    • pp.255-264
    • /
    • 2013
  • Resolving of memory access latency is one of the most important problems in modern embedded system design. Recently, tons of studies are presented to reduce and hide the access latency. Burst/page data transfer modes are representative hardware techniques for achieving such purpose. The burst data transfer capability offers an average access time reduction of more than 65 percent for an eight-word sequential transfer. However, solution of utilizing such burst data transfer to improve memory performance has not been accomplished at commercial level. Therefore, this paper presents a new technique that provides the maximum utilization of burst transfer for memory accesses with local variables in code by reorganizing variables placement.

H.264/AVC 디코더의 움직임 보상을 위한 메모리 접근 감소 기법 (Memory Access Reduction Scheme for H.264/AVC Decoder Motion Compensation)

  • 박경오;홍유표
    • 한국통신학회논문지
    • /
    • 제34권4C호
    • /
    • pp.349-354
    • /
    • 2009
  • H.264/AVC 디코더의 하드웨어 구현 시 실시간 동작을 위한 가장 큰 장애 요소 중 하나인 외부 메모리 엑세스량을 크게 줄인 움직임 보상 기법을 제안한다. H.264/AVC 디코더의 움직임 보상용 참조 영상은 큰 용량 때문에 대게 외부 메모리에 보관되며, 참조 영역은 수시로 디코더 코어 내부로 읽혀지게 되는데, 단순히 참조 영역 단위별 순차적 메모리 접근을 할 경우 그 데이터 엑세스 량은 디코더의 실시간 동작이 불가능할 정도로 막대할 수가 있다. 본 논문에서는 참조 영역을 매크로블럭 단위로 분석하여 가급적 적은 메모리 엑세스로 필요한 참조 영역을 읽어 들이는 방식을 제안하고 있으며, 실험 결과 제안된 움직임 보상 기법은 단순한 순차적 참조 블록별 데이터 접근 방식 대비 외부 메모리 사용 대역폭을 약 30% 감소시킴을 확인할 수 있었다.

디렉토리를 이용한 캐쉬 일관성 유지 기법에서 무효화 힌트를 이용한 읽기 접근 시간 감소 (Reduction of Read Access Latency by Invalid Hint in Directory-Based Cache Coherence Scheme)

  • 오승택;이윤석;맹승렬;이준원
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제27권4호
    • /
    • pp.408-415
    • /
    • 2000
  • 대규모 분산 공유메모리 다중처리기는 공유메모리 접근 지연시간이 크다는 약점을 지니고 있다. 이러한 다중처리기에서 모든 메모리 요청이 홈노드를 통해 이루어지는 디렉토리 기반의 캐쉬 일관성 유지 기법의 사용은 메모리 접근 지연시간을 더욱 크게 하는 요인으로 작용한다. 뿐만 아니라 메모리 접근 지연시간은 시스템의 규모가 커질수록 전체 성능에 중요한 요소로 작용하므로, 대규모 시스템에서 이를 줄이기 위해서 많은 연구들이 있었다. 본 논문에서는 메모리 읽기 지연시간을 줄이는 새로운 캐쉬 일관성 유지 기법을 제안한다. 제안된 기법은 무효화힌트를 이용하여 구현되었다. 무효화힌트는 어떤 노드가 전에 캐쉬블록을 무효화 시켰는가에 관한 정보이며, 메모리블록이 필요한 노드는 이 정보를 이용하여 홈노드의 도움 없이 직접 메모리 요청을 할 수 있다. 제안된 프로토콜의 성능을 측정하기 위하여 모의실험을 하였다. 모의실험 결과는 제안된 프로토콜에서 읽기 지연시간이 감소하는 것을 나타낸다.

  • PDF

소프트웨어 분산공유메모리시스템을 위한 적응적 선인출 기법 (An Adaptive Prefetching Technique for Software Distributed Shared Memory Systems)

  • 이상권;윤희철;이준원;맹승렬
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제28권9호
    • /
    • pp.461-468
    • /
    • 2001
  • 공유가상메모리 시스템은 적은 비용으로 고성능 계산 능력을 제공하지만, 메모리 접근 지연 시간이 길다는 문제점이 있다. 일반적으로 이 지연시간은 공유데이터에 대한 반복적인 무효화 작업에 의해 일어난다. 고유 데이터들은 동기화를 통해서 접근되고 쓰레드를 반복적 패턴에 의해 동기화 되기 때문에, 반복성에 기반한 선인출 기법은 메모리 지연시간을 효과적으로 줄일수 있다. 본 논문에서는 동기화 변수별로 접근 기록을 분석해서 미래의 메모리 접근을 예측하는 선인출 기법을 제안한다. 제안하는 기법은 8노드 클러스터상에서 SPLASH-2 응용들을 실행시켜 성능을 측정하였다. 그 결과, 제안하는 기법이 34%~45%정도의 메모리 접근 지연시간을 감소할수 있었다.

  • PDF

상변화 메모리 응용을 위한 $Ge_{1}Se_{1}Te_{2}$ 박막의 셀 구조에 따른 전기적 특성 (Electrical characteristic for Phase-change Random Access Memory according to the $Ge_{1}Se_{1}Te_{2}$ thin film of cell structure)

  • 나민석;임동규;김재훈;최혁;정홍배
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2007년도 제38회 하계학술대회
    • /
    • pp.1335-1336
    • /
    • 2007
  • Among the emerging non-volatile memory technologies, phase change memories are the most attractive in terms of both performance and scalability perspectives. Phase-change random access memory(PRAM), compare with flash memory technologies, has advantages of high density, low cost, low consumption energy and fast response speed. However, PRAM device has disadvantages of set operation speed and reset operation power consumption. In this paper, we investigated scalability of $Ge_{1}Se_{1}Te_{2}$ chalcogenide material to improve its properties. As a result, reduction of phase change region have improved electrical properties of PRAM device.

  • PDF

레지스터 프로모션을 이용한 내장형 소프트웨어의 성능 향상 (Performance Enhancement of Embedded Software Using Register Promotion)

  • 이종열
    • 정보처리학회논문지A
    • /
    • 제11A권5호
    • /
    • pp.373-382
    • /
    • 2004
  • 이 논문에서는 내장형 소프트웨어의 성능 향상을 위하여 사용될 수 있는 레지스터 프로모션의 새로운 기법을 제안한다. 레지스터 프로모션은 프로그램 내의 메모리 접근 연산(memory access)을 레지스터 접근 연산(register access)으로 바꾸어서 프로그램의 성능 향상을 꾀하는 최적화 방법 중의 하나이다. 제안된 방법에서는 프로파일링(profiling)을 통하여 주어진 소스 코드 내에서의 메모리 접근 연산에 대한 트레이스(trace)를 얻는다. 그리고 각 함수의 수행 횟수에 대한 프로파일링 결과로부터 높은 동적 호출 횟수를 가지는 대상 함수를 선정하여 제안된 레지스터 프로모션 기법을 적용한다. 이와 같이 최적화의 대상이 되는 함수의 수를 줄임으로써 컴파일 시간을 줄일 수 있다. 최적화 대상 함수의 메모리 트레이스를 탐색하여 레지스터 접근 연산으로 변경될 경우 수행 사이클을 줄일 수 있는 메모리 접근 연산을 찾는다. 찾아진 메모리 접근 연산에 대해서는 컴파일러의 중간단계 코드를 수정하여 프로모션 레지스터를 할당한다. 이와 같은 과정을 거쳐 메모리 접근 연산이 프로모션 레지스터에 대한 접근 연산으로 대체되고 이로부터 성능향상을 얻을 수 있다. 제안된 레지스터 프로모션 기법을 ARM과 MCORE 프로세서용 컴파일러에 적용한 후 MediaBench와 DSPStone 벤치마크을 이용하여 실험한 결과 ARM과 MCORE 프로세서에 대하여 각각 평균 14%와 18%의 성능향상을 얻을 수 있었다.

270 MHz Full HD H.264/AVC High Profile Encoder with Shared Multibank Memory-Based Fast Motion Estimation

  • Lee, Suk-Ho;Park, Seong-Mo;Park, Jong-Won
    • ETRI Journal
    • /
    • 제31권6호
    • /
    • pp.784-794
    • /
    • 2009
  • We present a full HD (1080p) H.264/AVC High Profile hardware encoder based on fast motion estimation (ME). Most processing cycles are occupied with ME and use external memory access to fetch samples, which degrades the performance of the encoder. A novel approach to fast ME which uses shared multibank memory can solve these problems. The proposed pixel subsampling ME algorithm is suitable for fast motion vector searches for high-quality resolution images. The proposed algorithm achieves an 87.5% reduction of computational complexity compared with the full search algorithm in the JM reference software, while sustaining the video quality without any conspicuous PSNR loss. The usage amount of shared multibank memory between the coarse ME and fine ME blocks is 93.6%, which saves external memory access cycles and speeds up ME. It is feasible to perform the algorithm at a 270 MHz clock speed for 30 frame/s real-time full HD encoding. Its total gate count is 872k, and internal SRAM size is 41.8 kB.