• 제목/요약/키워드: Memory profiling

검색결과 26건 처리시간 0.021초

멀티코어 시스템에서 TLB Lockdown에 의한 TLB Miss 영향 분석 (Investigation on TLB Miss Impact through TLB Lockdown in Multi-core Systems)

  • 송대영;박시형;김형신
    • 대한임베디드공학회논문지
    • /
    • 제17권1호
    • /
    • pp.59-65
    • /
    • 2022
  • Virtual memory is used as the method to ensure the safety of the system through memory protection in the real-time system. TLB miss caused by using virtual memory makes the real-time system WCET more pessimistically. TLB lockdown can be applied as a method to improve this problem. However, processors with limited TLB lockdown entries, a selection criterion is needed to efficiently utilize the TLB lockdown entry. In this paper, the most frequently accessed virtual pages in the process are applied to the TLB lockdown by analyzing memory profiling. The results showed that micro data TLB miss stall cycle and main data TLB miss stall cycle of the processor decreased by at least 4.7% and up to 29.7%.

Enhancing GPU Performance by Efficient Hardware-Based and Hybrid L1 Data Cache Bypassing

  • Huangfu, Yijie;Zhang, Wei
    • Journal of Computing Science and Engineering
    • /
    • 제11권2호
    • /
    • pp.69-77
    • /
    • 2017
  • Recent GPUs have adopted cache memory to benefit general-purpose GPU (GPGPU) programs. However, unlike CPU programs, GPGPU programs typically have considerably less temporal/spatial locality. Moreover, the L1 data cache is used by many threads that access a data size typically considerably larger than the L1 cache, making it critical to bypass L1 data cache intelligently to enhance GPU cache performance. In this paper, we examine GPU cache access behavior and propose a simple hardware-based GPU cache bypassing method that can be applied to GPU applications without recompiling programs. Moreover, we introduce a hybrid method that integrates static profiling information and hardware-based bypassing to further enhance performance. Our experimental results reveal that hardware-based cache bypassing can boost performance for most benchmarks, and the hybrid method can achieve performance comparable to state-of-the-art compiler-based bypassing with considerably less profiling cost.

레지스터 프로모션을 이용한 내장형 소프트웨어의 성능 향상 (Performance Enhancement of Embedded Software Using Register Promotion)

  • 이종열
    • 정보처리학회논문지A
    • /
    • 제11A권5호
    • /
    • pp.373-382
    • /
    • 2004
  • 이 논문에서는 내장형 소프트웨어의 성능 향상을 위하여 사용될 수 있는 레지스터 프로모션의 새로운 기법을 제안한다. 레지스터 프로모션은 프로그램 내의 메모리 접근 연산(memory access)을 레지스터 접근 연산(register access)으로 바꾸어서 프로그램의 성능 향상을 꾀하는 최적화 방법 중의 하나이다. 제안된 방법에서는 프로파일링(profiling)을 통하여 주어진 소스 코드 내에서의 메모리 접근 연산에 대한 트레이스(trace)를 얻는다. 그리고 각 함수의 수행 횟수에 대한 프로파일링 결과로부터 높은 동적 호출 횟수를 가지는 대상 함수를 선정하여 제안된 레지스터 프로모션 기법을 적용한다. 이와 같이 최적화의 대상이 되는 함수의 수를 줄임으로써 컴파일 시간을 줄일 수 있다. 최적화 대상 함수의 메모리 트레이스를 탐색하여 레지스터 접근 연산으로 변경될 경우 수행 사이클을 줄일 수 있는 메모리 접근 연산을 찾는다. 찾아진 메모리 접근 연산에 대해서는 컴파일러의 중간단계 코드를 수정하여 프로모션 레지스터를 할당한다. 이와 같은 과정을 거쳐 메모리 접근 연산이 프로모션 레지스터에 대한 접근 연산으로 대체되고 이로부터 성능향상을 얻을 수 있다. 제안된 레지스터 프로모션 기법을 ARM과 MCORE 프로세서용 컴파일러에 적용한 후 MediaBench와 DSPStone 벤치마크을 이용하여 실험한 결과 ARM과 MCORE 프로세서에 대하여 각각 평균 14%와 18%의 성능향상을 얻을 수 있었다.

Gene repressive mechanisms in the mouse brain involved in memory formation

  • Yu, Nam-Kyung;Kaang, Bong-Kiun
    • BMB Reports
    • /
    • 제49권4호
    • /
    • pp.199-200
    • /
    • 2016
  • Gene regulation in the brain is essential for long-term plasticity and memory formation. Despite this established notion, the quantitative translational map in the brain during memory formation has not been reported. To systematically probe the changes in protein synthesis during memory formation, our recent study exploited ribosome profiling using the mouse hippocampal tissues at multiple time points after a learning event. Analysis of the resulting database revealed novel types of gene regulation after learning. First, the translation of a group of genes was rapidly suppressed without change in mRNA levels. At later time points, the expression of another group of genes was downregulated through reduction in mRNA levels. This reduction was predicted to be downstream of inhibition of ESR1 (Estrogen Receptor 1) signaling. Overexpressing Nrsn1, one of the genes whose translation was suppressed, or activating ESR1 by injecting an agonist interfered with memory formation, suggesting the functional importance of these findings. Moreover, the translation of genes encoding the translational machineries was found to be suppressed, among other genes in the mouse hippocampus. Together, this unbiased approach has revealed previously unidentified characteristics of gene regulation in the brain and highlighted the importance of repressive controls.

내장형 소프트웨어의 성능 향상을 위한 새로운 레지스터 할당 기법 (A New Register Allocation Technique for Performance Enhancement of Embedded Software)

  • Jong-Yeol, Lee
    • 대한전자공학회논문지SD
    • /
    • 제41권10호
    • /
    • pp.85-94
    • /
    • 2004
  • 본 논문에서는 메모리 접근 연산을 레지스터 접근 연산으로 변환함으로써 레지스터를 할당하여 내장형 소프트웨어의 성능 향상을 도모할 수 있는 위한 레지스터 할당 기법을 제안한다. 제안된 방법에서는 프로파일링(Profiling)을 통하여 메모리 트레이스(trace)를 얻는다. 그리고 각 함수의 수행 횟수에 대한 프로파일링 결과로부터 높은 동적 호출 횟수를 가지는 대상 함수를 선정하여 제안된 레지스터 할당 기법을 적용한다. 이와 같이 최적화의 대상이 되는 함수의 수를 줄임으로써 전체적인 컴파일 시간을 줄일 수 있다. 최적화대상 함수의 메모리 트레이스를 탐색하여 레지스터 접근 연산으로 변경될 경우 수행 사이클을 줄일 수 있는 메모리 접근 연산을 찾는다. 찾아진 메모리 접근 연산에 대해서는 컴파일러의 중간단계 코드를 수정하여 프로모션 레지스터(promotion register)를 할당한다. 이와 같은 과정을 거쳐 메모리 접근 연산이 프로모션 레지스터에 대한 접근 연산으로 대체되고 이로부터 성능향상을 얻을 수 있다. 제안된 레지스터 프로모션 기법을 ARM과 MCORE 프로세서용 컴파일러에 적용한 후 MediaBench와 DSPStone 벤치마크를 이용하여 cycle count를 비교함으로써 성능을 측정하였다. 그 결과 ARM과 MCORE에 대하여 평균 14%와 18%의 성능향상을 얻을 수 있었다.

Flow-based Anomaly Detection Using Access Behavior Profiling and Time-sequenced Relation Mining

  • Liu, Weixin;Zheng, Kangfeng;Wu, Bin;Wu, Chunhua;Niu, Xinxin
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제10권6호
    • /
    • pp.2781-2800
    • /
    • 2016
  • Emerging attacks aim to access proprietary assets and steal data for business or political motives, such as Operation Aurora and Operation Shady RAT. Skilled Intruders would likely remove their traces on targeted hosts, but their network movements, which are continuously recorded by network devices, cannot be easily eliminated by themselves. However, without complete knowledge about both inbound/outbound and internal traffic, it is difficult for security team to unveil hidden traces of intruders. In this paper, we propose an autonomous anomaly detection system based on behavior profiling and relation mining. The single-hop access profiling model employ a novel linear grouping algorithm PSOLGA to create behavior profiles for each individual server application discovered automatically in historical flow analysis. Besides that, the double-hop access relation model utilizes in-memory graph to mine time-sequenced access relations between different server applications. Using the behavior profiles and relation rules, this approach is able to detect possible anomalies and violations in real-time detection. Finally, the experimental results demonstrate that the designed models are promising in terms of accuracy and computational efficiency.

베이스보드 매니지먼트 컨트롤러를 위한 부팅 과정 프로파일링 도구 (Booting Process Profiling Tool for Baseboard Management Controllers)

  • 김재섭;박민호;홍지만
    • 스마트미디어저널
    • /
    • 제11권11호
    • /
    • pp.84-91
    • /
    • 2022
  • 베이스보드 매니지먼트 컨트롤러(BMC, Baseboard Management Controller)는 다양한 통신 인터페이스를 사용하여 서버 모니터링, 유지보수, 제어 기능을 지원한다. 그러나, 디바이스 드라이버 초기화 과정에서 예기치 못한 문제가 발생할 경우 BMC가 정상적으로 동작하지 않을 수 있기 때문에 디바이스 드라이버 초기화 과정을 정확하게 분석하고, 분석 결과를 확인할 수 있는 기능을 제공하는 부팅 과정 프로파일링 도구는 필수적이다. 기존 부팅 과정 프로파일링 도구들은 BMC 부팅 과정 분석에 필요한 디바이스 드라이버 초기화 과정과 결과를 구체적으로 제공하지 않아 개발자가 필요에 따라 여러 도구를 조합하여 사용해야 하는 불편함이 있다. 본 논문에서는 BMC의 부팅 과정 프로파일링 도구를 제안한다. 제안하는 도구는 디바이스 드라이버 초기화 과정분석, CPU 및 메모리 사용률 분석, 커널 버전 관리 기능을 제공한다. 제안하는 도구를 사용하여 부팅 과정을 쉽게 분석할 수 있으며, 분석 결과는 부팅 시간 단축에 사용될 수 있다. 또한 제안한 도구를 Linux 기반의 BMC에 구현하고, 제안한 도구가 기존 프로파일링 도구에 비해 효율적임을 보인다.

플래시 메모리 저장 장치를 사용하는 프로그램의 성능 향상을 위한 정적 분석 기법의 응용 (Applying Static Analysis to Improve Performance of Programs using Flash Memory Storage)

  • 백준영;조은선
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권12호
    • /
    • pp.1177-1187
    • /
    • 2010
  • 플래시 메모리는 휴대성, 저전력, 대용량의 특징을 갖고 있어 휴대용 기기에서의 사용이 증가하고 있다. 그러나 하드디스크와는 달리 플래시 메모리는 읽기 연산에 비해 쓰기 연산의 비용이 상대적으로 커서, 쓰기 연산 횟수 감소에 대한 연구가 요구된다. 본 논문에서는 데이터 쓰기 연산 횟수를 감소시키기 위해, 플래시 메모리에 저장된 데이터를 다루는 응용 프로그램을 재작성하여 저장될 데이터를 적절히 재배치하기 위한 정적 분석 기법을 제안하였다. 이 기법은 프로그램을 정적 분석해서 쓰기 연산 부분을 파악하고, 이들을 분리해내어 저장되도록 프로그램을 재작성 함으로써, 수행 시간에 전체 쓰기 영역이 줄어들도록 하는 것이다. 따라서 본 논문에서는 프로그램에서 다루어지는 데이터 중 쓰기 가능한 영역을 얻어내는 분석과 가능한 작은 개수의 페이지에 쓰기 대상 부분이 모여 있도록 재배치하기 위한 분석을 고안하였다. 정적 분석 결과는 자주 수행되는 프로그램 경로에 대한 프로파일링 결과와 조합되어 보다 실제적인 분석 결과를 얻고자 하였으며, 결과적으로, FAST 시뮬레이터 상에서 데이터 처리 성능을 향상시키는 데에 기여함을 보였다.

핫스팟 접근영역 인식에 기반한 바이너리 코드 역전 기법을 사용한 저전력 IoT MCU 코드 메모리 인터페이스 구조 연구 (Low-Power IoT Microcontroller Code Memory Interface using Binary Code Inversion Technique Based on Hot-Spot Access Region Detection)

  • 박대진
    • 대한임베디드공학회논문지
    • /
    • 제11권2호
    • /
    • pp.97-105
    • /
    • 2016
  • Microcontrollers (MCUs) for endpoint smart sensor devices of internet-of-thing (IoT) are being implemented as system-on-chip (SoC) with on-chip instruction flash memory, in which user firmware is embedded. MCUs directly fetch binary code-based instructions through bit-line sense amplifier (S/A) integrated with on-chip flash memory. The S/A compares bit cell current with reference current to identify which data are programmed. The S/A in reading '0' (erased) cell data consumes a large sink current, which is greater than off-current for '1' (programmed) cell data. The main motivation of our approach is to reduce the number of accesses of erased cells by binary code level transformation. This paper proposes a built-in write/read path architecture using binary code inversion method based on hot-spot region detection of instruction code access to reduce sensing current in S/A. From the profiling result of instruction access patterns, hot-spot region of an original compiled binary code is conditionally inverted with the proposed bit-inversion techniques. The de-inversion hardware only consumes small logic current instead of analog sink current in S/A and it is integrated with the conventional S/A to restore original binary instructions. The proposed techniques are applied to the fully-custom designed MCU with ARM Cortex-M0$^{TM}$ using 0.18um Magnachip Flash-embedded CMOS process and the benefits in terms of power consumption reduction are evaluated for Dhrystone$^{TM}$ benchmark. The profiling environment of instruction code executions is implemented by extending commercial ARM KEIL$^{TM}$ MDK (MCU Development Kit) with our custom-designed access analyzer.

추론적 부분 중복 제거의 최적화 예외 영역 문제 해결 알고리즘 (An Algorithm of Solution for the Exceptional Field Problem in the Speculative Partial Redundancy Elimination(SPRE) Optimization)

  • 신현덕;안희학
    • 정보처리학회논문지A
    • /
    • 제13A권6호
    • /
    • pp.489-494
    • /
    • 2006
  • 본 논문에서는 Knoop 등이 2004년에 제안한 추론적 부분 중복 제거 알고리즘을 개선한다. 본 연구에서는 기존 추론적 부분 중복 제거에서 최적화가 적용되지 않는 영역이 발생될 수 있는 문제를 제기하고 이 문제에 대한 해법을 제안한다. 개선된 추론적 부분 중복 제거 알고리즘은 컴파일러의 프로필링 기법을 통해 얻어진 실행 빈도에 대한 정보를 통해 실행 속도 최적화를 수행하며 메모리 최적화도 수행한다.