• 제목/요약/키워드: L2-Cache

검색결과 57건 처리시간 0.028초

코어 내부 구성요소와 L2 캐쉬의 배치 관계에 따른 멀티코어 프로세서의 온도 분석 (Analysis on the Temperature of Multi-core Processors according to Placement of Functional Units and L2 Cache)

  • 손동오;김종면;김철홍
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권4호
    • /
    • pp.1-8
    • /
    • 2014
  • 멀티코어 프로세서는 여러 개의 코어가 하나의 칩에 배치됨에 따라 전력 밀도가 상승하여 높은 발열이 발생한다. 이러한 발열 문제를 해결하기 위해서 최근까지 다양한 연구가 진행되고 있다. 마이크로프로세서의 온도 감소를 위한 기법으로는 기계적 냉각 기법, 동적 온도 관리 기법 등이 있지만 이러한 기법들은 추가적인 냉각 비용이 발생하거나 성능의 저하가 발생한다. 플로어플랜기법은 추가적인 냉각비용이 발생하지 않으며, 성능저하가 거의 발생하지 않는다는 장점을 지닌다. 본 논문에서는 멀티코어 프로세서의 특정 구성요소의 발열 문제를 해결하기 위해 코어 내부 구성요소와 L2 캐쉬의 다양한 플로어플랜을 활용하고자 한다. 실험 결과, 코어의 뜨거운 구성요소를 L2 캐쉬와 인접하게 배치할 경우 칩의 온도 감소에 매우 효과적임을 알 수 있다. 코어를 캐쉬 상단-가운데 배치하는 기본 플로어플랜과 비교하여, 코어를 중앙에 배치하고 뜨거운 구성요소를 L2 캐쉬와 인접하게 배치하는 플로어플랜의 경우에는 $8.04^{\circ}C$, 코어를 외곽에 배치하고 뜨거운 구성요소를 L2 캐쉬와 인접하게 배치하는 플로어플랜의 경우에는 $8.05^{\circ}C$의 최고온도 감소 효과를 보임을 알 수 있다.

내장형 시스템을 위한 저전력 2-레벨 캐쉬 메모리의 설계 (Low-Power 2-level Cache Architectures for Embedded System)

  • 이종민;김순태;김경아;박수호;김용호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.806-809
    • /
    • 2008
  • 온칩(on-chip) 캐쉬는 외부 메모리로의 접근을 감소시키는 중요한 역할을 한다. 본 연구에서는 내장형 시스템에 맞추어 설계된 2-레벨 캐쉬 메모리 구조를 제안하고자 한다. 레벨1(L1) 캐쉬의 구성으로 작은 크기, 직접사상(direct-mapped) 그리고 바로쓰기(write-through)를 채용한다. 대조적으로 레벨2(L2) 캐쉬는 일반적인 캐쉬 크기와 집합연관(Set-associativity) 그리고 나중쓰기(write-back) 정책을 채용한다. 결과적으로 L1캐쉬는 한 사이클 이내에 접근될 수 있고 L2캐쉬는 전체 캐쉬의 미스율(global miss rate)을 낮추는데 효과적이다. 두 캐쉬 계층간 바로쓰기(write-thorough) 정책에서 오는 빈번한 L2 캐쉬 접근으로 인한 에너지 소비를 줄이기 위해 본 연구에서는 One-way 접근 기법을 제안하였다. 본 연구에서 제안한 2-레벨 캐쉬 메모리 구조는 평균적으로 26%의 성능향상과 43%의 에너지 소비 그리고 77%의 에너지-지연 곱에서 이득을 보여주었다.

멀티코어 시스템에서 흐름 수준 병렬처리에 기반한 리눅스 TCP/IP 스택의 성능 개선 (A Performance Improvement of Linux TCP/IP Stack based on Flow-Level Parallelism in a Multi-Core System)

  • 권희웅;정형진;곽후근;김영종;정규식
    • 정보처리학회논문지A
    • /
    • 제16A권2호
    • /
    • pp.113-124
    • /
    • 2009
  • 최근 멀티코어가 장착된 시스템이 증가하면서 이를 통한 애플리케이션 성능향상에 대한 노력이 계속 되어왔다. 하나의 시스템에 다수의 처리장치가 존재함으로 인해 프로세싱 파워는 기존보다 증가했지만 기존의 소프트웨어나 하드웨어들은 싱글코어 시스템에 적합하게 설계된 경우가 많아 멀티코어의 이점을 충분히 활용하지 못하고 있는 경우가 많다. 기존의 많은 소프트웨어들은 멀티코어 상에서 공유 자원에 대한 병목현상과 비효율적인 캐시 메모리 사용으로 인하여 충분한 성능향상을 기대하기 어려우며 이러한 문제점들로 인하여 기존 소프트웨어는 코어의 개수에 비례한 성능을 얻지 못하며, 최악의 경우 오히려 감소될 수 있다. 본 논문에서는 TCP/IP를 사용하는 기존의 네트워크 애플리케이션과 운영체제에 흐름 수준 병렬처리 기법을 적용하여 성능을 증가 시킬 수 있는 방법을 제안한다. 제안된 방식은 개별 코어단위로 네트워크 애플리케이션, 운영체제의 TCP/IP 스택, 디바이스 드라이버, 네트워크 인터페이스가 서로 간섭 없이 작동할 수 있는 환경을 구성하며, L2 스위치를 통해 각 코어 단위로 트래픽을 분산하는 방법을 적용하였다. 이를 통해 각 코어 간에 애플리케이션의 데이터 및 자료구조, 소켓, 디바이스 드라이버, 네트워크 인터페이스의 공유를 최소화하여, 각 코어간의 자원을 차지하기 위한 경쟁을 최소화하고 캐시 히트율을 증가시킨다. 이를 통하여 8개의 멀티코어를 사용하였을 경우 네트워크 접속속도와 대역폭이 코어의 개수에 따라 선형적으로 증가함을 실험을 통해 입증하였다.

비 휘발성 캐시를 이용한 RAID 5 제어기의 개념 설계 (Conceptual Design of a RAID 5 Controller with Non-volatile Cache)

  • 허정호;장태무
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (상)
    • /
    • pp.435-438
    • /
    • 2003
  • RAID 시스템에서 비 휘발성 쓰기 캐시를 이용한 디스크 제어기는 시스템 성능 향상의 중요한 요소 중 하나이다. 2 단계 캐시는 l 단계 캐시에 비해 우수한 성능을 보이고 시간적, 공간적 지역성에도 효율적이며 호스트 측에 비 휘발성 기억소자로 구성된 L1 캐시를 두어 디스크 캐시의 신뢰도를 높일 수 있다. 호스트에서 읽기/쓰기 적중된 데이터가 LI 캐시에서 수행되는 동안 12캐시에서는 디스크로 destage하는 동작을 비동기적으로 병렬 처리하고 데이터와 패리티를 함께 캐시에 적재하여 RAID 5 의 "소규모 쓰기 문제"를 완화시키고자 한다. 제안된 캐시 시스템은 2 단계로 구성되어 대용량 디스크 캐시에서 디스크 입출력 시간을 향상시키고 효율적으로 일관성을 유지할 수 있는 디스크 제어기 상에 위치하는 RAID 5 디스크 캐시 모델을 제시하여 수행속도를 개선시키고자 한다.

  • PDF

Scratchpad Memory Architectures and Allocation Algorithms for Hard Real-Time Multicore Processors

  • Liu, Yu;Zhang, Wei
    • Journal of Computing Science and Engineering
    • /
    • 제9권2호
    • /
    • pp.51-72
    • /
    • 2015
  • Time predictability is crucial in hard real-time and safety-critical systems. Cache memories, while useful for improving the average-case memory performance, are not time predictable, especially when they are shared in multicore processors. To achieve time predictability while minimizing the impact on performance, this paper explores several time-predictable scratch-pad memory (SPM) based architectures for multicore processors. To support these architectures, we propose the dynamic memory objects allocation based partition, the static allocation based partition, and the static allocation based priority L2 SPM strategy to retain the characteristic of time predictability while attempting to maximize the performance and energy efficiency. The SPM based multicore architectural design and the related allocation methods thus form a comprehensive solution to hard real-time multicore based computing. Our experimental results indicate the strengths and weaknesses of each proposed architecture and the allocation method, which offers interesting on-chip memory design options to enable multicore platforms for hard real-time systems.

WLAN에서 RA 선수신을 이용한 mSCTP 핸드오버 성능 향상 (Performance Enhancement of Handover in mSCTP using Pre-acquisition RA in WLAN)

  • 최순원;김광렬;민성기
    • 한국정보과학회논문지:정보통신
    • /
    • 제33권2호
    • /
    • pp.156-164
    • /
    • 2006
  • mSCTP(Mobile SCTP)는 SCTP(Stream Control Transmission Protocol)와 DAR (Dynamic Address Reconfiguration) 확장을 이용해 트랜스포트 계층에서 이동성을 제공하기 위해 최근에 제안된 프로토콜이다. 현재 mSCTP의 가장 큰 문제점은 핸드오버 지연시간(Handover Latency Time)이 길어 실시간 어플리케이션에 적합하지 못하며 핸드오버 시점을 결정(Handover Decision)하는 명시적인 방법이 없다는 것이다. 이를 해결하기 위해 본 논문에서는 RA (Router Advertisement)를 미리 수신함으로써 핸드오버 지연시간을 최소화 하는 방법을 제안하고자 한다. 또한, RA를 빠르게 얻을 수 있는 방법으로 RA 캐시(Cache)를 이용한 방법, FMIPv6(Fast Handovers for Mobile IPv6)와 연동을 통한 방법, 듀얼 인터페이스(Dual Interface)를 이용한 방법 등 세가지를 소개 한다. 마지막으로, 제안된 방안의 성능 향상을 확인 하기 위해 세가지 방식 중 FMIPv6와의 연동 방식을 리눅스 기반의 실제 시험 환경을 구성하여 핸드오버 성능을 측정하였다. 실험한 결과 전체 핸드오버 지연시간의 대부분이 RA를 받는데 있음을 확인 할 수 있었고, 이를 줄임으로써 전체 핸드오버 성능을 크게 향상시킬 수 있었다.

Static Timing Analysis of Shared Caches for Multicore Processors

  • Zhang, Wei;Yan, Jun
    • Journal of Computing Science and Engineering
    • /
    • 제6권4호
    • /
    • pp.267-278
    • /
    • 2012
  • The state-of-the-art techniques in multicore timing analysis are limited to analyze multicores with shared instruction caches only. This paper proposes a uniform framework to analyze the worst-case performance for both shared instruction caches and data caches in a multicore platform. Our approach is based on a new concept called address flow graph, which can be used to model both instruction and data accesses for timing analysis. Our experiments, as a proof-of-concept study, indicate that the proposed approach can accurately compute the worst-case performance for real-time threads running on a dual-core processor with a shared L2 cache (either to store instructions or data).

다중 TMS320C31 DSP를 사용한 3-D 비젼센서 Implementation (A 3-D Vision Sensor Implementation on Multiple DSPs TMS320C31)

  • V.옥센핸들러;A.벤스하이르;P.미셰;이상국
    • 센서학회지
    • /
    • 제7권2호
    • /
    • pp.124-130
    • /
    • 1998
  • 독립적인 로보트나 자동차 제어 응용을 위하여 고속 3-D 비젼시스템들은 매우 중요하다. 이 논문은 다음과 같은 세가지 과정으로 구성되는 stereo vision process 개발에 대하여 논술한다 : 왼쪽과 오른쪽 이미지의 edges 추출, matching coresponding edges와 3-D map의 계산. 이 process는 VME 150/40 Imaging Technology vision system에서 이루어졌다. 이것은 display, acqusition, 4Mbytes image frame memory와 세 개의 연산 카드로 구성되는 modular system이다. 40 MHz로 작동하는 프로그래머불 연산 모듈은 $64{\times}32$ bit instruction cache와 두개의 $1024{\times}32$ bit RAM을 가진 TMS320C31 DSP에 기초를 두고 있다. 그것들은 각각 512 Kbyte static RAM, 4 Mbyte image memory, 1 Mbyte flash EEPROM과 하나의 직렬 포트로 구성되어있다. 모듈간의 데이터 전송과 교환은 8 bit globalvideo bus와 세 개의 local configurable pipeline 8 bit video bus에 의하여 이루어졌고, system management를 위하여 VME bus가 쓰였다. 두 개의 DSP는 왼쪽 및 오른쪽 이미지 edges 검출을 위하여 쓰였고 마지막 processor는 matching process와 3-D 연산에 사용되었다. $512{\times}512$픽셀 이미지에서 이 센서는 scene complexity에 따라 1Hz정도의 조밀한 3-D map을 생성했다. 특수목적의 multiprocessor card들을 사용하면 결과를 향상시킬 수 있을 것이다.

  • PDF

분산 메모리 시스템에서 압력방정식의 해법을 위한 MPI와 Hybrid 병렬 기법의 비교 (Comparison of Message Passing Interface and Hybrid Programming Models to Solve Pressure Equation in Distributed Memory System)

  • 전병진;최형권
    • 대한기계학회논문집B
    • /
    • 제39권2호
    • /
    • pp.191-197
    • /
    • 2015
  • 본 연구에서는 분산 메모리시스템에서의 압력 방정식의 병렬해법을 위하여 MPI(Message Passing Interface)와 하이브리드 병렬기법을 사용하였다. 두 모델은 영역분할 기법을 활용하며, 하이브리드 기법은 성능이 양호한 두 가지 영역분할에 대해 수행하였다. 두 병렬기법의 성능을 비교하기 위해서 다양한 문제 크기에 대해 최대 96개의 쓰레드를 사용하여 속도향상을 측정하였다. 병렬 성능은 캐쉬 메모리에 따른 문제의 크기 및 MPI 통신, OpenMP 지시어의 부하에 대해 영향을 받음을 확인하였다. 문제의 크기가 작은 경우에는 쓰레드가 증가할수록 MPI 통신 및 OpenMP 지시어 부하에 대한 비율이 상대적으로 크기 때문에 병렬 성능이 좋지 않으며, MPI 통신 부하보다는 OpenMP 지시어 부하가 상대적으로 크므로 MPI 병렬 기법의 병렬 성능이 더 우수하다. 문제의 크기가 큰 경우에는 캐쉬 메모리의 활용도가 높고 MPI 통신 및 OpenMP 지시어 부하에 대한 비율이 낮아 병렬 성능이 좋으며, OpenMP 지시어보다 MPI 통신에 의한 부하가 더 지배적이어서 하이브리드 병렬 성능이 MPI 병렬 성능보다 더 양호하다.

Coloring이 적용된 Gauss-Seidel 해법을 통한 CPU와 GPU의 연산 효율에 관한 연구 (An Investigation of the Performance of the Colored Gauss-Seidel Solver on CPU and GPU)

  • 윤종선;전병진;최형권
    • 대한기계학회논문집B
    • /
    • 제41권2호
    • /
    • pp.117-124
    • /
    • 2017
  • 본 연구에서는 Coloring 기법을 적용한 Gauss-Seidel 해법의 연산 성능을 분석하기 위해 2차원과 3차원 전도 열전달 문제를 다양한 격자 크기에서 해석하였다. 지배방정식의 이산화는 유한차분법과 유한요소법을 사용하였다. CPU의 경우에는 상대적으로 작은 격자계에서 연산 성능이 좋으며, 계산에 사용되는 메모리의 크기가 캐시메모리보다 크게 되면 연산 성능이 급격히 떨어진다. 반면에, GPU는 메모리 지연시간 숨김 특성으로 인하여 격자의 수가 충분히 많을 때 연산 성능이 좋다. GPU에 기반한 Colored Gauss-Seidel 해법은 단일 CPU를 이용한 연산에 비해서 각각 최대 7배의 속도 향상을 보인다. 또한, GPU 기반에서 Colored Gauss-Seidel 해법은 Jacobi 보다 약 2배 빠름을 확인하였다.