통합 검색 | Korea Science

라이트 백 캐쉬를 위한 빠른 라이트 백 기법 (The Early Write Back Scheme For Write-Back Cache)

정영진;이길환;이용석
- 대한전자공학회논문지SD
- /
- 제46권11호
- /
- pp.101-109
- /
- 2009
일반적으로 3차원 그래픽 깊이 캐쉬와 픽셀 캐쉬는 메모리 대역폭의 효율적인 사용을 위하여 라이트 백(write-back) 캐쉬로 설계된다. 또한 3차원 그래픽 특성상 캐쉬 읽기 접근을 시도한 주소에 대한 캐쉬 쓰기 접근 혹은 읽기 접근이 발생하지 않고 캐쉬 쓰기 접근만 발생하는 경우가 많다. 캐쉬 메모리의 모든 블록이 사용되고 있는 상태에서 캐쉬 접근 실패가 발생하면 캐쉬 메모리 한 블록이 교체 알고리즘(replacement algorithm)에 의하여 한 블록을 라이트 백 동작을 실행하고 그 블록에 다른 데이터를 저장한다. 이러한 캐쉬 접근 실패 발생은 방출되는 캐쉬 메모리 한 블록의 데이터를 저장하기 위한 외부 메모리 쓰기 접근과 캐쉬 접근 실패를 처리하기 위한 외부 메모리 접근을 동시에 발생시킨다. 따라서 연속적인 캐쉬 접근 실패가 발생하는 경우 다량의 메모리 읽기와 쓰기 접근이 동시에 발생되어 메모리 병목현상을 유발시키고 이는 결국 메모리 접근 소요 시간을 길어지게 한다. 이와 같이 연속적인 캐쉬 접근 실패는 캐쉬를 사용하는 프로세서나 IP의 성능 저하와 전력소비 증가를 유발한다. 본 논문에서는 캐쉬 사용 시 발생하는 메모리 병목현상을 최소화하기 위하여 빠른 라이트 백이라는 새로운 방법을 사용하였다. 이 방법은 캐쉬 메모리 블록에 들어있는 유효 데이터를 방출하는 시점을 조절하여 외부 메모리 접근이 다량으로 몰리는 것을 방지하는 것이다. 즉 같은 메모리 용량과 접근 성공율을 가지는 캐쉬의 성능을 증가시킬 수 있는 방법이다. 이를 통하여 메모리 병목 현상을 완화시킬 수 있고 또한 캐쉬 접근 실패 시 소요되는 평균 메모리 접근 소요시간을 줄일 수 있다. 이러한 새로운 캐쉬 구조를 위한 실험은 ARM11, 3차원 그래픽 가속기 및 다양한 IP들이 내장되어 있는 SoC 환경에서 3차원 그래픽 가속기의 깊이 캐쉬와 픽셀 캐쉬에 적용하여 진행하였으며 여러 가지 실험 벡터를 이용하여 결과를 측정하였을때 성능을 향상시킬 수 있다.
PDF KSCI

다중 프로세서의 캐쉬 메모리

원철호;한우종;함종식;전금석;윤용호
- ETRI Journal
- /
- 제10권3호
- /
- pp.92-100
- /
- 1988
다중프로세서의 캐쉬 메모리 구현에서 가장 중요한 부분은 데이터의 동일성을 유지하는 방법이다. 그러나 프로세서-메모리 연결 방법(interconnection network)과 프로세서의 수에 따라 동일성 유지는 다양한 형태로 구현된다. 또한 그것은 시스팀의 성능과 구현의 난이도에 중대한 영향을 주므로 시스팀의 여러 면을 고려하여 형태가 정해진다. 본 논문은 공유 버스를 갖는 밀결합 다중프로세서의 캐쉬메모리의 구현에 관한 것이다. 이미 여러 다중프로세서에서 캐쉬메모리가 개발된 예가 있지만 한국전자통신연구소에서 개발중인 행정전산망 주전산기에 사용될 캐쉬 메모리는 Illinosis 캐쉬 코히어런스 프로토콜과 copy-back 방법을 사용하는 특징을 갖는다. 캐쉬 메모리의 설계 목표를 공유 버스에 최대 20개의 MC68030를 연결할 수 있는 다중 프로세서에서 프로세서수가 증가함에 따라 버스 사용량이 급증하는 현상을 막고 각 프로세서의 메모리 요구를 고속으로 처리해 줌으로써 프로세서의 처리 능력을 최대한 살리는데 두었다.
PDF

다중 프로세서 시스템에서 프로세서 지역성을 이용한 원격 캐쉬 교체 정책 (Remote Cache Replacement Policy using Processor Locality in Multi-Processor System)

한상윤;곽종욱;장성태;전주식
- 한국정보과학회논문지:시스템및이론
- /
- 제32권11_12호
- /
- pp.541-556
- /
- 2005
컴퓨터 시스템에서의 메모리 접근 지연은 전체 시스템 성능에 큰 장애 요인 중 하나이다. 특히 분산 메모리 구조에서 지역 메모리와 원격 메모리의 접근 지연 시간은 큰 차이를 나타낸다. 원격 메모리 접근 지연으로 인한 성능 저하를 줄이고자 원격 메모리 영역만을 캐싱하는 원격 캐쉬가 제안되었으며, 원격 캐쉬는 프로세서 캐쉬와 더불어 다단계 캐쉬 형태로 구성된다. 일반적으로 상위 계층 캐쉬의 모든 내용을 하위 계층 캐쉬가 반드시 포함하는 다단계 캐쉬 내포성(MLI)을 지키는 다중 계층 메모리 구조에서 LRU 교체 정책을 사용할 경우, 하위 계층 캐쉬의 LRU 알고리즘에 따른 라인 교체로 인하여 상위 계층 캐쉬의 라인 교체가 일어날 패, 상위 계층 캐쉬로 요구된 라인 교체가 상위 계층 캐쉬 자체의 LRU 정보와 일치하지 않는 경우가 발생하며, 이로 인해 상위 캐쉬의 적중률이 저하되어 전체 시스템 성능이 저하된다. 본 논문은 원격 캐쉬를 추가시킨 분산 공유 메모리 구조 다중 프로세서 시스템의 성능 향상을 위해 LRU 캐쉬 교체 정책의 단점을 보완한 새로운 원격 캐쉬 교체 정책을 제안한다. 논문에서 제안하는 교체 정책은 LRU 정보에 부가하여 프로세서의 시간적 접근 지역성을 이용하여 교체할 캐쉰 라인을 선택하게 함으로써, 프로세서에서 자주 사용되는 원격 캐쉬 라인의 교체가 일어나지 않도록 하여 시스템의 성능 향상을 꾀한다. 시뮬레이션을 통한 성능비교 결과, 본 논문에서 제시한 원격 캐쉬 교체 정책은 기존의 LRU 교체 정책과 비교하여 평균 $3\%$, 최대 $10\%$의 무효화 및 캐쉬 접근 실패를 감소시켰고, 이 결과 전체 시스템의 성능은 평균 $2.5\%$, 최대 $3.5\%$ 향상되었다.
PDF KSCI

HARP의 캐쉬 메모리 및 메모리 관리 유니트 구조 설계

이규호;강익태
- ETRI Journal
- /
- 제10권3호
- /
- pp.49-61
- /
- 1988
HARP(High-performance Architecture for Risc-type Processor)는 한국전자통신연구소에서 정의한 고유모델의 RISC형 32비트 CPU이다. HACAM(HArp CAche and Mmu)은 HARP의 캐쉬 메모리 및 MMU(Memory Management Unit)를 custom IC로 구현한 VLSI 칩이다. 본 논문에서는 HACAM의 구조 설계에 대해 메모리 구조 및 메모리 관리 방식, 캐쉬 메모리 및 HACAM의 구성 등으로 나누어 설명하고 그 타당성을 논하였다.
PDF

부분 압축 명령어를 위한 캐쉬 구조의 설계 및 평가 (Design and Evaluation of Cache Structure for Semi-packed Instruction)

홍원기;이승엽;김신덕
- 한국정보과학회논문지:시스템및이론
- /
- 제28권5호
- /
- pp.245-258
- /
- 2001
VLIW에서는 프로그램 코드를 병렬화 하는 작업이 모두 컴파일러에 의해서만 이루어진다. 따라서 병렬로 수행될 연산어들을 명시적으로 나타내 주어야 하며, 이를 위한 명령어 인코딩 방식으로 전개 인코딩 방식과 압축 인코딩 방식이 사용되어 왔다. 각 인코딩 방식들은 명령어의 적재 및 검색을 위해 서로 다른 캐쉬 구조를 필요로 하는데, 전개 인코딩 방식으로 비압축 캐쉬를 압축 인코딩 방식으로 압축 캐쉬를 사용하고 있다. 그러나 이들은 각각 무효 연산어로 인한 메모리 활용 효율 저하와 복원 과정으로 인한 명령어 인출 오버헤드의 증가라는 문제점을 안고 있다. 본 논문에서는 부분적으로 명령어 길이를 일정하게 유지하는 부분 압축 인코딩을 사용해 메모리 활용 효율을 높이는 동시에 명령어 인출 오버헤드를 줄일 수 있는 분할 캐쉬 구조를 제안한다. 각 캐쉬 구조를 구현하는데 필요한 칩 영역을 계산하여, 분할 캐쉬가 비교적 비용 효율적인 캐쉬 구조임을 확인하였다. 모의 실험을 통한 메모리 활용 효율 측정 결과 하드웨어 비용의 증가를 고려하더라도 분할 캐쉬는 비압축 캐쉬에 비해 최고 약 3배의 메모리 활용 효율을 얻을 수 있었다. 각 캐쉬 구조를 일차 캐쉬로 하는 VLIW 시스템들의 성능 측정 결과는 TCSC(블록 집중형 분할 캐쉬)를 사용한 시스템이 비용 대비 성능 면에서 가장 우수한 것으로 나타났다.
PDF

캐쉬 구조의 메모리 공유 패턴 예측기 설계 (The Design of Memory Sharing Pattern Predictors with Cache Structure)

박소연;손영철;신규환;맹승렬;이준원;조정완
- 한국정보과학회:학술대회논문집
- /
- 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (A)
- /
- pp.639-641
- /
- 2000
캐쉬를 사용하는 분산 공유 메모리 시스템에서는 캐쉬들 사이의 일관성 유지를 위한 지연 시간이 성능에 큰 영향을 미친다. 최근에는 각 공유 메모리의 일반적인 접근 패턴을 학습하여 일관성 유지의 예측적 수행을 가능하게 하는 메모리 공유 패턴 예측기가 연구되고 있다. 기존의 메모리 공유 패턴 예측기는 패턴 정보를 저장하기 위해서 모든 메모리 블락마다 예측 테이블들을 할당하지만 실제로 성능 향상에 도움을 주는 테이블들은 소수에 불과하다. 본 논문에서는 적은 양의 패턴 저장 공간을 사용하면서 기존의 예측기와 유사한 성능을 낼 수 있는 캐쉬 구조의 메모리 공유 패턴 예측기를 제안한다, 제안된 예측기에서는 좋은 성능을 내는 예측 테이블들을 선택적으로 저장하게 하는 효율적인 테이블 교체 기법이 요구된다. 본 논문에서는 LRU 교체 기법을 캐쉬 구조의 예측기에 적용시켰을 때의 문제점을 분석하고 제안된 예측기의 특성에 적합한 테이블 교체 기법을 제안한다.
PDF

내장형 시스템을 위한 저전력 2-레벨 캐쉬 메모리의 설계 (Low-Power 2-level Cache Architectures for Embedded System)

이종민;김순태;김경아;박수호;김용호
- 한국정보처리학회:학술대회논문집
- /
- 한국정보처리학회 2008년도 추계학술발표대회
- /
- pp.806-809
- /
- 2008
온칩(on-chip) 캐쉬는 외부 메모리로의 접근을 감소시키는 중요한 역할을 한다. 본 연구에서는 내장형 시스템에 맞추어 설계된 2-레벨 캐쉬 메모리 구조를 제안하고자 한다. 레벨1(L1) 캐쉬의 구성으로 작은 크기, 직접사상(direct-mapped) 그리고 바로쓰기(write-through)를 채용한다. 대조적으로 레벨2(L2) 캐쉬는 일반적인 캐쉬 크기와 집합연관(Set-associativity) 그리고 나중쓰기(write-back) 정책을 채용한다. 결과적으로 L1캐쉬는 한 사이클 이내에 접근될 수 있고 L2캐쉬는 전체 캐쉬의 미스율(global miss rate)을 낮추는데 효과적이다. 두 캐쉬 계층간 바로쓰기(write-thorough) 정책에서 오는 빈번한 L2 캐쉬 접근으로 인한 에너지 소비를 줄이기 위해 본 연구에서는 One-way 접근 기법을 제안하였다. 본 연구에서 제안한 2-레벨 캐쉬 메모리 구조는 평균적으로 26%의 성능향상과 43%의 에너지 소비 그리고 77%의 에너지-지연 곱에서 이득을 보여주었다.
https://doi.org/10.3745/PKIPS.y2008m011a.806 인용 PDF

프로세서 지역성에 기반 한 원격 캐시 교체 정책 (Remote Cache Replacement Policy based on Processor Locality)

한상윤;곽종옥;전주식
- 한국정보과학회:학술대회논문집
- /
- 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (1)
- /
- pp.4-6
- /
- 2004
본 논문에서는 원격 캐쉬를 추가시킨 분산 메모리 구조 다중 프로세서 시스템의 성능 향상을 위해 새로운 원격 캐쉬 교체 정색을 제안한다. 일반적으로 다중 계층 내포성(MLI)을 치키는 다중 계층 메모리 구조에서 LRU 교체 정책을 사용할 경우, 상위 계층 캐쉬의 LRU 정보와 하위 계층 캐쉬의 LRU 정보가 서로 상이함으로 인해 하위 계층 캐쉬에서의 교체가 상위 계층에서 사용 중인 캐처 라인의 교체를 발생시켜 전체 시스템의 성능을 저하시키는 원인이 된다. 이러한 LRU 캐쉬 교체 정책의 단점을 보완하고자 각 노드 당 프로세서들의 원격 메모리 접근 지역성을 이용한 원격 캐쉬 교체정책의 사용으로 상위 캐쉬의 유용한 캐쉬 라인의 접근 실패율을 감소시킴으로써 다중 프로세서 시스템의 성능 향상을 꾀한다. 프로그램 기반 시뮬레이터를 통해 제안한 원격 캐쉬 교체 정책을 적용하였을 때, 기존의 LRU 교체 정책과 비교하여 무효화 수와 캐쉬 접근 실패가 평균 5%. 최대 10% 감소하였다.
PDF

3차원 그래픽 가속기의 지연 감소를 위한 개선된 래스터라이져 및 캐쉬 메모리 구조 제안 및 실험 (The Advanced Rasterizer and Cache Memory Architecture for Latency Reduction Of 3D GPU)

박진홍;김일산;박우찬;한탁돈
- 한국정보과학회:학술대회논문집
- /
- 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (A)
- /
- pp.727-729
- /
- 2005
현재 3차원 그래픽 가속기에서 성능 향상에 대한 문제점으로 대두되고 있는 것은 실제 화면에 그려지는 정보가 저장되는 프레임버퍼에 대한 접근 지연이다. 따라서 본 논문은 기존 픽셀 캐쉬가 포함된 래스터라이져 구조에서 캐쉬 읽기 접근 실패 시 발생하는 패널티와 이에 따른 프레임버퍼에 대한 지연이 발생하는 문제점을 개선하고자, 기존 래스터라이져를 래스터라이져와 합성기로 구분하고 그 사이에 캐쉬 읽기 접근 실패 시 프레임 버퍼에서 정보를 읽어오지 않는 깊이 캐쉬와 색상 캐쉬가 쌍을 이룬 픽셀 캐쉬 메모리 시스템으로 구성된 개선된 3차원 그래픽 가속기 구조을 제안하고 실험을 수행하였다. 실험 결과 제안하는 3차원 그래픽 가속기 구조가 기존 구조에 비해 캐쉬 접근 실패율이 약 $23\%$ 감소하였으며, 평균 메모리 접근 사이클이 $10\%-13\%$ 감소하였으며 이는 상당수의 프레임버퍼에 대한 접근 지연을 감소시킨 것이다. 합성기와 메모리 간의 대역폭은 약 $10\%$ 증가하지만 파이프라인의 작업에는 영향을 미치지는 않는다.
PDF

고성능 DSP에서 동영상 인코더의 최적화 구현을 위한 캐쉬 및 내부 메모리 성능 분석 (Performance Analysis of Cache and Internal Memory of a High Performance DSP for an Optimal Implementation of Motion Picture Encoder)

임세훈;정선태
- 한국콘텐츠학회논문지
- /
- 제8권5호
- /
- pp.72-81
- /
- 2008
고성능 DSP는 보통 캐쉬와 내부 메모리를 지원한다. 이러한 고성능 DSP에 멀티미디어 스트림 응용을 최적화하여 구현하고자 하는 경우에는, DSP 가 지원하는 캐쉬와 내부 메모리를 효율적으로 잘 활용하여야 한다. 본 논문에서는 2단계 레벨 캐쉬 구조 및 내부 메모리 구성을 지원하는 고성능 DSP인 TMS320C6000 시리즈에 대해 동영상 인코더와 같은 멀티미디어 스트림 처리 응용을 최적으로 구현하기 위해서 필요한 캐쉬 성능 분석, 내부 메모리 구성 및 배치에 따른 성능 분석과 개선 방안에 대해 연구하였다. 분석 및 실험 결과, L2 메모리의 경우, 이중 집합연관 캐쉬로 구성하고, 남은 메모리는 내부 메모리로 구성하는 것이 수행 시간 성능 개선에 효과적임을 확인하였다. 또한, L1P 캐쉬의 경우는 자주 호출되고 시간이 많이 소요되는 루틴들을 연속적으로 내부 메모리에 배치하는 것이 L1P 캐쉬의 히트 율을 개선하며, L1D 캐쉬의 경우는 사용하는 데이터의 크기를 조절하므로 써 쉽게 히트 율을 개선할 수 있다는 것을 밝혔다. 본 논문의 연구 결과는 고성능 DSP 에 멀티미디어 스트림 처리 응용을 최적화로 구현하는데 도움을 줄 것으로 기대한다.
https://doi.org/10.5392/JKCA.2008.8.5.072 인용 PDF

검색결과 176건 처리시간 0.024초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)