• 제목/요약/키워드: Cache coherence protocol

검색결과 23건 처리시간 0.04초

SMV를 이용한 RACE 프로토콜의 정형 검증 및 테스팅 (Formal Verification and Testing of RACE Protocol Using SMV)

  • 남원홍;최진영;한우종
    • 전자공학회논문지CI
    • /
    • 제39권3호
    • /
    • pp.1-17
    • /
    • 2002
  • 본 논문은 심볼릭 모델 체커 SMV(Symbolic Model Verifier)를 이용하여, 한국전자통신연구원 (Electronics and Communications Research Institute)에서 개발한 캐쉬 일관성 프로토콜인 RACE(Remote Access Cache coherency Enforcement) 프로토콜의 몇 가지 특성(property)들을 검증함으로써, RACE 프로토콜이 중요 요구사항(requirement)들을 만족함을 보인다. 본 검증에서는 RACE 프로토콜의 모델을 SMV 입력 언어로 명세하며, 검증할 특성들을 CTL(Computational Tree Logic)을 이용하여 나타낸다. 본 검증을 통해서 RACE 프로토콜은 4개의 노드로 구성된 시스템에서 비정상적인 state/input 조합이 발생하지 않으며, liveness와 safety를 만족한다는 것을 검증하였다. 또한, 프로토콜 개발자들이 예상하지 못한 명세서 상의 모호성(ambiguity) 및 기아현상(starvation)을 발견하였으며, 본 검증 사례를 통하여 모델 체킹 기법이 하드웨어 프로토콜 검증에 효과적으로 이용될 수 있다는 것을 제안한다. 그리고, 검증시에 구현된 모델을 이용하여 시뮬레이션 및 테스팅에 유용하게 사용될 수 있는 테스트 케이스를 자동적으로 생성할 수 있는 새로운 방법을 제안한다.

단일 공유 메모리를 가지는 다중 프로세서 시스템의 원격 캐시 일관성 유지 프로토콜 (A Remote Cache Coherence Protocol for Single Shared Memory in Multiprocessor System)

  • 김성운;김보관
    • 전자공학회논문지CI
    • /
    • 제42권6호
    • /
    • pp.19-28
    • /
    • 2005
  • 다중 프로세서 구조는 컴퓨터 성능을 향상시키기 위한 좋은 방법이다. 물리적으로 분산된 메모리를 단일 공유 메모리 공간으로 제공하는 CC-NUMA(Cache Coherent Non-Uniform Memory Access) 시스템은 다중 프로세서 컴퓨터 시스템으로 널리 사용된다. CC-NUMA는 공유 메모리 지원을 위해 풀맵 디렉토리를 가지며, 빠른 원격 메모리 접근을 위해 원격 캐시 메모리를 사용한다. 본 논문은 CC-NUMA 시스템을 구성할 수 있는 프로세싱 노드 구조와 이러한 구조에 적합한 캐시 일관성 유지 프로토콜을 제안하여, 대량의 프로세서를 이용한 다중 프로세서 시스템의 구성을 용이하게 한다. 끝으로 제안된 프로토콜에 따른 시스템 구현 결과도 제시한다.

링 연결구조 기반의 멀티코어 프로세서를 위한 캐시 일관성 유지 기법 (An Efficient Cache Coherence Protocol for Multi-Core Processors with Ring Interconnects)

  • 박진영;최린
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제14권8호
    • /
    • pp.768-772
    • /
    • 2008
  • SOC 기술의 발전과 더불어 최근 여러 개의 프로세서를 단일 칩에 집적한 멀티코어 프로세서가 기존 슈퍼스칼라 프로세서 구조에 비하여 보다 에너지 효율적으로 성능을 증가시키는 방안으로 채택되고 있다. 이에 온 칩 프로세서간 캐시 일관성 유지 문제가 시스템의 안정성과 성능에 큰 영향을 미치는 요소로 부각되고 있다. 본 논문에서는 단 방향 링 연결구조의 노드 순서와 데이타 전달 순서를 이용하여 캐시 일관성 유지 요청의 순서를 결정하는 RING-DATA ORDER를 제안하여 기존 GREEDY-ORDER 방식의 단점인 재 요청을 최소화하고 RING-ORDER의 단점인 토큰 관리의 부담을 없애면서 두 방식의 장점을 모두 가지는 캐시 일관성 유지 기법을 제안한다. RING-DATA ORDER는 기존의 공용 버스에 집중되는 일관성 유지 요청을 단 방향 링을 이용하여 각 노드에 골고루 배분함으로써 유효 대역폭을 높이고 데이타 전송 순서에 기반하여 간단하게 처리 순서를 결정할 수 있으므로 멀티코어에 쉽게 적용 가능한 캐시 일관성 유지 기법이다.

슬롯링으로 연결된 다중처리기 시스템에서 최적화된 캐쉬일관성 프로토콜 (An Optimized Cache Coherence Protocol in Multiprocessor System Connected by Slotted Ring)

  • 민준식;장태무
    • 한국정보처리학회논문지
    • /
    • 제7권12호
    • /
    • pp.3964-3975
    • /
    • 2000
  • 다중처리기 시스템에서 여러 처리기 캐쉬들 간에 일고나성을 유지하기 위한 정책에는 기록무효화 정책과 기록갱신 정책이 있다. 기록 무효와 정책은 처리기사 캐쉬 블록에 기록을 시도할 때마다 다른 캐쉬에 저장된 동일한 모든 복사본을 무효화한다. 이러한 빈번한 무효화로 인하여, 기록 무효화 정책은 캐쉬 적중률이 낮다. 반면에 기록 갱신정책은 동일한 블록을 무효화 시키는 것이 아니라 동시에 갱신하는 정책이다. 이러한 정책의 경우에 블록의 공유 여부에 상관없이 갱신된 내용을 상호 연결망ㅇ르 통하여 전송해야만 하며 이로 인하여 상호 연결망상에 교통량이 폭주하게 된다. 본 논문에서는 슬롯링으로 연결된 공유메모리 다중처리기 시스템에서 효율적인 캐쉬 일관성 정책을 제안한다. 제안된 프로오콜은 기록 갱신정책을 기반으로 하며 공유된 블록을 갱신할 경우에만 갱신된 내용을 전송한다. 반면 갱신된 블록이 공유되지 않은 블록이면 갱신된 내용을 전송하지 않는다. 본 논문에서는 제안된 프로토콜은 분석하고 시뮬레이션을 통하여 기존의 프로토콜과 성능을 비교한다.

  • PDF

분산공유 메모리 시스템을 위한 동적 제한 디렉터리 기법 (Dynamic Limited Directory Scheme for Distributed Shared Memory Systems)

  • 이동광;권혁성;최성민;안병철
    • 한국정보처리학회논문지
    • /
    • 제6권4호
    • /
    • pp.1098-1105
    • /
    • 1999
  • 분산 공유 메모리(distributed shared memory) 시스템에서 캐쉬는 메모리 접근 지연과 통신 부하 줄임으로 성능을 향상시킬 수 있으나 캐쉬일관성 문제를 해결하여야 한다. 본 논문은 DSM 시스템에서 캐쉬일관성 문제를 해결하고 성능을 향상시킬 수 있는 새 디렉터리 프로토콜을 제안한다. 캐시 일관성을 유지하기 일정거리 이내에 있는 처리기는 전체 디렉터리 기법처럼 비트 벡터를 사용하여 통신 오버헤드를 줄일 수 있다. 그리고 일정거리 이상에 있는 처리기는 포인터를 디렉터리 풀에 저장한다. 이 비트 벡터와 디렉터리 풀의 사용은 불필요한 캐쉬 무효화를 방지하므로 시스템의 성능을 향상시킬 수 있다. 제안한 기법은 제한 디렉터리 기법보다 통행량을 66%까지 줄일 수 있으며 동적할당 디렉터리 기법보다 디렉터리 접근 회수도 27%까지 각각 줄일 수 있다.

  • PDF

Eager Data Transfer Mechanism for Reducing Communication Latency in User-Level Network Protocols

  • Won, Chul-Ho;Lee, Ben;Park, Kyoung;Kim, Myung-Joon
    • Journal of Information Processing Systems
    • /
    • 제4권4호
    • /
    • pp.133-144
    • /
    • 2008
  • Clusters have become a popular alternative for building high-performance parallel computing systems. Today's high-performance system area network (SAN) protocols such as VIA and IBA significantly reduce user-to-user communication latency by implementing protocol stacks outside of operating system kernel. However, emerging parallel applications require a significant improvement in communication latency. Since the time required for transferring data between host memory and network interface (NI) make up a large portion of overall communication latency, the reduction of data transfer time is crucial for achieving low-latency communication. In this paper, Eager Data Transfer (EDT) mechanism is proposed to reduce the time for data transfers between the host and network interface. The EDT employs cache coherence interface hardware to directly transfer data between the host and NI. An EDT-based network interface was modeled and simulated on the Linux-based, complete system simulation environment, Linux/SimOS. Our simulation results show that the EDT approach significantly reduces the data transfer time compared to DMA-based approaches. The EDTbased NI attains 17% to 38% reduction in user-to-user message time compared to the cache-coherent DMA-based NIs for a range of message sizes (64 bytes${\sim}$4 Kbytes) in a SAN environment.

스누핑 프로토콜을 사용하는 NUMA 시스템의 계층적 링 구조로의 확장 (Hierarchical Ring Extension of NUMA Systems using Snooping Protocol)

  • 성현중;김형호;장성태;전주식
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제26권11호
    • /
    • pp.1305-1317
    • /
    • 1999
  • NUMA 구조는 원격 메모리에 대한 접근이 불가피한 구조적 특성 때문에 상호 연결망이 성능을 좌우하는 큰 변수가 된다. 기존에 대중적으로 사용되던 버스는 물리적 확장성 및 대역폭에서 대규모 시스템을 구성하는 데 한계를 보인다. 이를 대체하는 고속의 지점간 링크를 사용한 링 구조는 버스가 가지는 확장성 및 대역폭의 한계라는 단점을 개선하였으나, 많은 클러스터가 연결되는 경우에는 전송 지연시간이 증가하는 문제점을 가지고 있다. 본 논문에서는 스누핑 프로토콜이 적용된 링 구조에서 클러스터 개수 증가에 따른 지연시간 증가의 문제점을 보완하기 위해 계층적 링 구조로의 확장을 제안하고, 이 구조에 효과적인 캐쉬 일관성 프로토콜을 설계하였다. 전역 링과 지역 링을 연결하는 브리지는 캐쉬 프로토콜을 관리하며 이 프로토콜에 의해 지역 링의 부하를 줄일 수 있도록 트랜잭션을 필터링하는 역할도 담당함으로써 시스템의 성능을 향상시킨다. probability-driven 시뮬레이터를 통해 계층적 링 구조가 시스템의 성능 및 링 이용률에 미치는 영향을 알아본다. Abstract Since NUMA architecture has to access remote memory, interconnection network performance determines performance of NUMA architecture. Bus, which has been used as popular interconnection network of NUMA, has a limit to build a large-scale system because of limited physical scalability and bandwidth. Ring interconnection network, composed of high-speed point-to-point link, made up for bus's defects of scalability and bandwidth. But, it also has problem of increasing delay as the number of clusters is increased. In this paper, we propose a hierarchical expansion of snoop-based ring architecture in order to overcome ring's defects of increasing delay. And we also design an efficient cache coherence protocol adopted to this architecture. Bridge, which connects local ring and global ring, maintains cache coherence protocol and does snoop-filtering which reduces local ring and cluster bus utilization. Therefore bridge can improve performance of this system. We analyze effects of hierarchical architecture on the performance of system and utilization of point-to-point links using probability-driven simulator.

MPSoC 플랫폼의 버스 에너지 절감을 위한 버스 분할 기법 (Bus Splitting Techniques for MPSoC to Reduce Bus Energy)

  • 정준목;김진효;김지홍
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제33권9호
    • /
    • pp.699-708
    • /
    • 2006
  • 버스 분할 기법은 통신이 많은 모듈들을 가까이 배치하고 필요한 버스 단편만 사용함으로 버스 에너지 소비를 줄인다. 그러나 MPSoC와 같은 다중 프로세서 플랫폼에서는 캐시 일관성을 유지하기 위하여 모든 프로세서에서 버스 트랜잭션을 알아야 하므로, 기존의 버스 분할 기법을 적용할 수 없다. 본 논문에서는 공유 메모리 기반의 MPSoC 플랫폼에서 버스 에너지를 절감시키기 위한 버스 분할 기법을 제안한다. 제안된 버스 분할 기법은 비 공유 메모리와 공유 메모리의 버스를 분할함으로써, 캐시 일관성을 유지하며 비 공유 메모리를 참조할 때 소비하는 버스 에너지를 최소화시킨다. 또한, 태스크별 버스 트랜잭션 횟수를 기반하여 태스크를 할당함으로써, 공유 메모리를 참조할 때 소비하는 버스 에너지를 절감시키는 캐시 일관성을 고려한 태스크 할당 기법을 제안한다. 시뮬레이션을 통한 실험에서 제안된 버스 분할 기법은 비 공유 메모리 참조시의 버스 에너지를 최대 83%까지 절감시키며, 태스크 할당 알고리즘은 공유 메모리 참조시의 버스 에너지를 최대 36%까지 절감시키는 효과가 있음을 보여준다. 그럼으로 다중 프로세서 시스템에서도 버스 분할 기법을 적용하여 버스 에너지 절감 효과를 볼 수 있으며, 캐시 일관성을 고려한 태스크 할당 기법을 통해 추가적으로 버스 에너지를 절감할 수 있음을 보여준다.