통합 검색 | Korea Science

NUMA 시스템에서 소유권에 근거한 원격 캐시 교체 정책 (Keeping-ownership Cache Replacement Policies for Remote Access Caches of NUMA System)

신숭현;곽종욱;장성태;전주식
- 한국정보과학회논문지:시스템및이론
- /
- 제31권8호
- /
- pp.473-486
- /
- 2004
NUMA 시스템은 원격의 메모리에 반복적으로 접근하는 오버헤드를 피하기 위해 지역 노드내에 원격 캐시를 둔다. 이러한 원격 캐시를 사용하여 원격 메모리로의 접근 지연 시간을 감소시키고 네트워크 상의 트래픽 양을 줄이지 못한다면 다중 프로세서 시스템의 성능 저하는 명백하다. 성능 상의 여러 기준 중에서 메모리 시스템과 관련해서는 캐시 교체 정책에 관한 연구가 계속되었고, 그 중 다중 프로세서 시스템에서의 캐시 교체 정책에 관한 연구도 이어졌다. 본 논문에서는 캐시의 공유 상태에 기반을 둔 교체 정책을 제안한다. 소유권이 없는 캐시 라인을 먼저 교체하고, 이를 통해 소유권이 옮겨지는 오버헤드를 피하여 메모리 지연 시간을 줄인다. 또한 소유권이 없는 캐시 라인에 지나친 피해가 얼도록, “MRU를 사용한 소유권 유지 교체 정책(KOM)”과 “참조 비트를 사용한 소유권 유지 교체 정책(KORB)”를 제안하고, 이를 LRU, Pseudo LRU(PLRU)와 비교한다. KOM과 KORB는 PLRU에 비하여 수행 시간에서 25%, 13%씩 각각 향상을 보였다. 특히 KOM은 하드웨어 복잡도가 현저히 낮음에도 불구하고 LRU에 가까운 성능을 나타냈다.
PDF KSCI

단방향 이중연결 CC-NUMA 시스템의 동적 부하 대응 경로 설정 기법 (Load Balancing of Unidirectional Dual-link CC-NUMA System Using Dynamic Routing Method)

서효중
- 정보처리학회논문지A
- /
- 제12A권6호
- /
- pp.557-562
- /
- 2005
높은 클럭으로 동작하는 고속의 프로세서를 다수 이용한 다중프로세서 시스템 성능은 프로세서 자체의 성능보다 상호연결망의 트랜잭션 처리 능력 및 지연에 의하여 큰 영향을 받게 된다. 따라서 상호연결망의 성능은 대역폭 및 지연시간 측면으로 시스템 성능에 큰 비중을 차지한다. 단방향 이중 연결을 이용한 CC-NUMA 구조는 이중 연결을 이용한 대역폭 증가효과와 고속 단방향 링크를 이용한 적은 지연시간으로 인하석 고성능 시스템에서 많이 채용되고 있다. 한편, 이중 연결구조로 인하여 시스템의 상호연결망의 최단 경로는 단일하게 형성되지 않으며, 여러 개의 최단 경로가 구성될 수 있다. 그러나 실제 응용프로그램을 수행할 때, 동일한 홉 수를 나타내는 경로일지라 하더라도 각 연결 링크의 부하 및 경쟁에 따른 지연 시간의 차이를 나타내게 되며, 만일 노드간의 트랜잭션 전달 경로가 정적으로 구성되어 있을 경우, 실제 프로그램의 수행에서 균일하지 못한 연결 링크 부하에 따른 지연 시간의 차이가 나타날 수 있음을 의미한다. 이는 곧 고속의 상호연결망 전체의 대역폭을 균일하게 사용하지 못함으로 나타나는 부가적 지연 시간으로 볼 수 있으며, 이로 인한 응용 프로그램의 수행 성능이 저하될 수 있음을 의미한다. 본 논문은 기존 연구된 단방향 이중 연결을 이용한 CC-NUMA 시스템에서, 노드간 트랜잭션 전달 경로가 정 적으로 구성될 경 우 발생될 수 있는 성능 저하를 평가하고, 정적 경로와 동일한 홉 수의 경로를 나타내며 링크 부하에 따라서 동적으로 전달되도록 부하에 따르는 동적 경로 설정 방법을 제시하였다. 논문에서 제시하는 방법은 기존 경로설정 방법에 대하여 동일한 홉 수를 나타내며, 링크 부하에 따라서 동적으로 경로를 설정함으로써 실시간 경로 분배가 자연스럽게 이루어지도록 하였고, 링크 경쟁을 완화함으로써 보다 균일한 링크 사용을 나타냈고, 링크 획득 실패로 인한 지 연시간을 감소시켰다. 프로그램 구동 시뮬레이션을 통한 성능 검증 결과, 논문에서 제시한 동적경로 설정 방법은 기존 정적 경로 설정 방법에 비해 링크점유시간 편차가 $1{\~}10\%$ 낮게 나타났고, 링크의 획득 실패 횟수가 ${\~}3\%$ 감소하였으며, 그 결과 $1{\~}6\%$의 수행 시간 감소를 나타냈다.
https://doi.org/10.3745/KIPSTA.2005.12A.6.557 인용 PDF KSCI

병렬컴퓨터 구조가 업무에 미치는 영향

한국데이터베이스진흥센터
- 디지털콘텐츠
- /
- 10호통권65호
- /
- pp.89-97
- /
- 1998
본 기사에서는 현재 시장을 지배하는 세 종류의 병렬 컴퓨터 구조들, 즉 대칭 멀티 프로세서 구조(SMP), 클러스터 구조, 그리고 ccNUMA 구조(NUMA로 더 잘 알려져 있음)에 대한 오해에 관해 이야기하고자 한다. 각각의 구조들이 가진 특성들이 OLTP환경, 의사 결정 지원 작업 부하량, 고효용성, 그리고 시스템 관리 측면에 어떠한 영향을 끼치는가 하는 문제에 토론의 초점을 맞추고자 한다.
PDF

NUMA 다중처리기에서 조정가능한 지연 카운터를 이용한 페이집 복사 기법 (Page replication mechanism using adjustable DELAY counter in NUMA multiprocessors)

이종우;조유곤
- 전자공학회논문지B
- /
- 제33B권6호
- /
- pp.23-33
- /
- 1996
NUMA(Non-Uniform Memory Access)구조의 공유 메모리 다중처리기 시스템에서 참조 국지성의 활용은 병렬 처리의 성능에 큰 영항을 미친다. 본 논문에서는 운영체제가 참조 국지성을 관리하는데 도움을 주기위한 개선된 하드웨어 메모리 참조 카운터를 제시한다. 제신된 참조 카운터 방식에서는 기존의 참조 카운터들과는 달리 운영체제의 페이지 복사 정책을 다양한 메모리 참조 패턴에 적응시키기 위해 카운터의 값이 동적으로 그리고 주기적으로 조정된다. 우리는 실제 병렬 응용 프로그램들을 사용한 실행 구동형 시뮬레이션을 통해 제시된 "조정가능한 지연 카운터"가 이들의 성능에 미치는 영향을 평가하였다. 이 성능평가를 통해 '조정가능한 자연 카운터"를 이용한 메모리 복사 정책이 기존의 카운터를 이용한 정책보다 나은 성능을 보인다는 것과 시뮬레이션에 사용된 대부분의 병렬 응용 프로그램에 대해 고른 성능을 나타낸다는 것을 확인하였다.
PDF

비균등 메모리 접근 구조에서의 효율적인 그룹화 집단 연산의 처리 (Efficient Processing of Grouped Aggregation on Non-Uniformed Memory Access Architecture)

최성준;민준기
- 데이타베이스연구회지:데이타베이스연구
- /
- 제34권3호
- /
- pp.14-27
- /
- 2018
최근, 대칭형 다중 처리 (SMP: Symmetric Multiprocessing) 구조에서 발생하는 메모리 병목 현상을 보완하기 위하여 비균등 메모리 접근 구조 (NUMA: Non-Uniform Memory Access) 구조가 제시되었다. 또한, 집단 연산자는 데이터의 특성 및 요약 정보를 제공하는 주요 연산자로써, 집단 연산자의 효율성은 전체 시스템의 성능에 매우 큰 영향을 미친다. 따라서, 본 논문에서는 NUMA 구조에서 효율적으로 집단 연산을 처리할 수 있는 기법을 제안한다. 제안 기법은 분할 단계와 합병 단계로 구성되며, 분할 단계에서 그룹 속성에 따라서 대상 릴레이션을 부분 릴레이션들로 분할한다. 따라서, 각 쓰레드가 독립적으로 부분 릴레이션에 대하여 집단 연산을 수행할 수 있으므로 합병 단계에서 원격 메모리 접속이 발생하지 않도록 하였다. 또한, 합병 단계에서는 각 쓰레드가 지역 해시 테이블을 이용하여 집단 연산을 수행하도록 하고 쓰레드들이 생성한 집단 연산 결과들을 하나로 병합하는데 잠금 경쟁이 발생하지 않도록 하여 처리 성능을 향상하였다.

Simulation-based Design Verification for High-performance Computing System

Jeong Taikyeong T.
- 한국멀티미디어학회논문지
- /
- 제8권12호
- /
- pp.1605-1612
- /
- 2005
This paper presents the knowledge and experience we obtained by employing multiprocessor systems as a computer simulation design verification to study high-performance computing system. This paper also describes a case study of symmetric multiprocessors (SMP) kernel on a 32 CPUs CC-NUMA architecture using an actual architecture. A small group of CPUs of CC-NUMA, high-performance computer system, is clustered into a processing node or cluster. By simulating the system design verification tools; we discussed SMP OS kernel on a CC-NUMA multiprocessor architecture performance which is $32\%$ of the total execution time and remote memory access latency is occupied $43\%$ of the OS time. In this paper, we demonstrated our simulation results for multiprocessor, high-performance computing system performance, using simulation-based design verification.
PDF

리피터 노드를 장착한 이중 링 CC-NUMA 시스템 (Dual Ring CC-NUMA System using Repeater Node)

경진미;김인석;김봉준;장성태
- 한국정보과학회:학술대회논문집
- /
- 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (1)
- /
- pp.697-699
- /
- 2002
CC-NUMA 구조에서는 원격 메모리에 대한 접근이 불가피한 구조적인 특성 때문에 사호 연결망이 성능을 좌우하는 큰 변수로 작용한다. 기존에 사용되는 버스는 대역폭의 한계와 물리적 확장성 때문에 대규모의 시스템에는 적합하지 않다. 이를 대체하는 고속의 지점간 링크를 도입한 이중 링 구조는 이러한 버스의 한계를 극복하고는 있지만 많은 노드를 거쳐야 하는 문제로 인해 응답 지연 시간이 증가하는 단점을 안고 있다. 본 논문에서는 요청과 응답 패킷의 지연 시간을 줄이는 방안으로 리피터 노드를 이용한 다중링을 제안한다. 제안된 시스템은 링과 링 사이의 구조가 대칭형을 이루고 있어 요청을 내보내는 링을 제외한 다른 링의 hop수는 똑같은 수치를 갖고 있으며, 이중 링에 비해 최대의 hop수와 최소의 hop수의 차가 적고 평균 hop수 또한 적어 좋은 성능을 보인다. 본 논문에서는 또한 이러한 구조를 유지하기 위한 리피터 노드의 구조를 제안하며 리피터 노드의 구조와 노드의 확장에 따른 다양한 성능을 확률 구동 시뮬레이터를 사용하여 평가를 수행한다.
PDF

Providing scalable single-operating-system NUMA abstraction of physically discrete resources

Baik Song An;Myung Hoon Cha;Sang-Min Lee;Won Hyuk Yang;Hong Yeon Kim
- ETRI Journal
- /
- 제46권3호
- /
- pp.501-512
- /
- 2024
With an explosive increase of data produced annually, researchers have been attempting to develop solutions for systems that can effectively handle large amounts of data. Single-operating-system (OS) non-uniform memory access (NUMA) abstraction technology is an important technology that ensures the compatibility of single-node programming interfaces across multiple nodes owing to its higher cost efficiency compared with scale-up systems. However, existing technologies have not been successful in optimizing user performance. In this paper, we introduce a single-OS NUMA abstraction technology that ensures full compatibility with the existing OS while improving the performance at both hypervisor and guest levels. Benchmark results show that the proposed technique can improve performance by up to 4.74× on average in terms of execution time compared with the existing state-of-the-art opensource technology.
https://doi.org/10.4218/etrij.2023-0056 인용 PDF

상용 작업부하를 이용한 다중프로세서 컴퓨터 시스템 성능 평가 (Performance Evaluation for a Multiprocessor Computer System Using a Commercial Workload)

박진원
- 한국시뮬레이션학회논문지
- /
- 제8권1호
- /
- pp.35-49
- /
- 1999
The CC-NUMA based, distributed shared memory is an emerging architecture for multiprocessor computer systems because of its scalability and easy of programming. In this paper, we analyzed performance of a ring-based, CC-NUMA multiprocessor computer system using a commercial workload targeted for popular OLTP applications. Based on the traces collected from real machines, the characteristics of the commercial workload could be obtained. The simulation results showed that the bottleneck on the ring could be effectively removed by using a dual ring structure. We believe our simulation methodology and results will help us to design better multiprocessor computer systems for commercial application domains.
PDF

CC-NUMA 시스템에서의 동기화 기법에 대한 성능 비교 (Performance Comparison of Synchronization Methods for CC-NUMA Systems)

문의선;장성태;전주식
- 한국정보과학회논문지:시스템및이론
- /
- 제27권4호
- /
- pp.394-400
- /
- 2000
동기화는 병렬 프로그램의 수행이 정확하게 이루어지도록 하기 위해 공유 데이타나 프로그램상의 임계구간(critical section)에 대해 배타적인 수행을 보장하는 것을 목적으로 한다. 배타적인 프로그램의 수행은 병렬 프로그램의 병렬성을 제한하므로 효율적인 동기화는 높은 성능의 병렬 프로그램 수행을 위해 반드시 필요하다. 이런 필요에 의해 응용 프로그램이나 시스템의 특성을 이용하여 동기화의 성능을 높이는 기법들이 고안되었다. 본 논문에서는 모의실험을 통해 캐시에 기반을 둔 NUMA(Non-Uniform Memory Access) 시스템에서 나타나는 기존 동기화의 비효율성을 분석하여 제시하고, 이 비효율성을 제거할 수 있는 Freeze&Melt 동기화 기법과의 성능을 비교한다. 제시된 결과를 통해 Test-and-Test&Set 동기화는 동기화 과정에서 발생하는 방송(broadcast) 작업에 의해 비효율이 발생하고, QOLB(Queue-On-Lock-Bit) 동기화는 공유 데이타나 임계구간을 수행할 프로세서의 순서가 미리 정해져 있다는 점에 의해 비효율이 발생함을 확인할 수 있다. 이와 같은 단점들을 극복하고자 제안된 Freeze&Melt 동기화를 이용하여 임계구간을 수행하기까지 대기하는 시간과 임계구간을 수행하는 시간을 줄이고, 클러스터간의 통신량(traffic)을 감소시킴으로써 성능의 향상을 이룰 수 있다.
PDF

검색결과 50건 처리시간 0.021초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)