• 제목/요약/키워드: manycore system

검색결과 11건 처리시간 0.025초

매니코어 운영체제 연구현황 및 계획 (Research Status and Plan for Manycore Operating System)

  • 정성인;김태수;민창우;박성용;변석우;서의성;우균;이경우;이재욱;임성수;임은진;조희승;진현욱
    • 전자통신동향분석
    • /
    • 제32권6호
    • /
    • pp.83-95
    • /
    • 2017
  • The trend of manycore hardware has recently evolved more quickly than expected. However, an operating system, which is software used for managing computer resources, is still optimized for a multicore system. To handle this issue, we started a research project called 'Research on High Performance and Scalable Manycore Operating Systems' in 2014. This article briefly examines the technology trends of manycore hardware and operating systems, and introduces the research areas and outcomes during the first stage of the project(2014-2017). The core technologies improving the performance scalability of manycore systems are publicly available, and anyone can use the source code or apply the ideas of the core technique to other research activities. In addition, the research plans of the second stage of the project(2018-2021) are also included.

유니커널의 동향과 매니코어 시스템에 적용 (Trends in Unikernel and Its Application to Manycore Systems)

  • 차승준;전승협;람 닉;김진미;정연정;정성인
    • 전자통신동향분석
    • /
    • 제33권6호
    • /
    • pp.129-138
    • /
    • 2018
  • As recent applications are requiring more CPUs for their performance, manycore systems have evolved. Since existing operating systems do not provide performance scalability in manycore systems, Azalea, a multi-kernel based system, has been developed for supporting performance scalability. Unikernel is a new operating system technology starting with the concept of a library OS. Applying unikernel to Azalea enables an improvement in performance. In this paper, we first analyze the current technology trends of unikernel, and then discuss the applications and effects of unikernel to Azalea. Azalea-unikernel was built in a single image consisting of libOS, runtime libraries, and an application, and executed with the desired number of cores and memory size in bare-metal. In particular, it supports source and binary compatibility such that existing linux binaries can be rebuilt and executed in Azalea-unikernel, and already built binaries can be run immediately without modification with a better performance. It not only achieves a performance enhancement, it is also a more secure OS for manycore systems.

면적 제약 조건을 고려한 NTC 매니코어 설계 방법론 (Area-constrained NTC Manycore Architecture Design Methodology)

  • 장진규;한태희
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2015년도 추계학술대회
    • /
    • pp.866-869
    • /
    • 2015
  • 시스템-온-칩(system-on-chip, SoC)내에 집적되는 소자의 수가 기하급수적으로 증가함에 따라 에너지 효율을 높이기 위한 전압 스케일링은 필수적인 요소가 되었다. 문턱전압 근처 동작(near-threshold voltage computing, NTC)은 칩 에너지 효율을 10배 가까이 향상시킬 수 있는 기술로서 전통적인 초 문턱전압 동작(super-threshold voltage computing, STC)의 한계를 극복할 수 있을 것으로 기대되고 있다. 저성능 매니코어(manycore) 시스템으로 동작하는 NTC는 에너지 효율을 극대화할 수 있지만 성능 유지를 위한 코어 수의 증가는 상당한 면적 증가를 수반한다. 본 논문에서는 성능, 전력 및 면적 간의 trade-off를 고려하여 면적 제약조건 하에서 NTC 코어 수 및 캐시 및 클러스터 크기 결정 알고리즘을 통해 요구 성능을 만족시키면서 전력 소모를 최적화하는 방법을 제안한다. 실험을 통해 면적 제약조건 속에서 기존의 STC 코어에서의 성능을 유지한 채 전력소모를 약 16.5% 감소시킬 수 있음을 보여준다.

  • PDF

네트워크 성능향상을 위한 시스템 호출 수준 코어 친화도 (System-Call-Level Core Affinity for Improving Network Performance)

  • 엄준용;조중연;진현욱
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권1호
    • /
    • pp.80-84
    • /
    • 2017
  • 기존의 운영체제는 매니코어 시스템에서 코어 수의 증가에 따른 확장성 문제를 보였다. 특히 네트워크 I/O 관점에서 코어가 많아질수록 기존의 운영체제가 가지는 캐시 일관성 비용, lock 오버헤드 등의 문제들은 네트워크 성능을 저하시키는 주된 요인이 된다. 많은 연구들이 마이크로커널과 같은 새로운 운영체제 구조를 제안하거나 커널 수준의 변경을 통해 이러한 문제를 해결하고자 하였다. 그러나 이러한 해결책들은 이미 구현된 수많은 응용을 지원할 수 없다는 단점이 있다. 본 논문에서는 커널이나 응용 수준의 변경 없이 사용자 문맥과 시스템 호출 문맥을 분리시키고 코어 친화도를 적용하여 네트워크 성능을 향상시킬 수 있는 라이브러리를 제안한다. 구현된 시스템은 Apache를 통해 네트워크 처리량을 약 30% 향상시킬 수 있음을 보인다.

Energy-efficient Custom Topology Generation for Link-failure-aware Network-on-chip in Voltage-frequency Island Regime

  • Li, Chang-Lin;Yoo, Jae-Chern;Han, Tae Hee
    • JSTS:Journal of Semiconductor Technology and Science
    • /
    • 제16권6호
    • /
    • pp.832-841
    • /
    • 2016
  • The voltage-frequency island (VFI) design paradigm has strong potential for achieving high energy efficiency in communication centric manycore system-on-chip (SoC) design called network-on-chip (NoC). However, because of the diminished scaling of wire-dimension and supply voltage as well as threshold voltage in modern CMOS technology, the vulnerability to link failure in VFI NoC is becoming a crucial challenge. In this paper, we propose an energy-optimized topology generation technique for VFI NoC to cope with permanent link failures. Based on the energy consumption model, we exploit the on-chip communication traffic patterns and characteristics of link failures in the early design stage to accommodate diverse applications and architectures. Experimental results using a number of multimedia application benchmarks show the effectiveness of the proposed three-step custom topology generation method in terms of energy consumption and latency without any degradation in the fault coverage metric.

다중코어 시스템의 메쉬구조 상호연결망이 성능에 미치는 영향 (The Effect of Mesh Interconnection Network on the Performance of Manycore System.)

  • 김한이;김영환;서태원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 추계학술발표대회
    • /
    • pp.116-119
    • /
    • 2011
  • 다중코어(Many-Core) 시스템은 많은 코어들이 상호연결망을 통해서 연결되어있는 시스템으로, 단일코어나 멀티코어 시스템에 비해 보다 많은 병렬 컴퓨팅 자원을 지원한다. Amdahl 의 법칙에 의하면 병렬화되어 처리하는 부분은 이론적으로 프로세서의 개수에 비례하게 가속화 될 수 있지만, 상호연결망에서의 전송 지연을 비롯한 많은 요인에 의해서 성능의 가속화가 저해된다. 특히 캐시 일관성 규약(Cache Coherence Protocol)을 지원하는 대부분의 다중코어 시스템에서는 병렬화를 함에 있어서 캐시 미스로 인해 발생하는 데이터의 전송 지연이 성능에 많은 영향을 미칠 수 있다. 따라서 효과적인 병렬 프로그램을 위해서는 캐시 구조에 대한 이해를 바탕으로 상호연결망에 대한 연구가 필요하다. 본 논문에서는 메쉬(Mesh) 구조의 64 코어 다중코어 시스템인 TilePro64 를 이용하여 상호연결망의 데이터 전송 지연에 따른 프로그램 성능의 민감도를 측정하였다. 결과적으로 코어간 거리(Hop)가 늘어날수록 작업의 수행시간이 평균적으로 4.27%씩 선형적으로 증가하는 관계가 있는 것으로 나타났다.

병렬 컴퓨팅 시스템에서 LLVM 응용 연구 (Study on LLVM application in Parallel Computing System)

  • 조중석;조두산;김용연
    • 문화기술의 융합
    • /
    • 제5권1호
    • /
    • pp.395-399
    • /
    • 2019
  • 다양한 병렬 컴퓨팅 시스템을 지원하기 위해서는 LLVM IR을 벡터/행렬을 보다 효과적으로 지원할 수 있도록 확장하는 것과 LLVM IR을 machine code로 바꾸어 주는 부분을 새로운 알고리즘으로 설계하여 구현하면 된다. IR 예제에서 보았듯이 기본적으로 RISC 명령어로 구성되어 있기 때문에 RISC 명령어 생성은 자연스럽게 생성되며, 벡터 또한 현재 지원가능한데 행렬 명령어는 지원되지 못하고 있다. 벡터/행렬을 보다 강력하게 지원하기 위한 새로운 IR 구조, 명령어 생성 알고리즘 및 관련 부분의 확장이 필요하다. 이를 위해 LLVM IR의 각 명령어를 (벡터/행렬을 위한) target architecture의 적당한 명령어로 mapping을 해주는 부분 (instruction selection 알고리즘)이 중요하다. LLVM IR 명령어의 의미를 파악하고, target architecture의 각 명령어 의미와 syntax를 비교하여, 패턴이 일치하는 명령어를 선택하여 mapping을 효율적으로 해줘야 한다.

매니코어 CPU 시스템의 병렬 쓰기 성능 향상을 위한 리눅스 커널의 LRU 관리 최적화 기법 (Optimizing LRU Lock Management in the Linux Kernel for Improving Parallel Write Throughout in Many-Core CPU Systems)

  • 변은규;구기범;오광진;방지우
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제12권7호
    • /
    • pp.209-216
    • /
    • 2023
  • 최신 HPC 시스템은 수십 개의 코어를 가진 매니코어 CPU를 탑재하고 있다. 이런 시스템에서 병렬 I/O를 수행할 경우 리눅스 시스템의 LRU락 관리 정책의 문제로 인해 확장성에 한계를 가지고 있음을 확인하였다. 본 연구에서는 이 문제를 해결하기 위한 개선된 FinerLRU를 제안한다. LRU락을 최대 코어 개수만큼 증가시키는 것을 골자로 한 세분화된 Lock 관리를 통해 페이지 기반 버퍼 캐시를 사용하는 파일 시스템의 병렬 쓰기 성능을 향상시키는 것을 목적으로 한다. 리눅스 5.18.11에 제안한 방법을 구현하였으며, 서로 다른 특성을 가진 2종류의 CPU인 Intel Icelake Xeon과 Intel Knights landing에서 성능을 측정하였고 두 종류의 시스템 모두에서 두 배 전후의 성능 향상이 발생함을 확인하였다.

인텔 차세대 매니코어 프로세서에서의 다중 병렬 프로그램 성능 향상기법 연구 (Enhancing the Performance of Multiple Parallel Applications using Heterogeneous Memory on the Intel's Next-Generation Many-core Processor)

  • 노승우;김서영;남덕윤;박근철;김직수
    • 정보과학회 논문지
    • /
    • 제44권9호
    • /
    • pp.878-886
    • /
    • 2017
  • 본 논문에서는 고성능컴퓨팅 분야에서 주로 활용되는 MPI 응용들을 인텔의 차세대 매니코어 프로세서인 Knights Landing(KNL)에서 실행할 때 발생할 수 있는 성능 병목 현상 및 이를 해결하기 위한 효율적인 자원 할당 방법에 대해서 논의하고자 한다. KNL은 기존의 가속기 형태의 매니코어 프로세서 형태뿐만 아니라 자체적으로 부팅이 가능한 형태의 호스트 프로세서로 구성되어 있으며, 기존의 DDR4 기반의 메모리와 함께 향상된 대역폭을 가진 새로운 형태의 온-패키지 메모리를 장착해서 출시되었다. 이러한 새로운 매니코어 프로세서 아키텍처에 최적화된 자원 할당 방법을 연구함으로써 다중 MPI 응용 실행 성능의 향상과 전체적인 시스템 활용률을 높일 수 있음을 실험적으로 검증하였다.

최적화된 CUDA 소프트웨어 제작을 위한 프로그래밍 기법 분석 (Analysis of Programming Techniques for Creating Optimized CUDA Software)

  • 김성수;김동헌;우상규;임인성
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권7호
    • /
    • pp.775-787
    • /
    • 2010
  • GPU(Graphics Processing Unit)는 범용 CPU와는 달리 다수코어 스트리밍 프로세서(manycore streaming processor) 형태로 특화되어 발전되어 왔으며, 최근 뛰어난 병렬 처리 연산 능력으로 인하여 점차 많은 영역에서 CPU의 역할을 대체하고 있다. 이러한 추세에 따라 최근 NVIDIA 사에서는 GPGPU(General Purpose GPU) 아키텍처인 CUDA(Compute Unified Device Architecture)를 발표하여 보다 유연한 GPU 프로그래밍 환경을 제공하고 있다. 일반적으로 CUDA API를 사용한 프로그래밍 작업시 GPU의 계산구조에 관한 여러 가지 요소들에 대한 특성을 정확히 파악해야 효율적인 병렬 소프트웨어를 개발할 수 있다. 본 논문에서는 다양한 실험과 시행착오를 통하여 획득한 CUDA 프로그래밍에 관한 최적화 기법에 대하여 설명하고, 그러한 방법들이 프로그램 수행의 효율에 어떠한 영향을 미치는지 알아본다. 특히 특정 예제 문제에 대하여 효과적인 계층 구조 메모리의 접근과 코어 활성화 비율(occupancy), 지연 감춤(latency hiding) 등과 같이 성능에 영향을 미치는 몇 가지 규칙을 실험을 통해 분석해봄으로써, 향후 CUDA를 기반으로 하는 효과적인 병렬 프로그래밍에 유용하게 활용할 수 있는 구체적인 방안을 제시한다.