• 제목/요약/키워드: many-core processors

검색결과 36건 처리시간 0.026초

휴대 장치용 기타 음 합성을 위한 매니코어 아키텍처의 디자인 공간 탐색 (Design Space Exploration of Many-Core Architecture for Sound Synthesis of Guitar on Portable Device)

  • 강명수;김종면
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2014년도 제49차 동계학술대회논문집 22권1호
    • /
    • pp.1-4
    • /
    • 2014
  • Although physical modeling synthesis is becoming more and more efficient in rich and natural high-quality sound synthesis, its high computational complexity limits its use in portable devices. This constraint motivated research of single-instruction multiple-data many-core architectures that support the tremendous amount of computations by exploiting massive parallelism inherent in physical modeling synthesis. Since no general consensus has been reached which grain sizes of many-core processors and memories provide the most efficient operation for sound synthesis, design space exploration is conducted for seven processing element (PE) configurations. To find an optimal PE configuration, each PE configuration is evaluated in terms of execution time, area and energy efficiencies. Experimental results show that all PE configurations are satisfied with the system requirements to be implemented in portable devices.

  • PDF

휴대용 초음파 영상처리를 위한 멀티미디어 확장 명령어 및 최적의 매니코어 프로세서 구조 탐색 (Multimedia Extension Instructions and Optimal Many-core Processor Architecture Exploration for Portable Ultrasonic Image Processing)

  • 강성모;김종면
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권8호
    • /
    • pp.1-10
    • /
    • 2012
  • 본 논문에서는 휴대용 초음파 영상의 고성능 및 저전력 처리를 위해 멀티미디어 전용 명령어를 내장한 매니코어의 디자인 공간 탐색 방법론을 제안한다. 이를 위해서 멀티미디어 확장 명령어로 인한 서브워드 병렬처리 방식을 적용한 프로그램과 적용하지 않은 프로그램의 성능을 비교하여 에너지 효율 및 면적효율을 측정하였다. 모의실험 결과, MMX 형태 명령어를 사용한 프로그램은 베이스라인 프로그램 보다 $256{\times}256$ 해상도에서 실행시간은 평균 3.16배, 에너지 효율은 평균 8.13배, 면적 효율은 평균 3.16배의 향상을 보였다. $240{\times}320$ 해상도와 $240{\times}400$ 해상도에서는 각각 실행시간 평균 2.16배, 2.25배, 에너지 효율은 4.04배 4.34배, 면적 효율은 2.16배, 2.25배 향상되었다. 더불어 이러한 MMX 형태 명령어를 포함한 매니코어의 프로세싱 엘리먼트 (Processing Element: PE) 개수 및 메모리 사이즈를 변화시키면서 각 초음파 영상의 해상도별로 최적의 시스템 면적 및 에너지 효율을 보이는 PE 구조를 탐색하였다.

기타 음 합성을 위한 최적의 SIMD기반 매니코어 프로세서 구현 (Implementation of an Optimal SIMD-based Many-core Processor for Sound Synthesis of Guitar)

  • 최지원;강명수;김종면
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권1호
    • /
    • pp.1-10
    • /
    • 2012
  • 프로세서는 더 이상 동작 주파수를 높이는 방법이 아닌 다수의 프로세서를 집적하는 멀티프로세서로 기술 발전이 이루어지고 있다. 최근 2, 4, 8개의 프로세서 코어를 넘어 64, 128개 이상의 프로세서를 집적한 대규모 데이터 처리용 고성능 프로세서들이 개발되고 있다. 본 논문에서는 기타의 음 합성을 위한 최적의 매니코어 프로세서 구조를 제안한다. 기존의 연구에서는 하나의 기타 현에 하나의 프로세싱 엘리먼트(processing element, PE)를 할당하여 음을 합성하였으나, 본 논문은 하나의 기타 현에 여러 개의 PE를 할당하고 각각의 경우에 대해 시스템 성능, 시스템 면적 효율 및 에너지 효율을 평가하였다. 샘플링율이 44.1kHz, 양자화 비트 16인 기타 음을 사용하여 모의 실험한 결과, 시스템 면적 효율은 PE 수가 24개, 에너지 효율은 PE 수가 96개일 때 각각 최적의 효율을 보였다. 또한, 최적의 매니코어 프로세서를 이용하여 합성한 결과 합성음은 원음과 스펙트럼에서 매우 유사하였다. 더불어, 음 합성에 가장 많이 사용되는 TI TMS320C6416보다 시스템 면적에서 1,235배, 에너지 효율에서 22배의 향상을 보였다.

SMT 프로세서에 최적화된 명령어 페치 전략에 관한 연구 (An Optimal Instruction Fetch Strategy for SMT Processors)

  • 홍인표;문병인;김문경;이용석
    • 한국통신학회논문지
    • /
    • 제27권5C호
    • /
    • pp.512-521
    • /
    • 2002
  • 최근에 성능의 한계를 드러내고 있는 수퍼스칼라 RISC를 대체할 새로운 프로세서 구조로서 SMT(Simultaneous Multi-Threading)이 활발히 연구되고 있다. SMT는 하나의 프로세서에 여러 개의 스레드가 하드웨어 자원을 동적으로 공유하며 동시에 수행되는 구조이다. 이러한 환경에서는 프로세서 안에 존재하는 여러 스레드로부터 명령어를 원활하게 공급하여 주는 것이 중요하다. SMT 프로세서는 기존의 프로세서에 비하여 사이클 당 실제 처리되는 명령어 수가 월등히 많기 때문에, 사이클 당 명령어 페치량과 페치된 명령어를 임시 저장하는 페치 큐의 엔트리수가 신중하게 결정되어야 한다. 또한 사이클마다 페치할 스레드와 각 스레드의 페치량을 결정하는 것이 성능에 큰 영향을 미친다. 따라서 본 논문에서는 이러한 요소들이 프로세서 전체의 성능에 미치는 영향을 분석하고 그 결과를 바탕으로 SMT 프로세서에 최적화된 명령어 페치 전략에 대하여 논한다.

PARSEC을 이용한 TILE-Gx36 다중코어 프로세서의 성능 평가 및 분석 (Performance evaluation and analysis of TILE-Gx36 many-core processor with PARSEC benchmark)

  • 이보선;김한이;유헌창;서태원
    • 컴퓨터교육학회논문지
    • /
    • 제17권1호
    • /
    • pp.107-115
    • /
    • 2014
  • 본 논문은 다중코어의 성능을 평가하고 분석하기 위해 TILE-Gx36(Gx36) 다중코어 프로세서를 사례로 연구하였다. Gx36의 성능 평가는 비교적 최신 병렬 벤치마크인 PARSEC을 이용하였고, 성능 분석을 돕기 위한 비교 시스템으로 인텔의 Core i7 (i7)과 Atom을 사용하였다. 실험결과 2의 제곱으로 동시에 수행 가능한 스레드를 발생시켰을 때, Gx36은 i7보다 평균 2.73배 낮은 성능을 보였으며, Atom보다는 평균 1.93배 높은 성능을 보였다. Gx36은 비교 프로세서보다 상대적으로 큰 Last-Level Cache(LLC)를 갖고 있음에도 불구하고, 가장 많은 LLC miss를 발생시켰다. 이는 Gx36이 기대치 이하의 성능을 보이는 주된 이유로 판단되며, DDC가 일반적 고성능 컴퓨팅을 위한 캐시구조로 적절하지 않음을 보여준다. 다중코어 시스템의 실측을 통한 성능평가는 향후 다중코어 구조개선 및 올바른 방향 설정을 위한 객관적인 자료를 제공한다.

  • PDF

멀티코어 시스템에서 쓰레드 수에 따른 병렬 색변환 성능 검증 (A Performance Evaluation of Parallel Color Conversion based on the Thread Number on Multi-core Systems)

  • 김정길
    • 한국위성정보통신학회논문지
    • /
    • 제9권4호
    • /
    • pp.73-76
    • /
    • 2014
  • 멀티 코어 프로세서의 보급 확산으로 최근에는 임베디드 시스템에서도 채택되고 있다. 따라서 일반적으로 대규모의 컴퓨팅과 메모리 접근을 필요로 하는 멀티미디어 응용은 멀티 코어 플랫폼 기반의 병렬화가 가능하다. 본 논문에서는 멀티 코어 CPU을 이용한 효율적 색 공간 변환을 위한 스레드 수준 병렬 기법의 성능 향상을 검증하였다. 스레드 수준 병렬화 특히 멀티 코어 프로세서기반 공유 메모리 컴퓨팅 시스템에서는 매우 유용한 병렬 처리 패러다임이 되고 있다. 본 구현에서 스레드 수준 병렬화는 각 스레드에 다른 입력 픽셀을 할당하여 실행하였다. 성능 평가를 위해 직렬 및 병렬 구현들 사이의 처리 속도의 비교에 기초하여 대표적 멀티 코어 프로세서에서 색 변환을 위한 성능 향상 정도를 평가하였다. 결과는 스레드 수준의 병렬 구현에 관계없이 다른 멀티 코어에서 전반적으로 비슷한 성능 향상의 비율을 보여주었다.

Parallelization and application of SACOS for whole core thermal-hydraulic analysis

  • Gui, Minyang;Tian, Wenxi;Wu, Di;Chen, Ronghua;Wang, Mingjun;Su, G.H.
    • Nuclear Engineering and Technology
    • /
    • 제53권12호
    • /
    • pp.3902-3909
    • /
    • 2021
  • SACOS series of subchannel analysis codes have been developed by XJTU-NuTheL for many years and are being used for the thermal-hydraulic safety analysis of various reactor cores. To achieve fine whole core pin-level analysis, the input preprocessing and parallel capabilities of the code have been developed in this study. Preprocessing is suitable for modeling rectangular and hexagonal assemblies with less error-prone input; parallelization is established based on the domain decomposition method with the hybrid of MPI and OpenMP. For domain decomposition, a more flexible method has been proposed which can determine the appropriate task division of the core domain according to the number of processors of the server. By performing the calculation time evaluation for the several PWR assembly problems, the code parallelization has been successfully verified with different number of processors. Subsequent analysis results for rectangular- and hexagonal-assembly core imply that the code can be used to model and perform pin-level core safety analysis with acceptable computational efficiency.

모바일 초음파 영상신호의 빔포밍 기법을 위한 최적의 매니코어 프로세서 구현 (Implementation of an Optimal Many-core Processor for Beamforming Algorithm of Mobile Ultrasound Image Signals)

  • 최병국;김종면
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권8호
    • /
    • pp.119-128
    • /
    • 2011
  • 본 논문에서는 모바일 초음파(mobile ultrasound) 영상신호의 빔포밍 알고리즘에서 요구되는 고성능 및 저전력을 만족시키는 매니코어 프로세서에 대한 디자인 공간 탐색 방법을 소개한다. 매니코어 프로세서의 디자인 공간 탐색을 위해 매니코어의 각 프로세싱 엘리먼트(Processing Element, PE)당 초음파 영상신호 데이터의 수를 변화시키는 실험을 통해 실행시간, 에너지 효율 및 시스템 면적 효율을 측정하고, 측정된 결과를 바탕으로 최적의 매니코어 프로세서 구조를 선택하였다. 모의실험 결과, PE 개수가 4096일 때 에너지 효율이 가장 높았으며, PE 개수가 1024일 때 가장 높은 시스템 면적 효율을 보였다. 또한, PE 개수가 4096인 매니코어 아키텍처는 초음파 영상장치에 가장 많이 사용되는 TI DSP C6416보다 각각 에너지 효율에서 46배, 시스템 면적 효율에서 10배의 향상을 보였다.

2차원 구조와 3차원 구조에 따른 멀티코어 프로세서의 온도 분석 (Thermal Pattern Comparison between 2D Multicore Processors and 3D Multicore Processors)

  • 최홍준;안진우;장형범;김종면;김철홍
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권9호
    • /
    • pp.1-10
    • /
    • 2011
  • 동작 주파수의 증가는 싱글코어 프로세서의 성능을 크게 향상시키는 반면 전력 소모 증가와 높은 온도로 인한 신뢰성 저하 문제를 유발하고 있다. 최근에는 싱글코어 프로세서의 한계점을 극복하기 위한 대안으로 멀티코어 프로세서가 주로 사용되고 있다. 하지만, 멀티코어 프로세서를 2차원 구조로 설계하는 경우에는 내부 연결망에서의 전송 지연 현상으로 인해 프로세서의 성능 향상이 제약을 받고 있다. 내부 연결망에서의 전송 지연을 줄이기 위한 방안으로 멀티코어 프로세서를 3차원 구조로 설계하는 연구가 최근 큰 주목을 받고 있다. 2차원 구조 멀티코어 프로세서와 비교하여 3차원 구조 멀티코어 프로세서는 성능 향상과 전력 소모 감소의 장점을 지닌 반면, 높은 전력 밀도로 인해 발생된 발열 문제가 프로세서의 신뢰성을 위협하는 문제가 되고 있다. 3차원 멀티코어 프로세서에서 발생되는 발열 문제에 대한 상세한 분석이 제공된다면, 프로세서의 신뢰성을 확보하기 위한 연구 진행에 큰 도움이 될 것으로 기대된다. 그러므로 본 논문에서는 3차원 멀티코어 프로세서의 온도에 밀접하게 연관된 요소인 작업량, 방열판과의 거리, 그리고 적층되는 다이의 개수와 온도 사이의 관계를 자세히 살펴보고 높은 온도가 프로세서의 성능에 미치는 영향 또한 분석하고자 한다. 특히, 2차원 구조 멀티코어 프로세서와 3차원 구조 멀티코어 프로세서에서의 온도 문제를 함께 분석함으로써, 온도 측면에서 효율적인 프로세서 설계를 위한 가이드라인을 제시하고자 한다.

코어 내부 구성요소와 L2 캐쉬의 배치 관계에 따른 멀티코어 프로세서의 온도 분석 (Analysis on the Temperature of Multi-core Processors according to Placement of Functional Units and L2 Cache)

  • 손동오;김종면;김철홍
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권4호
    • /
    • pp.1-8
    • /
    • 2014
  • 멀티코어 프로세서는 여러 개의 코어가 하나의 칩에 배치됨에 따라 전력 밀도가 상승하여 높은 발열이 발생한다. 이러한 발열 문제를 해결하기 위해서 최근까지 다양한 연구가 진행되고 있다. 마이크로프로세서의 온도 감소를 위한 기법으로는 기계적 냉각 기법, 동적 온도 관리 기법 등이 있지만 이러한 기법들은 추가적인 냉각 비용이 발생하거나 성능의 저하가 발생한다. 플로어플랜기법은 추가적인 냉각비용이 발생하지 않으며, 성능저하가 거의 발생하지 않는다는 장점을 지닌다. 본 논문에서는 멀티코어 프로세서의 특정 구성요소의 발열 문제를 해결하기 위해 코어 내부 구성요소와 L2 캐쉬의 다양한 플로어플랜을 활용하고자 한다. 실험 결과, 코어의 뜨거운 구성요소를 L2 캐쉬와 인접하게 배치할 경우 칩의 온도 감소에 매우 효과적임을 알 수 있다. 코어를 캐쉬 상단-가운데 배치하는 기본 플로어플랜과 비교하여, 코어를 중앙에 배치하고 뜨거운 구성요소를 L2 캐쉬와 인접하게 배치하는 플로어플랜의 경우에는 $8.04^{\circ}C$, 코어를 외곽에 배치하고 뜨거운 구성요소를 L2 캐쉬와 인접하게 배치하는 플로어플랜의 경우에는 $8.05^{\circ}C$의 최고온도 감소 효과를 보임을 알 수 있다.