• 제목/요약/키워드: Multicore processor

검색결과 63건 처리시간 0.022초

프로세서 노드 상황을 고려하는 효율적인 메시지 스캐터 및 개더 알고리즘 (Efficient Message Scattering and Gathering Based on Processing Node Status)

  • Park, Jongsu
    • 한국정보통신학회논문지
    • /
    • 제26권4호
    • /
    • pp.637-640
    • /
    • 2022
  • To maximize performance in a high-performance multicore processor system. it is essential to enable effective data communication between processing cores. Data communication between processor nodes can be broadly classified into collective and point-to-point communications. Collective communication comprises scattering and gathering. This paper presents a efficient message scattering and gathering based on processing node status. In the proposed algorithms, the transmission order is changed according to the data size of the pre-existing communication, to reduce the waiting time required until the collective communications begin. From the simulation, the performances of the proposed message scattering and gathering algorithms were improved by approximately 71.41% and 69.84%.

토마술로 알고리즘을 이용하는 비순차실행 프로세서의 설계 및 모의실행 (The Design and Simulation of Out-of-Order Execution Processor using Tomasulo Algorithm)

  • 이종복
    • 한국인터넷방송통신학회논문지
    • /
    • 제20권4호
    • /
    • pp.135-141
    • /
    • 2020
  • 오늘날 서버, 데스크탑, 노트북과 같은 범용 컴퓨터뿐만이 아니라, 가전, 임베디드 시스템에서 중앙처리장치는 대부분 멀티코어 프로세서로 구성된다. 멀티코어 프로세서의 성능향상을 위하여, 토마술로 알고리즘을 적용한 비순차실행 프로세서를 각 코어 프로세서로 이용하는 것이 요구된다. 토마술로 알고리즘을 적용한 비순차실행 프로세서는 명령어 간의 종속성이 없고 피연산자가 준비된 명령어를 순서와 관계없이 먼저 실행하고, 분기어 너머로 예측실행을 수행함으로써, 모든 명령어를 순서대로 실행하는 순차실행 프로세서보다 성능을 크게 높일 수가 있다. 본 논문에서는 VHDL의 레코드 데이터형을 이용하여 토마술로 알고리즘을 이용하는 비순차실행 프로세서를 설계하고, GHDL로 검증하였다. 모의실험 결과, ARM 명령어로 구성된 프로그램에 대한 연산을 성공적으로 수행할 수 있었다.

실시간 제약조건을 갖는 다중태스크 다중코어 SoC의 하드웨어-소프트웨어 통합합성 (Hardware-Software Cosynthesis of Multitask Multicore SoC with Real-Time Constraints)

  • 이춘승;하순회
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제33권9호
    • /
    • pp.592-607
    • /
    • 2006
  • 이 논문은 실시간 제약 조건을 갖는 다중태스크 응용을 여러 개의 코어를 갖는 SoC 위에서 동작시키고자 할 때, 시스템의 비용은 최소로 하면서 성능을 높일 수 있도록 프로세서 및 하드웨어 IP를 선정하고, 태스크를 매핑 하는 기법을 제안한다. 이와 같은 기법은 하드웨어-소프트웨어 통합합성 기법이라고 한다. 이전 연구에서 우리는 복잡한 통합합성 문제를 세 가지 하부 문제(프로세서 컴포넌트 선택문제, 태스크 매핑문제, 그리고 스케줄-가능성 검사문제)로 세분화 하고, 각 문제를 독립적으로 해결하는 기법을 제안하였다[1]. 하지만 많은 장점에도 불구하고 이전 연구에서는 한 태스크가 스케줄 될 때, 자신의 스케줄-길이를 최소로 줄이기 위해 시스템 전체 자원을 모두 점유하는 것을 가정하는 제약점이 있었다. 그러나 일반적으로 보다 향상된 성능을 얻기 위해서는, 서로 관련이 없는 태스크들은 서로 다른 프로세서에서 동시에 실행될 수 있어야 한다. 이 논문에서는 다중프로세서 환경에서 다양한 운영정책을 가지는 일반적인 시스템을 위하여 태스크 매핑회피 기법과 태스크 매핑전용 기법이라는 두 가지 매핑기법을 제시한다. 멀티미디어 실시간 응용 프로그램인 다채널 디지털 비디오 레코더(Digital Video Recorder)와 관련 논문에서 제공된 임의 생성 다중태스크 예제에 대해서 큰 성능 향상을 얻을 수 있었다.

저부하 멀티코어 프로세서에서 주기적 실시간 작업들의 저전력 스케쥴링 (Power-efficient Scheduling of Periodic Real-time Tasks on Lightly Loaded Multicore Processors)

  • 이완연
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권8호
    • /
    • pp.11-19
    • /
    • 2012
  • 본 논문에서는 작업 개수보다 프로세싱 코어 개수가 많은 저부하 멀티코어 프로세서에 적합한 실시간 작업용 저전력 스케쥴링 기법을 제안하였다. 제시된 기법을 시스템상에 존재하는 모든 프로세싱 코어들을 사용하지 않고, 주어진 작업들의 전체 계산량을 고려하여 일부의 프로세싱 코어들만을 사용하고 나머지 사용하지 않는 코어들의 전원을 소등하여 전력소모량을 줄였다. 또한 휴리스틱 기법을 사용하여 주어진 작업들을 프로세싱 코어들에게 빠르게 배치하였다. 마지막을 각각의 프로세싱 코어는 배치된 작업들의 데드라인 모두 만족하면서 전력소모량을 최소화하도록 프로세싱 코어에 적용되는 최적의 클락 주파수를 선택하여 사용하였다. 제시된 스케쥴링 기법과 기존의 프로세싱 코어들을 최대한 많이 사용하는 방법을 비교하는 실험에서, 제시된 기법이 기존 방법의 전력소모량을 최대 78%까지 감소시킴을 확인하였다.

이산적 DVFS 멀티코어 프로세서 상에서 실시간 병렬 작업을 위한 확률적 저전력 스케쥴링 (Probabilistic Power-saving Scheduling of a Real-time Parallel Task on Discrete DVFS-enabled Multi-core Processors)

  • 이완연
    • 한국컴퓨터정보학회논문지
    • /
    • 제18권2호
    • /
    • pp.31-39
    • /
    • 2013
  • 본 논문에서는 멀티코어 프로세서에서 단일 실시간 병렬 작업의 데드라인을 만족하면서 전력 소모량의 확률적 기대 값을 최소화하는 스케쥴링 기법을 제안하였다. 제안된 기법에서는 단일 작업을 여러 개의 코어들 상에서 동시에 수행하는 병렬 처리 기법을 적용하였고, 전체 코어들 중에서 일부의 코어들만을 사용하고 나머지 코어들의 전원을 소등하여 전력 소모량을 줄였다. 또한 한정된 개수의 이산적 클락 주파수 값들을 가지는 DVFS 기반 멀티코어 프로세서에 대해서, 확률적 계산량 모델을 가진 실시간 병렬 작업의 데드라인을 만족하면서 전력 소모량의 확률적 기대 값을 최소화함을 수학적으로 증명하였다. 성능평가 실험에서, 제안된 기법이 기존 방법의 전력소모량을 최대 81%까지 감소시킴을 확인하였다.

링 연결구조 기반의 멀티코어 프로세서를 위한 캐시 일관성 유지 기법 (An Efficient Cache Coherence Protocol for Multi-Core Processors with Ring Interconnects)

  • 박진영;최린
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제14권8호
    • /
    • pp.768-772
    • /
    • 2008
  • SOC 기술의 발전과 더불어 최근 여러 개의 프로세서를 단일 칩에 집적한 멀티코어 프로세서가 기존 슈퍼스칼라 프로세서 구조에 비하여 보다 에너지 효율적으로 성능을 증가시키는 방안으로 채택되고 있다. 이에 온 칩 프로세서간 캐시 일관성 유지 문제가 시스템의 안정성과 성능에 큰 영향을 미치는 요소로 부각되고 있다. 본 논문에서는 단 방향 링 연결구조의 노드 순서와 데이타 전달 순서를 이용하여 캐시 일관성 유지 요청의 순서를 결정하는 RING-DATA ORDER를 제안하여 기존 GREEDY-ORDER 방식의 단점인 재 요청을 최소화하고 RING-ORDER의 단점인 토큰 관리의 부담을 없애면서 두 방식의 장점을 모두 가지는 캐시 일관성 유지 기법을 제안한다. RING-DATA ORDER는 기존의 공용 버스에 집중되는 일관성 유지 요청을 단 방향 링을 이용하여 각 노드에 골고루 배분함으로써 유효 대역폭을 높이고 데이타 전송 순서에 기반하여 간단하게 처리 순서를 결정할 수 있으므로 멀티코어에 쉽게 적용 가능한 캐시 일관성 유지 기법이다.

SMP 환경에서의 위성용 XtratuM 오버헤드 분석 (Overhead Analysis of XtratuM for Space in SMP Envrionment)

  • 김선욱;유범수;정재엽;최종욱
    • 대한임베디드공학회논문지
    • /
    • 제15권4호
    • /
    • pp.177-187
    • /
    • 2020
  • Virtualization with hypervisors is one of emerging topics in multicore processors for space. Hypervisors are software layers to make several independent virtualized environments on one processor. Since all hardware resources are virtualized and distributed only by hypervisors, overall performance of processors can be improved by fully utilizing the resources. However at the same time, there are overheads for virtualizing and distributing hardware resources. Satellites are one of hard real time systems, and performance degradation with overheads should be analyzed thoroughly. Previous research on the overheads focused on single core systems. Even the overheads were analyzed in multicore systems, SMP environment was not fully included. This paper builds SMP environment with XtratuM, one of hypervisors for space missions, and analyzes performance degradation with overheads. Two boards of GR712RC with 2 LEON3FT CPUs and GR740 with 4 LEON4 CPUs are used in experiments. On each board, SMP benchmark functions are executed on SMP environment with XtratuM and on that without XtratuM respectively. Results are analyzed to find timing characteristics including overheads. Finally, applicability of the XtratuM to flight software in SMP is also reviewed.

Parallelization of a Purely Functional Bisimulation Algorithm

  • Ahn, Ki Yung
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권1호
    • /
    • pp.11-17
    • /
    • 2021
  • 본 논문에서는 순수 함수형 언어로 작성된 쌍방시뮬레이션 알고리듬의 성능을 멀티코어 프로세서 컴퓨터에서 병렬화로 향상시키는 방법을 연구한다. 이 병렬화에 있어 핵심 아이디어는 순수 함수형 프로그램의 참조 투명성을 십분 활용하면 병렬화가 전혀 고려되지 않고 작성된 초기 구현으로부터 최소한의 수정만으로 성능 개선 효과를 기대할 수 있다는 것이다. 초기 구현과 병렬화 구현 둘 다 순수 함수형 언어인 하스켈로 작성되었다. 초기 구현을 병렬화할 때 변화는 아주 적어서 병렬화된 구현에서도 초기 구현의 프로그램 구조가 거의 그대로 유지되었다. 벤치마크를 통해 제시된 간단한 병렬화만으로도 초기 구현과 비교해 두 배 이상의 성능 개선을 확인했다. 또한, 병렬화와는 별개의 최적화 기법인 메모이제이션이 적용된 버전의 쌍방시뮬레이션 구현에도 같은 방식의 병렬화를 적용함으로써 마찬가지로 성능을 개선할 수 있음을 확인하였다.

비디오 감시 시스템을 위한 멀티코어 프로세서 기반의 병렬 SVM (Multicore Processor based Parallel SVM for Video Surveillance System)

  • 김희곤;이성주;정용화;박대희;이한성
    • 정보보호학회논문지
    • /
    • 제21권6호
    • /
    • pp.161-169
    • /
    • 2011
  • 최근 지능형 비디오 감시 시스템은 영상 분석 및 인식기술 등의 보다 진화된 기술 개발을 요구하고 있다. 특히, 비디오 영상에서 객체를 식별하기 위하여 Support Vector Machine(SVM)과 같은 기계학습 알고리즘이 이용된다. 그러나 SVM은 대용량의 데이터를 학습시키기 위하여 많은 계산량이 필요하기 때문에 수행시간을 효율적으로 감소시키기 위하여 병렬처리 기법을 적용할 필요가 있다. 본 논문에서는, 최근 사용이 증가하고 있는 멀티코어 프로세서를 활용한 SVM 학습의 병렬처리 방법을 제안한다. 4-코어 프로세서를 이용한 실험 결과, 제안 방법은 SVM 학습의 순차처리 방법과 비교하여 2.5배 정도 수행시간이 감소됨을 확인하였다.

An Interference Matrix Based Approach to Bounding Worst-Case Inter-Thread Cache Interferences and WCET for Multi-Core Processors

  • Yan, Jun;Zhang, Wei
    • Journal of Computing Science and Engineering
    • /
    • 제5권2호
    • /
    • pp.131-140
    • /
    • 2011
  • Different cores typically share the last-level cache in a multi-core processor. Threads running on different cores may interfere with each other. Therefore, the multi-core worst-case execution time (WCET) analyzer must be able to safely and accurately estimate the worst-case inter-thread cache interference. This is not supported by current WCET analysis techniques that manly focus on single thread analysis. This paper presents a novel approach to analyze the worst-case cache interference and bounding the WCET for threads running on multi-core processors with shared L2 instruction caches. We propose to use an interference matrix to model inter-thread interference, on which basis we can calculate the worst-case inter-thread cache interference. Our experiments indicate that the proposed approach can give a worst-case bound less than 1%, as in benchmark fib-call, and an average 16.4% overestimate for threads running on a dual-core processor with shared-L2 cache. Our approach dramatically improves the accuracy of WCET overestimatation by on average 20.0% compared to work.