• 제목/요약/키워드: Multicore processors

검색결과 49건 처리시간 0.029초

멀티코어 프로세서에서의 효율적인 메시지 스캐터링 지원 기법 (High Performance Message Scattering Algorithm in Multicore Processor)

  • 박종수
    • Journal of Platform Technology
    • /
    • 제10권2호
    • /
    • pp.3-9
    • /
    • 2022
  • 본 논문에서는 멀티코어 프로세서 및 매니코어 프로세서에서의 스캐터 통신 성능을 최대화 하기 위하여 프로세싱 노드의 통신채널 상태를 고려하는 기법을 32개 코어로 구성된 멀티코어 프로세서에 적용하였다. 기존의 스캐터 알고리즘은 프로세싱 노드들의 통신채널 상태를 확인할 수 없기 때문에 일반적으로 초기 셋팅 된 전송순서에 따라서 통신을 수행한다. 이 경우 프로세서 내부의 모든 프로세싱 노드에서 기존 수행 중인 통신이 종료된 후에야 스캐터 통신이 시작되는데, 이때 발생하는 전송 대기 시간을 줄임으로서 스캐터 통신 성능을 향상 시킬 수 있다. 본 기법에 의하여 스캐터 통신 성능이 향상되었고, BFM 시뮬레이션을 통하여 기존 알고리즘 대비 최대 78.93%의 성능 향상이 있음을 확인하였다.

실시간 제약조건을 갖는 다중태스크 다중코어 SoC의 하드웨어-소프트웨어 통합합성 (Hardware-Software Cosynthesis of Multitask Multicore SoC with Real-Time Constraints)

  • 이춘승;하순회
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제33권9호
    • /
    • pp.592-607
    • /
    • 2006
  • 이 논문은 실시간 제약 조건을 갖는 다중태스크 응용을 여러 개의 코어를 갖는 SoC 위에서 동작시키고자 할 때, 시스템의 비용은 최소로 하면서 성능을 높일 수 있도록 프로세서 및 하드웨어 IP를 선정하고, 태스크를 매핑 하는 기법을 제안한다. 이와 같은 기법은 하드웨어-소프트웨어 통합합성 기법이라고 한다. 이전 연구에서 우리는 복잡한 통합합성 문제를 세 가지 하부 문제(프로세서 컴포넌트 선택문제, 태스크 매핑문제, 그리고 스케줄-가능성 검사문제)로 세분화 하고, 각 문제를 독립적으로 해결하는 기법을 제안하였다[1]. 하지만 많은 장점에도 불구하고 이전 연구에서는 한 태스크가 스케줄 될 때, 자신의 스케줄-길이를 최소로 줄이기 위해 시스템 전체 자원을 모두 점유하는 것을 가정하는 제약점이 있었다. 그러나 일반적으로 보다 향상된 성능을 얻기 위해서는, 서로 관련이 없는 태스크들은 서로 다른 프로세서에서 동시에 실행될 수 있어야 한다. 이 논문에서는 다중프로세서 환경에서 다양한 운영정책을 가지는 일반적인 시스템을 위하여 태스크 매핑회피 기법과 태스크 매핑전용 기법이라는 두 가지 매핑기법을 제시한다. 멀티미디어 실시간 응용 프로그램인 다채널 디지털 비디오 레코더(Digital Video Recorder)와 관련 논문에서 제공된 임의 생성 다중태스크 예제에 대해서 큰 성능 향상을 얻을 수 있었다.

기계식 쿨링 기법에 따른 고성능 멀티코어 프로세서의 냉각 효율성 분석 (Analysis on the Cooling Efficiency of High-Performance Multicore Processors according to Cooling Methods)

  • 강승구;최홍준;안진우;박재형;김종면;김철홍
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권7호
    • /
    • pp.1-11
    • /
    • 2011
  • 사용자들의 높은 요구 사항을 만족시키는 컴퓨팅 시스템을 개발하기 위해 프로세서의 성능을 향상시키기 위한 연구는 지속적으로 진행되어 왔다. 공정 기술 발달을 비롯한 다양한 기술 발전을 통하여 프로세서의 성능은 비약적으로 발전하였으나 그 이면에는 새로운 문제들이 발생하게 되었다. 그 중에서, 최근 들어 주된 문제점 중 하나로 인식되고 있는 열섬 현상은 칩의 신뢰성에 심각한 영향을 미치기 때문에 프로세서 설계 시 성능, 전력 효율성과 함께 반드시 고려되어야 한다. 과거에는 기계적인 냉각 기법으로 프로세서의 온도를 효과적으로 제어할 수 있었지만, 최근에는 프로세서의 성능이 높아져 발생되는 온도가 높아 냉각 비용이 급속히 증가하고 있다. 이로 인해, 최근의 온도 제어 연구는 기계적인 냉각 기법보다는 구조적 기법을 통한 온도 제어에 더욱 집중되는 추세를 보이고 있다. 하지만, 구조적 기법을 통해 온도를 제어하는 방안은 프로세서의 온도를 낮추는 데에는 효율적이지만 이를 위해 성능을 희생한다는 단점이 존재한다. 따라서, 기계적 냉각 기법을 통해 프로세서의 온도를 효율적으로 제어할 수 있다면, 성능 저하가 발생되는 구조적 기법을 통한 온도 제어기법의 사용 빈도가 줄어 그 만큼 성능이 향상될 수 있을 것으로 기대된다. 본 논문에서는 고성능 멀티코어 프로세서에서 발생하는 온도를 기계적인 냉각 기법이 얼마나 효율적으로 제어할 수 있는지를 상세하게 분석해 보고자 한다. 공랭식 냉각기와 수랭식 냉각기를 이용하여 다양한 실험을 수행한 결과, 공랭식 냉각기와 비교하여 수랭식 냉각기가 온도를 효과적으로 제어하는 반면에 전력 소모가 더 많음을 확인할 수 있다. 특히, 1W의 전력을 통해 낮출 수 있는 온도를 분석해 보면 공랭식에 비해서 수랭식이 더 효율적임을 알 수 있으며, 수랭식 냉각기의 경우에는 냉각 단계가 냉각 효율은 오히려 감소하게 됨을 확인할 수 있다. 실험 결과를 바탕으로 온도에 따라 적절하게 기계적 냉각 기법을 활용한다면 프로세서의 온도를 더욱 효과적으로 제어할 수 있을 것으로 기대된다.

An Interference Matrix Based Approach to Bounding Worst-Case Inter-Thread Cache Interferences and WCET for Multi-Core Processors

  • Yan, Jun;Zhang, Wei
    • Journal of Computing Science and Engineering
    • /
    • 제5권2호
    • /
    • pp.131-140
    • /
    • 2011
  • Different cores typically share the last-level cache in a multi-core processor. Threads running on different cores may interfere with each other. Therefore, the multi-core worst-case execution time (WCET) analyzer must be able to safely and accurately estimate the worst-case inter-thread cache interference. This is not supported by current WCET analysis techniques that manly focus on single thread analysis. This paper presents a novel approach to analyze the worst-case cache interference and bounding the WCET for threads running on multi-core processors with shared L2 instruction caches. We propose to use an interference matrix to model inter-thread interference, on which basis we can calculate the worst-case inter-thread cache interference. Our experiments indicate that the proposed approach can give a worst-case bound less than 1%, as in benchmark fib-call, and an average 16.4% overestimate for threads running on a dual-core processor with shared-L2 cache. Our approach dramatically improves the accuracy of WCET overestimatation by on average 20.0% compared to work.

ARM 클러스터에서 에너지 효율 향상을 위한 MPI와 MapReduce 모델 비교 (Comparing Energy Efficiency of MPI and MapReduce on ARM based Cluster)

  • 자한제프 마크불;페르마타 눌 리즈키;오상윤
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2014년도 제49차 동계학술대회논문집 22권1호
    • /
    • pp.9-13
    • /
    • 2014
  • The performance of large scale software applications has been automatically increasing for last few decades under the influence of Moore's law - the number of transistors on a microprocessor roughly doubled every eighteen months. However, on-chip transistors limitations and heating issues led to the emergence of multicore processors. The energy efficient ARM based System-on-Chip (SoC) processors are being considered for future high performance computing systems. In this paper, we present a case study of two widely used parallel programming models i.e. MPI and MapReduce on distributed memory cluster of ARM SoC development boards. The case study application, Black-Scholes option pricing equation, was parallelized and evaluated in terms of power consumption and throughput. The results show that the Hadoop implementation has low instantaneous power consumption that of MPI, but MPI outperforms Hadoop implementation by a factor of 1.46 in terms of total power consumption to execution time ratio.

  • PDF

Application Characteristic-based Divided Scheduling for Multicore Systems

  • Park, Jung Kyu;Kim, Jaeho
    • 한국컴퓨터정보학회논문지
    • /
    • 제22권6호
    • /
    • pp.9-16
    • /
    • 2017
  • In this paper, we proposed a novel user-level scheduling scheme that monitors applications characteristics on-line using PMU and allocates applications into cpu cores. We utilize PMU (Performance Monitoring Unit) to analyze which shared resource has the strongest relation with the influence. Using the proposed scheduling method, it is possible to reduce the contention of shared resources. The key idea of this scheme is separating high-influential applications into different processors. The evaluation results have shown that the proposed scheduling scheme can enhance the performance up to 12% for a 8 core system and up to 25% for a 28 core system, respectively.

마이크로프로세서의 성능에 끼치는 DRAM의 영향에 관한 연구 (A Study in the Effects of DRAM on The Microprocessor Performance)

  • 이종복
    • 한국인터넷방송통신학회논문지
    • /
    • 제17권1호
    • /
    • pp.219-224
    • /
    • 2017
  • 최근에 이르러, 임베디드시스템, 이동단말기 뿐만이 아니라 고성능 마이크로프로세서 및 멀티코어프로세서에서 DRAM에 대한 중요성이 날로 증가되고 있다. 이에 발맞추어 산업계와 학계에서 미래의 DRAM에 대한 활발한 연구가 진행되고 있다. 따라서, 모의실험을 통하여 마이크로프로세서의 성능을 평가할 때 보다 정확한 DRAM 모델을 갖추는 것이 중요하다. 본 논문에서는 DRAM 시뮬레이터와 연동할 수 있는 명령어 자취형 (trace-driven) 마이크로프로세서 모의실험기를 개발하였다. 또한, SPEC 2000 벤치마크를 입력으로 모의실험을 수행하여, 싸이클 단위로 정확하게 동작하는 DD3 모델이 마이크프로세서의 성능에 끼치는 영향을 분석하였다.

Computational Analytics of Client Awareness for Mobile Application Offloading with Cloud Migration

  • Nandhini, Uma;TamilSelvan, Latha
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제8권11호
    • /
    • pp.3916-3936
    • /
    • 2014
  • Smartphone applications like games, image processing, e-commerce and social networking are gaining exponential growth, with the ubiquity of cellular services. This demands increased computational power and storage from mobile devices with a sufficiently high bandwidth for mobile internet service. But mobile nodes are highly constrained in the processing and storage, along with the battery power, which further restrains their dependability. Adopting the unlimited storage and computing power offered by cloud servers, it is possible to overcome and turn these issues into a favorable opportunity for the growth of mobile cloud computing. As the mobile internet data traffic is predicted to grow at the rate of around 65 percent yearly, even advanced services like 3G and 4G for mobile communication will fail to accommodate such exponential growth of data. On the other hand, developers extend popular applications with high end graphics leading to smart phones, manufactured with multicore processors and graphics processing units making them unaffordable. Therefore, to address the need of resource constrained mobile nodes and bandwidth constrained cellular networks, the computations can be migrated to resourceful servers connected to cloud. The server now acts as a bridge that should enable the participating mobile nodes to offload their computations through Wi-Fi directly to the virtualized server. Our proposed model enables an on-demand service offloading with a decision support system that identifies the capabilities of the client's hardware and software resources in judging the requirements for offloading. Further, the node's location, context and security capabilities are estimated to facilitate adaptive migration.

토마술로 알고리즘을 이용하는 비순차실행 프로세서의 설계 및 모의실행 (The Design and Simulation of Out-of-Order Execution Processor using Tomasulo Algorithm)

  • 이종복
    • 한국인터넷방송통신학회논문지
    • /
    • 제20권4호
    • /
    • pp.135-141
    • /
    • 2020
  • 오늘날 서버, 데스크탑, 노트북과 같은 범용 컴퓨터뿐만이 아니라, 가전, 임베디드 시스템에서 중앙처리장치는 대부분 멀티코어 프로세서로 구성된다. 멀티코어 프로세서의 성능향상을 위하여, 토마술로 알고리즘을 적용한 비순차실행 프로세서를 각 코어 프로세서로 이용하는 것이 요구된다. 토마술로 알고리즘을 적용한 비순차실행 프로세서는 명령어 간의 종속성이 없고 피연산자가 준비된 명령어를 순서와 관계없이 먼저 실행하고, 분기어 너머로 예측실행을 수행함으로써, 모든 명령어를 순서대로 실행하는 순차실행 프로세서보다 성능을 크게 높일 수가 있다. 본 논문에서는 VHDL의 레코드 데이터형을 이용하여 토마술로 알고리즘을 이용하는 비순차실행 프로세서를 설계하고, GHDL로 검증하였다. 모의실험 결과, ARM 명령어로 구성된 프로그램에 대한 연산을 성공적으로 수행할 수 있었다.