• 제목/요약/키워드: multi-core CPU

검색결과 76건 처리시간 0.027초

소형화와 저전력화를 위해 2M-byte on-chip SRAM과 아날로그 회로를 포함하는 SoC (SoC including 2M-byte on-chip SRAM and analog circuits for Miniaturization and low power consumption)

  • 박성훈;김주언;백준현
    • 전기전자학회논문지
    • /
    • 제21권3호
    • /
    • pp.260-263
    • /
    • 2017
  • 다종의 CPU를 기반으로 ADC와 DC-DC 변환기를 포함하며 2M-byte의 SRAM이 내장된 SoC가 제안되었다. CPU 코어는 12-bit MENSA 코어, 32-bit Symmetric Multi-core 프로세서, 16-bit CDSP로 구성된다. 외부 SDRAM 메모리를 제거하기 위해 내부의 2M-byte SRAM을 설계하였으나 SRAM 블록들이 넓은 영역에 분포하여 기생 성분에 의해 속도가 저하되므로 SRAM을 작게 분할하여 레이아웃 하였다. 설계된 SoC는 55nm 공정으로 개발되었으며 속도는 200MHz이다.

멀티코어형 모바일 GPU의 작업 분배 및 효율성 분석 (Analysis of Job Scheduling and the Efficiency for Multi-core Mobile GPU)

  • 임효정;한동건;김형신
    • 한국산학기술학회논문지
    • /
    • 제15권7호
    • /
    • pp.4545-4553
    • /
    • 2014
  • 모바일 GPU가 발전함에 따라 멀티코어 GPU를 효과적으로 최적화하는 것은 스마트폰의 성능을 높이는데 있어 중요한 문제가 되고 있다. 하지만 대부분의 모바일 GPU에 관한 연구는 싱글코어 모바일 GPU에 대해 다루고 있거나, GPU 공급자에 의한 제한적인 연구만을 다루고 있다. 따라서 본 논문에서는 멀티코어 GPU의 작업 분배 패턴과 효율성 분석을 통해 성능향상의 가능성에 대한 분석을 수행하였다. 실험은 DS-5 Streamline을 사용하여 시스템 사용자 인터페이스를 조작하였을 때, GPU의 코어 수의 변화에 따른 그래픽 처리 소요 시간을 측정한 실험과 GPU의 코어 수에 따른 작업 분배 패턴에 대한 실험을 수행하였다. 프로파일링 결과, GPU의 코어수가 더 증가했음에도 불구하고 그래픽 애플리케이션을 실행하는데 요구되는 전체 소요시간이 증가하는 경우를 발견하였다. 또한 GPU가 그래픽을 처리할 때, 약 4ms의 오버헤드가 CPU와 GPU 사이의 통신에서 발생하고, GPU 내부 드라이버의 활동으로 인한 지연이 발생했음을 확인하였다. 따라서 본 논문에서 GPU 동작의 비효율성에 대한 분석결과는 앞으로의 모바일 멀티코어 GPU의 연구에 있어 참고가 될 수 있을 것이라 예상한다.

ETS: Efficient Task Scheduler for Per-Core DVFS Enabled Multicore Processors

  • Hong, Jeongkyu
    • Journal of information and communication convergence engineering
    • /
    • 제18권4호
    • /
    • pp.222-229
    • /
    • 2020
  • Recent multi-core processors for smart devices use per-core dynamic voltage and frequency scaling (DVFS) that enables independent voltage and frequency control of cores. However, because the conventional task scheduler was originally designed for per-core DVFS disabled processors, it cannot effectively utilize the per-core DVFS and simply allocates tasks evenly across all cores to core utilization with the same CPU frequency. Hence, we propose a novel task scheduler to effectively utilize percore DVFS, which enables each core to have the appropriate frequency, thereby improving performance and decreasing energy consumption. The proposed scheduler classifies applications into two types, based on performance-sensitivity and allows a performance-sensitive application to have a dedicated core, which maximizes core utilization. The experimental evaluations with a real off-the-shelf smart device showed that the proposed task scheduler reduced 13.6% of CPU energy (up to 28.3%) and 3.4% of execution time (up to 24.5%) on average, as compared to the conventional task scheduler.

멀티코어 시스템에서 쓰레드 수에 따른 병렬 색변환 성능 검증 (A Performance Evaluation of Parallel Color Conversion based on the Thread Number on Multi-core Systems)

  • 김정길
    • 한국위성정보통신학회논문지
    • /
    • 제9권4호
    • /
    • pp.73-76
    • /
    • 2014
  • 멀티 코어 프로세서의 보급 확산으로 최근에는 임베디드 시스템에서도 채택되고 있다. 따라서 일반적으로 대규모의 컴퓨팅과 메모리 접근을 필요로 하는 멀티미디어 응용은 멀티 코어 플랫폼 기반의 병렬화가 가능하다. 본 논문에서는 멀티 코어 CPU을 이용한 효율적 색 공간 변환을 위한 스레드 수준 병렬 기법의 성능 향상을 검증하였다. 스레드 수준 병렬화 특히 멀티 코어 프로세서기반 공유 메모리 컴퓨팅 시스템에서는 매우 유용한 병렬 처리 패러다임이 되고 있다. 본 구현에서 스레드 수준 병렬화는 각 스레드에 다른 입력 픽셀을 할당하여 실행하였다. 성능 평가를 위해 직렬 및 병렬 구현들 사이의 처리 속도의 비교에 기초하여 대표적 멀티 코어 프로세서에서 색 변환을 위한 성능 향상 정도를 평가하였다. 결과는 스레드 수준의 병렬 구현에 관계없이 다른 멀티 코어에서 전반적으로 비슷한 성능 향상의 비율을 보여주었다.

GPU가 장착된 PC를 위한 혼합 정렬 알고리즘 설계 (Designing Hybrid Sorting Algorithm for PC with GPU)

  • 권오영
    • 한국항행학회논문지
    • /
    • 제15권2호
    • /
    • pp.281-286
    • /
    • 2011
  • 데이터 정렬은 현대 사회에 존재하는 수많은 디지털 데이터에 대한 중요한 가공 작업 중의 하나이지만, 데이터가 방대할수록 정렬 과정 자체도 많은 연산시간을 소비한다. 본 논문에서 데이터 배열을 분할하여 PC에 있는 CPU와 GPU에서 각각 동시에 정렬을 수행하는 혼합 정렬 알고리즘을 제안하였다. 각 장치의 처리 성능을 바탕으로 가장 효율적인 배열의 분할 범위를 결정하고 각각 분할된 영역을 CPU와 GPU에서 동시에 정렬함으로써 전체 정렬 시간을 단축시켰다. 실험결과에서 알 수 있듯 혼합 정렬이 GPU만 활용한 정렬보다 8%이상 정렬 수행 속도를 향상시켰다.

Pfair 멀티코어 스케줄러에서 CPU 유휴시간 기반의 인터럽트 처리 기법의 지연시간 평가 (Latency Evaluation of CPU Idle Time Based Interrupt Processing on Pfair Multi-Core Scheduler)

  • 박상수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 춘계학술발표대회
    • /
    • pp.31-32
    • /
    • 2014
  • 다중의 명령어를 동시에 수행할 수 있는 멀티코어 시스템의 특성으로 하나의 시스템 내에서 태스크를 수행하면서 외부 이벤트의 발생에 의한 인터럽트를 동시에 처리할 수 있다. 각 태스크가 처리되어야 하는 시간에 제약성을 갖는 실시간 시스템에서는 스케줄러에 의해 CPU 코어에서의 수행이 제어되어야한다. 본 논문에서는 최적이라고 알려진 Pfair 멀티코어 스케줄러의 각 코어별 유휴시간을 정량적으로 평가함으로써 인터럽트 처리의 지연시간을 분석한다.

헤테로지니어스 멀티코어 성능 최적화를 위한 하이브리드 병렬 프로그래밍 (Hybrid parallel programming for Heterogeneous Multi-core performance optimization)

  • 임주호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(A)
    • /
    • pp.7-9
    • /
    • 2012
  • CPU는 싱글 코어 구조에서 클록 속도를 높여 성능을 향상 시키려는 노력을 해왔으나 한계에 도달하자 하나의 칩에 코어를 여러 개 둔 멀티코어 형태로 발전하였다. CPU의 성능 향상을 위해 이제는 3D그래픽을 연산처리하기 위해 만들어진 GPU와 결합하기에 이르렀다. CPU와 GPU의 결합은 CPU간의 결합보다 훨씬 더 좋은 성능을 보였고 전력의 사용량도 더 적었으며 비용면에서도 경제적이라는 장점을 가지고 있다. 본 논문에서는 CPU와 GPU의 Heterogeneous multicore상에서 성능을 최적화하기 위해 기존의 병렬화 모델을 조합하고 최적화를 시도하였다. CPU상에서는 성능 향상을 위해 기존의 병렬 프로그램 모델인 SIMD와 공유메모리 병렬 프로그래밍 모델 그리고 메시지 패싱 병렬 프로그래밍 모델을 조합하는 실험을 했다. GPU에서는 CUDA를 최적화 하였다. 이렇게 CPU와 GPU를 최적화하고 조합하여 고성능 연산을 요구하는 어플리케이션을 위한 Heterogeneous multicore 성능 최적화 방법을 제안한다.

SIMT 구조 기반 멀티코어 GPGPU의 통합 ALU 설계 (An implementation of a unified ALU in multi-core GPGPU based on SIMT architecture)

  • 경규택;곽재창;이광엽
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2013년도 추계학술대회
    • /
    • pp.540-543
    • /
    • 2013
  • 본 논문은 SIMT 구조 기반의 멀티코어 GPGPU의 통합 ALU를 설계하였다. 조건부 분기 명령어, 데이터 이동 명령어, 정수형 산술 연산 명령어, 부동소수점 산술 연산 명령어를 처리할 수 있으며 멀티코어 GPGPU의 다양한 형태의 병렬처리 기능을 지원하기 위하여 다 수의 ALU가 탑재된다. 각 명령어 연산의 처리방식의 공통성을 회로 수준에서 통합하여 최소의 크기로 ALU를 설계하는 것이 본 논문의 주안점이다. 모든 명령어는 테스트 프로그램을 작성하여 실험하였고 CPU로 연산한 결과와 비교하여 본 논문의 ALU가 정상적으로 동작함을 검증하였다. 본 논문에서 설계한 통합 ALU의 크기는 약 2만 게이트이며 최대 동작주파수는 430MHz이다.

  • PDF

A Technique for Fast Process Creation Based on Creation Location

  • Kim, Byung-Jin;Ahn, Young-Ho;Chung, Ki-Seok
    • Journal of Computing Science and Engineering
    • /
    • 제5권4호
    • /
    • pp.283-287
    • /
    • 2011
  • Due to the proliferation of software parallelization on multi-core CPUs, the number of concurrently executing processes is rapidly increasing. Unlike processes running in a server environment, those executing in a multi-core desktop or a multi-core mobile platform have various correlations. Therefore, it is crucial to consider correlations among concurrently running processes. In this paper, we exploit the property that for a given created location in the binary image of the parent process, the average running time of child processes residing in the run-queue differs. We claim that this property can be exploited to improve the overall system performance by running processes that have a relatively short running time before those with a longer running time. Experimental results verified that the running time was actually improved by 11%.

CPU 기반의 볼륨 변형을 위한 다형질 Chainmail 모델 (Heterogeneous Chain-mail Model for CPU-based Volume Deformation)

  • 이세인;계희원
    • 한국멀티미디어학회논문지
    • /
    • 제22권7호
    • /
    • pp.759-769
    • /
    • 2019
  • Since a surgery simulation should be able to represent the internal structure of the human body, it is advantageous to adopt volume based techniques rather than polygon based techniques. However, the volume based techniques induce large computation to deform heterogeneous volume datasets such as bones and muscles. In this study, we propose a new method to deform volume data using multi-core CPUs. By improving previous studies, the proposed method minimizes unnecessary propagation operations. Moreover, we propose an efficient task-partitioning method for volume deformation using multi-core CPUs. As a result, we can simulate the deformation of heterogeneous volume data at an interactive speed without special hardware.