• Title/Summary/Keyword: 칩 멀티 프로세서

Search Result 61, Processing Time 0.029 seconds

Idle Cache Exploiting Techniques for Shared Bus-based Chip Multi-processors (칩 멀티 프로세서의 공유 버스를 이용한 유휴 캐시 활용 기법)

  • Kang, Seok-bin;Kim, Ju-hwan;Kwak, Jong Wook;Jhang, Seong Tae;Jhon, Chu-shik
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.04a
    • /
    • pp.877-880
    • /
    • 2009
  • 반도체 집적도의 향상과 제한된 프로세서 설계 능력으로 인한 칩 멀티 프로세서의 도입은 최근 수 년 동안 급속히 이루어졌으나, 다수의 프로세싱 코어를 효율적으로 사용하기 위한 기법은 부족한 실정이다. 칩 멀티 프로세서 상에서 실제 작업을 수행하지 않는 유휴 코어의 발생은 불가피하며, 이 때 코어가 소유한 자원들은 낭비될 수 밖에 없다. 기존의 연구들은 이렇게 낭비되는 자원 중에서 캐시의 효율적 관리를 위해 공유 캐시 형태로 캐시를 구성하였으나, 전체 캐시 관리에 따른 많은 오버헤드를 수반하였다. 본 논문에서는 이러한 유휴 캐시의 발생이 불가피함을 인지하고 그것을 칩 내 메모리 공간으로써 활용하여 칩 멀티 프로세서 전체의 성능을 향상시키는 기법을 제안한다. 이를 위해 ARM 코어 기반의 칩 멀티프로세서 시뮬레이터 환경을 구성하여 제안된 기법을 검증한다. 실험 결과 본 논문에서 소개된 기법은 4-코어 및 16 코어 기반 칩 멀티 프로세서 환경에서 각각 17%와 8%의 IPC 향상을 가져왔다.

Preliminary Study on On-Chip Interconnect Architecture for Multi-Core Processors (멀티코어 프로세서를 위한 확장성 있는 온 칩 연결 망 구조 연구)

  • Choi, Jae-Young;Choi, Lynn
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2008.06b
    • /
    • pp.405-410
    • /
    • 2008
  • 성능 / 에너지를 강조하는 현재의 멀티코어 추세에서 임베디드 시스템에 사용되는 대부분의 프로세서들은 단일 프로세서와 메모리를 버스 형태로 연결하여 구현하였다. 하지만 칩 내부의 프로세서 코어 수가 증가 하게 되면, 기존 버스 형태의 구조는 제한된 대역폭으로 인하여 확장성이 제약된다. 본 논문에서는 멀티코어 프로세서에서 사용 가능한 기존 연결 망 구조들을 분석하고, 기존 계층적 링 구조에서의 지연 시간 문제를 극복하여 성능을 개선할 수 있는 새로운 이중 광역 계층 링 구조를 제안한다.

  • PDF

Efficient On-Chip Idle Cache Utilization Technique in Chip Multi-Processor Architecture (칩 멀티 프로세서 구조에서 온칩 유휴 캐시의 효과적인 활용 방안)

  • Kwak, Jong Wook
    • Journal of the Korea Society of Computer and Information
    • /
    • v.18 no.10
    • /
    • pp.13-21
    • /
    • 2013
  • Recently, although the number of cores on a chip multi-processor increases, multi-programming or multi-threaded programming techniques to utilize the whole cores are still insufficient. Therefore, there inevitably exist some idle cores which are not working. This results in a waste of the caches, so-called idle caches which are dedicated to those idle cores. In this research, we propose amethodology to exploit idle caches effectively as victimcaches of on-chip memory resource. In simulation results, we have achieved 19.4%and 10.2%IPC improvement in 4-core and 16-core respectively, compared to previous technique.

A Study on Highly Performance Multimedia Processor Architecture (고효율 멀티미디어 프로세서 아키텍쳐에 관한 연구)

  • 박춘명
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2001.06a
    • /
    • pp.12-15
    • /
    • 2001
  • 본 논문에서는 고효율 멀티미디어 프로세서 아키텍쳐에 대해 논의하였다. 제안한 멀티미디어 프로세서 아케텍쳐는 제안한 방법은 기존의 멀티미디어 프로세서의 단점들인 각종 텍스트, 사운드, 비디오 등의 미디어 들을 1개의 칩 속에서 처리할 수 있도록 하였으며, 또한 멀티미디어의 특성인 상호대화식 처리도 가능하게 하였다. 특히, 완전한 그래프에 기반을 둔 네트워크를 지향하므로 소프트웨어 없이 메모리 맵의 노드어드레싱을 가능하게 하였으며, 데이터 형태에 의존하는 완전한 재구성이 가능하며 동기/비동기를 갖는 시간 공유와 공간 공유 처리가 가능하다. 또한, 연속적임과 동적인 매체 데이터의 버스 충돌을 방지할 수 있으며 지역적임과 전반적인 공유 메모리 구조로부터의 버스 충돌도 방지할 수 있으며, 또한 가상현실과 흔합현실에도 적용할 수 있으리라 사료된다.

  • PDF

Performance Improvement of Single Chip Multiprocessor using Concurrent Branch Execution (분기 동시 수행을 이용한 단일 칩 멀티프로세서의 성능 개선)

  • Lee, Seung-Ryul;Kim, Jun-Shik;Choi, Jae-Hyeok;Choi, Sang-Bang
    • Journal of the Institute of Electronics Engineers of Korea SD
    • /
    • v.44 no.2
    • /
    • pp.61-71
    • /
    • 2007
  • The instruction level parallelism, which has been used to improve the performance of processors, expose its limit. The change of a control flow by a branch miss prediction is one of the obstacles that restrict the instruction level parallelism. The single chip multiprocessors have been developed to utilize the thread level parallelism. However, we could not use the maximum performance of the single chip multiprocessor in case of executing the coded programs without considering the multi-thread. In order to overcome the two performance degradation factors, in this paper, we suggest the concurrent branch execution method that applies to the multi-path execution method at a single chip multiprocessor. We executes all two flows of the conditional branch using the idle core processor. Through this, we can improve the processor's efficiency with blocking the control flow termination by the branch instruction and reducing the idle time. We analyze the effects of concurrent branch execution proposed in this paper through the simulation. As a result of that, concurrent branch execution reduces about 20% of idle time and improves the maximum 10% of the branch prediction accuracy. We show that our scheme improves the overall performance of maximum 39% compared to the normal single chip multiprocessor and maximum 27% compared to the superscalar processor.

Efficient Video Signal Processing Method on Dual Processor of RISC and DSP (RISC와 DSP의 듀얼 프로세서에서의 효율적인 비디오 신호 처리 방법)

  • 김범호;마평수
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10c
    • /
    • pp.676-678
    • /
    • 2003
  • 최근에 2.5G나 3G 이동 단말 장치를 위한 프로세서로, 다양한 멀티미디어가 가미된 응용구현이 가능하도록 RISC 프로세서와 DSP를 포함하는 단일 칩 프로세서 기술이 등장하고 있다. 이에 따라 듀얼 프로세서 구조에서 비디오 인코딩/디코딩의 처리 속도를 향상시키기 위안 비디오의 인코더/디코더 구조를 제안한다. 기존의 연구에서는 비디오의 인코딩/디코딩의 전 과정을 DSP가 담당하도록 설계하였으나 많은 비트 연산이 필요한 부분에서는 RISC 칩보다 효율성이 낮게 된다. 이러한 문제점을 해결하기 위하여 본 논문에서는 비디오 신호 처리의 인코딩/디코딩을 구성하는 모듈들을 DSP와 RISC의 특성에 맞도록 분리해 수행시킴으로써 효율성을 높이고자 한다.

  • PDF

An Efficient Cache Coherence Protocol for Multi-Core Processors with Ring Interconnects (링 연결구조 기반의 멀티코어 프로세서를 위한 캐시 일관성 유지 기법)

  • Park, Jin-Young;Choi, Lynn
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.14 no.8
    • /
    • pp.768-772
    • /
    • 2008
  • Today's microprocessor normally includes several processing cores to reduce the energy consumption without losing performance. In this paper, data transfer ordering mechanism can be efficiently used for cache coherence solution in unidirectional ring interconnect. RING-DATA ORDER combines the simplicity of GREEDY-ORDER and the performance of RING-ORDER. RING-DATA ORDER can be easily applicable to multicore processor with unidirectional ring interconnect.

ISDN System On Chip Design Using ARM7 Core and Implementation of Multimedia Terminal (ARM7 코어를 이용한 ISDN 시스템 칩 설계 및 멀티미디어 단말 구현)

  • So, Woon-Seob;Hyang, Dae-Hwan
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.10b
    • /
    • pp.1463-1466
    • /
    • 2001
  • 본 논문은 ISDN 통신망에서 멀티미디어 통신 서비스를 제공하기 위해 단말에 사용되는 ISDN 시스템 칩 설계 및 단말 구현에 관한 것이다. 저가의 통신 단말을 구현하기 위하여 32 비트 RISC 프로세서인 ARM7 프로세서 코어를 중심으로 ISDNS S/T 인터페이스를 통한 통신망 접속 기능, 톤 발생 및 음성 코덱 기능, TDM 버스 정합 기능, PC 정합 기능을 가지는 ISDN 시스템 칩을 설계 및 개발하였고, 이 칩을 시험하기 위한 시험 프로그램 및 통신 단말 소프트웨어를 개발하였으며, 응용단말을 구현하여 자체 기능 시험 및 실제 망 접속 시험을 통하여 기능을 검증하였다.

  • PDF

Analysis of Low Internal Bus Operation Frequency on the System Performance in Embedded Processor Based High-Performance Systems (내장 프로세서 기반 고성능 시스템에서의 내부 버스 병목에 의한 시스템 성능 영향 분석)

  • Lim, Hong-Yeol;Park, Gi-Ho
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06d
    • /
    • pp.24-27
    • /
    • 2011
  • 최근 스마트 폰 등 모바일 기기의 폭발적인 성장에 의해 내장 프로세서인 ARM 프로세서 기반 기기들이 활발히 개발되어 사용되고 있다. 이에 따라 상대적으로 저성능, 저 전력화에 치중하였던 내장 프로세서도 고성능화를 위한 고속 동작 및 멀티코어 프로세서를 개발하여 사용하게 되었으며, 메모리 동작 속도 역시 빠르게 발전하고 있다. 특히 모바일 기기 등에 사용 되는 저전력 메모리인 LPDDR2 소자 등의 개발에 따라 빠른 동작 속도를 가지도록 개발되고 있다. 그러나 시스템 온 칩(SoC, System on Chip) 형태로 제작되는 ARM 프로세서 기반의 SoC는 다양한 하드웨어 가속기 등을 함께 내장하고 있고, 저 전력화를 위한 버스 구조 등에 의하여 온 칩 버스의 속도 향상이 고성능 범용 시스템에 비하여 낮은 수준이다. 본 연구에서는 이러한 점을 고려하여, 프로세서 코어와 메모리 소자의 동작 속도 향상에 의하여 얻을 수 있는 성능 향상과, 상대적으로 낮은 버스 동작 속도에 의하여 저하되는 성능의 정도를 분석하고 이를 극복하기 위한 방안을 검토하였다.

Power Consumption and Temperature Comparison between Real Multicore Processor System and Virtual Multicore Processor System (실제 멀티코어 프로세서 시스템과 가상 시스템의 전력 소모 및 온도 비교)

  • Jeon, Hyung-Gyu;Kang, Seung-Gu;Ahn, Jin-Woo;Kim, Cheol-Hong
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06b
    • /
    • pp.450-453
    • /
    • 2011
  • 반도체 공정 기술의 발달에 따라 프로세서의 성능은 비약적으로 증가하였다. 특히 최근에는 하나의 프로세서에 여러 개의 코어를 집적한 멀티코어 프로세서 기술이 급속도로 발달하고 있는 추세이다. 멀티코어 프로세서는 동작주파수를 높여 성능을 개선하는 싱글코어 프로세서의 한계를 극복하기 위해 코어 개수를 늘림으로써 각각의 코어가 더 낮은 동작주파수에서 실행할 수 있도록 하여 소모 전력을 줄일 수 있다. 또한 다수의 코어가 동시에 연산을 수행하기 때문에 싱글코어 프로세서보다 더 많은 연산을 효율적으로 수행하여 사용률이 크게 높아지고 있지만 멀티코어 프로세서에서는 다수의 코어를 단일 칩에 집적하였기 때문에 전력밀도의 증가와 높은 발열이 문제가 되고 있다. 이와 같은 상황에서 본 논문에서는 듀얼코어 프로세서를 탑재한 시스템과 쿼드코어 프로세서를 탑재한 시스템의 소모 전력과 온도를 실제 측정하고 시뮬레이션을 통해 얻은 가상 시스템의 결과를 비교, 분석함으로써 실제 측정 결과와 시뮬레이션 결과가 얼마나 유사한지를 살펴보고, 차이가 발생하는 원인에 대한 분석을 수행하고자 한다. 실험결과, 실제 시스템을 측정한 결과와 시뮬레이션을 통한 가상 시스템의 결과는 매우 유사한 추이를 보이는 것으로 나타났다. 하지만 실제 시스템의 소모 전력과 온도의 증가비율은 가상 시스템의 소모 전력과 온도의 증가비율과는 다른 경향을 보이는 것을 확인하였다.