• 제목/요약/키워드: 다중코어

검색결과 160건 처리시간 0.033초

Tilera 다중코어와 x86-64 멀티코어 시스템의 성능 비교 (Performance Comparison of Tilera Many-core and x86-64 Multi-core Systems)

  • 최희석;유태묵;박지수;정대용;임종범;이정하;서태원;유헌창
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 춘계학술발표대회
    • /
    • pp.102-105
    • /
    • 2013
  • 최근 멀티코어 시스템은 컴퓨터의 성능을 향상시키기 위해 더 많은 수의 코어를 연결시키는 다중코어 시스템으로 발전하고 있다. 그러나 멀티코어 시스템은 사용하는 코어의 아키텍처 구조와 개수에 따라 성능 차이가 발생한다. 이에, 본 논문에서는 코어의 아키텍처 구조와 코어의 개수가 성능에 미치는 영향을 분석하기 위해 Tilera의 다중코어 시스템인 Tile-Gx36, TilePro64와 Intel의 x86-64 멀티코어 시스템인 Core i5의 성능을 비교하였다. 코어의 사용률이 늘어남에 따른 성능차이를 알아보기 위해 벤치마크 프로그램인 SPEC CPU 2006을 이용하여 각 시스템 내 단일코어의 성능을 측정하고, OpenMP 벤치마크 프로그램을 이용하여 시스템의 모든 코어를 사용했을 때의 입력 데이터 크기에 따른 성능을 측정하였다. 실험 결과, 단일코어에서의 성능은 정수형 데이터를 사용하여 측정하였을 경우 Core i5가 Tile-Gx36보다 약 87%, 실수형 데이터를 사용하여 측정하였을 경우 약 94% 더 빠른 것으로 나타났다. 그러나 코어 전체를 이용한 성능 결과에서는 정수형 배열 크기가 이상일 경우 Tile-Gx36 시스템의 처리 속도가 Core i5 시스템 보다 평균적으로 약 7.6배 향상됨을 확인할 수 있었다. 따라서 Tilera의 다중코어 시스템은 클럭 속도와 아키텍처 구조의 영향으로 단일코어의 성능은 떨어지나, 병렬 처리를 이용한 고속연산에서는 성능이 향상된다고 할 수 있다.

다중코어 시스템의 메쉬구조 상호연결망이 성능에 미치는 영향 (The Effect of Mesh Interconnection Network on the Performance of Manycore System.)

  • 김한이;김영환;서태원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 추계학술발표대회
    • /
    • pp.116-119
    • /
    • 2011
  • 다중코어(Many-Core) 시스템은 많은 코어들이 상호연결망을 통해서 연결되어있는 시스템으로, 단일코어나 멀티코어 시스템에 비해 보다 많은 병렬 컴퓨팅 자원을 지원한다. Amdahl 의 법칙에 의하면 병렬화되어 처리하는 부분은 이론적으로 프로세서의 개수에 비례하게 가속화 될 수 있지만, 상호연결망에서의 전송 지연을 비롯한 많은 요인에 의해서 성능의 가속화가 저해된다. 특히 캐시 일관성 규약(Cache Coherence Protocol)을 지원하는 대부분의 다중코어 시스템에서는 병렬화를 함에 있어서 캐시 미스로 인해 발생하는 데이터의 전송 지연이 성능에 많은 영향을 미칠 수 있다. 따라서 효과적인 병렬 프로그램을 위해서는 캐시 구조에 대한 이해를 바탕으로 상호연결망에 대한 연구가 필요하다. 본 논문에서는 메쉬(Mesh) 구조의 64 코어 다중코어 시스템인 TilePro64 를 이용하여 상호연결망의 데이터 전송 지연에 따른 프로그램 성능의 민감도를 측정하였다. 결과적으로 코어간 거리(Hop)가 늘어날수록 작업의 수행시간이 평균적으로 4.27%씩 선형적으로 증가하는 관계가 있는 것으로 나타났다.

효과적인 이기종 다중코어 응용 개발을 위한 SMP기반 이기종 다중코어 시뮬레이터 (Heterogeneous multi-core simulator based on SMP for the efficient application development at the heterogenous multi-core environment)

  • 사공준;신동하
    • 한국인터넷방송통신학회논문지
    • /
    • 제18권3호
    • /
    • pp.111-117
    • /
    • 2018
  • 서로 다른 기능을 가진 코어들을 집적시킨 이기종 다중코어 환경은 더욱 복잡하고 다양해지는 임베디드 시스템의 요구사항들을 만족시키는 강력한 도구이며 특화된 응용을 위해 상이한 코어 상에서 별개의 운영체제를 수행하여 적합한 환경을 구성한다. 그러나 이런 이질성은 개발 환경을 더욱 복잡하게하고 프로그래밍을 어렵게 하며 개발과 디버깅을 쉽지 않도록 만든다. 본 논문에서는 이기종 다중코어 환경을 단일 다중코어 환경으로 매핑 가능함을 보이고 이기종 다중코어 환경에서 프로세스 간 통신에 사용하는 RPMsg를 리눅스 기반으로 구축하여 여러 단계의 개발과정을 축소할 수 있음을 보인다. 이러한 단순화를 통해 이기종 다중코어 환경에서의 개발 기간을 대폭 줄여줄 수 있는 시뮬레이션 방법을 제안한다.

다중 큐를 지원하는 고속 I/O 장치를 위한 동적 코어 친화도 (Dynamic Core Affinity for High-Performance I/O Devices Supporting Multiple Queues)

  • 조중연;엄준용;진현욱;정성인
    • 정보과학회 논문지
    • /
    • 제43권7호
    • /
    • pp.736-743
    • /
    • 2016
  • 멀티코어 시스템에서 코어 친화도가 네트워크 I/O 성능에 미치는 영향은 다양한 연구들을 통해 관찰 되었다. 점차 고속화되는 네트워크 연결의 발전에 따라 효율적인 코어 친화도 정책은 중요한 성능 요소가 될 수 있다. 미들웨어 수준의 동적 코어 친화도 프레임워크는 네트워크와 디스크 I/O를 함께 고려한 코어 친화도 정책을 제안하였지만 다중 큐에 대한 고려는 이루어지지 않았다. 본 논문에서는 기존 동적 코어 친화도 프레임워크에 사용된 알고리즘을 다중 큐를 지원하기 위한 구조로 확장하고, 40 기가비트 이더넷과 NVMe 디바이스를 장착한 시스템에서 파일 업로드 성능을 분석한다. 실험 결과 다중 큐를 지원하기 위한 동적 코어 친화도는 하둡 분산 파일 시스템의 파일 업로드 처리량을 최대 32% 향상시켰으며 매니코어 시스템에서 더 나은 확장성을 제공할 수 있음을 확인하였다. 또한 다중 큐 조합에 따른 성능 영향에 대해 분석하여 다중 큐 분배 조합을 위해 고려해야 할 성능 요소들에 대해 논의한다.

다중 QoS 제약형 네트워크에서의 멀티캐스트 코어 선택 알고리즘 (Core Selection Algorithm for Multicast Routing in Multiple QoS-Constrained Networks)

  • 정승모;윤찬현;손승원;이유경
    • 한국정보과학회논문지:정보통신
    • /
    • 제27권4호
    • /
    • pp.507-521
    • /
    • 2000
  • 실시간 멀티미디어 서비스에서 Quality of Service(QoS) 보장의 필요성이 증가하고 있다. 멀티미디어 서비스 제공 형태의 대다수가 될 멀티캐스트 경로설정에서도 QoS 보장은 확장성 신뢰성과 함께 매우 중요한 문제이다. QoS 기반 코어 선택 알고리즘을 제안한다. 제안 알고리즈믄 멀티캐스트 경로설정에서 코어 선택시에 다중 QoS 제약조건을 고려한다. QoS 제약조건은 최소보장 대역폭, 종단 지연, 종단 지연변이 등으로 정의한다. 모의 실험결과는 제안한 QCSA와 Maximum Centered Tree(MCT) Average Centered Tree (ACT) Initial Delay-Constrained Shared Tree(Dcinitial) Random Tree(Random)등의 기존 코어 선택 알고리즘의 성능을 각 항목별로 비교한다 멀티캐스트 그룹 멤버수와 QoS 제약조건을 인자로 한 모의 실험 결과는 제안한 QoS 기반 코어 선택 알고리즘이 기존 코어 선택 알고리즘에 비해서 다중 QoS 제약조건 보장 코어 선택 성공률에서 성능 개선 효과를 가짐을 보여준다. 제안 알고리즘이 본 논문에서 설정한 모의 실험 환경에서는 QoS 기반 코어 선택의 정도를 나타내는 성공률에서 약 10% 정도 기존 알고리즘보다 우수함을 보인다. 이 결과는 제안 알고리즘이 코어 선택 과정의 초기부터 멀티캐스트 그룹내의 모든 멤버에 대한 다중 QoS 제약조건을 고려하는 점이 QoS 기반 코어 선택에서 개선 효과를 나타냄을 보여준다.

  • PDF

다중블럭을 실행하는 멀티코어 비순차 수퍼스칼라 프로세서의 성능 분석 (Performance Analysis of Multicore Out-of-Order Superscalar Processor with Multiple Basic Block Execution)

  • 이종복
    • 한국멀티미디어학회논문지
    • /
    • 제16권2호
    • /
    • pp.198-205
    • /
    • 2013
  • 본 논문에서는 다중블럭 실행을 이용하는 멀티코어 비순차 수퍼스칼라 프로세서 아키텍쳐의 성능을 분석하였다. 이것을 위하여 SPEC 2000 벤치마크를 입력으로 하며, 윈도우 크기가 32와 64이고 1개에서 4개의 다중블럭을 실행하는 멀티코어 비순차 수퍼스칼라 프로세서에 대하여 1 코어에서 16 코어까지 광범위한 모의실험을 수행하였다. 모의실험 결과, 4개의 다중블럭을 실행하는 멀티코어 비순차 수퍼스칼라 프로세서는 같은 사양에서 단일 블럭을 실행할 때보다 평균 22.0%의 성능 향상을 가져왔다.

PARSEC을 이용한 TILE-Gx36 다중코어 프로세서의 성능 평가 및 분석 (Performance evaluation and analysis of TILE-Gx36 many-core processor with PARSEC benchmark)

  • 이보선;김한이;유헌창;서태원
    • 컴퓨터교육학회논문지
    • /
    • 제17권1호
    • /
    • pp.107-115
    • /
    • 2014
  • 본 논문은 다중코어의 성능을 평가하고 분석하기 위해 TILE-Gx36(Gx36) 다중코어 프로세서를 사례로 연구하였다. Gx36의 성능 평가는 비교적 최신 병렬 벤치마크인 PARSEC을 이용하였고, 성능 분석을 돕기 위한 비교 시스템으로 인텔의 Core i7 (i7)과 Atom을 사용하였다. 실험결과 2의 제곱으로 동시에 수행 가능한 스레드를 발생시켰을 때, Gx36은 i7보다 평균 2.73배 낮은 성능을 보였으며, Atom보다는 평균 1.93배 높은 성능을 보였다. Gx36은 비교 프로세서보다 상대적으로 큰 Last-Level Cache(LLC)를 갖고 있음에도 불구하고, 가장 많은 LLC miss를 발생시켰다. 이는 Gx36이 기대치 이하의 성능을 보이는 주된 이유로 판단되며, DDC가 일반적 고성능 컴퓨팅을 위한 캐시구조로 적절하지 않음을 보여준다. 다중코어 시스템의 실측을 통한 성능평가는 향후 다중코어 구조개선 및 올바른 방향 설정을 위한 객관적인 자료를 제공한다.

  • PDF

주기적 실시간 작업들의 전력 소모 감소를 위한 병렬 수행을 활용한 다중코어 DVFS 스케줄링 기법 (Multicore DVFS Scheduling Scheme Using Parallel Processing for Reducing Power Consumption of Periodic Real-time Tasks)

  • 박수희
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권12호
    • /
    • pp.1-10
    • /
    • 2014
  • 본 논문에서는 다중코어 프로세서 상에서 주기적 실시간 작업들의 데드라인을 만족하면서 전력 소모량을 최소화하도록 DVFS 기법과 전원 소등 기법을 모두 사용하는 스케줄링 방법을 제안하였다. 제안된 스케줄링 방법은 프로세싱 코어들이 단일 시점에 같은 속도로 동작하는 연관형 프로세서 모델에 적합하도록 설계되었고, 기존 연구에서 해결하지 못한 프로세싱 코어들의 부하불균등 현상을 병렬 수행을 작업들에 적용하여 해소함으로써 전력 소모량을 줄였다. 또한 작업들의 전체 계산량을 고려하여 일부 프로세싱 코어들만을 활성화하여 사용하고 나머지 코어들의 전원은 소등하여 전력 소모량을 줄였다. 전체 프로세싱 코어들 중에서 활성화될 프로세싱 코어들의 개수는 수학적 분석을 통하여 결정되었다. 성능 평가 실험에서 제안된 방법은 기존 방법보다 전력 소모량을 최대 77%까지 감소시킴을 보였다.

다중 코어 및 single instruction multiple data 기술을 이용한 심층 신경망 속도 향상 (Improving the speed of deep neural networks using the multi-core and single instruction multiple data technology)

  • 정익주;김승희
    • 한국음향학회지
    • /
    • 제36권6호
    • /
    • pp.425-435
    • /
    • 2017
  • 본 논문에서는 다중 코어 ARM 프로세서의 NEON SIMD(Single Instruction Multiple Data) 병렬 명령어 및 다중 코어 병렬화를 통하여 심층 신경망의 피드포워드 네트워크 연산을 최적화하는 방안을 제시하였다. SIMD 병렬 명령어를 이용한 최적화의 경우에는 단계 별 최적화 과정에서의 속도 향상과 정밀도를 제시 하였다. 단일 코어 상에서 SIMD 병렬 명령어를 이용하여 구현된 결과는 C 컴파일러를 이용한 구현보다 2.6배의 속도 향상을 얻을 수 있었다. 또한 단일 코어 상에서 최적화된 코드를 다중 코어로 병렬화함으로써 5.7배~7.7배의 속도 향상을 얻을 수 있었다. 이상의 결과를 통하여 이동형 단말기에서도 연산량이 많은 심층 신경망 기술을 활용할 수 있는 가능성을 확인하였다.

다중코어 프로세서를 이용한 전산화단층촬영의 재구성 시간 개선 (Improvement in Reconstruction Time Using Multi-Core Processor on Computed Tomography)

  • 천권수
    • 한국방사선학회논문지
    • /
    • 제9권7호
    • /
    • pp.487-493
    • /
    • 2015
  • 전산화단층촬영에서 재구성 과정은 상당한 시간이 요구된다. 단면 영상의 품질을 높이기 매트릭스 크기를 증가시키면 재구성 시간이 매우 빠른 속도로 증가한다. 다중코어 프로세서는 오늘날 광범위하게 사용되고 있으며, 다중코어 프로세서의 다중 스레드를 이용하여 계산 시간을 줄이는 것이 가능하다. 본 연구는 다중 스레드로 CT의 재구성 시간을 개선하였다. 다중 스레드를 위해 Pthread와 OpenMP를 이용하였고, 재구성 과정에서 많은 시간이 소비되는 컨볼루션과 역투역 과정을 자세히 조사하였다. Pthread와 OpenMP 모두 스피드업과 효율성 측면에서 비슷한 성능을 나타내었다.