• 제목/요약/키워드: Many-core processor

검색결과 54건 처리시간 0.02초

임베디드 시스템을 이용한 틸팅 제어 시스템(T.T.P)에 관한 연구 (Debugging of TTP(Train Tilting Processor) In Use The Embedded System)

  • 송용수;신승권;이수길;한성호
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2004년도 하계학술대회 논문집 D
    • /
    • pp.2625-2627
    • /
    • 2004
  • ARM CORE용 칩으로 틸팅 제어 부분에 이용될 수 있는 main processor 부분을 설계하고, JTAG 기술을 이용하여 그 안정성과 틸팅 기술에 이용될 수 있는 process를 사전 단계에서bebugging 해보고, 이에 따른 신호 및 성능을 JTAG(Boundary Scan)을 이용하여 시스템의 신호와 파형을 시험 평가한다. 또한 예비 단계로의 JTAG 검증 가능성 여부를 알아보고자 한다. 철도 종합 제어 시스템의 신호 및 정확성을 측정해 보기 위한 선행 연구라 할 수 있다.

  • PDF

래스터화 알고리즘을 위한 최적의 매니코어 프로세서 구조 탐색 (Architecture Exploration of Optimal Many-Core Processors for a Vector-based Rasterization Algorithm)

  • 손동구;김철홍;김종면
    • 대한임베디드공학회논문지
    • /
    • 제9권1호
    • /
    • pp.17-24
    • /
    • 2014
  • In this paper, we implement and evaluate the performance of a vector-based rasterization algorithm for 3D graphics by using a SIMD (single instruction multiple data) many-core processor architecture. In addition, we evaluate the impact of a data-per-processing elements (DPE) ratio that is defined as the amount of data directly mapped to each processing element (PE) within many-core in terms of performance, energy efficiency, and area efficiency. For the experiment, we utilize seven different PE configurations by varying the DPE ratio (or the number PEs), which are implemented in the same 130 nm CMOS technology with a 500 MHz clock frequency. Experimental results indicate that the optimal PE configuration is achieved as the DPE ratio is in the range from 16,384 to 256 (or the number of PEs is in the range from 16 and 1,024), which meets the requirements of mobile devices in terms of the optimal performance and efficiency.

최적화된 CUDA 소프트웨어 제작을 위한 프로그래밍 기법 분석 (Analysis of Programming Techniques for Creating Optimized CUDA Software)

  • 김성수;김동헌;우상규;임인성
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권7호
    • /
    • pp.775-787
    • /
    • 2010
  • GPU(Graphics Processing Unit)는 범용 CPU와는 달리 다수코어 스트리밍 프로세서(manycore streaming processor) 형태로 특화되어 발전되어 왔으며, 최근 뛰어난 병렬 처리 연산 능력으로 인하여 점차 많은 영역에서 CPU의 역할을 대체하고 있다. 이러한 추세에 따라 최근 NVIDIA 사에서는 GPGPU(General Purpose GPU) 아키텍처인 CUDA(Compute Unified Device Architecture)를 발표하여 보다 유연한 GPU 프로그래밍 환경을 제공하고 있다. 일반적으로 CUDA API를 사용한 프로그래밍 작업시 GPU의 계산구조에 관한 여러 가지 요소들에 대한 특성을 정확히 파악해야 효율적인 병렬 소프트웨어를 개발할 수 있다. 본 논문에서는 다양한 실험과 시행착오를 통하여 획득한 CUDA 프로그래밍에 관한 최적화 기법에 대하여 설명하고, 그러한 방법들이 프로그램 수행의 효율에 어떠한 영향을 미치는지 알아본다. 특히 특정 예제 문제에 대하여 효과적인 계층 구조 메모리의 접근과 코어 활성화 비율(occupancy), 지연 감춤(latency hiding) 등과 같이 성능에 영향을 미치는 몇 가지 규칙을 실험을 통해 분석해봄으로써, 향후 CUDA를 기반으로 하는 효과적인 병렬 프로그래밍에 유용하게 활용할 수 있는 구체적인 방안을 제시한다.

고속의 클러스터 추정을 위한 매니코어 프로세서의 디자인 공간 탐색 (Design Space Exploration of Many-Core Processor for High-Speed Cluster Estimation)

  • 서준상;김철홍;김종면
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권10호
    • /
    • pp.1-12
    • /
    • 2014
  • 본 논문에서는 단일 명령어, 다중 데이터 처리 기반의 매니코어 프로세서를 이용하여 높은 계산량이 요구되는 차감 클러스터링 알고리즘을 병렬 구현하고 성능을 향상시킨다. 또한 차감 클러스터링 알고리즘을 위한 최적의 매니코어 프로서서 구조를 선택하기 위해 다섯 가지의 프로세싱 엘리먼트 (processing element, PE) 구조 (PEs=16, 64, 256, 1,024, 4,096)를 모델링하고, 각 PE구조에 대해 실행시간 및 에너지 효율을 측정한다. 두 가지 의료 영상 및 각 영상의 세 가지 해상도(($128{\times}128$, $256{\times}256$, $512{\times}512$)를 이용하여 모의 실험한 결과, 모든 경우에 대해 PEs=4,096구조에서 최고의 성능 및 에너지 효율을 보였다.

휴대용 초음파 영상처리를 위한 멀티미디어 확장 명령어 및 최적의 매니코어 프로세서 구조 탐색 (Multimedia Extension Instructions and Optimal Many-core Processor Architecture Exploration for Portable Ultrasonic Image Processing)

  • 강성모;김종면
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권8호
    • /
    • pp.1-10
    • /
    • 2012
  • 본 논문에서는 휴대용 초음파 영상의 고성능 및 저전력 처리를 위해 멀티미디어 전용 명령어를 내장한 매니코어의 디자인 공간 탐색 방법론을 제안한다. 이를 위해서 멀티미디어 확장 명령어로 인한 서브워드 병렬처리 방식을 적용한 프로그램과 적용하지 않은 프로그램의 성능을 비교하여 에너지 효율 및 면적효율을 측정하였다. 모의실험 결과, MMX 형태 명령어를 사용한 프로그램은 베이스라인 프로그램 보다 $256{\times}256$ 해상도에서 실행시간은 평균 3.16배, 에너지 효율은 평균 8.13배, 면적 효율은 평균 3.16배의 향상을 보였다. $240{\times}320$ 해상도와 $240{\times}400$ 해상도에서는 각각 실행시간 평균 2.16배, 2.25배, 에너지 효율은 4.04배 4.34배, 면적 효율은 2.16배, 2.25배 향상되었다. 더불어 이러한 MMX 형태 명령어를 포함한 매니코어의 프로세싱 엘리먼트 (Processing Element: PE) 개수 및 메모리 사이즈를 변화시키면서 각 초음파 영상의 해상도별로 최적의 시스템 면적 및 에너지 효율을 보이는 PE 구조를 탐색하였다.

Dual Core 시스템에서 Shared Memory 기능 구현 (Implementation of the Shared Memory in the Dual Core System)

  • 장승주
    • 한국콘텐츠학회논문지
    • /
    • 제8권9호
    • /
    • pp.27-33
    • /
    • 2008
  • Linux에서 사용되는 Shared Memory는 동일한 메모리 영역에 여러 개의 프로세스가 접근할 수 있도록 해 주는 기술이다. 본 논문은 Linux 운영체제에서 지원해 주는 System V의 IPC 중 하나인 Shared Memory를 Dual Core 시스템 상에서 동작하도록 구현한다. 본 논문에서는 커널 단계에서 처리되는 SVR(System V Release) 형식의 Shared Memory를 다룬다. 기존의 공유메모리 방식은 단일 처리기를 이용한 방식이다. 본 논문에서는 dual core를 이용하여 공유메모리 처리를 할 수 있는 시스템을 제안한다. 본 논문에서 제안하는 Dual Core 시스템에서 공유 메모리 기능 구현은 기존의 단일 처리기 시스템에서보다 성능을 향상시킬 수 있도록 한다. 공유 메모리를 이용한 프로세스의 동작이 별개의 CPU에서 동작되도록 함으로써 성능 향상을 꾀한다.

Dual Core 시스템에서 Shared Memory 기능 설계 (The Design of the Shared Memory in the Dual Core System)

  • 장승주;이광용;김재명
    • 한국정보통신학회논문지
    • /
    • 제12권8호
    • /
    • pp.1448-1455
    • /
    • 2008
  • 본 논문은 대부분의 Linux 운영체제에서 지원해 주는 System V의 IPC 중 하나인 Shared Memory를 Dual Core 시스템 상에서 동작하도록 설계한다. Linux에서 사용되는 Shared Memory는 동일한 메모리 영역에 여러 개의 프로세스가 접근할 수 있도록 해 주는 기술이 다. 본 논문에서는 Shared Memory의 큰 두 갈래 중 커널 단계에서 처리되는 SVR(System V Release) 형식의 Shared Memory를 다룬다. 본 논문에서는 리눅스 운영체제의 공유 메모리 기능을 Dual Core 시스템에서 동작하도록 설계한다. 본 논문에서 제안하는 Dual Core 시스템에서 공유 메모리 기능 설계 방안은 듀얼 코어를 활용하여 기존의 단일 처리기 시스템에서보다 성능을 향상시킬 수 있도록 한다. 공유 메모리를 이용한 프로세스의 동작이 별개의 CPU에서 동작되도록 함으로써 성능 향상을 꾀한다.

데이터 송수신이 필수적인 환경에서의 스마트폰의 멀티코어와 멀티쓰레드에 따른 성능 및 전력 분석 (Empirical Study on Performance and Power Consumption in Multi-Core and Multi-Threaded Smartphones)

  • 이웅희;김황남
    • 한국통신학회논문지
    • /
    • 제39C권8호
    • /
    • pp.722-730
    • /
    • 2014
  • 하드웨어의 발전으로 많은 기기가 휴대화 됨에 따라 많은 어플리케이션이 데이터 송수신을 필요로 하게 되었다. 또한 Application Processor (AP)의 발전으로 인해 스마트폰에서도 멀티 코어 및 멀티 쓰레드의 활용이 필수가 되었다. 따라서 본 논문은 데이터 송수신과 프로세싱이 동시에 이루어지는 시스템에서 다양한 데이터 통신 속도, 코어 수, 쓰레드 수를 활용하여 성능을 평가 하고 전력 소모를 분석하였으며, 성능 향상과 효율적인 전력소모 측면에서의 적절한 쓰레드 수를 결정할 수 있는 방향을 제시한다.

효율적인 부분곱의 재배치를 통한 고속 병렬 Floating-Point 고속연산기의 설계 (Design of Fast Parallel Floating-Point Multiplier using Partial Product Re-arrangement Technique)

  • 김동순;김도경;이성철;김진태;최종찬
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 하계종합학술대회 논문집(5)
    • /
    • pp.47-50
    • /
    • 2001
  • Nowadays ARM7 core is used in many fields such as PDA systems because of the low power and low cost. It is a general-purpose processor, designed for both efficient digital signal processing and controller operations. But the advent of the wireless communication creates a need for high computational performance for signal processing. And then This paper has been designed a floating-point multiplier compatible to IEEE-754 single precision format for ARMTTDMI performance improvement.

  • PDF

멀티코어 프로세서의 쓰레드-수준 병렬성을 활용한 AES-CCM 계산-통신 중첩화 (Computation-Communication Overlapping in AES-CCM Using Thread-Level Parallelism on a Multi-Core Processor)

  • 이은지;이성주;정용화;이명호;민병기
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권8호
    • /
    • pp.863-867
    • /
    • 2010
  • 최근 멀티코어 프로세서들이 범용 PC 뿐만 아니라 임베디드 시스템에서도 탑재될 만큼 그 사용이 보편화되고 있는 상황에서, 많은 멀티미디어 응용 프로그램이 이들을 활용하여 병렬화 되고 있다. 그러나 멀티미디어 데이터의 암호화와 같이 응용 프로그램에 데이터 종속성이 내재한 경우에는 멀티코어를 이용한 효과적인 병렬처리가 어렵다는 문제가 있다. 본 논문에서는 이러한 한계를 극복하기 위하여 유휴 코어를 이용하여 계산과 통신을 중첩시키는 병렬처리 기법을 제안한다. 특히, 주어진 멀티미디어 데이터를 처리하고 전송하는 문제를 응용 프로그램 수준의 파이프라인 설계 문제로 해석하여 최적의 파이프라인 단계수를 도출하는 방법을 제안한다.