• 제목/요약/키워드: Multi-core processors

검색결과 84건 처리시간 0.024초

다중 시그니처 비교를 통한 트랜잭셔널 메모리의 충돌해소 정책의 성능향상 (Multiple Signature Comparison of LogTM-SE for Fast Conflict Detection)

  • 김덕호;오두환;노원우
    • 정보처리학회논문지A
    • /
    • 제18A권1호
    • /
    • pp.19-24
    • /
    • 2011
  • 다중 코어 프로세서가 널리 보급되면서 멀티 쓰레디드 프로그램 상의 동기화를 용이하게 구현할 수 있는 해결 방안으로 트랜잭셔널 메모리가 각광을 받고 있다. 이를 위해 고성능의 하드웨어 트랜잭셔널 메모리에 관한 연구가 활발히 진행되고 있으며, 대표적인 연구결과로 UTM, VTM, FastTM, LogTM, LogTM-SE 등이 소개되었다. 특히, 충돌 감지 정책으로 시그니처를 사용한 LogTM-SE는 효율적인 메모리 관리와 쓰레드 스케쥴링을 통해 고성능의 트랜잭셔널 메모리를 구현하였다. 하지만, 이 방식은 프로세서 내부의 코어 수가 증가하는 것에 비례하여 한 코어가 비교해야 하는 시그니처의 수가 증가하는 문제점을 갖고 있다. 이는 시그니처 처리 과정에서 병목현상을 야기하여 전체 성능을 저해하는 요인이 될 수 있다. 본 논문에서는 시그니처 비교 과정에서 나타날 수 있는 이러한 병목 현상을 개선하여 전체 트랜잭셔널 메모리의 성능 향상을 이루고자 다중 시그니처 비교 방식의 새로운 구조를 제안한다.

An Efficient Block Cipher Implementation on Many-Core Graphics Processing Units

  • Lee, Sang-Pil;Kim, Deok-Ho;Yi, Jae-Young;Ro, Won-Woo
    • Journal of Information Processing Systems
    • /
    • 제8권1호
    • /
    • pp.159-174
    • /
    • 2012
  • This paper presents a study on a high-performance design for a block cipher algorithm implemented on modern many-core graphics processing units (GPUs). The recent emergence of VLSI technology makes it feasible to fabricate multiple processing cores on a single chip and enables general-purpose computation on a GPU (GPGPU). The GPU strategy offers significant performance improvements for all-purpose computation and can be used to support a broad variety of applications, including cryptography. We have proposed an efficient implementation of the encryption/decryption operations of a block cipher algorithm, SEED, on off-the-shelf NVIDIA many-core graphics processors. In a thorough experiment, we achieved high performance that is capable of supporting a high network speed of up to 9.5 Gbps on an NVIDIA GTX285 system (which has 240 processing cores). Our implementation provides up to 4.75 times higher performance in terms of encoding and decoding throughput as compared to the Intel 8-core system.

멀티코어 프로세서의 쓰레드-수준 병렬성을 활용한 AES-CCM 계산-통신 중첩화 (Computation-Communication Overlapping in AES-CCM Using Thread-Level Parallelism on a Multi-Core Processor)

  • 이은지;이성주;정용화;이명호;민병기
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권8호
    • /
    • pp.863-867
    • /
    • 2010
  • 최근 멀티코어 프로세서들이 범용 PC 뿐만 아니라 임베디드 시스템에서도 탑재될 만큼 그 사용이 보편화되고 있는 상황에서, 많은 멀티미디어 응용 프로그램이 이들을 활용하여 병렬화 되고 있다. 그러나 멀티미디어 데이터의 암호화와 같이 응용 프로그램에 데이터 종속성이 내재한 경우에는 멀티코어를 이용한 효과적인 병렬처리가 어렵다는 문제가 있다. 본 논문에서는 이러한 한계를 극복하기 위하여 유휴 코어를 이용하여 계산과 통신을 중첩시키는 병렬처리 기법을 제안한다. 특히, 주어진 멀티미디어 데이터를 처리하고 전송하는 문제를 응용 프로그램 수준의 파이프라인 설계 문제로 해석하여 최적의 파이프라인 단계수를 도출하는 방법을 제안한다.

산업용 로봇 제어를 위한 Preempt-RT 기반 멀티코어 모션 제어기의 구현 및 성능 평가 (Implementation and Performance Evaluation of Preempt-RT Based Multi-core Motion Controller for Industrial Robot)

  • 김익환;안효성;김태현
    • 대한임베디드공학회논문지
    • /
    • 제12권1호
    • /
    • pp.1-10
    • /
    • 2017
  • Recently, with the ever-increasing complexity of industrial robot systems, it has been greatly attention to adopt a multi-core based motion controller with high cost-performance ratio. In this paper, we propose a software architecture that aims to utilize the computing power of multi-core processors. The key concept of our architecture is to use shared memory for the interplay between threads running on separate processor cores. And then, we have integrated our proposed architecture with an industrial standard compliant IDE for automatic code generation of motion runtime. For the performance evaluation, we constructed a test-bed consisting of a motion controller with Preempt-RT Linux based dual-core industrial PC and a 3-axis industrial robot platform. The experimental results show that the actuation time difference between axes is 10 ns in average and bounded up to 689 ns under $1000{\mu}s$ control period, which can come up with real-time performance for industrial robot.

차량용 임베디드 프로세서에서 저전력 반응적 제어를 위한 이기종 멀티코어 협력적 스트리밍 온-칩 소프트웨어 구조 (Collaborative Streamlined On-Chip Software Architecture on Heterogenous Multi-Cores for Low-Power Reactive Control in Automotive Embedded Processors)

  • 권지수;박대진
    • 대한임베디드공학회논문지
    • /
    • 제17권6호
    • /
    • pp.375-382
    • /
    • 2022
  • This paper proposes a multi-core cooperative computing structure considering the heterogeneous features of automotive embedded on-chip software. The automotive embedded software has the heterogeneous execution flow properties for various hardware drives. Software developed with a homogeneous execution flow without considering these properties will incur inefficient overhead due to core latency and load. The proposed method was evaluated on an target board on which a automotive MCU (micro-controller unit) with built-in multi-cores was mounted. We demonstrate an overhead reduction when software including common embedded system tasks, such as ADC sampling, DSP operations, and communication interfaces, are implemented in a heterogeneous execution flow. When we used the proposed method, embedded software was able to take advantage of idle states that occur between heterogeneous tasks to make efficient use of the resources on the board. As a result of the experiments, the power consumption of the board decreased by 42.11% compared to the baseline. Furthermore, the time required to process the same amount of sampling data was reduced by 27.09%. Experimental results validate the efficiency of the proposed multi-core cooperative heterogeneous embedded software execution technique.

다중 멀티미디어 스트리밍을 위한 멀티코어 시스템 기반의 실시간 스케줄링 기법 (A Real-Time Scheduling Technique on Multi-Core Systems for Multimedia Multi-Streaming)

  • 박상수
    • 한국멀티미디어학회논문지
    • /
    • 제14권11호
    • /
    • pp.1478-1490
    • /
    • 2011
  • 멀티코어 프로세서는 멀티미디어 스트리밍에 있어서 비교적 낮은 비용에 높은 성능을 보인다는 장점 때문에 스마트폰, 스마트 TV, 셋톱박스 등 관련 산업계에서 큰 관심을 받고 있다. 멀티미디어 데이터를 처리하기 위해서는 주기적인 태스크의 시간 제약성을 만족시킬 수 있는 스케줄링 알고리즘이 필요하다. Pfair 스케줄링 알고리즘은 이론상으로 멀티코어 상에서 모든 태스크의 시간 제약성을 만족하는 동시에 100%의 이용률을 달성할 수 있지만 코어간에 태스크의 빈번한 이동이 필요하고 매 스케줄링 시점에 시스템 전역에 대한 동기화가 필요하는 등 스케줄링을 위한 오버헤드가 매우 높다. 이러한 문제점을 개선하기 위해 본 논문에서는 코어 간의 이동이 꼭 필요할 경우에만 전체 코어의 스케줄링을 수행하고 평상시에는 각 코어별로 독립적인 스케줄링을 수행하도록 하는 HPGP 스케줄러를 제안한다. 시뮬레이터를 통한 실험 결과 기존의 Pfair 알고리즘에 비해 스케줄링 오버헤드가 현격히 감소하는 것을 알 수 있으며 80% 이하의 이용률을 갖는 태스크 집합에서는 스케줄링 오버헤드가 거의 발생하지 않는 것을 확인하였다.

차량 통합ECU에서 싱글 및 멀티코어 프로세서 효과 분석 방안 (Analysis method of application effects of single and multi-core processors in automobile integrated ECU)

  • 임찬우;주효재
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2017년도 제56차 하계학술대회논문집 25권2호
    • /
    • pp.271-274
    • /
    • 2017
  • 통합 ECU를 구현할 시, 구현단계 이전에 어떤 코어를 적용 시킬지를 판단하여 추후 발생할 수 있는 비용, 성능, 소요 시간 등의 문제점을 미리 대비할 수 있는 방안이 필요하다. 따라서 본 논문에서는 차량 통합ECU에서 싱글코어와 멀티코어 프로세서 중 어떤 프로세서를 적용하는 것이 효율적인 것인지 판단하는 연구를 진행했다. 통합 ECU의 기능이 결정된 경우, 구현이전의 설계 단계에서 기능적 요구 사항들을 고려하여 SW Task를 HW 모델에 적용했을 때의 효과를 분석했다. 분석 된 결과를 토대로 통합 ECU 모델의 싱글 및 멀티 코어 방식에 따른 성능을 비교했다. 본 논문에서 제안한 분석 방안을 적용하면 구현 단계 이전에 통합 ECU에 필요한 프로세서의 성능을 파악할 수 있다. 또한, 통합 ECU 구현 비용 및 개발 소요 시간을 줄일 수 있는 효과를 불러올 수 있을 것으로 예상한다.

  • PDF

통신 프로세스의 프로세서 친화도 결정을 위한 최적화 도구 (An Optimization Tool for Determining Processor Affinity of Networking Processes)

  • 조중연;진현욱
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권2호
    • /
    • pp.131-136
    • /
    • 2013
  • 멀티코어 프로세서는 다수의 컴퓨팅 코어를 제공해줌으로써 응용 프로세스들의 병렬성을 증대시키고 전체 시스템의 처리율을 크게 향상시켜주고 있다. 최근 멀티코어의 구조적인 특징에 의해서 프로세서 친화도에 따른 네트워크 I/O 성능 차이를 관찰하고, 많은 연구자들이 최적의 프로세서 친화도를 결정하기 위한 연구를 진행하고 있다. 기존의 동적 프로세서 친화도 결정 기법은 응용 프로그램의 수정과 시스템 사양 변경에 투명하게 대처할 수 있으나, 각 응용 프로그램의 고유 특성과 경험을 통해서 수집할 수 있는 정보를 충분히 얻을 수 없다는 제한사항이 있다. 따라서 최적의 프로세서 친화도를 제공하기 어렵다. 본 연구는 프로세서 친화도 결정을 위해서 의미 있는 시스템 변수를 획득하고 최적의 친화도 결정을 지원하기 위한 도구를 제안한다. 구현된 도구는 동적 친화도 결정에 활용되어 그 한계를 극복하고 더 높은 네트워크 대역폭을 제공할 수 있음을 보인다.

시각물체 추적 시스템을 위한 멀티코어 프로세서 기반 태스크 스케줄링 방법 (A Task Scheduling Strategy in a Multi-core Processor for Visual Object Tracking Systems)

  • 이민채;장철훈;선우명호
    • 한국자동차공학회논문집
    • /
    • 제24권2호
    • /
    • pp.127-136
    • /
    • 2016
  • The camera based object detection systems should satisfy the recognition performance as well as real-time constraints. Particularly, in safety-critical systems such as Autonomous Emergency Braking (AEB), the real-time constraints significantly affects the system performance. Recently, multi-core processors and system-on-chip technologies are widely used to accelerate the object detection algorithm by distributing computational loads. However, due to the advanced hardware, the complexity of system architecture is increased even though additional hardwares improve the real-time performance. The increased complexity also cause difficulty in migration of existing algorithms and development of new algorithms. In this paper, to improve real-time performance and design complexity, a task scheduling strategy is proposed for visual object tracking systems. The real-time performance of the vision algorithm is increased by applying pipelining to task scheduling in a multi-core processor. Finally, the proposed task scheduling algorithm is applied to crosswalk detection and tracking system to prove the effectiveness of the proposed strategy.