• 제목/요약/키워드: Multi-core scheduling

검색결과 42건 처리시간 0.025초

A Parallelization Technique with Integrated Multi-Threading for Video Decoding on Multi-core Systems

  • Hong, Jung-Hyun;Kim, Won-Jin;Chung, Ki-Seok
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제7권10호
    • /
    • pp.2479-2496
    • /
    • 2013
  • Increasing demand for Full High-Definition (FHD) video and Ultra High-Definition (UHD) video services has led to active research on high speed video processing. Widespread deployment of multi-core systems has accelerated studies on high resolution video processing based on parallelization of multimedia software. Even if parallelization of a specific decoding step may improve decoding performance partially, such partial parallelization may not result in sufficient performance improvement. Particularly, entropy decoding has often been considered separately from other decoding steps since the entropy decoding step could not be parallelized easily. In this paper, we propose a parallelization technique called Integrated Multi-Threaded Parallelization (IMTP) which takes parallelization of the entropy decoding step, with other decoding steps, into consideration in an integrated fashion. We used the Simultaneous Multi-Threading (SMT) technique with appropriate thread scheduling techniques to achieve the best performance for the entire decoding step. The speedup of the proposed IMTP method is up to 3.35 times faster with respect to the entire decoding time over a conventional decoding technique for H.264/AVC videos.

멀티코어 SoC의 테스트 시간 감축을 위한 테스트 Wrapper 설계 (A Test Wrapper Design to Reduce Test Time for Multi-Core SoC)

  • 강우진;황선영
    • 한국통신학회논문지
    • /
    • 제39B권1호
    • /
    • pp.1-7
    • /
    • 2014
  • 본 논문은 멀티 코어 SoC의 전체 테스트 시간 감축을 위한 효율적인 테스트 wrapper 설계 방법을 제안한다. 제안된 알고리즘은 잘 알려진 Combine 알고리즘을 사용하여 멀티코어 SoC의 각 코어에 대해 초기 local wrapper해 집합을 구성하고 가장 긴 테스트 시간을 소모하는 코어를 dominant 코어로 선택한다. Dominant 코어의 테스트 시간을 기준으로 다른 코어들에 대해 wrapper 특성인 TAM 와이어 수와 테스트 시간을 조정한다. Design space exploration을 위해 일부 코어들의 TAM 와이어 수를 줄이고 테스트 시간을 증가시킨다. 변경된 wrapper 특성을 기존 local wrapper 해 집합에 추가한다. 코어들의 기존 local wrapper 해 집합이 global wrapper 해 집합으로 확장되어 스케줄러에 의한 멀티코어 SoC의 전체 테스트 시간이 감소한다. 제안된 wrapper의 효과는 ITC'02 벤치마크 회로에 대해 $B^*$-트리 기반의 테스트 스케줄러를 사용하여 검증된다. 실험 결과 기존의 wrapper를 사용하는 경우에 비해 테스트 시간이 평균 4.7% 감소한다.

멀티코어 시스템의 안정성 향상을 위한 피크파워 제어 알고리즘 (Peak Power Control for Improvement of Stability in Multi-core System)

  • 박성환;김재환;안병규;정일종;이석희;정정화
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2008년도 하계종합학술대회
    • /
    • pp.747-748
    • /
    • 2008
  • In this paper, we propose a new algorithm for task scheduling consisting of subtask partitioning and subtask priority scheduling steps in order to keep the peak power under the system specification. The subtask partitioning stepis performed to minimize the idle operation time for processors by dividing a task into multiple subtasks using the least square method developed with power consumption pattern of tasks. In the subtask priority scheduling step, a priority is assigned to a subtask based on the power requirement and the power variation of subtask so that the peak power violation can be minimized and the task can be completed within the execution time deadline.

  • PDF

Job-aware Network Scheduling for Hadoop Cluster

  • Liu, Wen;Wang, Zhigang;Shen, Yanming
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제11권1호
    • /
    • pp.237-252
    • /
    • 2017
  • In recent years, data centers have become the core infrastructure to deal with big data processing. For these big data applications, network transmission has become one of the most important factors affecting the performance. In order to improve network utilization and reduce job completion time, in this paper, by real-time monitoring from the application layer, we propose job-aware priority scheduling. Our approach takes the correlations of flows in the same job into account, and flows in the same job are assigned the same priority. Therefore, we expect that flows in the same job finish their transmissions at about the same time, avoiding lagging flows. To achieve load balancing, two approaches (Flow-based and Spray) using ECMP (Equal-Cost multi-path routing) are presented. We implemented our scheme using NS-2 simulator. In our evaluations, we emulate real network environment by setting background traffic, scheduling delay and link failures. The experimental results show that our approach can enhance the Hadoop job execution efficiency of the shuffle stage, significantly reduce the network transmission time of the highest priority job.

다중 시그니처 비교를 통한 트랜잭셔널 메모리의 충돌해소 정책의 성능향상 (Multiple Signature Comparison of LogTM-SE for Fast Conflict Detection)

  • 김덕호;오두환;노원우
    • 정보처리학회논문지A
    • /
    • 제18A권1호
    • /
    • pp.19-24
    • /
    • 2011
  • 다중 코어 프로세서가 널리 보급되면서 멀티 쓰레디드 프로그램 상의 동기화를 용이하게 구현할 수 있는 해결 방안으로 트랜잭셔널 메모리가 각광을 받고 있다. 이를 위해 고성능의 하드웨어 트랜잭셔널 메모리에 관한 연구가 활발히 진행되고 있으며, 대표적인 연구결과로 UTM, VTM, FastTM, LogTM, LogTM-SE 등이 소개되었다. 특히, 충돌 감지 정책으로 시그니처를 사용한 LogTM-SE는 효율적인 메모리 관리와 쓰레드 스케쥴링을 통해 고성능의 트랜잭셔널 메모리를 구현하였다. 하지만, 이 방식은 프로세서 내부의 코어 수가 증가하는 것에 비례하여 한 코어가 비교해야 하는 시그니처의 수가 증가하는 문제점을 갖고 있다. 이는 시그니처 처리 과정에서 병목현상을 야기하여 전체 성능을 저해하는 요인이 될 수 있다. 본 논문에서는 시그니처 비교 과정에서 나타날 수 있는 이러한 병목 현상을 개선하여 전체 트랜잭셔널 메모리의 성능 향상을 이루고자 다중 시그니처 비교 방식의 새로운 구조를 제안한다.

가상기업을 위한 멀티에이전트 기반 태스크할당시스템에 관한 연구 (A Study on Multi-agent based Task Assignment Systems for Virtual Enterprise)

  • 허준규;최경현;이석희
    • 한국공작기계학회논문집
    • /
    • 제12권3호
    • /
    • pp.31-37
    • /
    • 2003
  • With the paradigm shifting from the principal of manufacturing efficiency to business globalism and rapid adaptation to its environments, more and more enterprises are being virtually organized as manufacturing network of different units in web. The formation of these enterprise called as Virtual Enterprise(VE) is becoming a growing trend as enterprises concentrating on core competence and economic benefit. 13us paper proposes multi-agent based task assignment system for VE, which attempts to address the selection of individually managed partners and the task assignment to them A case example is presented to illustrate how the proposed system can assign the task to partners.

무선 센서 네트워크에서 메쉬 토폴로지를 위한 비컨 스케줄링 (A Beacon Scheduling for Mesh Topology in Wireless Sensor Networks)

  • 김민정;심준호
    • 한국전자거래학회지
    • /
    • 제15권4호
    • /
    • pp.49-58
    • /
    • 2010
  • 무선 센서 네트워크 기술은 다양한 e-비즈니스 환경을 가능케 하는 차세대 기반 기술이다. 무선 센서 네트워크가 갖춰야 할 중요한 특징 중 하나는 에너지 효율성이다. 무선 센서 네트워크의 대표적인 국제표준인 IEEE 802.15.4는 에너지 효율을 위해 비컨 가능 모드를 제공하고 있다. 그러나 메쉬 토폴로지 같은 멀티 홉 네트워크에서 비컨 가능 모드를 이용하면 비컨끼리 충돌하여 센서 노드가 동기화하지 못할 수도 있다. 동기화하지 못한 노드는 통신에 참여할 수 없으므로 네트워크 내의 다른 노드에도 영향을 미친다. 본 논문에서는 메쉬 토폴로지를 이용하는 무선 센서 네트워크에서도 비컨 가능 모드를 이용하여 에너지를 효율적으로 사용할 수 있도록 하는 비컨 스케줄링 기법을 제안한다. 이 기법을 이용하여 노드들이 비활성 구간에는 전원을 꺼서 에너지를 절약할 수 있게 하고, 비컨간의 충돌을 방지할 수 있다. 제안하는 기법의 성능평가를 위해 QualNet 시뮬레이터를 사용하여 구현하였으며, 센서 네트워크의 대표적인 응용인 모니터링 상황을 가정하여 실험하였다. 실험을 통해 제안하는 기법을 이용하여 메쉬 토폴로지를 이용하는 네트워크에서도 에너지를 효율적으로 사용할 수 있음을 증명하였다.

Parallel LDPC Decoding on a Heterogeneous Platform using OpenCL

  • Hong, Jung-Hyun;Park, Joo-Yul;Chung, Ki-Seok
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제10권6호
    • /
    • pp.2648-2668
    • /
    • 2016
  • Modern mobile devices are equipped with various accelerated processing units to handle computationally intensive applications; therefore, Open Computing Language (OpenCL) has been proposed to fully take advantage of the computational power in heterogeneous systems. This article introduces a parallel software decoder of Low Density Parity Check (LDPC) codes on an embedded heterogeneous platform using an OpenCL framework. The LDPC code is one of the most popular and strongest error correcting codes for mobile communication systems. Each step of LDPC decoding has different parallelization characteristics. In the proposed LDPC decoder, steps suitable for task-level parallelization are executed on the multi-core central processing unit (CPU), and steps suitable for data-level parallelization are processed by the graphics processing unit (GPU). To improve the performance of OpenCL kernels for LDPC decoding operations, explicit thread scheduling, vectorization, and effective data transfer techniques are applied. The proposed LDPC decoder achieves high performance and high power efficiency by using heterogeneous multi-core processors on a unified computing framework.

멀티코어 시스템에서의 통합된 비디오 디코딩 병렬화 (Integrated Parallelization of Video Decoding on Multi-core Systems)

  • 홍정현;김원진;정기석
    • 대한전자공학회논문지SD
    • /
    • 제49권7호
    • /
    • pp.39-49
    • /
    • 2012
  • 고해상도의 동영상 서비스가 보편화 되면서 동영상을 빠르게 처리하기 위한 연구가 활발히 이루어지고 있다. 특히 멀티 코어 시스템 상에서 멀티스레드를 사용한 데이터 레벨 병렬화 방법을 적용하여 비디오 디코더의 성능을 향상 시킬 수 있었다. 기존에 제안된 병렬화 방법들을 통해 디코딩 과정의 성능을 향상 시킬 수 있었지만, 이 방법들은 엔트로피 디코딩 부분을 제외하거나 엔트로피 디코딩 부분만의 병렬화를 별도로 고려한 부분적인 병렬화 방법이기 때문에 전체 디코딩 과정의 성능 향상에는 부족한 부분이 있다. 따라서 본 논문에서는 기존 병렬화 디코딩 과정뿐만 아니라 엔트로피 병렬화 디코딩 과정까지 함께 고려한 통합적인 비디오 디코딩 병렬화 방법을 제안한다. 우리는 각각의 비디오 디코더 병렬화 방법을 분석하여 최적화 방법을 제시하고 이의 성능평가를 해보았다. 그리고 우리는 비디오 디코딩 과정 내부에 존재하는 코어의 개수에 따른 성능향상의 차이를 고려해 성능을 최적화한 Integrated Parallelization 방법을 제안한다. 우리는 인텔 i7 멀티코어 시스템의 물리적 코어에서 엔트로피 디코딩 부분을 최대로 병렬화 하면서, 내부 자원을 공유하는 하이퍼스레딩 기술을 사용하여 데이터레벨 병렬화 방법에는 물리적 코어 수의 2배까지 스레드를 할당했다. 그리고 디코딩 과정 내부 특성을 고려한 멀티스레드 스케쥴링으로 전체 디코딩 과정의 성능을 멀티코어 시스템에 최적화해서 최대 70%까지 성능을 향상시킬 수 있었다.

머신러닝 컴파일러와 모듈로 스케쥴러에 관한 연구 (A Study on Machine Learning Compiler and Modulo Scheduler)

  • 조두산
    • 한국산업융합학회 논문집
    • /
    • 제27권1호
    • /
    • pp.87-95
    • /
    • 2024
  • This study is on modulo scheduling algorithms for multicore processor in machine learning applications. Machine learning algorithms are designed to perform a large amount of operations such as vectors and matrices in order to quickly process large amounts of data stream. To support such large amounts of computations, processor architectures to support applications such as artificial intelligence, neural networks, and machine learning are designed in the form of parallel processing such as multicore. To effectively utilize these multi-core hardware resources, various compiler techniques are being used and studied. In this study, among these compiler techniques, we analyzed the modular scheduler, which is especially important in one core's computation pipeline. This paper looked at and compared the iterative modular scheduler and the swing modular scheduler, which are the most widely used and studied. As a result, both schedulers provided similar performance results, and when measuring register pressure as an indicator, it was confirmed that the swing modulo scheduler provided slightly better performance. In this study, a technique that divides recurrence edge is proposed to improve the minimum initiation interval of the modulo schedulers.