• Title/Summary/Keyword: Amdahl's law

Search Result 8, Processing Time 0.029 seconds

Reevaluating the overhead of data preparation for asymmetric multicore system on graphics processing

  • Pei, Songwen;Zhang, Junge;Jiang, Linhua;Kim, Myoung-Seo;Gaudiot, Jean-Luc
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • v.10 no.7
    • /
    • pp.3231-3244
    • /
    • 2016
  • As processor design has been transiting from homogeneous multicore processor to heterogeneous multicore processor, traditional Amdahl's law cannot meet the new challenges for asymmetric multicore system. In order to further investigate the impact factors related to the Overhead of Data Preparation (ODP) for Asymmetric multicore systems, we evaluate an asymmetric multicore system built with CPU-GPU by measuring the overheads of memory transfer, computing kernel, cache missing and synchronization. This paper demonstrates that decreasing the overhead of data preparation is a promising approach to improve the whole performance of heterogeneous system.

Numerical Formula and Verification of Web Robot for Collection Speedup of Web Documents

  • Kim Weon;Kim Young-Ki;Chin Yong-Ok
    • Journal of Internet Computing and Services
    • /
    • v.5 no.6
    • /
    • pp.1-10
    • /
    • 2004
  • A web robot is a software that has abilities of tracking and collecting web documents on the Internet(l), The performance scalability of recent web robots reached the limit CIS the number of web documents on the internet has increased sharply as the rapid growth of the Internet continues, Accordingly, it is strongly demanded to study on the performance scalability in searching and collecting documents on the web. 'Design of web robot based on Multi-Agent to speed up documents collection ' rather than 'Sequentially executing Web Robot based on the existing Fork-Join method' and the results of analysis on its performance scalability is presented in the thesis, For collection speedup, a Multi-Agent based web robot performs the independent process for inactive URL ('Dead-links' URL), which is caused by overloaded web documents, temporary network or web-server disturbance, after dividing them into each agent. The agents consist of four component; Loader, Extractor, Active URL Scanner and inactive URL Scanner. The thesis models a Multi-Agent based web robot based on 'Amdahl's Law' to speed up documents collection, introduces a numerical formula for collection speedup, and verifies its performance improvement by comparing data from the formula with data from experiments based on the formula. Moreover, 'Dynamic URL Partition algorithm' is introduced and realized to minimize the workload of the web server by maximizing a interval of the web server which can be a collection target.

  • PDF

A Study on the Scalability of Multi-core-PC Cluster for Seismic Design of Reinforced-Concrete Structures based on Genetic Algorithm (유전알고리즘 기반 콘크리트 구조물의 최적화 설계를 위한 멀티코어 퍼스널 컴퓨터 클러스터의 확장 가능성 연구)

  • Park, Keunhyoung;Choi, Se Woon;Kim, Yousok;Park, Hyo Seon
    • Journal of the Computational Structural Engineering Institute of Korea
    • /
    • v.26 no.4
    • /
    • pp.275-281
    • /
    • 2013
  • In this paper, determination of the scalability of the cluster composed common personal computer was performed when optimization of reinforced concrete structure using genetic algorithm. The goal of this research is watching the potential of multi-core-PC cluster for optimization of seismic design of reinforced-concrete structures. By increasing the number of core-processer of cluster, decreasing of computation time per each generation of genetic algorithm was observed. After classifying the components in singular personal computer, the estimation of the expected bottle-neck phenomenon and comparison with wall-clock time and Amdahl's law equation was performed. So we could obseved the scalability of the cluster appear complex tendency. For separating the bottle-neck phenomenon of physical and algorithm, the different size of population was selected for genetic algorithm cases. When using 64 core-processor, the efficiency of cluster is low as 31.2% compared with Amdahl's law efficiency.

Parallelizing H.264 and AES Collectively

  • Kim, Heegon;Lee, Sungju;Chung, Yongwha;Pan, Sung Bum
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • v.7 no.9
    • /
    • pp.2326-2337
    • /
    • 2013
  • Many applications can be parallelized by using multicore platforms. We propose a load-balancing technique for parallelizing a whole application, whose first module (H.264) has data independency and whose second module (AES) has data dependency. Instead of distributing the first module symmetrically over the multi-core platform, we distribute the data-independent workload asymmetrically in order to start the data-dependent workload as early as possible. Based on the experimental results with a compression/encryption application, we confirm that the asymmetric load balancing can provide better performance than the typical symmetric load balancing.

Analysis of Performance and Energy Efficiency of Core Mapping for Rasterization Algorithm using CUDA (CUDA를 이용한 Rasterization 알고리즘의 코어 매핑에 따른 성능 및 에너지 효율 분석)

  • Park, Min-Ho;Kim, Jong-Myon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.05a
    • /
    • pp.140-143
    • /
    • 2013
  • 본 논문에서는 데이터 병렬성이 뛰어난 벡터 기반의 Rasterization 알고리즘을 CUDA를 이용하여 코어 매핑에 따른 성능 및 에너지 효율을 분석해 보았다. 블록 사이즈를 동일하게 맞춘 후 블록의 차원을 변경 하는 방법과 블록 사이즈를 변경하는 방법을 사용하여 실험하였다. 모의실험결과, 블록 사이즈가 동일할 때는 오차 범위 내로 동일한 성능과 에너지 효율을 보였다. 아키텍처마다 모든 자원을 사용할수 있는 이론적인 블록 및 스레드 구조가 존재하지만 메모리 접근에 대한 최적화를 이루어 내지 못한다면 Amdahl's law에 의해 성능 향상에 한계가 있다는 것을 확인하였다.

Parallelization of sheet forming analysis program using MPI (MPI를 이용한 판재성형해석 프로그램의 병렬화)

  • Kim, Eui-Joong;Suh, Yeong-Sung
    • Transactions of the Korean Society of Mechanical Engineers A
    • /
    • v.22 no.1
    • /
    • pp.132-141
    • /
    • 1998
  • A parallel version of sheet forming analysis program was developed. This version is compatible with any parallel computers which support MPI that is one of the most recent and popular message passing libraries. For this purpose, SERI-SFA, a vector version which runs on Cray Y-MP C90, a sequential vector computer, was used as a source code. For the sake of the effectiveness of the work, the parallelization was focused on the selected part after checking the rank of CPU consumed from the exemplary calculation on Cray Y-MP C90. The subroutines associated with contact algorithm was selected as targe parts. For this work, MPI was used as a message passing library. For the performance verification, an oil pan and an S-rail forming simulation were carried out. The performance check was carried out by the kernel and total CPU time along with theoretical performance using Amdahl's Law. The results showed some performance improvement within the limit of the selective paralellization.

Exploiting Back-end Fusion in Multi-Core Processors (다중 코어 환경에서의 Back-end Fusion 구현)

  • Park, Jong Hyun;Jeong, I Poom;Ro, Won Woo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2014.04a
    • /
    • pp.33-36
    • /
    • 2014
  • 최근 스마트폰이나 태블릿 PC 등의 모바일 디바이스가 상용화 되어감에 따라 그 안에서 핵심적인 처리기능을 담당하는 프로세서의 코어 수가 점차적으로 늘어나고 있다. 많은 수의 코어를 효율적으로 사용하기 위해 여러 가지 메커니즘이 구현되어 있으나, 단일 프로세스를 순차적으로 실행하는 경우 여전히 성능에서의 한계가 존재한다. 병렬화 되어 있지 않은 프로세스의 경우, Amdahl's Law[1]에 따르면 순차적으로 실행을 할 수 밖에 없는 부분이 존재하고, 이 부분은 하나의 코어에서만 실행되기 때문에 많은 연산 자원들이 낭비되는 현상이 발생한다. 본 논문은 다중 코어 환경에서 이러한 잉여자원을 효과적으로 사용하기 위해 Back-end Fusion 이라는 구조를 제안하여 프로세서의 성능 향상을 위한 연구를 진행하였다. Back-end Fusion 이란, 연산 처리를 담당하는 back-end 부분(execution unit, writeback 단계 등)을 필요에 따라 코어 간에 동적으로 재구성하여 성능을 향상시키는 메커니즘이다. 이 재구성된 프로세서의 back-end 를 효율적으로 사용하기 위해, 종속성과 로드 밸런스 등을 고려한 인스트럭션 분배 알고리즘을 함께 제안한다. Intel 사의 x86 Instruction Set Architecture(ISA)를 기반으로 한 시뮬레이터를 이용하여 Back-end Fusion 프로세서의 성능을 측정 해 본 결과 기존의 단일 코어 프로세서에 비해 평균 32.2%의 성능 향상을 확인할 수 있었다.

Optimal Operation of the 3D Water Quality Model for Water Quality Forecast (수질예보를 위한 3차원 모형의 최적 운영 기법)

  • Lee, Seungjae;Kim, Hyeonsik;Sa, Sungoh;Hwang, Hyunsik
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2016.05a
    • /
    • pp.72-72
    • /
    • 2016
  • 최근 발생하고 있는 기후변화로 인하여 하천 및 저수지의 수질문제가 커지고 있다. 특히 여름철 부영양화로 인해 발생하는 녹조현상은 사회적인 문제로 과학적인 수질사고에 대한 예측과 관리가 필요한 실정이다. 수질예보는 정기적으로 하천 및 저수지의 수질을 예측하여 사용자에게 제공하는 분석기법으로 수질현황을 파악하고 수질을 관리하고 의사결정을 하는데 도움을 줄 수 있다. 수질예보에 사용되는 모형은 유역모형, 하천모형, 저수지모형이 있으며, 이중 하천 및 저수지에 주로 적용되고 있는 3차원 수리수질모형의 경우 격자의 개수가 많아 모의시간이 길어지게 되고 이로 인해 일일 수질 예보가 어렵게 된다. 3차원 수리수질모형의 모의속도를 개선하는 방법에는 하드웨어의 성능을 높이는 방법과 병렬화를 이용한 소프트웨어적인 방법이 있다. 이중 하드웨어의 성능을 높이는 방법은 컴퓨터의 사양을 높이는 방법으로 높은 비용이 소요된다. 하지만 병렬화 방법은 컴퓨팅 기술의 발전으로 멀티코어가 대중화가 된 최근에 코드의 적용만으로 모의속도를 향상시킬 수 있다. 본 연구에서 사용된 모형은 서호주대학에서 개발한 3차원 수리 수질모형인 ELCOM-CAEDYM 모형으로 적용된 병렬화 기법은 OpenMP(Open Multi-Processing)방법이다. 기존 직렬 컴퓨팅 방식으로 구성되어 한번에 한 개의 명령어 밖에 처리할 수 없었던 작업방법을 동시에 여러 개의 처리요소를 이용하여 명령을 실행할 수 있게 하는 방식이다. 하지만 CPU의 개수는 제한되어 있으며, Amdahl's law에 따르면 OpenMP방식의 병렬화시 속도개선효과는 95% 병렬화 프로그램에서 최대 CPU 개수의 제한이 없다면 20배 까지 속도향상이 가능하다고 하였다. 본 연구에서는 3차원 수리 수질예측 모형인 ELCOM-CAEDYM에 적용된 병렬화 기법을 적용하는데 있어 최적 CPU사용 개수를 파악 하고자 하였으며, 이를 통해 수질예보시스템을 운영하는데 가장 효율적인 방법을 찾아 적용하고자 하고자 한다.

  • PDF