• 제목/요약/키워드: parallel/distribute computing

검색결과 11건 처리시간 0.022초

IBM Aglets를 기반으로 하는 가상 병렬 컴퓨팅 시스템에서 작업 할당 기법과 성능 비교 (Work Allocation Methods and Performance Comparisons on the Virtual Parallel Computing System based on the IBM Aglets)

  • 김경하;김영학;오길호
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제8권4호
    • /
    • pp.411-422
    • /
    • 2002
  • 최근에 다중 에이전트를 기반으로 하는 가상 병렬 컴퓨팅 시스템에 관한 적극적인 연구가 이루어지고 있다. 가상 병렬 컴퓨팅 시스템은 많은 계산을 요구하는 복잡한 문제들을 해결하기 위해 고비용수퍼 컴퓨터를 사용하는 대신에, 인터넷상에 산재되어 있는 개인용 컴퓨터 혹은 워크스테이션을 사용한다. 가상 병렬 컴퓨팅 시스템은 인터넷상에 이용 가능한 자원에 의존하여 동질 혹은 이질형의 컴퓨터들로 구성될 수 있다. 본 논문에서는 IBM Aglets를 기반으로 하는 가상 병렬 컴퓨팅 환경에서 작업자 에이전트와 작업 패키지를 효율적으로 분산하는 새로운 방법을 제안한다. 기존의 방법들은 작업자 에이전트와 작업 패키지를 분산하기 위해서 주로 마스터/슬레이브 유형을 사용한다. 그러나 이러한 방법에서 에이전트의 수가 증가하게되면 중앙 마스터에서 작업부하가 급속하게 증가된다. 이러한 문제에 대한 해결로서 본 논문에서는 작업자 에이전트와 작업 패키지의 분산을 작업자 에이전트에게 위임하는 방법을 사용한다. 제안된 방법은 가상 병렬 컴퓨팅 시스템에서 다양한 방식으로 평가되었으며, 그 결과는 기존의 방법에 비해서 괄목할 만한 수준으로 개선되었다.

New GPU computing algorithm for wind load uncertainty analysis on high-rise systems

  • Wei, Cui;Luca, Caracoglia
    • Wind and Structures
    • /
    • 제21권5호
    • /
    • pp.461-487
    • /
    • 2015
  • In recent years, the Graphics Processing Unit (GPU) has become a competitive computing technology in comparison with the standard Central Processing Unit (CPU) technology due to reduced unit cost, energy and computing time. This paper describes the derivation and implementation of GPU-based algorithms for the analysis of wind loading uncertainty on high-rise systems, in line with the research field of probability-based wind engineering. The study begins by presenting an application of the GPU technology to basic linear algebra problems to demonstrate advantages and limitations. Subsequently, Monte-Carlo integration and synthetic generation of wind turbulence are examined. Finally, the GPU architecture is used for the dynamic analysis of three high-rise structural systems under uncertain wind loads. In the first example the fragility analysis of a single degree-of-freedom structure is illustrated. Since fragility analysis employs sampling-based Monte Carlo simulation, it is feasible to distribute the evaluation of different random parameters among different GPU threads and to compute the results in parallel. In the second case the fragility analysis is carried out on a continuum structure, i.e., a tall building, in which double integration is required to evaluate the generalized turbulent wind load and the dynamic response in the frequency domain. The third example examines the computation of the generalized coupled wind load and response on a tall building in both along-wind and cross-wind directions. It is concluded that the GPU can perform computational tasks on average 10 times faster than the CPU.

New execution model for CAPE using multiple threads on multicore clusters

  • Do, Xuan Huyen;Ha, Viet Hai;Tran, Van Long;Renault, Eric
    • ETRI Journal
    • /
    • 제43권5호
    • /
    • pp.825-834
    • /
    • 2021
  • Based on its simplicity and user-friendly characteristics, OpenMP has become the standard model for programming on shared-memory architectures. Checkpointing-aided parallel execution (CAPE) is an approach that utilizes the discontinuous incremental checkpointing technique (DICKPT) to translate and execute OpenMP programs on distributed-memory architectures automatically. Currently, CAPE implements the OpenMP execution model by utilizing the DICKPT to distribute parallel jobs and their data to slave machines, and then collects the results after executing these distributed jobs. Although this model has been proven to be effective in terms of performance and compatibility with OpenMP on distributed-memory systems, it cannot fully exploit the capabilities of multicore processors. This paper presents a novel execution model for CAPE that utilizes two levels of parallelism. In the proposed model, we add another level of parallelism in the form of multithreaded processes on slave machines with the goal of better exploiting their multicore CPUs. Initial experimental results presented near the end of this paper demonstrate that this model provides significantly enhanced CAPE performance.

이기종 컴퓨팅 환경에서 OpenCL을 사용한 포토모자이크 응용의 효율적인 작업부하 분배 (Efficient Workload Distribution of Photomosaic Using OpenCL into a Heterogeneous Computing Environment)

  • 김희곤;사재원;최동휘;김혜련;이성주;정용화;박대희
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제4권8호
    • /
    • pp.245-252
    • /
    • 2015
  • 최근 고성능 컴퓨팅과 모바일 컴퓨팅에서 성능가속기를 사용하는 병렬처리 방법들이 소개되어왔다. 포토모자이크 응용은 내재된 데이터 병렬성을 활용하고 성능가속기를 사용하여 병렬처리가 가능하다. 본 논문에서는 CPU와 GPU로 구성된 이기종 컴퓨팅 환경에서 포토모자이크 수행 시 작업부하 분배 방법을 제안한다. 즉, 포토모자이크 응용을 비동기 방식으로 병렬화하여 CPU와 GPU 자원을 동시에 활용하고, 각 처리기에 할당할 최적의 작업부하량을 예측하기 위해 CPU-only와 GPU-only 작업 분배 환경에서 수행시간을 측정한다. 제안 방법은 간단하지만 매우 효과적이고, CPU와 GPU로 구성된 이기종 컴퓨팅 환경에서 다른 응용을 병렬화하 데에도 적용될 수 있다. 실험 결과, 이기종 컴퓨팅 환경에서 최적의 작업 분배량으로 수행한 경우, GPU-only의 방법과 비교하여 141%의 성능이 개선되었음을 확인한다.

선형계획법을 적용한 임의 분할 불가능한 부하 분배계획 (Indivisible load scheduling applied to Linear Programming)

  • 손경호;이달호;김형중
    • 한국정보통신설비학회:학술대회논문집
    • /
    • 한국정보통신설비학회 2005년도 하계학술대회
    • /
    • pp.382-387
    • /
    • 2005
  • There are many studies on arbitrarily divisible load scheduling problem in a distributed computing network consisting of processors interconnected through communication links. It is not efficient to arbitrarily distribute the load that comes into the system. In this paper, how to schedule in case that arbitrarily indivisible load comes into the system is studied. Also, the cases of the divisible load mixed with the indivisible load that come into network were dealt with optimal load distribution in parallel processing system by scheduling applied to linear programming.

  • PDF

근거리 힘 계산의 새로운 고속화 방법 (A New Fast Algorithm for Short Range Force Calculation)

  • 안상환;안철오
    • 유체기계공업학회:학술대회논문집
    • /
    • 유체기계공업학회 2006년 제4회 한국유체공학학술대회 논문집
    • /
    • pp.383-386
    • /
    • 2006
  • In this study, we propose a new fast algorithm for calculating short range forces in molecular dynamics, This algorithm uses a new hierarchical tree data structure which has a high adaptiveness to the particle distribution. It can divide a parent cell into k daughter cells and the tree structure is independent of the coordinate system and particle distribution. We investigated the characteristics and the performance of the tree structure according to k. For parallel computation, we used orthogonal recursive bisection method for domain decomposition to distribute particles to each processor, and the numerical experiments were performed on a 32-node Linux cluster. We compared the performance of the oct-tree and developed new algorithm according to the particle distributions, problem sizes and the number of processors. The comparison was performed sing tree-independent method and the results are independent of computing platform, parallelization, or programming language. It was found that the new algorithm can reduce computing cost for a large problem which has a short search range compared to the computational domain. But there are only small differences in wall-clock time because the proposed algorithm requires much time to construct tree structure than the oct-tree and he performance gain is small compared to the time for single time step calculation.

  • PDF

이동 호스트의 병렬적 위치 정보 탐색을 위한 서버의 계층 구조 (A Hierarchical Server Structure for Parallel Location Information Search of Mobile Hosts)

  • 정광식;유헌창;황종선
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제28권1_2호
    • /
    • pp.80-89
    • /
    • 2001
  • A Hierarchical Server Structure for Parallel Location Information Search of Mobile Hosts이동 컴퓨팅 환경의 발전은 기존의 분산 시스템에서는 볼 수 없었던 이동 호스트의 위치 정보 관리 문제, 이동 호스트의 접속 단절 문제, 낮은 무선 통신 대역폭의 문제 등 과 같은 새로운 문제점을 발생시켰다. 특히 이동 호스트의 위치 정보 관리 기법은 이동 컴퓨팅 환경의 성능을 저하시킨다. 이동 호스트의 이동성으로 인해 이동 호스트의 주소가 이동 호스트의 위치에 종속적으로 변화하며, 이동 호스트의 주소는 고유 주소와 현재 주소의 사상을 통해 관리된다. 이동 호스트의 고유 주소와 현재 주소를 사상시켜 주기 위한 이전의 기법들은 이동 호스트의 증가 및 위치 정보의 분산관리를 고려하지 않았기 때문에 시스템의 확장성에 큰 문제를 가지고 있다. 이 논문에서는 이동 호스트의 주소를 분산 관리하기 위해 개선된 n-깊이 위치 정보 탐색 트리와 개선된 n-깊이 위치 정보 탐색 트리를 기반으로 한 병렬적 위치 정보 탐색과 갱신 기법을 제안한다. 개선된 n-깊이 위치 정보 탐색 트리는 링 구조를 이용하여 위치 정보 서버를 지역적으로 분할한 위치 정보 서버의 논리적 계층 구조이며, 병렬적 탐색 기법을 기반으로 이동 호스트의 위치 탐색 비용과 갱신 비용을 줄였다. 개선된 n-깊이 위치 정보 탐색 트리를 기반으로 한 위치 정보 탐색/갱신 기법은 위치 정보 서버의 논리적 위치가 멀리 떨어져 있는 경우에도 병렬적 탐색 기법을 통해 기존의 방법보다 좋은 결과를 보인다. 또한, 탐색비용의 감소에도 불구하고 갱신 비용의 증가를 가져오지 않는다.

  • PDF

지구환경 데이터를 위한 멀티플랫폼 가시화 시스템 (Multi-platform Visualization System for Earth Environment Data)

  • 정석철;정서원;김종용;박상훈
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제21권3호
    • /
    • pp.36-45
    • /
    • 2015
  • 대용량 볼륨 데이터로부터 연속적인 고화질 영상을 생성하는 것은 공학이나 자연과학 분야에서 중요한 연구주제이다. 최신 가시화 기법을 이용해 고해상도데이터의 시각적 영상 정보를 효과적으로 보여줌으로써 데이터에 내재된 유용한 정보의 분석을 돕는 소프트웨어의 필요성이 증대되고 있다. 본 논문에서는 관측, 예측을 통해 구축된 지구환경 데이터를 효과적으로 분석, 표출하기 위해 클라이언트-서버기반의멀티플랫폼가시화시스템을설계했다.클러스터로구성된가시화서버는병렬/분산 처리를 통해 데이터를 클라이언트에게 전달하고, 클라이언트는 다양한 플랫폼에서 구동되도록 개발되었다. 개발된 클라이언트는 멀티 터치, 센서를 통해 직관적인 구동이 가능하고, 영상기반조명 기법의 적용으로 사실적인 렌더링을 지원한다.

확장과 동적재구성 가능한 클러스터기반의 인터넷서비스 시스템 (Scalable and Dynamically Reconfigurable Internet Service System Based on Clustered System)

  • 김동근;박세명
    • 한국멀티미디어학회논문지
    • /
    • 제7권10호
    • /
    • pp.1400-1411
    • /
    • 2004
  • 오늘날 인터넷의 대중화로 부하가 많은 웹서비스를 제공하는 시스템들은 클러스터기반으로 이동하는 추세이다. 그러나, 기존의 서버 시스템들은 특정 목적을 위한 전용 클러스터 구조로 각 서비스를 위한 클러스터 자원을 각각 보유하고 있으므로 자원의 이용이 효율적이지 못한 문제를 가진다. 본 연구에서는 클러스터상의 자원을 공유하여 부하에 따라 처리 자원을 동적으로 재구성하는 응용서비스 플랫폼을 제안하였다. 제안된 응용서비스 플랫폼은 특정 응용서비스를 제공하는 전위응용서버와 전위응용서버 고부하시 작업을 분담, 처리하는 후위서버군을 기반으로 전위응용서버에서 응용서비스 요청을 처리 또는 분배하는 서비스관리자와 후위서버에서 응용서비스에 대한 요청을 처리하는 작업처리자, 그리고 부하에 따라 후위서버에 작업처리자를 생성 및 제거하는 부하관리자로 구성된다. 클러스터된 후위서버군의 효율적인 관리를 위해 PVM을 이용하였다. 구현된 시스템은 기존의 단일서버 시스템에 비해 안정적인 동작을 보이며, 필요한 자원을 동적으로 할당, 시스템을 재구성함으로써 부하의 변화에 보다 능동적으로 대처할 수 있음을 확인하였다.

  • PDF

Parallel Video Processing Using Divisible Load Scheduling Paradigm

  • Suresh S.;Mani V.;Omkar S. N.;Kim H.J.
    • 방송공학회논문지
    • /
    • 제10권1호
    • /
    • pp.83-102
    • /
    • 2005
  • The problem of video scheduling is analyzed in the framework of divisible load scheduling. A divisible load can be divided into any number of fractions (parts) and can be processed/computed independently on the processors in a distributed computing system/network, as there are no precedence relationships. In the video scheduling, a frame can be split into any number of fractions (tiles) and can be processed independently on the processors in the network, and then the results are collected to recompose the single processed frame. The divisible load arrives at one of the processors in the network (root processor) and the results of the computation are collected and stored in the same processor. In this problem communication delay plays an important role. Communication delay is the time to send/distribute the load fractions to other processors in the network. and the time to collect the results of computation from other processors by the root processors. The objective in this scheduling problem is that of obtaining the load fractions assigned to each processor in the network such that the processing time of the entire load is a minimum. We derive closed-form expression for the processing time by taking Into consideration the communication delay in the load distribution process and the communication delay In the result collection process. Using this closed-form expression, we also obtain the optimal number of processors that are required to solve this scheduling problem. This scheduling problem is formulated as a linear pro-gramming problem and its solution using neural network is also presented. Numerical examples are presented for ease of understanding.