• Title/Summary/Keyword: 분산 및 병렬 계산

Search Result 54, Processing Time 0.032 seconds

A Performance Analysis of Model Training Due to Different Batch Sizes in Synchronous Distributed Deep Learning Environments (동기식 분산 딥러닝 환경에서 배치 사이즈 변화에 따른 모델 학습 성능 분석)

  • Yerang Kim;HyungJun Kim;Heonchang Yu
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.79-80
    • /
    • 2023
  • 동기식 분산 딥러닝 기법은 그래디언트 계산 작업을 다수의 워커가 나누어 병렬 처리함으로써 모델 학습 과정을 효율적으로 단축시킨다. 배치 사이즈는 이터레이션 단위로 처리하는 데이터 개수를 의미하며, 학습 속도 및 학습 모델의 품질에 영향을 미치는 중요한 요소이다. 멀티 GPU 환경에서 작동하는 분산 학습의 경우, 가용 GPU 메모리 용량이 커짐에 따라 선택 가능한 배치 사이즈의 상한이 증가한다. 하지만 배치 사이즈가 학습 속도 및 학습 모델 품질에 미치는 영향은 GPU 활용률, 총 에포크 수, 모델 파라미터 개수 등 다양한 변수에 영향을 받으므로 최적값을 찾기 쉽지 않다. 본 연구는 동기식 분산 딥러닝 환경에서 실험을 통해 최적의 배치 사이즈 선택에 영향을 미치는 주요 요인을 분석한다.

Implementation and Performance Analysis of PC Clusters using Fast PCs& High Speed Network (초고속 네트워크를 이용한 PC 클러스터의 구현과 성능 평가)

  • Kim, Young-Tae;Lee, Yonh-Hee;Choi, Jun-Tae;Oh, Jai-Ho
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.29 no.2
    • /
    • pp.57-64
    • /
    • 2002
  • We implemented two fast PC clusters using fast PCs and high speed network. First. we built the first generation of 16 PC cluster and have used it for real-time operation at Cheju Regional Meteorological Office. Next, we built the second generation of 16PC with dual CUs cluster which was efficiently improved based on performance analysis of the first generation of cluster. In this research we also analyzed performance of two different clusters, which have different CPUs and communication devices using the parallel model MM5 which has been used for the real-time weather forecasting.

A synchronous/asynchronous hybrid parallel method for some eigenvalue problems on distributed systems

  • 박필성
    • Proceedings of the Korean Society of Computational and Applied Mathematics Conference
    • /
    • 2003.09a
    • /
    • pp.11-11
    • /
    • 2003
  • 오늘날 단일 슈퍼컴퓨터로는 처리가 불가능한 거대한 문제들의 해법이 시도되고 있는데, 이들은 지리적으로 분산된 슈퍼컴퓨터, 데이터베이스, 과학장비 및 디스플레이 장치 등을 초고속 통신망으로 연결한 GRID 환경에서 효과적으로 실행시킬 수 있다. GRID는 1990년대 중반 과학 및 공학용 분산 컴퓨팅의 연구 과정에서 등장한 것으로, 점차 응용분야가 넓어지고 있다. 그러나 GRID 같은 분산 환경은 기존의 단일 병렬 시스템과는 많은 점에서 다르며 이전의 기술들을 그대로 적용하기에는 무리가 있다. 기존 병렬 시스템에서는 주로 동기 알고리즘(synchronous algorithm)이 사용되는데, 직렬 연산과 같은 결과를 얻기 위해 동기화(synchronization)가 필요하며, 부하 균형이 필수적이다. 그러나 부하 균형은 이질 클러스터(heterogeneous cluster)처럼 프로세서들의 성능이 서로 다르거나, 지리적으로 분산된 계산자원을 사용하는 GRID 환경에서는 이기종의 문제뿐 아니라 네트워크를 통한 메시지의 전송 지연 등으로 유휴시간이 길어질 수밖에 없다. 이처럼 동기화의 필요성에 의한 연산의 지연을 해결하는 하나의 방안으로 비동기 반복법(asynchronous iteration)이 나왔으며, 지금도 활발히 연구되고 있다. 이는 알고리즘의 동기점을 가능한 한 제거함으로써 빠른 프로세서의 유휴 시간을 줄이는 것이 목적이다. 즉 비동기 알고리즘에서는, 각 프로세서는 다른 프로세서로부터 갱신된 데이터가 올 때까지 기다리지 않고 계속 다음 작업을 수행해 나간다. 따라서 동시에 갱신된 데이터를 교환한 후 다음 단계로 진행하는 동기 알고리즘에 비해, 미처 갱신되지 않은 데이터를 사용하는 경우가 많으므로 전체적으로는 연산량 대비의 수렴 속도는 느릴 수 있다 그러나 각 프로세서는 거의 유휴 시간이 없이 연산을 수행하므로 wall clock time은 동기 알고리즘보다 적게 걸리며, 때로는 50%까지 빠른 결과도 보고되고 있다 그러나 현재까지의 연구는 모두 어떤 수렴조건을 만족하는 선형 시스템의 해법에 국한되어 있으며 비교적 구현하기 쉬운 공유 메모리 시스템에서의 연구만 보고되어 있다. 본 연구에서는 행렬의 주요 고유쌍을 구하는 데 있어 비동기 반복법의 적용 가능성을 타진하기 위해 우선 이론적으로 단순한 멱승법을 사용하여 실험하였고 그 결과 순수한 비동기 반복법은 수렴하기 어렵다는 결론을 얻었다 그리하여 동기 알고리즘에 비동기적 요소를 추가한 혼합 병렬 알고리즘을 제안하고, MPI(Message Passing Interface)를 사용하여 수원대학교의 Hydra cluster에서 구현하였다. 그 결과 특정 노드의 성능이 다른 것에 비해 현저하게 떨어질 때 전체적인 알고리즘의 수렴 속도가 떨어지는 것을 상당히 완화할 수 있음이 밝혀졌다.

  • PDF

InterCom : Design and Implementation of an Agent-based Internet Computing Environment (InterCom : 에이전트 기반 인터넷 컴퓨팅 환경 설계 및 구현)

  • Kim, Myung-Ho;Park, Kweon
    • The KIPS Transactions:PartA
    • /
    • v.8A no.3
    • /
    • pp.235-244
    • /
    • 2001
  • Development of network and computer technology results in many studies to use physically distributed computers as a single resource. Generally, these studies have focused on developing environments based on message passing. These environments are mainly used to solve problems for scientific computation and process in parallel suing inside parallelism of the given problems. Therefore, these environments provide high parallelism generally, while it is difficult to program and use as well as it is required to have user accounts in the distributed computers. If a given problem is divided into completely independent subproblems, more efficient environment can be provided. We can find these problems in bio-informatics, 3D animatin, graphics, and etc., so the development of new environment for these problems can be considered to be very important. Therefore, we suggest new environment called InterCom based on a proxy computing, which can solve these problems efficiently, and explain the implementation of this environment. This environment consists of agent, server, and client. Merits of this environment are easy programing, no need of user accounts in the distributed computers, and easiness by compiling distributed code automatically.

  • PDF

Analysis of the Interference between Parallel Socket Connections and Prediction of the Bandwidth (병렬 연결 간의 트래픽 간섭 현상 분석 및 대역폭 예측)

  • Kim Young-Shin;Huh Eui-Nam;Kim Il-Jung;Hwang Jun
    • Journal of Internet Computing and Services
    • /
    • v.7 no.1
    • /
    • pp.131-141
    • /
    • 2006
  • Recently, many researchers have been studied several high performance data transmission techniques such as TCP buffer Tuning, XCP and Parallel Sockets. The Parallel Sockets is an application level library for parallel data transfer, while TCP tuning, XCP and DRS are developed on kernel level. However, parallel socket is not analyzed in detail yet and need more enhancements, In this paper, we verify performance of parallel transfer technique through several experiments and analyze character of traffic interference among socket connections. In order to enhance parallel transfer management mechanism, we predict the number of socket connections to obtain SLA of the network resource and at the same time, affected network bandwidth of existing connections is measured mathematically due to the interference of other parallel transmission. Our analytical scheme predicts very well network bandwidth for applications using the parallel socket only with 8% error.

  • PDF

DOVE : A Distributed Object System for Virtual Computing Environment (DOVE : 가상 계산 환경을 위한 분산 객체 시스템)

  • Kim, Hyeong-Do;Woo, Young-Je;Ryu, So-Hyun;Jeong, Chang-Sung
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.6 no.2
    • /
    • pp.120-134
    • /
    • 2000
  • In this paper we present a Distributed Object oriented Virtual computing Environment, called DOVE which consists of autonomous distributed objects interacting with one another via method invocations based on a distributed object model. DOVE appears to a user logically as a single virtual computer for a set of heterogeneous hosts connected by a network as if objects in remote site reside in one virtual computer. By supporting efficient parallelism, heterogeneity, group communication, single global name service and fault-tolerance, it provides a transparent and easy-to-use programming environment for parallel applications. Efficient parallelism is supported by diverse remote method invocation, multiple method invocation for object group, multi-threaded architecture and synchronization schemes. Heterogeneity is achieved by automatic data arshalling and unmarshalling, and an easy-to-use and transparent programming environment is provided by stub and skeleton objects generated by DOVE IDL compiler, object life control and naming service of object manager. Autonomy of distributed objects, multi-layered architecture and decentralized approaches in hierarchical naming service and object management make DOVE more extensible and scalable. Also,fault tolerance is provided by fault detection in object using a timeout mechanism, and fault notification using asynchronous exception handling methods

  • PDF

Distributed Structural Analysis Algorithms for Large-Scale Structures based on PCG Algorithms (대형구조물의 분산구조해석을 위한 PCG 알고리즘)

  • 권윤한;박효선
    • Journal of the Computational Structural Engineering Institute of Korea
    • /
    • v.12 no.3
    • /
    • pp.385-396
    • /
    • 1999
  • In the process of structural design for large-scale structures with several thousands of degrees of freedom, a plethora of structural calculations with large amount of data storage are required to obtain the forces and displacements of the members. However, current computational environment with single microprocessor such as a personal computer or a workstation is not capable of generating a high-level of efficiency in structural analysis and design process for large-scale structures. In this paper, a high-performance parallel computing system interconnected by a network of personal computers is proposed for an efficient structural analysis. Two distributed structural analysis algorithms are developed in the form of distributed or parallel preconditioned conjugate gradient (DPCG) method. To enhance the performance of the developed distributed structural analysis algorithms, the number of communications and the size of data to be communicated are minimized. These algorithms are applied to the structural analyses of three large space structures as well as a 144-story tube-in-tube framed structure.

  • PDF

Parallel Distributed Implementation of GHT on Ethernet Multicluster (이더넷 다중 클러스터에서 GHT의 병렬 분산 구현)

  • Kim, Yeong-Soo;Kim, Myung-Ho;Choi, Heung-Moon
    • Journal of the Institute of Electronics Engineers of Korea CI
    • /
    • v.46 no.3
    • /
    • pp.96-106
    • /
    • 2009
  • Extending the scale of the distributed processing in a single Ethernet cluster is physically restricted by maximum ports per switch. This paper presents an implementation of MPI-based multicluster consisting of multiple Ethernet switches for extending the scale of distributed processing, and a asymptotical analysis for communication overhead through execution-time analysis model. To determine an optimum task partitioning, we analyzed the processing time for various partitioning schemes, and AAP(accumulator array partitioning) scheme was finally chosen to minimize the overall communication overhead. The scope of data partitioned in AAP was modified to fit for incremented nodes, and suitable load balancing algorithm was implemented. We tried to alleviate the communication overhead through exploiting the pipelined broadcast and flat-tree based result gathering, and overlapping of the communication and the computation time. We used the linear pipeline broadcast to reduce the communication overhead in intercluster which is interconnected by a single link. Experimental results shows nearly linear speedup by the proposed parallel distributed GHT implemented on MPI-based Ethernet multicluster with four 100Mbps Ethernet switches and up to 128 nodes of Pentium PC.

Design and Implementation of a Grid System META for Executing CFD Analysis Programs on Distributed Environment (분산 환경에서 CFD 분석 프로그램 수행을 위한 그리드 시스템 META 설계 및 구현)

  • Kang, Kyung-Woo;Woo, Gyun
    • The KIPS Transactions:PartA
    • /
    • v.13A no.6 s.103
    • /
    • pp.533-540
    • /
    • 2006
  • This paper describes the design and implementation of a grid system META (Metacomputing Environment using Test-run of Application) which facilitates the execution of a CFD (Computational Fluid Dynamics) analysis program on distributed environment. The grid system META allows the CFD program developers can access the computing resources distributed over the network just like one computer system. The research issues involved in the grid computing include fault-tolerance, computing resource selection, and user-interface design. In this paper, we exploits an automatic resource selection scheme for executing the parallel SPMD (Single Program Multiple Data) application written in MPI (Message Passing Interface). The proposed resource selection scheme is informed from the network latency time and the elapsed time of the kernel loop attained from test-run. The network latency time highly influences the executional performance when a parallel program is distributed and executed over several systems. The elapsed time of the kernel loop can be used as an estimator of the whole execution time of the CFD Program due to a common characteristic of CFD programs. The kernel loop consumes over 90% of the whole execution time of a CFD program.

Service Oriented Workflow System on Grid (그리드 환경에서 서비스 기반 워크플로우 시스템 설계 및 구현)

  • Choi Ju-Ho;Kwon Yong-Won;Ryu So-Hyun;Jeong Chang-Sung
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07a
    • /
    • pp.43-45
    • /
    • 2005
  • 그리드 어플리케이션을 분산, 병렬 환경에서 효과적으로 만들기 위해, 그리드 포탈시스템인 Workflow based grid portal for problem Solving Environment(WISE)를 개발해왔다. WISE는 Globus Toolkit 2를 기반으로 그리드 워크플로우 기술을 사용하여 사용자가 좀 더 쉽게 그리드 어플리케이션을 프로그래밍 할 수 있는 환경을 제공한다. 그러나 현재 그리드 기술은 서비스 기반 구조(Open Grid Service Architecture)로 변화하고 있고 WISE도 기술적 흐름에 따라 그것을 충족시킬 수 있도록 변화해야 한다. 그래서 서비스 기반 구조에 대응할 수 있는 워크플로우 엔진을 새로 설계하여 WISE에 적용하고자 한다. 새로 설계한 시스템은 Service Oriented Workflow System on Grid(SOWS-G)이다. 이것은 계산량이 많은 문제에 대해 효과적으로 분산, 병렬 실행을 가능하게 하고, 다양한 워크플로우 패턴을 지원하며, 웹 서비스를 이용할 수 있도록 설계하였다. 이 논문에서는 SOWS-G를 서비스 기반 그리드 환경을 지원하는 Globus Toolkit 3를 이용하여 설계한 구조를 살펴보고 웹서비스를 이용할 수 있도록 추가된 기능들에 대해서 설명하고자한다.

  • PDF