• 제목/요약/키워드: In-memory parallel distributed computing

검색결과 29건 처리시간 0.029초

빅데이터 분석을 위한 슈퍼컴퓨터 환경에서 R의 병렬처리 (Parallel Computing Environment for R with on Supercomputer Systems)

  • 이상열;원중호
    • 한국경영과학회지
    • /
    • 제39권4호
    • /
    • pp.19-31
    • /
    • 2014
  • We study parallel processing techniques for the R programming language of high performance computing technology. In this study, we used massively parallel computing system which has 25,408 cpu cores. We conducted a performance evaluation of a distributed memory system using MPI and of a the shared memory system using OpenMP. Our findings are summarized as follows. First, For some particular algorithms, parallel processing is about 150 times faster than serial processing in R. Second, the distributed memory system gets faster as the number of nodes increases while shared memory system is limited in the improvement of performance, due to the limit of the number of cpus in a single system.

New execution model for CAPE using multiple threads on multicore clusters

  • Do, Xuan Huyen;Ha, Viet Hai;Tran, Van Long;Renault, Eric
    • ETRI Journal
    • /
    • 제43권5호
    • /
    • pp.825-834
    • /
    • 2021
  • Based on its simplicity and user-friendly characteristics, OpenMP has become the standard model for programming on shared-memory architectures. Checkpointing-aided parallel execution (CAPE) is an approach that utilizes the discontinuous incremental checkpointing technique (DICKPT) to translate and execute OpenMP programs on distributed-memory architectures automatically. Currently, CAPE implements the OpenMP execution model by utilizing the DICKPT to distribute parallel jobs and their data to slave machines, and then collects the results after executing these distributed jobs. Although this model has been proven to be effective in terms of performance and compatibility with OpenMP on distributed-memory systems, it cannot fully exploit the capabilities of multicore processors. This paper presents a novel execution model for CAPE that utilizes two levels of parallelism. In the proposed model, we add another level of parallelism in the form of multithreaded processes on slave machines with the goal of better exploiting their multicore CPUs. Initial experimental results presented near the end of this paper demonstrate that this model provides significantly enhanced CAPE performance.

Performance Optimization of Parallel Algorithms

  • Hudik, Martin;Hodon, Michal
    • Journal of Communications and Networks
    • /
    • 제16권4호
    • /
    • pp.436-446
    • /
    • 2014
  • The high intensity of research and modeling in fields of mathematics, physics, biology and chemistry requires new computing resources. For the big computational complexity of such tasks computing time is large and costly. The most efficient way to increase efficiency is to adopt parallel principles. Purpose of this paper is to present the issue of parallel computing with emphasis on the analysis of parallel systems, the impact of communication delays on their efficiency and on overall execution time. Paper focuses is on finite algorithms for solving systems of linear equations, namely the matrix manipulation (Gauss elimination method, GEM). Algorithms are designed for architectures with shared memory (open multiprocessing, openMP), distributed-memory (message passing interface, MPI) and for their combination (MPI + openMP). The properties of the algorithms were analytically determined and they were experimentally verified. The conclusions are drawn for theory and practice.

순차 및 병렬처리 환경에서 효율적인 다분야통합최적설계 문제해결 방법 (An Efficient Solution Method to MDO Problems in Sequential and Parallel Computing Environments)

  • 이세정
    • 한국CDE학회논문집
    • /
    • 제16권3호
    • /
    • pp.236-245
    • /
    • 2011
  • Many researchers have recently studied multi-level formulation strategies to solve the MDO problems and they basically distributed the coupling compatibilities across all disciplines, while single-level formulations concentrate all the controls at the system-level. In addition, approximation techniques became remedies for computationally expensive analyses and simulations. This paper studies comparisons of the MDO methods with respect to computing performance considering both conventional sequential and modem distributed/parallel processing environments. The comparisons show Individual Disciplinary Feasible (IDF) formulation is the most efficient for sequential processing and IDF with approximation (IDFa) is the most efficient for parallel processing. Results incorporating to popular design examples show this finding. The author suggests design engineers should firstly choose IDF formulation to solve MDO problems because of its simplicity of implementation and not-bad performance. A single drawback of IDF is requiring more memory for local design variables and coupling variables. Adding cheap memories can save engineers valuable time and effort for complicated multi-level formulations and let them free out of no solution headache of Multi-Disciplinary Analysis (MDA) of the Multi-Disciplinary Feasible (MDF) formulation.

병렬 분산 처리를 이용한 영상 기반 실내 위치인식 시스템의 프레임워크 구현 (Framework Implementation of Image-Based Indoor Localization System Using Parallel Distributed Computing)

  • 권범;전동현;김종유;김정환;김도영;송혜원;이상훈
    • 한국통신학회논문지
    • /
    • 제41권11호
    • /
    • pp.1490-1501
    • /
    • 2016
  • 본 논문에서는 인메모리(In-memory) 병렬 분산 처리 시스템 Apache Spark(이하 Spark)를 활용하여 사용자에게 실시간 측위 정보를 제공할 수 있는 영상 기반 실내 위치인식 시스템을 제안한다. 제안하는 시스템에서는 사용자에게 실시간 측위 정보를 제공하기 위해서, Spark를 이용한 영상 특징점 추출 알고리즘의 병렬 분산화를 통해 알고리즘 연산 시간을 단축시킨다. 하지만 기존의 Spark 플랫폼에서는 영상 처리를 위한 인터페이스가 존재하지 않아, 영상 처리와 관련된 연산을 수행하는 것이 불가능하였다. 이에 본 논문에서는 Spark 영상 입출력 인터페이스를 구현하여 측위 연산을 위한 영상 처리를 Spark에서 수행 가능하게 하였다. 또한 무손실 압축(lossless compression)기법을 이용하여 특징점 기술자(descriptor)를 압축된 형태로 데이터베이스에 저장하여, 대용량의 실내 지도 데이터를 효율적으로 저장 및 관리하는 방법을 소개한다. 측위 실험은 실제 실내 환경에서 수행하였으며, 싱글 코어(Single-core) 시스템과의 성능 비교를 통해 제안하는 시스템이 최대 약 3.6배 단축된 시간으로 사용자에게 측위 정보를 제공 할 수 있다는 것을 입증하였다.

병렬 프로그램에서의 효율적인 대용량 파일 입출력 방식의 비교 연구 (Research for Efficient Massive File I/O on Parallel Programs)

  • 황규현;김영태
    • 인터넷정보학회논문지
    • /
    • 제18권2호
    • /
    • pp.53-60
    • /
    • 2017
  • 분산 메모리형의 병렬 프로그램에서는 프로세서들이 독립적으로 입출력을 처리하기 때문에 여러 유형의 파일 입출력 방식이 사용된다. 본 논문에서는 분산 메모리형 병렬 프로그램에서의 대용량 파일에 대한 효율적인 입출력 방식을 알아보기 위하여 다양한 방식을 구현하고 비교 분석하였다. 구현된 방식으로는 (i) NFS를 활용한 병렬 입출력 방식, (ii) 호스트 프로세서에서의 순차 입출력과 도메인 분산 방식, 그리고 (iii) 메시지 전송 전용 입출력(MPI-IO) 방식 등이 있다. 성능 분석을 위해서 별도의 파일 서버를 사용하였으며 한 대 및 두 대의 계산 클라이언트에서 다중 프로세서를 사용하였다. 비교 분석 결과, 입력의 경우에는 NFS 병렬 입력 방식이, 출력의 경우에는 도메인 전송을 통한 순차 출력 방식이 가장 효율적으로 나타났으며, 예상과는 다르게 메시지 전송 전용 입출력 방식의 성능이 가장 낮게 나왔다.

Parallel Algorithm of Improved FunkSVD Based on Spark

  • Yue, Xiaochen;Liu, Qicheng
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권5호
    • /
    • pp.1649-1665
    • /
    • 2021
  • In view of the low accuracy of the traditional FunkSVD algorithm, and in order to improve the computational efficiency of the algorithm, this paper proposes a parallel algorithm of improved FunkSVD based on Spark (SP-FD). Using RMSProp algorithm to improve the traditional FunkSVD algorithm. The improved FunkSVD algorithm can not only solve the problem of decreased accuracy caused by iterative oscillations but also alleviate the impact of data sparseness on the accuracy of the algorithm, thereby achieving the effect of improving the accuracy of the algorithm. And using the Spark big data computing framework to realize the parallelization of the improved algorithm, to use RDD for iterative calculation, and to store calculation data in the iterative process in distributed memory to speed up the iteration. The Cartesian product operation in the improved FunkSVD algorithm is divided into blocks to realize parallel calculation, thereby improving the calculation speed of the algorithm. Experiments on three standard data sets in terms of accuracy, execution time, and speedup show that the SP-FD algorithm not only improves the recommendation accuracy, shortens the calculation interval compared to the traditional FunkSVD and several other algorithms but also shows good parallel performance in a cluster environment with multiple nodes. The analysis of experimental results shows that the SP-FD algorithm improves the accuracy and parallel computing capability of the algorithm, which is better than the traditional FunkSVD algorithm.

클러스터 컴퓨팅 환경에서 병렬루프 처리를 위한 재구성 가능한 부하 및 성능 균형 방법 (A Reconfigurable Load and Performance Balancing Scheme for Parallel Loops in a Clustered Computing Environment)

  • 김태형
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제10권1호
    • /
    • pp.49-56
    • /
    • 2004
  • 부하 불균형은 병렬처리에 있어서 좋은 성능을 얻기 위한 주요한 방해 요소 중의 하나이다. 전역(全域) 부하균형 기법은 하나의 응용에서 발생된 병렬 태스크를 취급하는데 적절하지 않다. 동적 루프 스케줄링 기법은 공유 메모리 멀티프로세서 병렬구조에서 병렬 루프의 부하균형에 효과적인 것으로 알려져있다. 하지만 이 기법의 중앙집중적 특성은 워크스테이션 클러스터 환경에서 프로세서 수가 상대적으로 많지 않은 경우에도 병목현상을 일으킬 수 있는 요인이 된다. 워크스테이션 클러스터 환경에서의 통신 오버헤드는 공유 메모리 멀티프로세서 병렬 구조와 비교할 때 수십배의 차이가 생기기 때문이다. 더구나 병렬 루프에서 발생하는 단위 태스크가 불규칙적인 작업량을 갖는 경우에는 기본 루프 스케줄링 기법의 단점을 보완한 개선된 방법들을 적용할 수가 없다. 본 논문에서는 이러한 불규칙적인 작업량을 갖는 병렬루프를 서로 다른 성능을 갖는 워크스테이션들의 네트워크 환경에서 효율적으로 부하를 분배하기 위한 재구성 가능한 분산 부하 균형 기법을 제시한다. 이러한 재구성 가능한 기법은 전통적인 부하균형 방법과 함께 성능균형을 가능하게 함으로써 전체수행시간을 최소화할 수 있음을 보였다.

인메모리 기반 병렬 컴퓨팅 그래프 구조를 이용한 대용량 RDFS 추론 (Scalable RDFS Reasoning Using the Graph Structure of In-Memory based Parallel Computing)

  • 전명중;소치승;바트셀렘;김강필;김진;홍진영;박영택
    • 정보과학회 논문지
    • /
    • 제42권8호
    • /
    • pp.998-1009
    • /
    • 2015
  • 근래에 들어 풍부한 지식베이스를 구축하기 위한 대용량 RDFS 추론에 대한 관심이 높아지면서 기존의 단일 머신으로는 대용량 데이터의 추론 성능을 향상시키기에 한계가 있다. 그래서 분산 환경에서 의 RDFS 추론 엔진 개발이 활발히 연구되고 있다. 하지만 기존의 분산 환경 엔진은 실시간 처리가 불가능 하며 구현이 어렵고 반복 작업에 취약하다. 본 논문에서는 이러한 문제를 극복하기 위해 병렬 그래프 구조 를 사용한 인-메모리 분산 추론 엔진 구축 방법을 제안한다. 트리플 형태의 온톨로지는 기본적으로 그래프 구조를 가지고 있으므로 그래프 구조 기반의 추론 엔진을 설계하는 것이 직관적이다. 또한 그래프 구조를 활용하는 오퍼레이터를 활용하여 RDFS 추론 규칙을 구현함으로써 기존의 데이터 관점과 달리 그래프 구조의 관점에서 설계할 수 있다. 본 논문에서 제안한 추론 엔진을 평가하기 위해 LUBM1000(1억 3천 3백만 트리플, 17.9GB), LUBM3000(4억 1천 3백만 트리플, 54.3GB)에 대해 추론 속도를 실험을 하였으며 실 험결과, 비-인메모리 분산 추론 엔진보다 약 10배 정도 빠른 추론 성능을 보였다.

병렬 연산을 이용한 방출 단층 영상의 재구성 속도향상 기초연구 (Preliminary Study on the Enhancement of Reconstruction Speed for Emission Computed Tomography Using Parallel Processing)

  • 박민재;이재성;김수미;강지연;이동수;박광석
    • Nuclear Medicine and Molecular Imaging
    • /
    • 제43권5호
    • /
    • pp.443-450
    • /
    • 2009
  • 목적: 기존의 영상 재구성은 간소화된 투사 물리 모델을 사용하고 있다. 하지만 3D 재구성과 같은 실제적인 물리 모델은 시간이 많이 걸려서 임상에서 모든 데이터에 적용하기 힘들고, 복잡한 물리모델을 설명하기 위해 큰 메모리를 사용하면 한대의 일반적인 재구성 머신으로는 불가능하다. 개인 컴퓨터들에서도 큰 규모의 기술을 가능하게 하기위해, 병렬 연산을 이용한 빠른 재구성의 현실적인 분산메모리 모델을 제시한다. 대상 및 방법: 실제로 구현하는 가능성을 보기 위해 가상 컴퓨터들을 이용하여 선행 연구를 진행하였고, 다양한 가능성을 테스트하기 위해 상용서비스를 하고 있는 슈퍼컴퓨터(Tachyon)에서 성능 테스트를 하였다. 가장 많이 사용되는 2D 투사 영상과 실제적인 물리 모델인 3D 응답라인을 이용한 기댓값 최대화 알고리즘을 테스트하였다. 스터디 중 특정 반복횟수 이후에 속도가 최대 6배까지 느려지는 현상이 발견되어 컴파일러 최적화를 통해 병렬 효율의 극대화를 꾀하였다. 결과: Linux에서 MPICH와 NFS를 이용하여, 여러 컴퓨터에서 하나의 프로그램으로 분산 연산이 가능하였다. 병렬 연산을 했을 때 동일한 반복 연산에서 재구성된 영상간의 차이가 실수의 유효숫자(6bit) 정도임을 확인하였다. 2배의 연상장치를 사용했을 때 1.96배의 좋은 병렬화 효율을 보여주었다. 반복 연산 횟수가 증가함에 따라 느려지는 현상은 SSE를 이용한 Vectorization 방법을 사용했을 때 해결할 수 있었다. 결론: 이번 연구를 통해 일반 컴퓨터들을 이용한 현실적인 병렬 컴퓨터 시스템을 구성하여, 작은 메모리의 단일 일반 컴퓨터로는 불가능한 간단화 할 수 없는 복잡한 물리 과정도 영상 재구성 방법에 사용 가능하게 되었다.