• 제목/요약/키워드: shared parallel systems

검색결과 68건 처리시간 0.03초

상용 응용을 위한 병렬처리 구조 설계 (Design of the new parallel processing architecture for commercial applications)

  • 한우종;윤석한;임기욱
    • 전자공학회논문지B
    • /
    • 제33B권5호
    • /
    • pp.41-51
    • /
    • 1996
  • In this paper, anew parallel processing system based on a cluster architecture which provides scalability of a parallel processing system while maintains shared memory multiprocessor characteristics is proposed. In recent days low cost, high performnce microprocessors have led to construction of large scale parallel processing systems. Such parallel processing systems provides large scalability but are mainly used for scientific applications which have large data parallelism. A shared memory multiprocessor system like TICOM is currently used as aserver for the commercial application, however, the shared memory multiprocessor system is known to have very limited scalability. The proposed architecture can support scalability and performance of the parallel processing system while it provides adaptability for the commerical application, hence it can overcome the limitation of the shared memory multiprocessor. The architecture and characteristics of the proposed system shall be described. A proprietary hierarchical crsossbar network is designed for this system, of which the protocol, routing and switching technique and the signal transfer technique are optimized for the proposed architecture. The design trade-offs for the network are described in this paper and with simulation usihng the SES/workbench, it is explored that the network fits to the proposed architecture.

  • PDF

대규모 병렬 시스템에서 캐시와 공유메모리를 이용한 유한 차분법 성능 (Performance of the Finite Difference Method Using Cache and Shared Memory for Massively Parallel Systems)

  • 김현규;이효종
    • 전자공학회논문지
    • /
    • 제50권4호
    • /
    • pp.108-116
    • /
    • 2013
  • 최근 GPU 시스템과 같은 수백 개의 프로세서로 구성된 대규모 병렬 시스템을 이용하여 성능을 향상시키는 방법들이 많이 개발 되었다. 대표적으로 GPU에서 캐싱(Caching)과 유사한 개념으로 공유 메모리가 사용되었다. 출력 값을 얻기 위해서 이웃 값을 참조하는 이미지 필터와 같은 알고리즘들의 경우 이웃 값의 참조가 빈번하게 발생되므로 공유 메모리를 사용할 경우 성능이 향상되었다. 그러나 공유 메모리를 사용하기 위해서는 기존 코드를 재 구현해야만 하고 이는 코드의 복잡도를 증가시키는 원인이 된다. 최근 GPU 시스템에서는 공유 메모리 뿐 아니라 L1과 L2 캐시 메모리를 지원하도록 하였다. L1 캐시 메모리는 공유 메모리와 동일한 하드웨어에 위치하여 캐시의 사용이 성능향상을 도와줄 것으로 예측된다. 따라서 본 논문에서는 캐시 메모리와 공유 메모리의 성능을 비교하였다. 연구결과 성능 면에서 캐시 메모리를 사용한 알고리즘과 공유메모리를 사용한 알고리즘은 유사하였다. 특히 캐시 메모리를 사용하는 경우 공유메모리 사용 프로그래밍에서 나타나는 코드 복잡도의 증가 문제도 동시에 해결할 수 있었다.

체계수명자료를 이용한 이중부품부하분배체계의 신뢰도 추정 (Estimation of Reliability for a Two-Component Shared Parallel Systems Using System Life Data)

  • 홍연웅;권용만
    • 품질경영학회지
    • /
    • 제25권4호
    • /
    • pp.206-212
    • /
    • 1997
  • This paper considers the problem of estimating parameters and reliability of shared parallel system with two identical components using type II censored system life data. Likelihood functions are derived and maximum likelihood estimates of parameters and reliability are discussed numerically.

  • PDF

Estimation of Freund model under censored data

  • Cho, Kil-Ho
    • Journal of the Korean Data and Information Science Society
    • /
    • 제23권2호
    • /
    • pp.403-409
    • /
    • 2012
  • We consider a life testing experiment in which several two-component shared parallel systems are put on test, and the test is terminated at a predesigned experiment time. In this thesis, the maximum likelihood estimators for parameters of Freund's bivariate exponential distribution under the system level life testing are obtained. Results of comparative studies based on Monte Carlo simulation are presented.

실시간 시뮬레이션을 위한 병렬적분 (Parallel Integration for Real-Time Simulation)

  • 이운성
    • 한국자동차공학회논문집
    • /
    • 제2권1호
    • /
    • pp.106-115
    • /
    • 1994
  • A parallel integration approach is proposed for real-time simulation of controlled mechanical systems. The proposed approach, which employs the dual-rate integration method in a parallel computing environment, is developed to deal with stiffness and high frequency characteristics of the controlled mechanical systems effectively. Numerical experiments are performed to demonstrate the effectiveness of the approach in shared memory multiprocessors, Alliant FX/8 and Alliant FX/80.

  • PDF

빅데이터 분석을 위한 슈퍼컴퓨터 환경에서 R의 병렬처리 (Parallel Computing Environment for R with on Supercomputer Systems)

  • 이상열;원중호
    • 한국경영과학회지
    • /
    • 제39권4호
    • /
    • pp.19-31
    • /
    • 2014
  • We study parallel processing techniques for the R programming language of high performance computing technology. In this study, we used massively parallel computing system which has 25,408 cpu cores. We conducted a performance evaluation of a distributed memory system using MPI and of a the shared memory system using OpenMP. Our findings are summarized as follows. First, For some particular algorithms, parallel processing is about 150 times faster than serial processing in R. Second, the distributed memory system gets faster as the number of nodes increases while shared memory system is limited in the improvement of performance, due to the limit of the number of cpus in a single system.

ParaC 언어의 설계 및 구현 (The Design and Implementation of the ParaC Language)

  • 이경석;우영춘;김진미;지동해
    • 한국정보처리학회논문지
    • /
    • 제4권11호
    • /
    • pp.2903-2913
    • /
    • 1997
  • 본 논문은 공유 및 분산 메모리 구조를 가진 병렬 컴퓨터의 프로그래밍 환경을 지원하기 위하여 ParaC 언어를 설계하고 구현한 내용을 기술한다. ParaC 언어는 확장성 높은 병렬 컴퓨터의 시스템 자원을 사용자가 효과적으로 이용할 수 있도록 설계되었다. 이것은 C 언어에 공유 메모리 환경을 위한 병렬 구문과 동기화 구문, 그리고 분산 메모리 환경을 위한 원격 태스크 구문을 추가함으로써 이루어졌다. 언어의 구현을 위하여 C 언어로의 번역 방법을 기술하였으며, 이 방법을 사용한 번역기와 확장 구문을 위한 실행시간 라이브러리를 구현하였다.

  • PDF

GPU의 공유메모리를 활용한 확장편집거리 병렬계산 (Parallel Computation for Extended Edit Distances Using the Shared Memory on GPU)

  • 김영호;나중채;심정섭
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제4권7호
    • /
    • pp.213-218
    • /
    • 2015
  • 알파벳 ${\Sigma}$로 구성된 길이가 각각 m, n인 두 문자열 X, Y가 주어졌을 때, X, Y의 확장편집거리는 동적프로그래밍을 이용하여 O(mn) 시간과 공간을 계산할 수 있다. 최근 m개의 쓰레드를 이용하여 O(m+n) 시간과 O(mn) 공간을 사용하여 X, Y의 확장편집거리를 계산하는 병렬알고리즘이 제시되었다. 본 논문에서는 GPU의 공유메모리를 활용하여 수행시간을 개선한 병렬알고리즘을 제시한다. 실험 결과, 개선된 병렬알고리즘이 기존의 병렬알고리즘보다 약 19~25배 이상 빠른 수행시간을 보였다.

Parallel FFT and Quick-Merge Sort on the Reflective Memory Networked Computers and a Cluster of Work-stations

  • Lee, Changhun;Kwon, Wook-Hyun
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2002년도 ICCAS
    • /
    • pp.94.1-94
    • /
    • 2002
  • This paper is concerned with parallel FFT and Quick-Merge Sort. They are implemented on computers interconnected by VMIC 5579 reflective memory and a cluster of workstations (PCs) interconnected via Fast Ethernet. Message passing interface (MPI) parallel library is used for communication in a cluster of workstations. An improved parallel FFT is also presented to decrease an execution time in the case of a small number of hosts. Distributed shared memory (DSM), VMIC 5579 reflective memory (RM), a cluster of workstations (COW) and message passing interface (MPI) parallel library are described.

  • PDF

Improved Disparity Map Computation on Stereoscopic Streaming Video with Multi-core Parallel Implementation

  • Kim, Cheong Ghil;Choi, Yong Soo
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제9권2호
    • /
    • pp.728-741
    • /
    • 2015
  • Stereo vision has become an important technical issue in the field of 3D imaging, machine vision, robotics, image analysis, and so on. The depth map extraction from stereo video is a key technology of stereoscopic 3D video requiring stereo correspondence algorithms. This is the matching process of the similarity measure for each disparity value, followed by an aggregation and optimization step. Since it requires a lot of computational power, there are significant speed-performance advantages when exploiting parallel processing available on processors. In this situation, multi-core CPU may allow many parallel programming technologies to be realized in users computing devices. This paper proposes parallel implementations for calculating disparity map using a shared memory programming and exploiting the streaming SIMD extension technology. By doing so, we can take advantage both of the hardware and software features of multi-core processor. For the performance evaluation, we implemented a parallel SAD algorithm with OpenMP and SSE2. Their processing speeds are compared with non parallel version on stereoscopic streaming video. The experimental results show that both technologies have a significant effect on the performance and achieve great improvements on processing speed.