• 제목/요약/키워드: Parallelization method

검색결과 92건 처리시간 0.027초

효율적인 유체 시뮬레이션을 위한 투영 단계에서의 멀티 코어 프로세서와 그래픽 프로세서의 병렬처리 (Parallel Processing of Multi-Core Processor and GPUs in Projection Step for Efficient Fluid Simulation)

  • 김선태;정휘룡;홍정모
    • 한국콘텐츠학회논문지
    • /
    • 제13권6호
    • /
    • pp.48-54
    • /
    • 2013
  • 최근 영화나 CF등에 사용되는 컴퓨터 그래픽스(Computer Graphics, 이하 CG)분야의 유체 시뮬레이션에서는 CPU와 GPU를 혼합하여 사용하는 기술들이 소개되고 있다. 본 논문에서는 유체 시뮬레이션 수행을 위한 투영 단계에서 멀티쓰레드를 이용하여 기존의 CPU와 GPU 간의 작업을 순차적으로 수행하던 방식을 개선하여 CPU와 GPU 간의 작업을 병렬처리 방법을 제시하였다. 제시된 방법을 통해 많은 계산량을 필요로 하는 유체시뮬레이션의 효율성을 높일 수 있었다.

영역분할법에 의한 SIMPLER 기법의 병렬화 (Parallel Implementation of SIMPLER by Using Domain Decomposition Technique)

  • 곽호상
    • 한국전산유체공학회:학술대회논문집
    • /
    • 한국전산유체공학회 1997년도 추계 학술대회논문집
    • /
    • pp.23-28
    • /
    • 1997
  • A parallel implementation is made of a two-dimensional finite volume model based on the SIMPLER. The solution domain is decomposed into several subdomains and the solution at each subdomain is acquired by parallel use of multiple processors. Communications between processors are accomplished by using the standard MPI and the Cray-specific SHMEM. The parallelization method for the overall solution procedure to the Navier-Stokes equations is described in detail, The parallel implementation is validated on the Cray T3E system for a benchmark problem of natural convection in a sidewall-heated cavity. The parallel performance is assessed and the issues encountered in achieving a high-performance parallel model are elaborated.

  • PDF

혼합형 병렬처리 및 파이프라이닝을 활용한 소수 연산 알고리즘 (Performance Enhancement of Parallel Prime Sieving with Hybrid Programming and Pipeline Scheduling)

  • 유승요;김동승
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제4권10호
    • /
    • pp.337-342
    • /
    • 2015
  • 이 논문에서는 소수 추출 방법인 Sieve of Eratosthenes 알고리즘을 병렬화하여 실행 시간과 에너지 소모 면에서 개선된 효과를 얻고자 실험을 진행하였다. 성능 개선을 위해 부하 균등화를 정교하게 조절하도록 파이프라인 작업 방식을 도입하였고, 멀티코어 컴퓨터 클러스터에 하이브리드 병렬 프로그래밍 모델을 활용하여 효과를 높였다. 소규모 컴퓨터 클러스터와 저전력 컴퓨터에서 구현, 실험한 결과 이전 방식보다 연산 속도가 향상되었고, 에너지 사용량도 감소함을 확인하였다.

AN ASSESSMENT OF PARALLEL PRECONDITIONERS FOR THE INTERIOR SPARSE GENERALIZED EIGENVALUE PROBLEMS BY CG-TYPE METHODS ON AN IBM REGATTA MACHINE

  • Ma, Sang-Back;Jang, Ho-Jong
    • Journal of applied mathematics & informatics
    • /
    • 제25권1_2호
    • /
    • pp.435-443
    • /
    • 2007
  • Computing the interior spectrum of large sparse generalized eigenvalue problems $Ax\;=\;{\lambda}Bx$, where A and b are large sparse and SPD(Symmetric Positive Definite), is often required in areas such as structural mechanics and quantum chemistry, to name a few. Recently, CG-type methods have been found useful and hence, very amenable to parallel computation for very large problems. Also, as in the case of linear systems proper choice of preconditioning is known to accelerate the rate of convergence. After the smallest eigenpair is found we use the orthogonal deflation technique to find the next m-1 eigenvalues, which is also suitable for parallelization. This offers advantages over Jacobi-Davidson methods with partial shifts, which requires re-computation of preconditioner matrx with new shifts. We consider as preconditioners Incomplete LU(ILU)(0) in two variants, ever-relaxation(SOR), and Point-symmetric SOR(SSOR). We set m to be 5. We conducted our experiments on matrices from discretizations of partial differential equations by finite difference method. The generated matrices has dimensions up to 4 million and total number of processors are 32. MPI(Message Passing Interface) library was used for interprocessor communications. Our results show that in general the Multi-Color ILU(0) gives the best performance.

근거리 힘 계산의 새로운 고속화 방법 (A New Fast Algorithm for Short Range Force Calculation)

  • 안상환;안철오
    • 유체기계공업학회:학술대회논문집
    • /
    • 유체기계공업학회 2006년 제4회 한국유체공학학술대회 논문집
    • /
    • pp.383-386
    • /
    • 2006
  • In this study, we propose a new fast algorithm for calculating short range forces in molecular dynamics, This algorithm uses a new hierarchical tree data structure which has a high adaptiveness to the particle distribution. It can divide a parent cell into k daughter cells and the tree structure is independent of the coordinate system and particle distribution. We investigated the characteristics and the performance of the tree structure according to k. For parallel computation, we used orthogonal recursive bisection method for domain decomposition to distribute particles to each processor, and the numerical experiments were performed on a 32-node Linux cluster. We compared the performance of the oct-tree and developed new algorithm according to the particle distributions, problem sizes and the number of processors. The comparison was performed sing tree-independent method and the results are independent of computing platform, parallelization, or programming language. It was found that the new algorithm can reduce computing cost for a large problem which has a short search range compared to the computational domain. But there are only small differences in wall-clock time because the proposed algorithm requires much time to construct tree structure than the oct-tree and he performance gain is small compared to the time for single time step calculation.

  • PDF

RNS상에서 시간 및 공간 복잡도 향상을 위한 병렬 모듈러 곱셈 알고리즘 (Parallel Modular Multiplication Algorithm to Improve Time and Space Complexity in Residue Number System)

  • 박희주;김현성
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제30권9호
    • /
    • pp.454-460
    • /
    • 2003
  • 본 논문에서는 RNS 시스템 상에서 시간 및 공간 복잡도 향상을 위한 병렬 모듈러 곱셈 알고리즘을 제안한다. 모듈러 감소를 위해서 새로운 테이블 참조 방식을 사용한다. 테이블 참조시 RNS 시스템이 비 가중치 시스템이므로 대수 비교를 비교하기 위해서 MRS 시스템을 이용한다. 제안한 곱셈 알고리즘은 RNS 컴퓨터 상에서 상대적으로 계간하기 쉬운 MRS 시스템을 사용함으로써 대수 비교를 효율적으로 수행할 수 있다. 기존의 RNS 시스템 상에서 테이블 감소를 이용한 모듈러 곱셈 알고리즘과 비교시 전체 테이블의 크기를 1/2로 줄일 수 있고, 산술 연산도 2ㅣ 개의 프로세서를 사용하여 0(ι) 만에 수행할 수 있다.

A Parallel Implementation of Multiple Non-overlapping Cameras for Robot Pose Estimation

  • Ragab, Mohammad Ehab;Elkabbany, Ghada Farouk
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제8권11호
    • /
    • pp.4103-4117
    • /
    • 2014
  • Image processing and computer vision algorithms are gaining larger concern in a variety of application areas such as robotics and man-machine interaction. Vision allows the development of flexible, intelligent, and less intrusive approaches than most of the other sensor systems. In this work, we determine the location and orientation of a mobile robot which is crucial for performing its tasks. In order to be able to operate in real time there is a need to speed up different vision routines. Therefore, we present and evaluate a method for introducing parallelism into the multiple non-overlapping camera pose estimation algorithm proposed in [1]. In this algorithm the problem has been solved in real time using multiple non-overlapping cameras and the Extended Kalman Filter (EKF). Four cameras arranged in two back-to-back pairs are put on the platform of a moving robot. An important benefit of using multiple cameras for robot pose estimation is the capability of resolving vision uncertainties such as the bas-relief ambiguity. The proposed method is based on algorithmic skeletons for low, medium and high levels of parallelization. The analysis shows that the use of a multiprocessor system enhances the system performance by about 87%. In addition, the proposed design is scalable, which is necaccery in this application where the number of features changes repeatedly.

Numerical simulation on jet breakup in the fuel-coolant interaction using smoothed particle hydrodynamics

  • Choi, Hae Yoon;Chae, Hoon;Kim, Eung Soo
    • Nuclear Engineering and Technology
    • /
    • 제53권10호
    • /
    • pp.3264-3274
    • /
    • 2021
  • In a severe accident of light water reactor (LWR), molten core material (corium) can be released into the wet cavity, and a fuel-coolant interaction (FCI) can occur. The molten jet with high speed is broken and fragmented into small debris, which may cause a steam explosion or a molten core concrete interaction (MCCI). Since the premixing stage where the jet breakup occurs has a large impact on the severe accident progression, the understanding and evaluation of the jet breakup phenomenon are highly important. Therefore, in this study, the jet breakup simulations were performed using the Smoothed Particle Hydrodynamics (SPH) method which is a particle-based Lagrangian numerical method. For the multi-fluid system, the normalized density approach and improved surface tension model (CSF) were applied to the in-house SPH code (single GPU-based SOPHIA code) to improve the calculation accuracy at the interface of fluids. The jet breakup simulations were conducted in two cases: (1) jet breakup without structures, and (2) jet breakup with structures (control rod guide tubes). The penetration depth of the jet and jet breakup length were compared with those of the reference experiments, and these SPH simulation results are qualitatively and quantitatively consistent with the experiments.

하이퍼큐브 시스템에서 데이타 비대칭성을 고려한 향상된 병렬 결합 알고리즘 (An Advanced Parallel Join Algorithm for Managing Data Skew on Hypercube Systems)

  • 원영선;홍만표
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제30권3_4호
    • /
    • pp.117-129
    • /
    • 2003
  • 본 논문에서는 하이퍼큐브 시스템에서 결합 연산을 효율적으로 처리할 수 있는 향상된 병렬 결합 알고리즘을 제안한다. 새로운 알고리즘은 릴레이션 R을 처리함에 있어 하이퍼큐브 구조에 적합한 방송 알고리즘을 사용함으로써 하이퍼큐브 구조에 최적인 병렬 결합 알고리즘을 보이게 된다. 또한 병렬화 성능의 최대 주안점인 부하균등 문제와 데이타 불균형으로 인한 과부하 문제를 완전히 해결하고 결집 효과의 특성을 수용함으로써 전체 성능이 향상된다. 새로운 알고리즘은 해쉬를 기반으로 하는 알고리즘에서 구현하기 어려운 non-equijoin 연산을 쉽게 구현할 수 있다는 장점을 가지며, 비용 모형을 통해 분석한 결과 기존의 병렬 결합 알고리즘들에 비해 보다 나은 성능을 나타냄을 확인한다.

HEVC 디코더를 위한 CU 레벨 병렬화 기법 (CU-Level Parallelization Method for HEVC Decoder)

  • 노경기;최기호;김소원;장의선
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2011년도 추계학술대회
    • /
    • pp.38-41
    • /
    • 2011
  • 최근 HD급 이상의 해상도를 가지는 영상을 위한 차세대 코덱 표준이 연구되고 있다. 이 코덱의 특징은 압축효율을 증가시키기 위해서 시간을 많이 소모시키는 복잡한 툴들을 많이 채택하고 있다는 점이다. 이는 실시간 방송에 대한 부담감으로 작용되기 때문에, 표준을 재정하는 전문가들은 속도 개선을 위한 병렬화 연구 또한 동시에 진행을 하고 있다. 병렬화 방법 중 슬라이스 단위 병렬화와 모듈 내부 병렬화가 대표적으로 논의되고 있지만, 이 두 가지 방법은 각각 시간 지연과 추가 비트 할당이라는 단점이 있기 때문에 이를 극복하기 위한 새로운 병렬화 기법이 요구되고 있다. 본 논문에서는 시간 지연과 추가비트 할당을 극복 가능한 병렬화 기법을 연구하였는데, HEVC 코덱의 구조 분석을 통해 어떻게 병렬화 해야 단점을 극복할 수 있는지 알아보고 단점을 극복한 병렬화 기법이 속도 개선을 할 수 있는지 시간 분석을 통해 알아본다. 본 논문에서는 구조 분석을 통해 알아낸 CU 단위 병렬화 기법을 제안하고 CU 단위 병렬화 기법을 HEVC Test model reference software 2.1 decoder에 적용하여 Full HD 영상에 대해 Lowdelay에서 평균 19.83%의 속도 개선을 얻었으며, Randomaccess에서 평균 22.63%의 속도 개선을 얻었다.

  • PDF