• 제목/요약/키워드: Code Parallelization

검색결과 35건 처리시간 0.021초

마찰저항감소를 위한 난류유동의 DNS/LES 해석기술의 개발 (Development of Numerical Tool for the DNS/LES of Turbulent Flow for Frictional Drag Reduction)

  • 윤현식;구본국;;박종천;전호환
    • 대한조선학회논문집
    • /
    • 제41권1호
    • /
    • pp.47-54
    • /
    • 2004
  • The friction drag reduction of a ship is of prime importance for the design and production of high-valued/high-tech ship. Thus, this study carried out the development of reliable numerical tools to identify the friction drag reduction mechanism for turbulent boundary layer on the ship surface and to deduce the optimum reduction technique by numerical experiment. The developed LES and DNS numerical tools were applied to simulate the turbulent channel flow These results were very well matched with previous results not only qualitatively but also quantitatively. The parallelization using MPI (Message Passing Interface) technique implemented in the developed code to speed up the simulation and to obtain the accurate results from the fine grid system was testified its computational efficiency.

DEX2C: Translation of Dalvik Bytecodes into C Code and its Interface in a Dalvik VM

  • Kim, Minseong;Han, Youngsun;Cho, Myeongjin;Park, Chanhyun;Kim, Seon Wook
    • IEIE Transactions on Smart Processing and Computing
    • /
    • 제4권3호
    • /
    • pp.169-172
    • /
    • 2015
  • Dalvik is a virtual machine (VM) that is designed to run Java-based Android applications. A trace-based just-in-time (JIT) compilation technique is currently employed to improve performance of the Dalvik VM. However, due to runtime compilation overhead, the trace-based JIT compiler provides only a few simple optimizations. Moreover, because each trace contains only a few instructions, the trace-based JIT compiler inherently exploits fewer optimization and parallelization opportunities than a method-based JIT compiler that compiles method-by-method. So we propose a new method-based JIT compiler, named DEX2C, in order to improve performance by finding more opportunities for both optimization and parallelization in Android applications. We employ C code as an intermediate product in order to find more optimization opportunities by using the GNU C Compiler (GCC), and we will detect parallelism by using the Intel C/C++ parallel compiler and the AESOP compiler in our future work. In this paper, we introduce our DEX2C compiler, which dynamically translates Dalvik bytecodes (DEX) into C code with method granularity. We also describe a new method-based JIT interface in the Dalvik VM for the DEX2C compiler. Our experiment results show that our compiler and its interface achieve significant performance improvement by up to 15.2 times and 3.7 times on average, in Element Benchmark, and up to 2.8 times for FFT in Smartbench.

Optimization of a Systolic Array BCH encoder with Tree-Type Structure

  • Lim, Duk-Gyu;Shakya, Sharad;Lee, Je-Hoon
    • International Journal of Contents
    • /
    • 제9권1호
    • /
    • pp.33-37
    • /
    • 2013
  • BCH code is one of the most widely used error correcting code for the detection and correction of random errors in the modern digital communication systems. The conventional BCH encoder that is operated in bit-serial manner cannot adequate with the recent high speed appliances. Therefore, parallel encoding algorithms are always a necessity. In this paper, we introduced a new systolic array type BCH parallel encoder. To study the area and speed, several parallel factors of the systolic array encoder is compared. Furthermore, to prove the efficiency of the proposed algorithm using tree-type structure, the throughput and the area overhead was compared with its counterparts also. The proposed BCH encoder has a great flexibility in parallelization and the speed was increased by 40% than the original one. The results were implemented on synthesis and simulation on FPGA using VHDL.

이기종 병렬 시스템을 위한 자동적 병렬화 컴파일러 후위 (Backend of a Parallelizing Compiler for an Heterogeneous Parallel System)

  • 권대석;김흥환;한상영
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제27권8호
    • /
    • pp.710-718
    • /
    • 2000
  • 고전적 시스템의 성능 향상을 위해 많은 병렬 처리 시스템들이 제안되어 왔다. 그러나 이들 시스템들은 흔히 통신과 동기화 부담을 과소 평가함으로써 기대한 만큼의 성능을 보이지 못하였다. 본 논문에서는 그러한 결과를 초래하는 이유를 설명하고, 병렬화 컴파일러가 만족시켜야 하는 성능상의 요구조건을 제시한다. 병렬화 결정은 성능 저하를 피하기 위해 반드시 통신과 동기화 부담(overhead)에 대한 분석에 기초하여 이루어져야 한다. 본 연구진은 이러한 발상을 자동적 병렬화 컴파일러 SUIF에 적용하여 SUIF의 후위를 MPI 함수를 이용하는 새로운 후위로 교체하고, 여기에 병렬화 결정의 타당성을 부담 정보에 기초하여 평가하는 능력을 부여하였다. 새로운 컴파일러 후위는 병렬화 가능한 부분이 명시된 SUIF 중간 코드를, 성능 저하를 초래하지 않으면서 MPI 함수 호출을 포함하는 분산 메모리 구조 병렬 프로그램으로 변환한다.

  • PDF

다중블록/다중영역분할 기법을 이용한 유동해석 코드 병렬화 (Parallelization of Multi-Block Flow Solver with Multi-Block/Multi-Partitioning Method)

  • 주완돈;이보성;이동호;홍승규
    • 한국항공우주학회지
    • /
    • 제31권7호
    • /
    • pp.9-14
    • /
    • 2003
  • 본 연구에서는 다중블록 격자를 병렬화 하기 위해서 다중블록/다중영역분할 기법을 제안하였다. 이 방법은 각 블록을 사용하고자 하는 프로세서의 개수만큼 나눔으로써 전체 프로세서에 대해서 균일한 로드 밸런싱을 유지할 수 있는 장점이 있다. 영역분할 기법에 따른 병렬화 효율 및 속도 향상률을 비교하기 위해서 다중블록/단일 영역분할 기법과 다중블록/다중 영역분할 기법을 서로 비교 하였으며, 블록간의 격자수가 크게 다른 경우 다중영역 분할 기법이 로드 밸런싱에 있어서 보다 안정적임을 확인 할 수 있었다. 또한 이를 CFDS에 적용함으로써 다중블록 다중영역분할 기법의 효용성을 검증하였다. 3차원 계산의 경우 프로세서 16개를 사용하는 경우 약 12배의 속도 향상률을 보였으며, 다중블록을 병렬화 하는데 있어서 다중블록/다중영역 분할 기법이 효율적인 도구가 될 수 있음을 보였다.

MPI를 이용한 판재성형해석 프로그램의 병렬화 (Parallelization of sheet forming analysis program using MPI)

  • 김의중;서영성
    • 대한기계학회논문집A
    • /
    • 제22권1호
    • /
    • pp.132-141
    • /
    • 1998
  • A parallel version of sheet forming analysis program was developed. This version is compatible with any parallel computers which support MPI that is one of the most recent and popular message passing libraries. For this purpose, SERI-SFA, a vector version which runs on Cray Y-MP C90, a sequential vector computer, was used as a source code. For the sake of the effectiveness of the work, the parallelization was focused on the selected part after checking the rank of CPU consumed from the exemplary calculation on Cray Y-MP C90. The subroutines associated with contact algorithm was selected as targe parts. For this work, MPI was used as a message passing library. For the performance verification, an oil pan and an S-rail forming simulation were carried out. The performance check was carried out by the kernel and total CPU time along with theoretical performance using Amdahl's Law. The results showed some performance improvement within the limit of the selective paralellization.

프로시저 호출을 가진 루프에서 병렬성 추출 (The Parallelism Extraction in Loops with Procedure Calls)

  • 장유숙;박두순
    • 한국멀티미디어학회논문지
    • /
    • 제4권3호
    • /
    • pp.270-279
    • /
    • 2001
  • 프로그램 수행 시간의 대부분이 루프 구조에서 소비되고 있기 때문에 루프 구조를 가진 순차 프로그램에서 병렬성을 추출하는 연구들이 많이 행해지고 있고 그 연구들은 하나의 프로시저 내 루프 구조의 변환에 치중되고 있다. 그러나 대부분의 프로그램들은 프로시저 간 잠재된 병렬성을 가지고 있다. 본 논문에서는 프로시저 호출을 가진 루프에서 병렬성 추출 방식을 제안한다. 프로시저 호출을 포함하는 루프의 병렬화는 대부분 자료종속거리가 uniform 형태의 코드에서만 집중되었다. 본 논문에서는 자료종속거리가 uniform 코드, nonuniform 코드 그리고 복합된(complex) 코드를 가진 프로그램에서 적용 가능한 알고리즘을 제시하였으며, 제안된 알고리즘과 loop extraction, loop embedding 그리고 procedure cloning 변환 방법을 CRAY-T3E로 성능 평가하였다. 성능평가 결과는 제안된 알고리즘이 효율적이라는 것을 보여준다.

  • PDF

병렬 계산을 위한 프로시저 전환 (Interprocedural Transformations for Parallel Computing)

  • 장유숙;박두순
    • 인터넷정보학회논문지
    • /
    • 제2권4호
    • /
    • pp.91-99
    • /
    • 2001
  • 프로그램 수행시간의 대부분이 루프 구조에서 소비되고 있기 때문에 루프 구조를 가진 순차 프로그램에서 병렬성을 추출하는 연구들이 많이 행해지고 있고 그 연구들은 하나의 프로시저 내 루프 구조의 변환에 치중되고 있다. 그러나 대부분의 프로그램들은 프로시저 간 잠재된 병렬성을 가지고 있다. 본 논문에서는 프로시저 호출을 가진 루프에서 병렬성 추출 방식을 제안한다. 프로시저 호출을 포함하는 루프의 병렬화는 대부분 자료종속거리가 uniform 형태의 코드에서만 집중되었다. 본 논문에서는 자료종속거리가 uniform 코드, nonuniform 코드 그리고 복합된(complex) 코드를 가진 프로그램에서 적용 가능한 알고리즘을 제시하였으며, 제안된 알고리즘과 loop extraction, loop embedding 그리고 procedure cloning변환 방법을 CRAY-T3E로 성능 평가하였다. 성능평가 결과는 제안된 알고리즘이 효율적이라는 것을 보여준다.

  • PDF

LARGE SCALE FINITE ELEMENT THERMAL ANALYSIS OF THE BOLTS OF A FRENCH PWR CORE INTERNAL BAFFLE STRUCTURE

  • Rupp, Isabelle;Peniguel, Christophe;Tommy-Martin, Michel
    • Nuclear Engineering and Technology
    • /
    • 제41권9호
    • /
    • pp.1171-1180
    • /
    • 2009
  • The internal core baffle structure of a French Pressurized Water Reactor (PWR) consists of a collection of baffles and formers that are attached to the barrel. The connections are done thanks to a large number of bolts (about 1500). After inspection, some of the bolts have been found cracked. This has been attributed to the Irradiation Assisted Stress Corrosion Cracking (IASCC). The $Electricit\acute{e}$ De France (EDF) has set up a research program to gain better knowledge of the temperature distribution, which may affect the bolts and the whole structure. The temperature distribution in the structure was calculated thanks to the thermal code SYRTHES that used a finite element approach. The heat transfer between the by-pass flow inside the cavities of the core baffle and the structure was accounted for thanks to a strong thermal coupling between the thermal code SYRTHES and the CFD code named Code_Saturne. The results for the CP0 plant design show that both the high temperature and strong temperature gradients could potentially induce mechanical stresses. The CPY design, where each bolt is individually cooled, had led to a reduction of temperatures inside the structures. A new parallel version of SYRTHES, for calculations on very large meshes and based on MPI, has been developed. A demonstration test on the complete structure that has led to about 1.1 billion linear tetraedra has been calculated on 2048 processors of the EDF Blue Gene computer.

MPI 기반의 병렬 성층${\cdot}$회전 난류 시뮬레이션 (Parallel Stratified and Rotating Turbulence Simulation based on MPI)

  • 김병욱;양성봉
    • 한국정보처리학회논문지
    • /
    • 제7권1호
    • /
    • pp.57-64
    • /
    • 2000
  • 본 논문에서는 MPI 기반이 성층${\cdot}$회전 난류 시뮬레이션을 위한 LES코드의 기법에 대해 연구하며 그 결과를 실험한다. 본 논문에서는 병렬화 기법을 위해서 순차 LES코드에 내재되어 있는 Tridiagonal solver의 제거를 통한 병렬화의 성능 향상과 포아선 방정식의 병렬화를 위한 영역 분할 방법을 소개한다. 또한 본 논문에서 연구되어진 병렬 LES 코드를 슈퍼컴퓨터에서 다양한 영역 분할에 대한 실험을 수행하며 그 결과에 대해 나타낸다. 실험 환경은 CRAY-T3E에서 수행하였으며, 다양한 영역 분할에 대해 프로세서의 개수를 변화시키며 수행속도와 그에 따른 속도의 향상을 측정하였다. 그 결과 단일 프로세서에서 순차 LES를 수행하는 것보다 병렬 LES코드에서 최고 16배에 해당되는 속도의 향상의 결과를 얻을 수 있었다.

  • PDF