• Title/Summary/Keyword: 병렬성능

Search Result 1,946, Processing Time 0.029 seconds

Performance Evaluation of A Molecular Dynamics Code on Multi-core Systems (멀티 코어 시스템에서의 분자 동역학 코드 성능 분석)

  • Cha, Kwangho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.05a
    • /
    • pp.111-113
    • /
    • 2013
  • 멀티 코어 시스템의 보급으로 일반 시스템에서도 프로그램의 병렬 실행이 가능해지고 있다. 본 연구에서는 멀티 코어를 사용하는 단일 시스템에서 분자 동역학 코드인 LAMMPS를 대상으로 병렬 수행 성능을 확인하고 분석하여 효과적인 실행 조건을 살펴보았다. LAMMPS의 구조적인 특징과 공간 분할 방식의 사용으로 인하여 단일 시스템에서도 메시지 전달 방식에 의한 병렬 수행이 보다 효율적임을 확인할 수 있었다.

FFT에 기반한 병렬 디지털 신호처리시스템의 성능분석

  • 박준석;전창호;박성주;이동호;오원천;한기택
    • The Journal of the Acoustical Society of Korea
    • /
    • v.18 no.1
    • /
    • pp.3-9
    • /
    • 1999
  • This paper concerns performance of a parallel digital signal processing system. The performance of the system is analyzed in terms of CPU cycles required for 1024-point FFT computation. The number of cycles is estimated in three different approaches; FFT algorithm-based, assembly level source code-based, and probability-based. The results of analysis indicate that on a bus-based system the best performance for FFT is achieved with a single board. Because in some applications like FFT, where frequent data exchanges among processors occur, the number of communication cycles increases as the number of boards. It is observed that inter-board communication degrades overall system performance for the FFT computation. Also shown is that linear increase in performance can be obtained if multiple buses are employed.

  • PDF

Performance Analysis of HEVC Decoder Parallelization based on Slice and Tile for Ultra-High Definition Video (초고해상도 비디오를 위한 분할 영상 기반 HEVC 복호화기 병렬화)

  • Son, SoHee;Baek, A-Ram;Choi, Haechul
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2016.06a
    • /
    • pp.359-360
    • /
    • 2016
  • 본 논문에서는 초고화질의 비디오 실시간 복호화를 위해 HEVC(High Efficiency Video Coding)에서 지원하는 병렬화 기술인 Slice와 Tile 기술을 이용하여 초고해상도 영상에 대한 복호화기 병렬화 성능을 비교한다. Slice와 Tile은 분할 데이터간 의존성이 존재하지 않으므로 분할된 데이터를 다중 스레드에 할당하여 데이터-레벨 병렬화를 수행하였다. 실험 결과에서는 병렬화된 복호화기 성능이 기존 순차 복호화기에 비해 최대 2.08배 고속화 되었고, 분할 데이터 수가 증가하여도 화질 손실이 거의 없는 결과를 보인다.

  • PDF

A Parallel Processing of Finding Neighbor Agents in Flocking Behaviors Using GPU (GPU를 이용한 무리 짓기에서 이웃 에이전트 찾기의 병렬 처리)

  • Lee, Jae-Moon
    • Journal of Korea Game Society
    • /
    • v.10 no.5
    • /
    • pp.95-102
    • /
    • 2010
  • This paper proposes a parallel algorithm of the flocking behaviors using GPU. To do this, we used CUDA as the parallel processing architecture of GPU and then analyzed its characteristics and constraints. Based on them, the paper improved the performance by parallelizing to find the neighbors for an agent which requires the largest cost in the flocking behaviors. We implemented the proposed algorithm on GTX 285 GPU and compared experimentally its performance with the original spatial partitioning method. The results of the comparison showed that the proposed algorithm outperformed the original method up to 9 times with respect to the execution time.

Parallelized PI($\pi$) Calculation Algorithm using MPI (MPI를 활용한 PI($\pi$)값 계산 병렬화 알고리즘)

  • Choi, Min;Maeng, Seung-Ryoul
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04a
    • /
    • pp.91-93
    • /
    • 2004
  • 정확한 $\pi$값의 계산은 자연과학의 여러 분야에 도움을 준다 이와 같이 $\pi$값을 계산하는 여러 가지 방법이 제안되어 있으며 널리 사용되고 있으나, 본 논문에서는 MPI 라이브러리를 활용한 $\pi$값 계산의 병렬화 알고리즘을 소개한다. tan$^{-1}$($\chi$)의 정의를 이용하는 $\pi$값 계산 방법은 다항식의 계산과정에서 각 항(term)들의 종속성으로 인하여 병렬화 수행이 힘든 단점이 있다. 본 논문에서는 tan$^{-1}$($\chi$)를 맥클로린 수열(Maclaurin Series)을 통하여 다항함수로 표현하고, 병렬화 수행에 적합한 적분형태로 변형한다. 따라서. MPI 환경에서 수행하기 적합한 $\pi$값 계산의 병렬화 알고리즘을 제안하고 8노드 클러스터 환경에서 성능을 비교해본다. 또한, 직렬화된 방법에 대한 성능향상(speedup)을 측정한다.

  • PDF

Development of Parallel Distributed VHDL Simulator on SGI Origin 2000/Cray T3e/IBM SP2 Systems (SGI Origin 2000/Cray T3e /IBM SP2 시스템에서 병렬 분산 VHDL 시뮬레이터의 개발)

  • Jeong, Yeong-Sik
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.5 no.2
    • /
    • pp.196-208
    • /
    • 1999
  • 본 논문에서는 시뮬레이션 속도 향상을 위하여 VHDL(Very high speed integrated circuit Hardware Description Language)로 기술된 디지털 회로 시뮬레이션을 위한 병렬 분산 VHDL 시뮬레이터(Parallel Distributed VHDL Simulator : PDVS)를 개발한다. 개발된 프로그램을 대규모 병렬 프로그래밍 환경에서도 수행될 수 있도록 하기 위해서 표준 통신 라이브러리인 MPI(Message Passing Interface)를 이용하여 구현된다. PDVS 의 전체적인 시스템구성도, PDVS 에 사용된 시뮬레이션 프로토콜, 전역가상시간 계산 메카니즘 및 논리적 프로세스의 내부 구성요소들간의 관계와 PDVS의 제어 흐름도를 제시한다. 그리고 본 연구에서는 병렬 분산 시뮬레이션의 병렬성 정도를 분석하기 위하여 디지털 회로의 크기 변화와 처리되는 사건수(grain size)의 변화에 따른 성능 결과를 제시한다. 이 연구에서 4배크기의 디지털 회로를 적용한 경우는 프로세서를 12개 사용할 때에 8배의 속도향상을 얻었다. 그리고 처리되는 사건의 수가 200인 경우는 프로세서를 32개 사용할 때에 12배의 속도향상을 얻었다. 또한 동일한 방법을 SGI Origin 2000, Cray T3e 및 IBM SP2에 적용함으로서 그 성능의 간접적인 비교결과도 제시한다.

Quality, not Quantity? : Effect of parallel corpus quantity and quality on Neural Machine Translation (양보다 질? : 병렬 말뭉치의 양과 질이 인공신경망 기계번역에 미치는 효과)

  • Park, Chanjun;Lee, Yeonsu;Lee, Chanhee;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.363-368
    • /
    • 2020
  • 글로벌 시대를 맞이하여 언어의 장벽을 해소하기 위하여 기계번역 연구들이 전 세계적으로 이루어지고 있다. 딥러닝의 등장으로 기존 규칙 및 통계기반 방법론에 비하여 눈에 띄는 성능향상을 이루어내고 있으며 많은 연구들이 이루어지고 있다. 인공신경망 기반 기계번역 모델을 만들 때 가장 중요한 요소는 병렬 말뭉치의 양과 질이다. 본 논문은 한-영 대용량의 말뭉치를 수집하고 병렬 말뭉치 필터링 기법을 적용하여 데이터의 양과 질을 충족시켰으며 한-영 기계번역 관련 객관적인 테스트셋인 Iwslt 16, Iwslt 17을 기준으로 기존 한-영 기계번역 관련 연구 중 가장 좋은 성능을 보였다.

  • PDF

A study on the m-Parallel Nonlinear Combine functions for the Parallel Stream Cipher (병렬 스트림암호를 위한 m-병렬 비선형 결합함수에 관한 연구)

  • 이훈재;문상재
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.27 no.4A
    • /
    • pp.301-309
    • /
    • 2002
  • In this paper, we propose the effective implementation of various nonlinear combiners using by PS-LFSR: m-parallel memoryless-nonlinear combiner, m-parallel memory-nonlinear combiner, m-parallel nonlinear filter function, and m-parallel clock-controlled function. Finally, we propose m-parallel LILI-128 stream cipher as an example of the parallel implementation, and we determine its cryptographic security and performance.

Analysis of GPU Performance and Memory Efficiency according to Task Processing Units (작업 처리 단위 변화에 따른 GPU 성능과 메모리 접근 시간의 관계 분석)

  • Son, Dong Oh;Sim, Gyu Yeon;Kim, Cheol Hong
    • Smart Media Journal
    • /
    • v.4 no.4
    • /
    • pp.56-63
    • /
    • 2015
  • Modern GPU can execute mass parallel computation by exploiting many GPU core. GPGPU architecture, which is one of approaches exploiting outstanding computational resources on GPU, executes general-purpose applications as well as graphics applications, effectively. In this paper, we investigate the impact of memory-efficiency and performance according to number of CTAs(Cooperative Thread Array) on a SM(Streaming Multiprocessors), since the analysis of relation between number of CTA on a SM and them provides inspiration for researchers who study the GPU to improve the performance. Our simulation results show that almost benchmarks increasing the number of CTAs on a SM improve the performance. On the other hand, some benchmarks cannot provide performance improvement. This is because the number of CTAs generated from same kernel is a little or the number of CTAs executed simultaneously is not enough. To precisely classify the analysis of performance according to number of CTA on a SM, we also analyze the relations between performance and memory stall, dram stall due to the interconnect congestion, pipeline stall at the memory stage. We expect that our analysis results help the study to improve the parallelism and memory-efficiency on GPGPU architecture.

Implementation of Parallel Local Alignment Method for DNA Sequence using Apache Spark (Apache Spark을 이용한 병렬 DNA 시퀀스 지역 정렬 기법 구현)

  • Kim, Bosung;Kim, Jinsu;Choi, Dojin;Kim, Sangsoo;Song, Seokil
    • The Journal of the Korea Contents Association
    • /
    • v.16 no.10
    • /
    • pp.608-616
    • /
    • 2016
  • The Smith-Watrman (SW) algorithm is a local alignment algorithm which is one of important operations in DNA sequence analysis. The SW algorithm finds the optimal local alignment with respect to the scoring system being used, but it has a problem to demand long execution time. To solve the problem of SW, some methods to perform SW in distributed and parallel manner have been proposed. The ADAM which is a distributed and parallel processing framework for DNA sequence has parallel SW. However, the parallel SW of the ADAM does not consider that the SW is a dynamic programming method, so the parallel SW of the ADAM has the limit of its performance. In this paper, we propose a method to enhance the parallel SW of ADAM. The proposed parallel SW (PSW) is performed in two phases. In the first phase, the PSW splits a DNA sequence into the number of partitions and assigns them to multiple nodes. Then, the original Smith-Waterman algorithm is performed in parallel at each node. In the second phase, the PSW estimates the portion of data sequence that should be recalculated, and the recalculation is performed on the portions in parallel at each node. In the experiment, we compare the proposed PSW to the parallel SW of the ADAM to show the superiority of the PSW.