• Title/Summary/Keyword: 병렬 수행

Search Result 1,546, Processing Time 0.03 seconds

Improved Parallel Loop Scheduling Algorithm on Shared Memory Systems (공유메모리 시스템에서 개선된 병렬 루프 스케쥴링 알고리즘)

  • 이영규;박두순
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2000.04a
    • /
    • pp.453-457
    • /
    • 2000
  • 병렬 시스템 환경에서 최적의 스케쥴링을 수행하기 위해서는 병렬성을 가진 iteration 들에 대해 최소의 동기화 오버헤드와 load balance 가 달성하도록 스케쥴링을 수행해야한다. 다중 프로세서들은 실행을 위하여 메모리로부터 iteration 들에 대한 chunk를 계산한 후 할당받게 된다. 이때, 각 프로세서들의 상호 배타적인 메모리 접근으로 많은 오버헤드 및 병목현상이 발생된다. 또한, 프로세서에게 할당된 chunk 내 iteration 들의 실행시간 분포가 서로 상이한 경우에는 load imbalance 의 원인이 되어 결과적으로 전체 스케쥴링에 나쁜 영향을 준다. 따라서, 최적의 스케쥴링을 수행하기 위해서 본 논문에서는 기존의 스케쥴링 방법들에서 문제점들을 도출하고 자료의 국부성과 프로세서 동족성을 고려한 개선된 병렬 루프 알고리즘을 제안하고, 성능평가를 통해 개선된 알고리즘이라는 것을 보였다.

  • PDF

Implementations of the DPLL Algorithm in the Fortress Language (Fortress 언어를 이용한 DPLL 알고리듬의 구현)

  • Hwang, Joon-Hyung;Lee, Chul-Woo;Ryu, Suk-Young;Han, Tai-Sook
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06c
    • /
    • pp.458-461
    • /
    • 2011
  • Fortress 언어는 고성능 컴퓨팅을 대상으로 개발되었으며, 성능과 확장성이 뛰어난 프로그램을 편리하게 작성할 수 있게 하는 특징이 많이 있다. Fortress 언어는 암시적 병렬성을 제공하는데, 이는 프로그램의 대표적인 언어 구조와 자료 구조가 기본적으로 병렬 수행되도록 설계되었음을 의미한다. Fortress 구현은 병렬 수행을 지원하기 위해 스케줄링과 병행성 제어 기법을 제공한다. 우리는 SAT 문제 해결에 널리 쓰이는 알고리듬인 DPLL 알고리듬을 Fortress 언어로 구현하였고, 여러 상황에서 성능을 측정하였다. 실험결과 Fortress 언어를 이용하면 병렬 수행을 쉽게 구현할 수 있음을 확인할 수 있었으며, 문제 유형, 구현기법, 성능 사이의 관계를 찾을 수 있었다.

The Cluster Characterization on the Domain Decomposition Algorithms (클러스터 구조 특성에 따른 영역분할 알고리즘)

  • Park, Tae-Hyo;Tak, Moon-Ho;Lee, Kyung-Jae
    • Proceedings of the Computational Structural Engineering Institute Conference
    • /
    • 2011.04a
    • /
    • pp.635-638
    • /
    • 2011
  • 유한요소법은 편미분방정식(Partial Differential Equation)의 수치적 근사 해를 구하기 위한 가장 일반적이고 효율적인 방법으로 다양한 공학 분야에서 널리 사용되어지고 있다. 유한요소법의 해석은 연속적인 범위를 가지는 문제를 여러 개의 요소로 나누어 다항식의 형상함수를 만들게 되며 결과적으로 근사 해를 구하게 된다. 이때 해석의 정확성을 높이기 위하여 형상함수의 차수를 높이고 요소의 개수를 늘리게 되면, 이에 따른 수치 계산량의 급격한 증가로 인해 수치해석의 효율성은 떨어지게 된다. 이를 보완하기 위해 유한요소법에 영역분할기법을 적용하여 병렬해석을 수행하면 해의 정확성과 효율성을 동시에 높인다. 병렬해석을 수행하는데 있어서 클러스터의 구조적 특성은 해석의 효율성에 영향을 미치게 된다. 따라서 본 논문에서는 일반적인 모델에 대하여 병렬해석의 수행을 통하여 클러스터의 구조적 특성이 병렬해석의 효율성에 미치는 영향에 대해 확인한다.

  • PDF

Flat Indexing: A Compilation Technique to Enhance the Parallelism of Logic Programs (논리 프로그램의 병렬도 개선을 위한 플랫 인덱싱 기법)

  • Kim, Hie-Cheol;Lee, Yong-Doo
    • The Transactions of the Korea Information Processing Society
    • /
    • v.5 no.7
    • /
    • pp.1908-1922
    • /
    • 1998
  • 본 논문은 논리언어 프로그램의 효율적인 클로즈(Clause) 인덱싱을 위한 컴파일 기법에 대한 체계적인 접근방법을 제시한다. 본 접근방법의 핵심으로서 노드당 평균 병렬도와 클로즈 수행시도(clause trial) 횟수를 정확하게 나타낼 수 있는 기법으로서 인덱싱트리(Indexign Tree)를 제안한다. 인덱싱트리는 인덱싱 수행 시에 인덱싱을 위한 지시어(Instruction)의 수행 결과로 프로그램으 컨트롤이 실패처리코드로 이동하는 경우도 정량적으로 나타내 준다. 인덱싱트리를 사용하여 논리 프로그램을 위한 대표적인 가상머신인 WAM(Warren Abstract Machine)을 분석한 결과, WAM에서 사용하는 인덱싱 기법이 논리 프로그램의 병렬 처리에 있어 탐색트리의 병렬도를 감소시키며, 또한 스케쥴링의 효율성을 저하시키는 결점을 내포하고 있음을 발견할 수 있었다. 이러한 결점을 해결하기 위하여 본 논문은 플랫 인덱싱이라는 새로운 인덱싱 기법을 제안하고 이것을 실제 논리언어 컴파일러에 구현하여 측정한 향상 및 분석 결과를 보여준다.

  • PDF

On-the -fly Detection of the First Races for Shared-Memory Parallel Programs with Ordered Synchronization (순서적 동기화를 포함하는 공유 메모리 병렬프로그램에서의 수행중 최초경합 탐지 기법)

  • Park, Hui-Dong;Jeon, Yong-Gi
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.26 no.8
    • /
    • pp.884-894
    • /
    • 1999
  • 순서적 동기화 및 내포 병렬성을 포함하는 공유메모리 병렬 프로그램에서의 경합(race)은 프로그램 수행에서 원하지 않은 비결정성(nondeterminism)을 야기할 수 있기 때문에 반드시 탐지되어져야 한다. 특히 프로그램 수행에서 최초경합(first race)을 탐지하는 것은 중요한데, 그 이유는 이 경합을 제거하면 다른 경합이 나타나지 않을 수도 있기 때문이다. 본 논문에서는 결정적 공유메모리 병렬프로그램을 위한 2단계 수행중 (two-pass on-the-fly) 최초경합 탐지 기법을 제시하며, 이것은 공유메모리 병렬 프로그램의 특정 수행에서 "최초로 발생되는" 경합들을 탐지하는 기법이다. 그리고 HPF 컴파일러를 이용하여 본 탐지 프로토콜을 공인된 벤치마크 프로그램에 적용하여, 병렬 프로그램 디버깅 시 고려하여야 할 파라미터들에 대한 실험으로부터 본 기법의 효율성을 보였다.Abstract Detecting races is important in debugging shared-memory parallel programs which have ordered synchronization and nested parallelism, because the races result in unintended non- deterministic executions of the programs. The first races are important in debugging, because the removal of such races may make other races disappear. It is even possible that all races reported would disappear once the first races are removed. This paper presents a new two-pass on-the-fly algorithm to detect the first races in such parallel programs. The algorithm reported in this paper is an on-the-fly algorithm that detects the races that "occur first" in a particular execution of shared-memory parallel programs. The experiment has accomplished, where two certified benchmark programs which can be executed under High Performance Fortran environments to get some parameters which improve debugging performance with our algorithm. with our algorithm.

Design of Parallel Inverse Quantization and Inverse Transform Architecture for High Performance H.264/AVC Decoder (고성능 H.264/AVC 복호기를 위한 병렬 역양자화 및 역변환 구조 설계)

  • Jung, Hong-Kyun;Ryoo, Kwang-Ki
    • Proceedings of the KAIS Fall Conference
    • /
    • 2011.12b
    • /
    • pp.434-437
    • /
    • 2011
  • 본 논문에서는 H.264/AVC 복호기의 성능을 향상시키기 위해 병렬 역양자화 구조와 역변환 구조를 제안한다. 제안하는 역양자화 구조는 공통 연산기를 사용하여 계산 복잡도를 감소시키고, 4개의 공통연산기를 사용하여 역양자화 수행 사이클 수를 1 사이클로 감소시킨다. 제안하는 역변환 구조는 4개의 변환 연산기를 사용하여 역변환 연산을 수행하는데 2 사이클이 소요된다. 또한 제안하는 구조는 역양자화 연산과 수평 역변환 연산을 동시에 수행하는 병렬 구조를 채택하여 역양자화 및 역변환 수행 사이클 수를 2 사이클로 감소시킨다. 제안하는 구조를 Magnachip 0.18um CMOS 공정 라이브러리를 이용하여 합성한 결과 1.5MHz의 동작 주파수에서 게이트 수는 14,173이고, 표준 참조 소프트웨어 JM 9.4에서 추출한 데이터를 이용하여 성능을 측정한 결과 제안하는 구조의 수행 사이클 수가 기존 구조 대비 38.74% 향상되었다.

  • PDF

The Parallel Operation of Single Phase PWM Rectifier using IGCT (IGCT를 이용한 단상 PWM정류기 병렬운전)

  • 이현원;장성영;김연준;이광주
    • The Transactions of the Korean Institute of Power Electronics
    • /
    • v.5 no.1
    • /
    • pp.11-18
    • /
    • 2000
  • 대용량 반도체 소자인 IGCT를 사용하여 철도차량용 AC-to-DC 단상 PWM 컨버터를 제작 실험하였다. 컨버터의 용량을 향상시키기 위해 2대의 PWM 컨버터를 병렬 운전하였으며 병렬운전시 각각의 컨버터 스위칭각을 다르게 제어하여 각 컨버터의 전류 리플을 상쇄시켜 전원의 고조파 함유를 줄였다. 출력전압제어는 입력전류의 측정 없이 내부 계산에 의해 수행하였으며 단위역률을 제어하기 위해 소프트웨어적으로 간단히 PLL을 수행하였다.

Performance Evaluation of A Molecular Dynamics Code on Multi-core Systems (멀티 코어 시스템에서의 분자 동역학 코드 성능 분석)

  • Cha, Kwangho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.05a
    • /
    • pp.111-113
    • /
    • 2013
  • 멀티 코어 시스템의 보급으로 일반 시스템에서도 프로그램의 병렬 실행이 가능해지고 있다. 본 연구에서는 멀티 코어를 사용하는 단일 시스템에서 분자 동역학 코드인 LAMMPS를 대상으로 병렬 수행 성능을 확인하고 분석하여 효과적인 실행 조건을 살펴보았다. LAMMPS의 구조적인 특징과 공간 분할 방식의 사용으로 인하여 단일 시스템에서도 메시지 전달 방식에 의한 병렬 수행이 보다 효율적임을 확인할 수 있었다.

Performance Analysis of a Parallel CBF Scheme using Horizontally-Partitioned Method (수평 분할 방법을 이용한 병렬 CBF 기법의 성능평가)

  • 박승봉;장재우
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.184-186
    • /
    • 2002
  • 기존의 색인 기법들은 차원의 수가 증가할수록 검색 성능이 급격히 저하되는 문제를 지니고 있다. 이문제를 극복하기 위하여 CBF 기법이 제안되었다. 그러나 CBF 기법은 데이터 양이 증가함에 따라 검색 성능이 선형적으로 감소하는 문제가 존재한다. 이를 해결하기 위해 다수의 디스크를 수평 분할 방법을 이용하여 디클러스터링(declustering)을 하는 병렬 CBF 기법이 제안되었다. 본 논문에서는 수평 분할 방법을 이용한 병렬 CBF (Parallel CBF) 기법을 삽입시간, 범위 질의 검색시간, k-최근접 질의 검색시간, 데이터의 편중도 측면에서 성능 평가를 수행한다. 아울러, 병렬 CBF 기법을 기존 CBF 기법과 성능 비교를 수행하며, 이를 통해 병렬 CBF 기법이 기존 CBF 기법보다 우수한 검색 성능을 나타냄을 보인다.

  • PDF

A Synchronization Method for Parallelizing Nested Do Loop with one dimensional variable (1차원 배열의 다중첨자를 갖는 루프의 병렬화를 위한 동기화 기법)

  • 박현호;윤성대
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2001.06a
    • /
    • pp.16-19
    • /
    • 2001
  • 일반적인 응용 프로그램에서 루프는 대부분의 수행시간을 차지하기 때문에 병렬성 추출의 핵심 부분이라 할 수 있다. 병렬성이 많은 구조는 루프 구조이며, 루프를 병렬로 처리하기 위해 각 반복간에 존재하는 데이터의 종속은 프로세서간의 동기화가 필요하다. 본 논문에서는 다중첨자를 갖는 1차원 배열의 루프의 병렬화를 위해 다수 개의 동일한 종속값을 이용하여 종속함수를 생성하고 이를 이용하여 종속관계가 성립하지 않는 비종속 구간(Non-dependence part)을 구한다. 그리고 동일한 값을 가지는 복수개의 종속값 간의 동기화는 외부루프 분할 기법을 이용하여 적은 횟수의 청자가 외부에 위치하도록 하여 간소화한 후 단일 첨자를 갖는 루프에 동기화를 수행하는 기법을 제시한다.

  • PDF