• 제목/요약/키워드: parallel workload

검색결과 49건 처리시간 0.029초

병렬 프로그램 로그 군집화 기반 작업 실행 시간 예측모형 연구 (Runtime Prediction Based on Workload-Aware Clustering)

  • 김은혜;박주원
    • 산업경영시스템학회지
    • /
    • 제38권3호
    • /
    • pp.56-63
    • /
    • 2015
  • Several fields of science have demanded large-scale workflow support, which requires thousands of CPU cores or more. In order to support such large-scale scientific workflows, high capacity parallel systems such as supercomputers are widely used. In order to increase the utilization of these systems, most schedulers use backfilling policy: Small jobs are moved ahead to fill in holes in the schedule when large jobs do not delay. Since an estimate of the runtime is necessary for backfilling, most parallel systems use user's estimated runtime. However, it is found to be extremely inaccurate because users overestimate their jobs. Therefore, in this paper, we propose a novel system for the runtime prediction based on workload-aware clustering with the goal of improving prediction performance. The proposed method for runtime prediction of parallel applications consists of three main phases. First, a feature selection based on factor analysis is performed to identify important input features. Then, it performs a clustering analysis of history data based on self-organizing map which is followed by hierarchical clustering for finding the clustering boundaries from the weight vectors. Finally, prediction models are constructed using support vector regression with the clustered workload data. Multiple prediction models for each clustered data pattern can reduce the error rate compared with a single model for the whole data pattern. In the experiments, we use workload logs on parallel systems (i.e., iPSC, LANL-CM5, SDSC-Par95, SDSC-Par96, and CTC-SP2) to evaluate the effectiveness of our approach. Comparing with other techniques, experimental results show that the proposed method improves the accuracy up to 69.08%.

GPU 작업 배치의 효율화를 위한 자원 이용률 상세 분석 (Analyzing Fine-Grained Resource Utilization for Efficient GPU Workload Allocation)

  • 박윤주;신동희;조경운;반효경
    • 한국인터넷방송통신학회논문지
    • /
    • 제19권1호
    • /
    • pp.111-116
    • /
    • 2019
  • 최근 GPU가 그래픽 처리뿐 아니라 다양한 분야의 병렬 처리로 그 영역을 넓혀가고 있다. 그러나, 현재 GPU는 워크로드의 다양성을 반영하기보다 간결한 제어 구조를 통한 개별 워크로드의 병렬성 극대화에 초점을 맞추고 있다. 본 논문은 워크로드 특성을 반영한 GPU 작업 배치를 위해 GPU에서 수행되는 워크로드의 자원 사용 특성을 컴퓨팅 바운드형, 메모리 바운드형, 실행종속 지연형으로 분류한 후, 각 분류에서 병목점이 되는 세부 자원을 규명한다. 예를 들어 컴퓨팅 바운드형의 경우 단정밀도 연산장치, 배정밀도 연산장치, 특수함수 연산장치 등 병목 자원이 무엇인지 분석한다. 본 논문의 분석 결과는 동일한 컴퓨팅 바운드형 워크로드라도 병목이 되는 세부 자원이 다를 경우 함께 배치하는 것이 성능 충돌을 일으키지 않는다는 점을 규명하여 GPU 작업배치의 효율화에 기여할 것으로 기대된다.

병렬계산을 위한 부하분산 알고리즘의 병렬화 (Parallelization of A Load balancing Algorithm for Parallel Computations)

  • In-Jae Hwang
    • 융합신호처리학회논문지
    • /
    • 제5권3호
    • /
    • pp.236-242
    • /
    • 2004
  • 본 논문에서는 병렬프로그램을 효율적으로 수행하는데 필수적인 부하분산을 위한 기존 알고리즘의 부하분산 오버헤드를 최소화하기 위하여 이 알고리즘의 병렬화 방법을 제시한다. 병렬계산 모델로는 동적으로 변하는 트리구조를 들었으며 이러한 계산은 많은 응용분야에서 찾아볼 수 있다. 부하분산 알고리즘은 통신비용을 정해진 한도 이내로 유지하면서 프로세서간 계산부하를 최대한 균등하게 분산시키고자 시도한다. 이 알고리즘이 메쉬와 하이퍼큐브 구조에서 어떻게 병렬화 될 수 있는가를 상세히 보이고 각각의 경우에 대하여 시간상 복잡도를 분석하여 기존의 알고리즘보다 여러가지 오버헤드가 개선되었음을 증명한다.

  • PDF

작업영역의 동적 할당을 통한 고화질 애니메이션의 병렬 렌더링 (Parallel Rendering of High Quality Animation based on a Dynamic Workload Allocation Scheme)

  • 이윤석
    • 한국컴퓨터정보학회논문지
    • /
    • 제13권1호
    • /
    • pp.109-116
    • /
    • 2008
  • 고화질 입체 영상의 효과적인 재생을 위해 PC클러스터를 활용한 여러 형태의 병렬화 기법이 제안되었지만, 영상을 구성하는 객체의 분포가 균일하지 않은 경우 충분한 성능을 발휘하지 못하였다. 본 연구에서는 POV-Ray 렌더러를 채택한 PC클러스터 기반의 병렬 렌더링 시스템을 구축하고, 병렬화 성능을 높이기 위한 효과적인 부하 균형 기법을 개발하였다. 특히 애니메이션을 구성하는 연속 프레임 작업에서 프레임간의 연관성(coherence)이 높다는 사실에 근거하여, 임의 프레임의 각 분할 영역에 소요된 계산량을 바탕으로 다음 프레임의 부하 분포를 예측하고 이에 맞게 각 프로세서의 작업 영역을 재조정하는 기법을 제안하였다. 제안 기법의 성능을 평가하기 위해, 충분하지는 않지만 2개의 실제 애니메이션 데이터에 대한 적용 결과, 정적 분할에 비해 약 40% 가량의 성능 향상을 보였다. 또한 다양한 부하 분포에 대한 각 기법의 성능을 추정하기 위해 수행한 모의실험에서, 정적 분할 기법에 대해 부하균형, 확장성 측면에서 우월한 것으로 예측되었다.

  • PDF

다중 DSP 프로세서 기반의 병렬 수중정합장처리 알고리즘 설계 (Design of Parallel Algorithms for Conventional Matched-Field Processing over Array of DSP Processors)

  • 김건욱
    • 대한전자공학회논문지SP
    • /
    • 제44권4호통권316호
    • /
    • pp.101-108
    • /
    • 2007
  • 고성능 네트워크와 분산처리구조가 병렬처리와 함께 결합되면, 전체적인 디지털 신호처리 시스템의 계산능력, 신뢰도, 다양성을 향상시킨다. 본 논문에서는, 발전된 형태의 수중레이더 (sonar) 알고리즘인 수중정합장처리 (Matched-Field Processing MFP)를 위한 병렬처리 알고리즘을 디자인하고 다중 DSP 프로세서 기반의 병렬처리 시스템 상에서 성능분석과 함께 최적의 병렬처리 솔루션을 제안한다. 각각의 병렬 알고리즘은 특정한 도메인에서 주어진 계산량을 분산시키며 이를 통한 속도향상을 추구한다. 필요한 연산량과 형태에 따라서 병렬 알고리즘은 각기 다른 성능향상을 보여준다. 또한, 알고리즘의 계산량 분산방식 프로세서간의 통신방식, 알고리즘의 복잡도, 프로세서의 속도, 목적하는 시스템의 구성에 따라서 다양한 성능지표를 보여준다. 제안하는 주파수와 출력값 기반의 병렬 알고리즘은 상당한 계산량을 요구하는 수중정합처리 알고리즘을 적절히 다중 프로세서에 균형 있게 분산시켜 프로세서의 개수와 비례하는 성능향상을 보여주고 있다.

고성능 병렬화일 시스템을 위한 디스크 할당 방법 (A Disk Allocation Scheme for High-Performance Parallel File System)

  • 박기현
    • 한국정보처리학회논문지
    • /
    • 제7권9호
    • /
    • pp.2827-2835
    • /
    • 2000
  • 최근, 멀티미디어 정보처리와 같은 대규모 데이터 처리에 필수적인 입출력 시스템의 성능을 높이기 위하여 많은 관심이 집중되고 있으며, 고성능 병렬화일 시스템에 관한 연구도 이런 노력에 속한다. 본 연구에서는 고성능 병렬화일 시스템을 위한 효율적인 디스크 할당 방법을 제안한다. 즉, 병렬화일의 자료 분산(data declustering)특성을 이용하여 병렬화일에 대한 병렬도 개념을 정의하고, 이를 기반으로 여러 병렬화일들이 동시에 처리되는 경우에, 최대의 작업처리량(throughput)을 얻기 위한 각 병렬화일에 적합한 디스크상의 자료 분산 정도를 계산하는 방법을 제안한다. 또한 동시에 처리되는 병렬화일들이 많이 늘어날수록, 최대의 작업처리량을 얻기 위한 계산이 너무 복잡해지므로, 효율적인 근사 디스크 할당 알고리즘도 아울러 제안한다. 제안된 근사 알고리즘은 계산이 간단하고, 특히 입출력 작업부하(workload)가 높은 환경에서는 매우 효율적임을 보여준다. 또한 입출력 요구들의 도착 비율이 무한대일 경우, 근사 알고리즘만을 이용하여도 최대 작업처리량을 위한 최적 디스크 할당을 얻을 수 있음을 증명하였다.

  • PDF

AN ASYNCHRONOUS PARALLEL SOLVER FOR SOME MATRIX PROBLEMS

  • Park, Pil-Seong
    • Journal of applied mathematics & informatics
    • /
    • 제7권3호
    • /
    • pp.1045-1058
    • /
    • 2000
  • In usual synchronous parallel computing, workload balance is a crucial factor to reduce idle times of some processors that have finished their jobs earlier than others. However, it is difficult to achieve on a heterogeneous workstation clusters where the available computing power of each processor is unpredictable. As a way to overcome such a problem, the idea of asynchronous methods has grown out and is being increasingly used and studied, but there is none for eigenvalue problems yet. In this paper, we suggest a new asynchronous method to solve some singular matrix problems, that can also be used for finding a certain eigenvector of some matrices.

Evaluation of Cluster-Based System for the OLTP Application

  • Hahn, Woo-Jong;Yoon, Suk-Han;Lee, Kang-Woo;Dubois, Michel
    • ETRI Journal
    • /
    • 제20권4호
    • /
    • pp.301-326
    • /
    • 1998
  • In this paper, we have modeled and evaluated a new parallel processing system called Scalable Parallel computer Architecture based on Xbar (SPAX) for commercial applications. SMP systems are widely used as servers for commercial applications; however, they have very limited scalability. SPAX cost-effectively overcomes the SMP limitation by providing both scalability and application portability. To investigate whether the new architecture satisfies the requirements of commercial applications, we have built a system model and a workload model. The results of the simulation study show that the I/O subsystem becomes the major bottleneck. We found that SPAX can still meet the I/O requirement of the OLTP workload as it supports flexible I/O subsystem. We also investigated what will be the next most important bottleneck in SPAX and how to remove it. We found that the newly developed system network called Xcent-Net will not be a bottleneck in the I/O data path. We also show the optimal configuration that is to be considered for system tuning.

  • PDF

유비쿼터스 응용 개발을 위한 센서 네트워크 시뮬레이터 (Sensor Network Simulator for Ubiquitous Application Development)

  • 김방현;김종현
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제13권6호
    • /
    • pp.358-370
    • /
    • 2007
  • 유비쿼터스 컴퓨팅의 인프라가 되는 무선 센서 네트워크의 설계 및 응용 개발을 위하여 소프트웨어 시뮬레이션이 널리 사용되고 있다. 본 연구에서는 센서 네트워크 응용프로그램의 동작을 확인할 수 있고, 실행시간 및 전력소모량을 예측할 수 있으며, 많은 수의 센서노드들을 시뮬레이션 할 수 있는 센서 네트워크 시뮬레이터를 개발하였다. 시뮬레이터는 명령어 수준의 병렬 이산 사건 시뮬레이션 방법을 이용하여 구현되었다. 명령어 수준의 시뮬레이션은 실제 센서보드에 적재되는 실행이미지를 시뮬레이션 작업부하로 사용하기 때문에 시뮬레이션 정밀도가 높다. 병렬 시뮬레이션은 여러 대의 컴퓨터를 사용하여 작업부하를 분산 처리하므로 대규모의 센서 네트워크를 시뮬레이션 할 수 있게 해준다. 구현된 시뮬레이터는 센서보드 내의 모듈 별 동작시간 및 실행된 명령어 수를 근거로 하여 전력소모량을 예측할 수 있다. 또한 다양한 시나리오의 유비쿼터스 응용프로그램의 수행 과정을 시뮬레이션 할 수 있으며, 디버깅도 가능하다. 이 연구에서 시뮬레이션의 작업부하인 명령어 트레이스로는 ATmega128L 마이크로컨트롤러용 크로스컴파일러에 의해 생성된 실행이미지를 사용하였다.

코딩 유닛 깊이 정보를 이용한 HEVC 디블록킹 필터의 병렬화 기법 (Parallel Method for HEVC Deblocking Filter based on Coding Unit Depth Information)

  • 조현호;유은경;남정학;심동규;김두현;송준호
    • 방송공학회논문지
    • /
    • 제17권5호
    • /
    • pp.742-755
    • /
    • 2012
  • 본 논문에서는 high efficiency video coding (HEVC) 복호화기의 디블록킹 필터를 병렬화할 때 발생하는 작업량 불균형 문제를 해결하는 병렬화 방법을 제안한다. HEVC의 디블록킹 필터는 인-루프 필터로써 먼저 수직 에지에서 필터링을 수행한 후, 수평 에지에서 필터링을 수행한다. 수직 및 수평 에지에 대해 필터링을 수행하는 경우 주변 에지와 의존성이 없기 때문에 데이터 레벨의 병렬화를 통하여 복호화를 고속화 할 수 있다. 그러나 데이터 레벨 병렬화 방법을 통해 데이터가 균등하게 분할된 경우에도 영역 간의 작업량은 불균등 할 수 있으며, 이는 복호화기의 병렬화 성능을 저하시킨다. 본 논문에서는 coding tree block (CTB)에서 coding unit (CU)의 깊이 정보를 사용하여, 현재 프레임에 대한 디블록킹 필터링 과정의 연산량을 예측하고, 이를 통해 각 코어에 동등한 작업량이 분배되게 함으로써 작업량 불균형 문제를 해결하였다. 실험 결과, 제안하는 작업량 예측 기반의 데이터 레벨 병렬화 방법은 단일 코어를 사용하여 디블록킹 필터를 수행하는 것에 비하여 64.3%의 평균 시간 감소 (average time saving; ATS)를 얻었고, 기존의 균등 분할 데이터 레벨 병렬화 방법보다 평균 6.7%, 최대 13.5% 감소를 얻었다.