• 제목/요약/키워드: Parallel Computing(병렬컴퓨팅)

검색결과 229건 처리시간 0.025초

GPU 작업 배치의 효율화를 위한 자원 이용률 상세 분석 (Analyzing Fine-Grained Resource Utilization for Efficient GPU Workload Allocation)

  • 박윤주;신동희;조경운;반효경
    • 한국인터넷방송통신학회논문지
    • /
    • 제19권1호
    • /
    • pp.111-116
    • /
    • 2019
  • 최근 GPU가 그래픽 처리뿐 아니라 다양한 분야의 병렬 처리로 그 영역을 넓혀가고 있다. 그러나, 현재 GPU는 워크로드의 다양성을 반영하기보다 간결한 제어 구조를 통한 개별 워크로드의 병렬성 극대화에 초점을 맞추고 있다. 본 논문은 워크로드 특성을 반영한 GPU 작업 배치를 위해 GPU에서 수행되는 워크로드의 자원 사용 특성을 컴퓨팅 바운드형, 메모리 바운드형, 실행종속 지연형으로 분류한 후, 각 분류에서 병목점이 되는 세부 자원을 규명한다. 예를 들어 컴퓨팅 바운드형의 경우 단정밀도 연산장치, 배정밀도 연산장치, 특수함수 연산장치 등 병목 자원이 무엇인지 분석한다. 본 논문의 분석 결과는 동일한 컴퓨팅 바운드형 워크로드라도 병목이 되는 세부 자원이 다를 경우 함께 배치하는 것이 성능 충돌을 일으키지 않는다는 점을 규명하여 GPU 작업배치의 효율화에 기여할 것으로 기대된다.

SGI Origin 2000/Cray T3e /IBM SP2 시스템에서 병렬 분산 VHDL 시뮬레이터의 개발 (Development of Parallel Distributed VHDL Simulator on SGI Origin 2000/Cray T3e/IBM SP2 Systems)

  • 정영식
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제5권2호
    • /
    • pp.196-208
    • /
    • 1999
  • 본 논문에서는 시뮬레이션 속도 향상을 위하여 VHDL(Very high speed integrated circuit Hardware Description Language)로 기술된 디지털 회로 시뮬레이션을 위한 병렬 분산 VHDL 시뮬레이터(Parallel Distributed VHDL Simulator : PDVS)를 개발한다. 개발된 프로그램을 대규모 병렬 프로그래밍 환경에서도 수행될 수 있도록 하기 위해서 표준 통신 라이브러리인 MPI(Message Passing Interface)를 이용하여 구현된다. PDVS 의 전체적인 시스템구성도, PDVS 에 사용된 시뮬레이션 프로토콜, 전역가상시간 계산 메카니즘 및 논리적 프로세스의 내부 구성요소들간의 관계와 PDVS의 제어 흐름도를 제시한다. 그리고 본 연구에서는 병렬 분산 시뮬레이션의 병렬성 정도를 분석하기 위하여 디지털 회로의 크기 변화와 처리되는 사건수(grain size)의 변화에 따른 성능 결과를 제시한다. 이 연구에서 4배크기의 디지털 회로를 적용한 경우는 프로세서를 12개 사용할 때에 8배의 속도향상을 얻었다. 그리고 처리되는 사건의 수가 200인 경우는 프로세서를 32개 사용할 때에 12배의 속도향상을 얻었다. 또한 동일한 방법을 SGI Origin 2000, Cray T3e 및 IBM SP2에 적용함으로서 그 성능의 간접적인 비교결과도 제시한다.

스트림-리즈닝을 위한 실시간 사물인터넷 빅-데이터 처리 (Real-Time IoT Big-data Processing for Stream Reasoning)

  • 윤창호;박종원;정혜선;이용우
    • 인터넷정보학회논문지
    • /
    • 제18권3호
    • /
    • pp.1-9
    • /
    • 2017
  • 스마트-시티는 스마트-시티의 사물인터넷(Internet of Things: IoT) 디바이스를 비롯한 수많은 인프라를 지능적으로 관리하고, 다양한 스마트 어플리케이션을 도시민에게 제공한다. 스마트-시티에서는 스마트-시티 어플리케이션에서 필요한 다양한 정보를 제공하기 위하여 수많은 사물인터넷 기기들로부터 끊임없이 발생하는 대규모의 스트림 빅-데이터를 지능적으로 처리하는 기능이 필요하다. 하지만, 스마트-시티에서 대규모의 스트림 빅-데이터를 처리하는 것에는 실시간 처리와 관련된 제약들이 존재한다. 본 스마트-시티-사업단에서는 선행 연구에서 스마트-시티미들웨어와 이를 이용한 스트림-리즈닝 방법론 및 시스템을 개발하였다. 스마트-시티에서 스마트 서비스를 제공하기 위하여, 스마트-시티-사업단에서는 스트림-리즈닝을 사용하는 방법론을 사용한다. 이 스트림-리즈닝은 대용량 데이터의 실시간 처리를 필요로 한다. 따라서, 후속연구로서 스마트-시티미들웨어의 클라우드-컴퓨팅 플랫폼을 이용하여 스트림-리즈닝을 위한 실시간 분산병렬처리 클라우드-컴퓨팅 방법론과 시스템을 개발하였다. 본 논문에서는 스마트-시티에서 발생하는 사물인터넷 빅-데이터를 스트림-리즈닝에 사용하기 위하여 이 후속연구에서 개발된 클라우드 기반 실시간 분산병렬처리 연구결과를 소개한다. 스마트-시티의 각종 센서들로부터 전송되어지는 사물인터넷 빅-데이터를 사용하여 스트림-리즈닝하는 데 필요한 클라우드-컴퓨팅 기반의 실시간 분산처리 방법론과 시스템을 소개하고 있으며, 이 방법론을 선행연구에서 개발한 스마트-시티 미들웨어에 구현하여 실시간 분산처리 성능을 평가한 것을 소개한다.

평면 다물체 동역학 해석에서 GPU 병렬 프로그래밍의 계산효과 (Calculation Effect of GPU Parallel Programing for Planar Multibody System Dynamics)

  • 전철웅;손정현
    • 동력기계공학회지
    • /
    • 제16권4호
    • /
    • pp.12-16
    • /
    • 2012
  • In this paper, the equations of motions for planar multibody dynamics are established for considering the parallel programming based on GPU. Cartesian coordinates are used to formulate the equations of motion and implicit integration method called HHT-alpha is employed. Open chain multibody system is considered for computer simulation. CUDA toolkit is employed for establishing the GPU parallel programming. The exactness of the analysis is verified from the comparison with ADAMS. The results from parallel computing based on GPU are compared with the results from the sequential programming based on CPU in terms of calculation time. The multiple pendulum with bodies and joints is employed for the computer simulation. In the pendulum system that has 290 bodies, the parallel program indicates an improved efficiency of about 25.5 second(15.5% improvement). It is noted that the larger the size of system is, the time efficiency is better.

CUDA를 사용한 병렬 컴퓨팅 기반 신경망 구현 및 수행 속도 측정 (Implementing Neural Network and measuring execution speed using CUDA based on Parallel Computing)

  • 장용석;전웅기;오병진;최흥국
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2012년도 춘계학술발표대회논문집
    • /
    • pp.275-278
    • /
    • 2012
  • 신경망 이론은 그 특성상 각각의 뉴런과 신경들 사이의 병렬적인 처리에 의해 Input에 대한 Output을 계산해 낸다. 하지만, 현대 컴퓨터들은 CPU를 통한 순차처리 방식으로 정보를 취급하기에 그 근본 구조가 달라 병렬구조를 모사하기 위해 계산하는 과정에 많은 시간이 소요된다. 본 논문에서는 신경망 학습을 NVIDIA사에서 제공한 CUDA를 사용하여 병렬 컴퓨팅 구조로 수행함으로서 시간을 단축시키는 것을 확인하고자 한다.

  • PDF

InterCom : 에이전트 기반 인터넷 컴퓨팅 환경 설계 및 구현 (InterCom : Design and Implementation of an Agent-based Internet Computing Environment)

  • 김명호;박권
    • 정보처리학회논문지A
    • /
    • 제8A권3호
    • /
    • pp.235-244
    • /
    • 2001
  • 네트워크와 컴퓨터 기술의 발달로 물리적으로 분산된 컴퓨터를 하나의 자원으로 사용하려는 연구가 많이 진행되고 있다. 일반적으로 이러한 연구들은 메시지 패싱을 기반으로 하는 환경을 개발하는 것이 주류를 이루고 있다. 이러한 환경은 보통 과학계산용 문제를 풀기 위해 많이 사용되고 주어진 문제의 내부병렬성을 이용하여 병렬처리 하게 된다. 따라서 보통 이러한 환경에서는 고도의 병렬성을 얻을 수 있다는 장점이 있는 반면에, 프로그래밍이 어렵고, 사용하기가 어려우며, 분산된 컴퓨터에 사용자의 계정이 있어야 한다는 단점이 있다. 그런데 만일 주어진 문제가 완전히 독립적인 작은 문제를 분할된다면 더욱 효율적인 환경을 만들 수 있다. 이러한 문제 유형은 생물정보학, 3차원 애니메이션, 그래픽스 등에 많이 준재하며, 이를 위한 새로운 환경 개발은 매우 중요한 연구라 할 수 있다. 따라서 본 논문에서는 이러한 문제를 효율적으로 처리하는 프록시 컴퓨팅 기반의 InterCom이라는 새로운 환경을 제안하고, 이들 구현한 것에 대해서 설명한다. 이 환경은 에이전트, 서버, 클라이언트로 구성되어 있다. 이 환경의 장점은 프로그래밍하기가 쉽고 분산된 모든 컴퓨터에 사용자 계정이 없어도 되며, 분산되는 코드를 자동 컴파일해 줌으로써 사용하기 쉽다는 것이다.

  • PDF

NAS 병렬 벤치마크 기반 다양한 고성능 컴퓨팅 시스템의 특성 분석 (Analysis of Characteristics of Various High Performance Computing Systems Based on NAS Parallel Benchmarks)

  • 박근철;박찬열;최지은;노승우
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.118-120
    • /
    • 2019
  • 특정 어플리케이션을 주로 실행하는 소규모 고성능 컴퓨팅 시스템을 구축하는데 있어서 가장 중요한 점은 해당 어플리케이션의 효율을 최대한 끌어내기 위한 하드웨어를 선택하는 것이다. 하지만 최근 고성능 컴퓨팅을 위한 프로세서의 다양성은 점점 심화되고 있고 이는 최적의 프로세서 선택 및 시스템의 구성을 힘들게 하고 있다. 이에 본 논문에서는 고성능 컴퓨팅에 주로 사용되는 주요한 프로세서를 사용한 시스템을 NAS 병렬 벤치마크를 기반으로 그 특성과 성능을 분석하여 응용프로그램의 특성에 적합한 프로세서 및 시스템의 선택을 지원하고자 한다.

클라우드 컴퓨팅 기반의 병렬 CNV 검출 알고리즘 (Parallel CNV detection algorithm based on Cloud Computing)

  • 홍상균;윤지희;이은주
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.1264-1267
    • /
    • 2011
  • 시퀀싱 기술의 발달로 최근에는 비교적 저렴한 비용으로 개인의 유전체 시퀀싱 데이터를 산출할 수 있게 되었다. 하지만 이를 기반으로 하는 기존의 분석 방법은 매우 고가의 컴퓨팅 환경을 요구하기 때문에 분석을 위한 비용이 매우 높은 문제가 있다. 본 논문에서 클라우드 컴퓨팅 환경의 병렬 CNV 검출알고리즘을 제안한다. 제안하는 방법은 모양 기반의 CNV 검출 알고리즘인 CNV_shape을 MapReduce 기법으로 개발한 것으로 시퀀싱 데이터를 레퍼런스 서열에 매핑한 결과로부터 리드 커버리지 (read coverage)를 계산하여 커버리지가 감소하거나 증가하는 일정 길이 이상의 영역을 검출하는 방법이다. 클라우드 컴퓨팅 환경에 적용하고 노드의 밸런싱 유지를 위한 방법으로 파티셔닝 기법을 사용하였다. 또한 실 데이터를 이용한 실험을 통해 제안하는 방법의 효율적 데이터 처리를 보인다.

OpenCL을 이용한 임베디드 GPGPU환경에서의 AES 암호화 성능 개선과 평가 (Performance Enhancement and Evaluation of AES Cryptography using OpenCL on Embedded GPGPU)

  • 이민학;강우철
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권7호
    • /
    • pp.303-309
    • /
    • 2016
  • 최근, ARM Mali와 같은 여러 임베디드 프로세서들이 OpenCL과 같은 GPGPU 프레임워크를 지원함에 따라 기존 PC 환경에서 활용되던 GPGPU 기술이 임베디드 시스템 영역으로 확대 되고 있다. 그러나 임베디드 시스템은 PC와는 상이한 구조를 갖으며, 저전력이나 실시간성과 같은 성능이 더욱 중요하다. 본 논문에서는 임베디드 GPGPU환경에서 AES 암호화 알고리즘을 개방형 범용 병렬 컴퓨팅 프레임워크인 OpenCL을 사용하여 구현하고 이를 CPU만을 이용한 구현과 비교한다. 실험결과, 1000KByte의 데이터 사이즈의 128비트 AES 암호화 시에 OpenCL을 사용하여 GPU로 병렬 처리하는 것이 OpenMP를 사용하여 CPU상에서 병렬 처리한 방식보다 응답 시간은 최대 1/150, 에너지 소비량은 최대 1/290로 감소함을 확인하였다. 또한 호스트와 GPU 디바이스 간에 메모리를 공유하는 임베디드 구조의 특성에 최적화하여 메모리 복제를 하지 않는 기법을 적용하는 경우 응답시간과 에너지 소비량에서 최대 100% 이상의 추가적인 성능개선을 이룰 수 있었으며, 연구에서 사용한 데이터의 크기에 비례하여 더 높은 성능의 개선이 나타나는 것을 확인하였다.

MPI 일방향통신을 이용한 축류 팬 주위 소음해석 병렬프로그램 최적화 (Optimization of Parallel Code for Noise Prediction in an Axial Fan Using MPI One-Sided Communication)

  • 권오경;박근태;최해천
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제7권3호
    • /
    • pp.67-72
    • /
    • 2018
  • 축류 팬(axial fan)은 팬이 회전하면서 작은 압력 상승을 만들어 다량의 공기를 불어주는 유체 기계로써 최근 축류 팬의 소음 저감이 중요하게 인식되고 있다. 본 연구는 팬 주위의 유동 소음을 해석하는 MPI 병렬프로그램 방법 및 최적화 기법에 대해 다룬다. 이때 수억 개 이상의 격자에서 수만 포인트의 소음원을 해석하기 위해서 2차원 도메인 분할 방법을 사용해서 MPI 병렬화를 하였다. 이때 대규모 계산 시 MPI 프로세스 간의 통신이 많이 발생하여 성능이 심각하게 느려지는 현상이 발생한다. 이를 극복하기 위해 MPI 일방향 통신을 적용하였다. 뿐만 아니라 통신 및 메모리 최적화 방법을 통해 최대 2.97배 향상시켰다. 마지막으로 KISTI 타키온2 슈퍼컴퓨터를 활용하여 전체 시뮬레이션 실험에서 유동 계산 시 6,144코어에서 최대 12배, 소음 계산 시 128코어에서 최대 6배의 성능향상을 달성하였다.