• 제목/요약/키워드: 고성능 컴퓨팅 시스템

검색결과 172건 처리시간 0.031초

전산유체역학 병렬해석을 위한 클러스터 네트웍 장치 성능분석 (Performance Analysis of Cluster Network Interfaces for Parallel Computing of Computational Fluid Dynamics)

  • 이보성;홍정우;이동호;이상산
    • 한국항공우주학회지
    • /
    • 제31권5호
    • /
    • pp.37-43
    • /
    • 2003
  • 전산유체역학분야에서의 효율적인 해석을 위해서 병렬처리기법이 널리 사용되고 있다. 병렬처리기법과 함께 최근에는 저가의 리눅스 클러스터 컴퓨터들이 기존의 슈퍼컴퓨터들을 대체하는 추세이다. 리눅스 클러스터 컴퓨터에서 수행되는 해석프로그램의 성능은 클러스터 시스템의 프로세서 성능 뿐 아니라 클러스터 시스템에서 사용되는 네트웍 장비의 성능에 크게 영향을 받는다. 본 연구에서는 미리넷2000, 기가비트 이더넷, 패스트 이더넷 등 네트웍 장비에 따라서 클러스터 시스템의 성능이 어떻게 달라지는지를 Netpipe, LINPACK, NAS NPB, 그리고 MIPNS2D Navier-Stokes 해석프로그램을 사용하여 비교하였다. 이러한 연구결과를 바탕으로 전산유체역학 분야에서 사용될 고성능 저비용 리눅스 클러스터 시스템을 구축하는 방법을 제시하고자 하였다.

GPU 성능 저하 해결을 위한 내부 자원 활용/비활용 상태 분석 (Analysis on the Active/Inactive Status of Computational Resources for Improving the Performance of the GPU)

  • 최홍준;손동오;김종면;김철홍
    • 한국콘텐츠학회논문지
    • /
    • 제15권7호
    • /
    • pp.1-11
    • /
    • 2015
  • 최신 고성능 컴퓨팅 시스템에서는, 대용량 병렬 연산을 효과적으로 처리할 수 있는 GPU의 우수한 연산 성능을 그래픽 처리 이외의 범용 작업에 활용하는 GPGPU 기술에 관한 연구가 활발하게 진행 중이다. 하지만 범용 응용프로그램의 특성이 GPU 구조에 최적화되어 있지 않기 때문에 범용 프로그램 수행 시 GPGPU는 GPU의 연산 자원을 효과적으로 활용하지 못하고 있다. 그러므로 본 논문에서는 GPGPU 기술을 사용하는 컴퓨팅 시스템의 성능을 보다 향상시킬 수 있는 GPU 연구에 대한 방향을 제시하고자 한다. 이를 위하여, 본 논문에서는 GPU 성능 저하 원인 분석을 수행한다. GPU 성능 저하 원인을 보다 명확하게 분류하고자 본 논문에서는 GPU 코어의 상태를 완전 활성화 상태, 불완전 활성화 상태, 유휴 상태, 메모리스톨 상태, 그리고 GPU 코어 스톨 상태 등 5가지로 정의하였다. 완전 활성화 상태를 제외한 모든 GPU 코어 상태들은 컴퓨팅 시스템의 성능 저하를 유발한다. 본 논문에서 성능 저하 원인을 찾고자 벤치마크 프로그램의 특성에 따라 각 GPU 코어 상태의 비율 변화를 측정하였다. 분석 결과에 따르면, 불완전 활성화 상태, 유휴 상태, 메모리 스톨 상태 그리고 GPU 코어 스톨 상태는 연산 자원 활용률 저하, 낮은 프로그램 병렬성, 높은 메모리 요청, 그리고 구조적 해저드에 의해 각각 유발된다.

제목을스마트 시설환경 실시간 제어를 위한 마이크로 병렬 컴퓨팅 기술 분석 (A Benchmark of Micro Parallel Computing Technology for Real-time Control in Smart Farm (MPICH vs OpenMP))

  • 민재기;이동훈
    • 한국농업기계학회:학술대회논문집
    • /
    • 한국농업기계학회 2017년도 춘계공동학술대회
    • /
    • pp.161-161
    • /
    • 2017
  • 스마트 시설환경의 제어 요소는 난방기, 창 개폐, 수분/양액 밸브 개폐, 환풍기, 제습기 등 직접적으로 시설환경의 조절에 관여하는 인자와 정보 교환을 위한 통신, 사용자 인터페이스 등 간접적으로 제어에 관련된 요소들이 복합적으로 존재한다. PID 제어와 같이 하는 수학적 논리를 바탕으로 한 제어와 전문 관리자의 지식을 기반으로 한 비선형 학습 모델에 의한 제어 등이 공존할 수 있다. 이러한 다양한 요소들을 복합적으로 연동시키기 위해선 기존의 시퀀스 기반 제어 방식에는 한계가 있을 수 있다. 관행의 방식과 같이 시계열 상에서 획득한 충분한 데이터를 이용하여 제어의 양과 시점을 결정하는 방식은 예외 상황에 충분히 대처하기 어려운 단점이 있을 수 있다. 이러한 예외 상황은 자연적인 조건의 변화에 따라 불가피하게 발생하는 경우와 시스템의 오류에 기인하는 경우로 나뉠 수 있다. 본 연구에서는 실시간으로 변하는 시설환경 내의 다양한 환경요소를 실시간으로 분석하고 상응하는 제어를 수행하여 수학적이며 예측 가능한 논리에 의해 준비된 제어시스템을 보완할 방법을 연구하였다. 과거의 고성능 컴퓨팅(HPC; High Performance Computing)은 다수의 컴퓨터를 고속 네트워크로 연동하여 집적적으로 연산능력을 향상시킨 기술로 비용과 규모의 측면에서 많은 투자를 필요로 하는 첨단 고급 기술이었다. 핸드폰과 모바일 장비의 발달로 인해 소형 마이크로프로세서가 발달하여 근래 2 Ghz의 클럭 속도에 이르는 어플리케이션 프로세서(AP: Application Processor)가 등장하기도 하였다. 상대적으로 낮은 성능에도 불구하고 저전력 소모와 플랫폼의 소형화를 장점으로 한 AP를 시설환경의 실시간 제어에 응용하기 위한 방안을 연구하였다. CPU의 클럭, 메모리의 양, 코어의 수량을 다음과 같이 달리한 3가지 시스템을 비교하여 AP를 이용한 마이크로 클러스터링 기술의 성능을 비교하였다.1) 1.5 Ghz, 8 Processors, 32 Cores, 1GByte/Processor, 32Bit Linux(ARMv71). 2) 2.0 Ghz, 4 Processors, 32 Cores, 2GByte/Processor, 32Bit Linux(ARMv71). 3) 1.5 Ghz, 8 Processors, 32 Cores, 2GByte/Processor, 64Bit Linux(Arch64). 병렬 컴퓨팅을 위한 개발 라이브러리로 MPICH(www.mpich.org)와 Open-MP(www.openmp.org)를 이용하였다. 2,500,000,000에 이르는 정수 중 소수를 구하는 연산에 소요된 시간은 1)17초, 2)13초, 3)3초 이었으며, $12800{\times}12800$ 크기의 행렬에 대한 2차원 FFT 연산 소요시간은 각각 1)10초, 2)8초, 3)2초 이었다. 3번 경우는 클럭속도가 3Gh에 이르는 상용 데스크탑의 연산 속도보다 빠르다고 평가할 수 있다. 라이브러리의 따른 결과는 근사적으로 동일하였다. 선행 연구에서 획득한 3차원 계측 데이터를 1초 단위로 3차원 선형 보간법을 수행한 경우 코어의 수를 4개 이하로 한 경우 근소한 차이로 동일한 결과를 보였으나, 코어의 수를 8개 이상으로 한 경우 앞선 결과와 유사한 경향을 보였다. 현장 보급 가능성, 구축비용 및 전력 소모 등을 종합적으로 고려한 AP 활용 마이크로 클러스터링 기술을 지속적으로 연구할 것이다.

  • PDF

PCI Express 기반 OpenSHMEM 초기 설계 및 구현 (Design and Implementation of Initial OpenSHMEM Based on PCI Express)

  • 주영웅;최민
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제6권3호
    • /
    • pp.105-112
    • /
    • 2017
  • PCI Express는 고속, 저전력 등의 특성으로 인하여 프로세서와 주변 I/O 장치들을 연결하는 업계 표준의 버스 기술이다. PCI Express는 최근 고성능 컴퓨터나 클러스터/클라우드 컴퓨팅 등의 분야에서 시스템 인터커넥션 네트워크로서 그 활용가능성을 검증하고 있는 추세이다. PCI Express가 시스템 인터커넥션 네트워크로서 활용가능하게 된 계기는 PCI Express에 NTB(non-transparent bridge) 기술이 도입되면서부터이다. NTB 기술은 물리적으로 두 PCI Express subsystem을 연결가능하도록 하지만, 필요할 경우 논리적인 격리(isolation)를 제공하는 특징이 있다. 또한, PGAS(partitioned global address space)와 같은 공유 주소 공간(shared address space) 프로그래밍 모델은 최근 멀티코어 프로세서의 보편화로 인하여 병렬컴퓨팅 프레임워크로 각광받고 있다. 따라서, 본 논문에서는 차세대 병렬컴퓨팅 플랫폼을 위하여 PCI Express 환경에서 OpenSHMEM을 구현하기 위한 초기 OpenSHMEM API를 설계 및 구현하였다. 본 연구에서 구현한 15가지 OpenSHMEM API의 정확성을 검증하기 위해서 Github의 openshmem-example 벤치마크의 수행을 통하여 확인하였다. 현재 시중에서는 PCI Express 기반 인터커넥션 네트워크는 가격이 매우 비싸고 아직 일반인이 사용하기 용이하도록 NIC형태로 널리 보급되지 않은 실정이다. 이러한 기술개발 초기단계에서 본 연구는 PCI Express 기반 interconnection network를 RDK(evaluation board) 수준에서 실제로 동작하는 실험환경을 구축하고, 여기에 추가로 최근 각광받는 OpenSHMEM software stack를 자체적으로 구현하였다는 데 의의가 있다.

Zero-copy 기술을 이용한 PVM의 성능 개선 (Performance Improvement for PVM by Zero-copy Mechanism)

  • 임성택;심재홍;최경희;정기현;김재훈;문성근
    • 한국통신학회논문지
    • /
    • 제25권5B호
    • /
    • pp.899-912
    • /
    • 2000
  • PVM(Parallel Virtual Machine)은 네트워크 상에 분산되어 있는 여러 시스템들을 투명하게 활용하여 사용자에 고성능 병렬 컴퓨팅을 지원하는 단일 가상 시스템(single virtual system)으로 인식되게 하는 middle-ware 소프트웨어이다. 초고속 통신망을 기반으로 하는 PVM에서는 임의의 태스크로부터 하나의 메시지를 전송하기 위해 세 번의 메시지 복사가 필요하며, 이는 PVM의 성능 저하를 가져오는 주요 원인이 된다. 이러한 문제점을 개선하기 위해 이 논문에서는 zero-copy PVM 통신 모델을 제안한다. 제안된 모델은 PVM 태스크, PVM 데몬, 네트워크 인터페이스 보드 등에 의해 동시 접근이 가능한 전역 공유 메모리(global shared memory)를 이용하며, 초고속 통신망을 기반으로 하고 있다. 이 모델에서 PVM 태스크는 전송하고자 하는 메시지를 전역 공유 메모리에 저장하고, 메시지를 보낼 준비가 되었음을 PVM 데몬에게 알리며, 데몬은 해당 메시지를 커널을 통하지 않고 바로 초고속 통신망으로 전송함으로써, 메시지의 메모리 복사 횟수를 감소 시킨다. 실험 결과 두 시스템간의 메시지 왕복 시간은 제안된 모델을 사용함으로써 현저히 줄어 들었음을 확인하였다.

  • PDF

전화선 통신 시스템의 전송특성 및 채널용량에 관한 연구 (A Study on the Transmission Characteristics and Channel Capacity of Telephone Line Communication System)

  • 노재성;장태화
    • 디지털콘텐츠학회 논문지
    • /
    • 제10권2호
    • /
    • pp.233-238
    • /
    • 2009
  • 디지털 통신 네트워크 기술의 발전에서 인터넷 기술과 스마트 홈 가전기기의 확산은 고속/고품질 홈 네트워크에 대한 필요성을 증가시키고 있다. 홈 네트워크에서 가전기기와 컴퓨팅 기기가 증가함에 따라 홈 네트워크의 데이터 트래픽은 증가할 것이 명백하다. 다양한 홈 네트워크 기기는 멀티미디어 콘텐츠를 얻기 위하여 인터넷 서버에 접속하길 원한다. 따라서 본 논문에서는 가정내에서 이더넷이나 유무선 기술을 사용하기 위해 네트워크에 연결된 디지털 가전기기를 위한 TLC(Telephone Line Carrier) 시스템을 소개한다. 미래의 홈 네트워크 환경에서 TLC 기반의 스마트 홈 네트워크의 주된 목적은 저가격, 쉬운 설치, 고성능, 넓은 영역을 만드는 것이다. 본 논문에서는 스마트 홈 네트워크를 위한 전화선로 통신시스템의 채널용량을 송신전력, OFDM 반송파의 수, 채널손실, 잡음손실에 따라서 정량적으로 비교, 분석하였다.

  • PDF

합성곱 신경망을 이용한 손상된 볼트의 이미지 분류 (Image Classification of Damaged Bolts using Convolution Neural Networks)

  • Lee, Soo-Byoung;Lee, Seok-Soon
    • 항공우주시스템공학회지
    • /
    • 제16권4호
    • /
    • pp.109-115
    • /
    • 2022
  • 딥러닝 기법과 컴퓨터 비전 기술을 융합한 합성곱 신경망 알고리즘은 고성능 컴퓨팅 시스템을 기반으로 이미지 데이터의 분류를 가용하게 한다. 본 논문에서는 합성곱 신경망 알고리즘을 대표적인 딥러닝 프레임워크인 텐서플로와 학습 기법을 이용하여 구현하고 이미지 분류 문제에 적용한다. 모델의 지도학습에 필요한 데이터는 동일 종류의 볼트를 이용하여 나사산이 정상인 볼트와 나사산이 손상된 볼트로 구분하여 이미지를 생성하였다. 소량의 이미지 데이터를 이용한 학습 모델은 좋은 성능으로 볼트의 손상을 탐지하였다. 그리고 모델의 내부 구성에 따른 학습 성능을 비교하기 위해 합성곱 신경망 내 컨볼루션 레이어의 개수를 변경하고 과적합 회피기법을 선택 적용하여 이미지 분류 성능을 확인하였다.

대용량 영구 메모리 기반 실시간 빅데이터 검색 플랫폼 성능 분석 (Performance Analysis of Real-Time Big Data Search Platform Based on High-Capacity Persistent Memory)

  • 이은서;박동철
    • Journal of Platform Technology
    • /
    • 제11권4호
    • /
    • pp.50-61
    • /
    • 2023
  • 다양한 빅데이터 기술의 발전은 많은 산업에 큰 영향을 미치고 있으며, 방대한 양의 데이터를 빠르게 처리하고 분석하기 위해 여러 연구가 진행되고 있다. 이러한 상황에서 인텔 차세대 대용량 영구 메모리 모듈이나 CXL과 같은 새로운 형태의 메모리와 컴퓨팅 기술이 크게 주목받고 있다. 그러나, 현존하는 대부분의 빅데이터 소프트웨어 플랫폼들은 여전히 기존의 전통적인 DRAM 환경을 기반으로 최적화되어 있으며, 특히 빅데이터 실시간 검색 플랫폼 관련 연구는 상대적으로 미흡한 실정이다. 본 연구에서는 차세대 영구 메모리인 인텔 옵테인 영구 메모리의 기본 성능을 평가하고, 옵테인 영구 메모리 기반 시스템에서 빅데이터 실시간 검색 플랫폼으로 유명한 Elasticsearch의 다양한 성능 분석 결과를 통해 대용량 영구 메모리의 효용성과 가능성을 검증한다. 본 논문은 대용량 영구 메모리 기반 시스템이 기존 DRAM 기반 시스템에 비하여 색인과 검색 측면에서 각각 1.45배, 3.2배의 성능 향상을 확인하였고, 이를 통해 고성능 I/O와 대용량, 비휘발성 등의 다양한 이점을 가진 차세대 영구 메모리가 Elasticsearch와 같은 빅데이터 검색 플랫폼에서 좋은 대안이 될 수 있음을 확인하였다.

  • PDF

Myrinet 상에서 VMMC를 기반으로 하는 효율적인 MPI 구현 (An Efficient Implementation of MPI over VMMC for Myrinet)

  • 김호중;맹승렬
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제7권5호
    • /
    • pp.539-547
    • /
    • 2001
  • 클러스터 시스템의 성능을 향상시키기 위해서는 Myrinet과 같은 고성능 통신망 인터페이스가 필수적이다. 그러나 Myrinet에서 동작하는 저수준 통신 계층들은 각기 고유한 통신 방식을 사용하므로 호환성이 떨어진다. 따라서 MPI와 같은 통신 프로그래밍 표준을 효율적으로 구현하여 응용프로그램 수준에서 고성능과 호환성을 동시에 제공하여야 한다. 본 논문에서는 VMMC 통신 계층을 기반으로 MPI를 구현하였다. VMMC의 직접 저장 방식은 MPI의 Send/Recv 방식을 지원하기에 적합하지 않지만 본 논문에서는 두 가지 통신 방식을 변화하기 위한 송수신 큐 구조를 설계하고 늦은 위치 갱신, 선택적 무복사 전송 등의 최적화 기법을 적용함으로써 높은 전송성능을 얻는다. MPI-VMMC의 최대 전송 대역폭은 90.7Mbytes/sec이며 이는 VMMC 통신 계층의 최대 전송 성능의 95%에 달한다.

  • PDF

M&S 지원을 위한 HEMOS-Cloud 서비스의 경제적 효과 (Economic Impact of HEMOS-Cloud Services for M&S Support)

  • 정대용;서동우;황재순;박성욱;김명일
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제10권10호
    • /
    • pp.261-268
    • /
    • 2021
  • 클라우드 컴퓨팅은 서비스 사용자 요구에 따라 컴퓨팅 자원을 임대하여 사용하는 컴퓨팅 패러다임이다. 클라우드 컴퓨팅에서 컴퓨팅 자원은 사용자의 서비스 수요에 따라 컴퓨팅 자원을 확장 또는 축소가 가능하여 전체 서비스 비용 절감 효과를 가질 수 있다. 그리고, M&S (Modeling and Simulation) 기술은 컴퓨팅 자원과 CAE 소프트웨어를 통해 엔지니어링 분석 작업 결과를 얻어, 실제 실험 결과가 없이 제품의 상태를 시뮬레이션을 수행하여 분석하는 방법이다. M&S 기술은 FEA(Finite Element Analysis), CFD(Computational Fluid Dynamics), MBD(Multibody Dynamics) 및 최적화 분야에서 활용된다. M&S 통한 작업 절차는 전처리, 해석, 후처리 단계로 구분된다. CAE 소트프웨어를 통한 3D 모델링 작업인 전/후처리는 GPU 연산이 집약적이며, 3D 모델 해석은 CPU 또는 GPU 연산이 요구된다. 일반적인 개인 데스크톱에서 복잡한 3D 모델을 해석하는 시간이 많이 소요된다. 결과적으로, M&S를 원활하게 수행하기 위해서는 고성능 컴퓨팅 자원이 요구된다. 이 문제를 해결하기 위해 우리는 통합 클라우드 및 클러스터 컴퓨팅 환경인 HEMOS-Cloud 서비스를 제안한다. 제안한 클라우드 기반 방식에서는 M&S에 필요한 전/후처리 및 솔버 작업을 원활하게 수행할 수 있도록 구성했다. 이 시스템에서 전/후처리는 VDI(Virtual Desktop Infrastructure)에서 수행되고 해석은 클러스터 환경에서 수행된다. 각 용도에 맞게 서로 다른 환경에서 분리하여 컴퓨팅 자원 간에 간섭을 최소화했다. HEMOS-Cloud 서비스는 기업 또는 학교에서 M&S의 경험이 필요로 하는 사용자에게 CAE 소프트웨어와 컴퓨팅 자원을 제공한다. 본 논문에서는 HEMOS-Cloud 서비스의 경제적 파급효과를 산업연관분석을 활용하여 분석했다. 전문가의 의견을 반영하여 조정된 계수를 통한 분석 결과는 생산유발효과 74억원, 부가가치유발효과 41억원, 취업자유발효과 10억원당 50명으로 분석되었다.