• 제목/요약/키워드: 병렬성능

검색결과 1,946건 처리시간 0.028초

CPU와 GPU의 혼합 병렬 계산에 대한 성능 분석 (Performance Analysis on Parallel Processing of a Hybrid of a CPU and a GPU)

  • 황근창;김영태
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 춘계학술발표대회
    • /
    • pp.59-60
    • /
    • 2016
  • 본 논문에서는 고성능 병렬 계산 장치로 주목받고 있는 GPU를 CPU와 동시에 병렬로 사용한 계산 성능을 분석하였다. 성능 분석을 위하여 원주율(${\pi}$)을 적분으로 계산하는 CUDA 프로그램을 사용하였으며, 전체 계산을 GPU 대비 CPU 계산 부분으로 할당하여 성능을 분석하였다.

수평 분할 방법을 이용한 병렬 CBF(Cell-Based Filtering) 기법의 설계 (Design of Parallel CBF(Cel1-Based Filtering) Scheme using Horizontal1y-Partitioned Method)

  • 김남기;장재우
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (1)
    • /
    • pp.70-72
    • /
    • 2001
  • 기존의 CBF 기법은 데이타의 차원이 증가함에 따라 검색 성능이 급격히 저하되는 ‘Dimensional Curse’문제를 해결하기 위해 제안되었다. 그러나, 데이타의 양이 증가하고 차원이 증가할수록 검색 성능이 선형적인 감소를 보인다. 따라서, 본 논문에서는 CBF 기법의 성능 향상을 위해 멀티 디스크 환경을 기반으로 하는 병렬 CBF 기법을 제안한다. 제안하는 병렬 CBF 기법은 멀티 디스크 환경하에서 CBF가 지니는 특성을 이용하여 시그니쳐와 특징 벡터 데이타의 수평 분할 방법을 사용한다. 이를 통해, 제안하는 기법은 디스크 개수에 비례하여 선형적인 검색성능 향상을 가져온다.

  • PDF

이동 에이전트를 이용한 병렬 인공신경망 시뮬레이터 (The Parallel ANN(Artificial Neural Network) Simulator using Mobile Agent)

  • 조용만;강태원
    • 정보처리학회논문지B
    • /
    • 제13B권6호
    • /
    • pp.615-624
    • /
    • 2006
  • 이 논문은 이동 에이전트 시스템에 기반을 둔 가상의 병렬분산 컴퓨팅 환경에서 병렬로 수행되는 다층 인공신경망 시뮬레이터를 구현하는 것을 목적으로 한다. 다층 신경망은 학습세션, 학습데이터, 계층, 노드, 가중치 수준에서 병렬화가 이루어진다. 이 논문에서는 네트워크의 통신량이 상대적으로 적은 학습세션 및 학습데이터 수준의 병렬화가 가능한 신경망 시뮬레이터를 개발하고 평가하였다. 평가결과, 학습세션 병렬화와 학습데이터 병렬화 성능분석에서 약 3.3배의 학습 수행 성능 향상을 확인할 수 있었다. 가상의 병렬 컴퓨터에서 신경망을 병렬로 구현하여 기존의 전용병렬컴퓨터에서 수행한 신경망의 병렬처리와 비슷한 성능을 발휘한다는 점에서 이 논문의 의의가 크다고 할 수 있다. 따라서 가상의 병렬 컴퓨터를 이용하여 신경망을 개발하는데 있어서, 비교적 시간이 많이 소요되는 학습시간을 줄임으로서 신경망 개발에 상당한 도움을 줄 수 있다고 본다.

GPGPU 기반 조인 연산 병렬화 성능 비교 (Performance Comparison of Join Operations Parallelization by using GPGPU)

  • 이종섭;이상백;이규철
    • 데이타베이스연구회지:데이타베이스연구
    • /
    • 제34권3호
    • /
    • pp.28-44
    • /
    • 2018
  • 데이터베이스 시스템 관계 연산자 중에서 연산 비용이 가장 비싼 연산은 조인 연산이다. 일반적으로 CPU 기반의 조인 연산의 경우에는 하나의 코어를 사용하거나 많게는 16개 정도의 코어를 사용하여 병렬 처리를 해서 병렬화에 따른 성능 향상이 크지 않다. 이에 반해, GPGPU(General-Purpose computing on Graphics Processing Units)는 수천 개의 프로세싱 유닛을 통한 병렬 처리가 가능해서 조인 연산 수행 시간을 크게 단축할 수 있다. 본 논문에서는 GPGPU 기반에서 조인 연산 병렬화를 구현하기 위해 NVIDIA의 CUDA SDK가 사용되며, CPU 기반과 GPGPU 기반에서의 조인 연산 성능을 측정한다. 사용되는 조인 연산은 NLJ (Nested Loop Join), SMJ (Merge Join), HJ (Hash Join)이며, GPGPU 장비는 TITAN Xp, GTX 1080 Ti 및 GTX 1080을 사용한다. CPU 기반과 GPGPU 기반의 성능을 비교하고, GPGPU 기반의 조인 연산과 이전 연구의 성능과의 성능을 비교한다. 마지막으로, 실험 결과는 GPGPU 기반의 성능이 CPU 기반의 성능보다 6~328 배 빠른 성능을 보였고 향후 연구의 방향성에 대하여 토의한다.

하향링크 다중 안테나 MC-CDMA 시스템을 위한 다단계 병렬 널링 및 병렬 부분 간섭 제거 수신기 설계 (Multistage Parallel Nulling-Partial PIC Receiver for Downlink MIMO MC-CDMA Systems)

  • 구정회;김경연;심세준;이충용
    • 대한전자공학회논문지TC
    • /
    • 제41권11호
    • /
    • pp.1-7
    • /
    • 2004
  • 본 논문에서는 다중 안테나를 사용한 다중 반송파 대역확산 다중접속 (MIMO MC-CDMA) 시스템을 위한 다단계 병렬 널링 및 병렬 부분 간섭 제거 수신기 (MPN-PPIC)를 제안한다. 기존의 V-BLAST 수신기는 널리 알려져 있는 다중 안테나 시스템에 대한 수신 방법으로, 단일 사용자 하향 링크 다중 안테나 MC-CDMA 시스템에 대해서는 어느 정도 좋은 성능을 보이지만, 다중 사용자의 경우에 있어서는 심각한 성능 저하 (error floor)를 보이는 것으로 알려져 있다. 본 논문에서 제안한 수신기는 다중 사용자 환경에서 이러한 성능 저하를 보이지 않으며, 다단계 연산을 통해서 보다 더 나은 성능을 얻을 수 있다. 또한, 제안한 방법은 chip interleaving을 하는 경우, 다단계 연산을 통해 단일 사용자 환경에 대해서도 V-BLAST보다 더 나은 성능을 보인다. 제안한 방법에 대한 이와 같은 성능은 컴퓨터 모의 실험을 통해서 확인해 본다.

대용량 메모리를 가진 병렬 데이터베이스 시스템의 조인 연산 (Join Operation of Parallel Database System with Large Main Memory)

  • 박영규
    • 한국컴퓨터정보학회논문지
    • /
    • 제12권3호
    • /
    • pp.51-58
    • /
    • 2007
  • 확장성에서 장점을 가지고 있는 비공유 병렬 프로세서 구조는 병렬 데이터베이스 시스템에서 많이 적용되고 있는 구조이다. 그러나 비공유 병렬 프로세서 구조는 데이터의 분포가 전체 프로세서에게 균일하게 분포되어 있지 않을 경우에는 일부 프로세서에게 부하가 집중되고 이로 인한 성능의 감소가 불가피하게 되는 단점이 있다. 특히 부하의 불균형 정도가 심한 경우에 조인 연산을 수행할 때 이런 성능 감소의 단점은 두드러진다. 본 논문은 비공유 병렬 프로세서 구조에서 부하의 불균형 정도가 심한 경우에도, 조인 연산을 실시하기 전에 부하 불균형을 고려함으로써 성능 감소를 최소화하고, 메모리의 대용량화를 이용하여 성능을 높인 조인 알고리즘을 제시한다. 또한 알고리즘의 성능 분석을 위한 분석 모델을 제시하며, 분석 모델을 통하여 데이터 불균형 문제를 해결하기 위한 다른 알고리즘과의 성능을 비교한다.

  • PDF

다중프론트 해법의 공유메모리 병렬화 (Parallelization of Multifrontal Solution Method for Shared Memory Architecture)

  • 김민기;김정호;박찬익;김승조
    • 한국항공우주학회지
    • /
    • 제40권11호
    • /
    • pp.972-978
    • /
    • 2012
  • 본 논문은 유한요소 구조해석의 선형해법으로 널리 사용되는 다중프론트 해법의 공유메모리 환경하의 병렬화 방법을 논의한다. 다중프론트 해법은 병렬성이 내재되어 있어서 여타 해법보다 상대적으로 병렬화가 용이한 방법이다. 다중프론트 해법의 공유메모리 컴퓨터에서 최적의 성능을 내도록 병렬 계산을 수행하기 위한 기법들이 제시되었다. 주로 독립적인 계산 작업 시에 필요한 주 메모리 용량을 줄이는 데 초점을 맞춘 방법들로서 프론트 행렬 연성화와 행렬 분리로 명명된 두 기법에 대해 자세히 설명한다. 개발된 방법으로 기존의 알고리즘과의 성능 비교를 수행하여 본지에 제안한 방법이 현대의 다중코어 컴퓨터에서 훨씬 더 효율적인 기법임을 입증하였다.

고속 네트웍 기반의 분산병렬시스템에서의 성능 향상 분석 모델 (Speedup Analysis Model for High Speed Network based Distributed Parallel Systems)

  • 김화성
    • 한국통신학회논문지
    • /
    • 제26권12C호
    • /
    • pp.218-224
    • /
    • 2001
  • 분산병렬처리의 목적은 다양한 내재 병렬 형태의 특징을 갖는 연산 집약적 문제를 고속 네트웍으로 연결되어진 다수의 고성능 및 병렬 컴퓨터들의 각기 다른 능력을 최대한 이용하여 해결함에 있다. 본 논문에서는 분산병렬시스템을 이용하는 경우의 성능 향상 분석을 위해 일반적인 그래프 표현 방법을 포함하는 계산 모델을 제안하고 프로그램의 수행을 위한 스케쥴링 시에 성능 향상이 어떠한 요인에 의해 달성되는지를 분석한다. 제안된 표현 방법은 동기종 및 이기종 시스템 모두에 적용되어질 수 있다. 분산병렬 시스템에서 스케줄링을 통하여 더 많은 속도향상을 얻기 위해서는 태스크와 병렬 컴퓨터간의 병렬특성의 일치가 주의 질게 다루어져야 하며 태스크의 이동으로 인한 통신 오버 헤드가 최소화 되어야 한다.

  • PDF

TBB, Cilk Plus를 이용한 병렬 접미사 트리 생성 알고리즘 구현 및 성능 분석 (Implementation and analysis of a parallel suffix tree construction algorithm using TBB and Cilk Plus)

  • 서준호;나중채
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(A)
    • /
    • pp.403-405
    • /
    • 2012
  • 접미사 트리는 문자열 압축, 텍스트 처리, 생물정보학 등 다양한 응용 분야에서 사용되는 인덱스 자료구조이다. 최근 64bit 하드웨어와 멀티코어 CPU가 보급됨에 따라 메모리상에서 병렬로 접미사 트리를 생성하는 알고리즘이 활발히 연구되고 있다. 본 논문에서는 McCreight의 선형시간 알고리즘과 Chen의 병렬 알고리즘을 기반으로 메모리상에서 접미사 트리를 병렬로 생성하는 구현 방법을 보였으며, TBB, Cilk Plus와 같은 병렬 프로그래밍 라이브러리를 이용하여 병렬 알고리즘을 구현하였다. 알고리즘 실험 결과 병렬로 수행한 알고리즘이 직렬로 수행한 결과보다 최대 4배 가량 성능 향상을 얻을 수 있었으며, 병렬 라이브러리를 사용함으로써 가지는 오버헤드는 극히 적은 것으로 나타났다.

멀티코어를 이용한 차선 검출 병렬화 시스템 설계 (Design of Parallel Processing of Lane Detection System Based on Multi-core Processor)

  • 이효찬;문대철;박인학;허강
    • 한국정보통신학회논문지
    • /
    • 제20권9호
    • /
    • pp.1778-1784
    • /
    • 2016
  • 본 논문에서는 차선 검출 알고리즘에 병렬처리를 적용하여 성능을 개선하였다. 차선 검출은 지능형 보조 시스템으로써 자동차가 차선을 이탈하면 경보음 또는 핸들을 보정해줌으로써 운전자를 돕는 보조 시스템이다. 병렬 처리 알고리즘 중 데이터 레벨 병렬처리는 설계가 간단하지만 병목현상이 발생하는 문제가 있다. 제안하는 고속 데이터 레벨 병렬처리 알고리즘은 병목현상을 줄여 성능이 향상되었다. 실제 블랙박스 도로 영상을 도입하여 알고리즘을 측정한 결과 싱글 코어 경우 약 30 Frames/sec의 성능을 얻었다. 병렬처리를 적용한 결과로써 옥타코어 기준으로 데이터 레벨인 경우 약 100 Frames/sec의 성능을, 고속 데이터 레벨인 경우는 약 150 Frames/sec의 성능을 얻을 수 있다.