• 제목/요약/키워드: 병렬연산

검색결과 820건 처리시간 0.028초

다중 GPU기반 홀로그램 생성을 위한 병렬처리 성능 최적화 기법 (An Optimization Method for Hologram Generation on Multiple GPU-based Parallel Processing)

  • 국중진
    • 스마트미디어저널
    • /
    • 제8권2호
    • /
    • pp.9-15
    • /
    • 2019
  • 홀로그램의 생성을 위한 연산은 포인트 클라우드의 규모에 따라 연산량이 기하급수적으로 증가하기 때문에 최근에는 다중의 GPU를 기반으로 CUDA 또는 OpenCL 라이브러리를 활용한 병렬처리가 이루어지고 있다. GPU기반의 병렬처리를 위한 CUDA 커널은 GPU의 코어 개수와 메모리 크기를 고려하여 쓰레드(thread), 블록(block), 그리드(grid)를 구성해야 하며, 다중 GPU 환경인 경우 GPU의 개수에 따른 그리드, 블록, 또는 쓰레드 단위의 분산처리가 필요하다. 본 논문에서는 CGH 생성에 대한 성능평가를 위해 포인트 클라우드의 포인트 개수를 10~1,000,000개 범위에서 점진적으로 증가시키면서 CPU, 단일 GPU, 다중 GPU 환경에서 연산 속도를 비교해 보았으며, 다중 GPU 환경에서 CGH(Computer Generated Hologram) 생성 연산을 가속화하기 위한 CUDA 기반의 병렬처리 과정에서 요구되는 메모리 구조 설계와 연산 방법을 제안한다.

$GF(2^m)$상의 AOP 기반 비-시스토릭 병렬 $AB^2+C$연산기 (A Base AOP Bit-Parallel Non-Systolic for $AB^2+C$ Computing Unit for $GF(2^m)$)

  • 황운택
    • 한국정보통신학회논문지
    • /
    • 제10권9호
    • /
    • pp.1538-1544
    • /
    • 2006
  • 본 논문은 $GF(2^m)$상의 n차 기 약 AOP를 적용하여 비-시스토릭 병렬 $AB^2+C$ 연산기를 제안한다. 본 논문에서 제안한 연산기 회로는 AND게이트와 EX-OR 게이트만을 사용하여 설계되어지며, 설계된 회로는 기약 AOP의 특성을 이용하여 게이트를 사용하지 않고 결선으로만 연결되어 게이트 및 지 연시간이 없는 순환이동과, m개의 AND 게이트와 m개의 EX-OR게이트를 필요로 하는 승산연산, EX-OR게이트로만 구성되어지는 멱승연산, 승산연산과 멱승연산을 이용한 파워섬연산 및 가산연산 등이 사용된다. 제안된 연산기 법은 AND게이트와 EX-OR게이트만을 사용함으로 고속의 데이터 처리, 저전력 및 집적화 등의 장점이 있으며, $T_A+(1+[log^m_2])T_X$의 연산 지연시간을 갖는다.

대용량 메모리를 가진 병렬 데이터베이스 시스템의 조인 연산 (Join Operation of Parallel Database System with Large Main Memory)

  • 박영규
    • 한국컴퓨터정보학회논문지
    • /
    • 제12권3호
    • /
    • pp.51-58
    • /
    • 2007
  • 확장성에서 장점을 가지고 있는 비공유 병렬 프로세서 구조는 병렬 데이터베이스 시스템에서 많이 적용되고 있는 구조이다. 그러나 비공유 병렬 프로세서 구조는 데이터의 분포가 전체 프로세서에게 균일하게 분포되어 있지 않을 경우에는 일부 프로세서에게 부하가 집중되고 이로 인한 성능의 감소가 불가피하게 되는 단점이 있다. 특히 부하의 불균형 정도가 심한 경우에 조인 연산을 수행할 때 이런 성능 감소의 단점은 두드러진다. 본 논문은 비공유 병렬 프로세서 구조에서 부하의 불균형 정도가 심한 경우에도, 조인 연산을 실시하기 전에 부하 불균형을 고려함으로써 성능 감소를 최소화하고, 메모리의 대용량화를 이용하여 성능을 높인 조인 알고리즘을 제시한다. 또한 알고리즘의 성능 분석을 위한 분석 모델을 제시하며, 분석 모델을 통하여 데이터 불균형 문제를 해결하기 위한 다른 알고리즘과의 성능을 비교한다.

  • PDF

새로운 H.264/AVC CAVLC 고속 병렬 복호화 회로 (A New H.264/AVC CAVLC Parallel Decoding Circuit)

  • 여동훈;신현철
    • 대한전자공학회논문지SD
    • /
    • 제45권11호
    • /
    • pp.35-43
    • /
    • 2008
  • 새로운 컨텍스트 기반 적응형 가변 길이 코드의 효율적인 병렬처리 기법을 개발하였다. 본 논문에서는 확장적인 병렬처리, 작은 면적, 저전력 설계를 위한 몇 가지 새로운 아이디어 제시한다. 첫 번째, 빠른 저전력 연산을 위해 메모리 방식 대신에 단순화된 논리 연산 방식으로 회로를 설계하였다. 두 번째, 효율적인 논리 연산을 위하여 코드 길이를 이용하여 코드들을 그룹지었다. 세 번째, M 비트까지의 입력은 고속 처리를 위하여 병렬 처리하였다 비교를 위해 M=8인 병렬 논리 연산 복호기와 대표적인 기존 방식의 복호기를 설계하여 비교하였다. 실험 결과, 제안한 기법은 고속 병렬처리가 가능하며 같은 복호 속도 (M=8일 때, 1.57codes/cycle) 에서는 기존 방식의 복호기보다 46% 작은 면적을 사용한다.

코어레이와 MPI를 이용한 병렬 파동 전파 모델링과 거꿀 참반사 보정 성능 비교 (A Performance Comparison between Coarray and MPI for Parallel Wave Propagation Modeling and Reverse-time Migration)

  • 류동현;김아름;하완수
    • 지구물리와물리탐사
    • /
    • 제19권3호
    • /
    • pp.131-135
    • /
    • 2016
  • 코어레이는 포트란 2008 표준에 도입된 병렬 연산 기법이다. 코어레이를 이용하면 간단한 문법으로 분산 메모리시스템에서 병렬 연산을 구현할 수 있다. 본 연구에서는 탄성파 자료 처리 프로그램에 코어레이와 MPI를 적용하여 병렬 처리 성능을 비교하고 이를 통해 코어레이의 적용 가능성을 살펴보았다. 파동 전파 모델링을 이용해 연산 성능을 비교하였고, 영역 분해 기법을 이용해 일대일 통신 성능을 비교하였다. 또한 거꿀 참 반사 보정 프로그램을 이용해 병렬 처리 성능을 비교하였다. 그 결과 연산 성능은 코어레이 프로그램과 MPI 프로그램에서 큰 차이가 없었지만 통신 성능은 MPI가 우수했다.

Mobile Phone Camera의 이미지 프레임 단위 처리를 위한 소형화된 Serial-Divider의 하드웨어 구현 (Hardware Implementation of Minimized Serial-Divider for Image Frame-Unit Processing in Mobile Phone Camera.)

  • 김경린;이성진;김현수;김강주;강봉순
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2007년도 추계종합학술대회
    • /
    • pp.119-122
    • /
    • 2007
  • 본 논문에서는 모바일 폰 카메라의 프레임 단위 영상 신호 처리 과정에서 필요한 나눗셈 연산을 위한 나눗셈기 설계 방법을 제안한다. 나눗셈기의 내부 데이터 처리 방법에는 직렬 방식과 병렬 방식이 있다. 직렬방식은 실시간 연산이 가능한 반면에 많은 비교기와 Buffer Memory의 사용으로 인해 하드웨어 사이즈가 크다. 병렬방식은 실시간 연산을 할 수 없지만 하나의 비교기를 공유해서 연산함으로 직렬방식에 비해 하드웨어 크기를 줄일 수 있다. 이미지 처리를 위한 프레임 단위 연산은 실시간 연산을 필요로 하지 않으므로 하드웨어 자원으 효율성을 위해 직렬방식 나눗셈기를 적용한다. 입출력 조건을 동일하게 해서 병렬방식과 직렬방식의 나눗셈을 구현하여 하드웨어 크기를 비교 했을 때 동일한 동작 주파수에서 직렬방식의 나눗셈기가 병렬방식의 나눗셈기의 대락 1/8 정도의 하드웨어 크기를 가지는 것을 확인하였다.

  • PDF

비터비 알고리즘의 효율적인 연산을 위한 DSP 구조 설계 (Efficient DSP Architecture for Viterbi Algorithm)

  • 박원흠;선우명훈;오성근
    • 한국통신학회논문지
    • /
    • 제30권3A호
    • /
    • pp.217-225
    • /
    • 2005
  • 본 논문은 다양한 무선 통신 표준에서 사용되는 비터비 알고리즘을 위한 전용의 DSP 명령어 및 하드웨어 구조를 제안한다. 제안한 구조는 비터비 알고리즘의 Trace Back(TB) 연산 사이클을 효과적으로 줄일 수 있다. 제안된 비터비 전용 명령어와 하드웨어 구조는 비터비 연산의 Add Compare Select(ACS) 연산 과정과 TB 연산 과정의 병렬 처리가 가능하며, 병렬 연산을 지원하기 위해 트랠리스 버터플라이 연산 과정에서 필요한 데이터를 자동으로 생성하는 Offset Calculation Unit(OCU)을 제안한다. 제안된 OCU는 삼성 SEC 0.18μm라이브러리로 로직 합성하여 1,460 게이트 개수를 가지며, 최대 지연 시간은 5.75ns를 나타내었다. 사용된 ACS-TB 병렬 처리 방식은 Eb/No 값이 6dB인 경우 MLSE 등화기 사용 사용되는 일반적인 TB 연산 방식과 비교하여 거의 동일한 BER 성능을 보여 주었으며, 제안한 DSP는 구속장 K=5 일 때 Carmel DSP와 비교하여 11%, TI TMS320c55x와 비교하여 45%의 연산 사이클이 줄일 수 있다.

헤테로지니어스 멀티코어 성능 최적화를 위한 하이브리드 병렬 프로그래밍 (Hybrid parallel programming for Heterogeneous Multi-core performance optimization)

  • 임주호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(A)
    • /
    • pp.7-9
    • /
    • 2012
  • CPU는 싱글 코어 구조에서 클록 속도를 높여 성능을 향상 시키려는 노력을 해왔으나 한계에 도달하자 하나의 칩에 코어를 여러 개 둔 멀티코어 형태로 발전하였다. CPU의 성능 향상을 위해 이제는 3D그래픽을 연산처리하기 위해 만들어진 GPU와 결합하기에 이르렀다. CPU와 GPU의 결합은 CPU간의 결합보다 훨씬 더 좋은 성능을 보였고 전력의 사용량도 더 적었으며 비용면에서도 경제적이라는 장점을 가지고 있다. 본 논문에서는 CPU와 GPU의 Heterogeneous multicore상에서 성능을 최적화하기 위해 기존의 병렬화 모델을 조합하고 최적화를 시도하였다. CPU상에서는 성능 향상을 위해 기존의 병렬 프로그램 모델인 SIMD와 공유메모리 병렬 프로그래밍 모델 그리고 메시지 패싱 병렬 프로그래밍 모델을 조합하는 실험을 했다. GPU에서는 CUDA를 최적화 하였다. 이렇게 CPU와 GPU를 최적화하고 조합하여 고성능 연산을 요구하는 어플리케이션을 위한 Heterogeneous multicore 성능 최적화 방법을 제안한다.

혼합형 병렬처리 및 파이프라이닝을 활용한 소수 연산 알고리즘 (Performance Enhancement of Parallel Prime Sieving with Hybrid Programming and Pipeline Scheduling)

  • 유승요;김동승
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제4권10호
    • /
    • pp.337-342
    • /
    • 2015
  • 이 논문에서는 소수 추출 방법인 Sieve of Eratosthenes 알고리즘을 병렬화하여 실행 시간과 에너지 소모 면에서 개선된 효과를 얻고자 실험을 진행하였다. 성능 개선을 위해 부하 균등화를 정교하게 조절하도록 파이프라인 작업 방식을 도입하였고, 멀티코어 컴퓨터 클러스터에 하이브리드 병렬 프로그래밍 모델을 활용하여 효과를 높였다. 소규모 컴퓨터 클러스터와 저전력 컴퓨터에서 구현, 실험한 결과 이전 방식보다 연산 속도가 향상되었고, 에너지 사용량도 감소함을 확인하였다.