• Title/Summary/Keyword: 병렬 연산 처리

Search Result 554, Processing Time 0.038 seconds

Improving the Performance of Information Retrieval System by using GPU Parallelism (GPU 병렬성을 이용한 정보 검색 시스템의 성능 개선)

  • Park, Il-Nam;Bae, Byunggurl;Im, Eun-Jin;Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 2011.10a
    • /
    • pp.83-84
    • /
    • 2011
  • 정보 검색 시스템에서 사용되고 있는 벡터 공간 모델은 벡터 유사도 계산 속도에 따라 전체 시스템의 성능에 많은 영향을 미친다. 본 논문에서는 문서 유사도 계산 성능을 향상시키기 위하여 GPU(Graphic Processing Unit)를 이용하는 CUDA프레임워크에서 병렬처리 연산을 구현하였으며, CPU(Central Processing Unit) 환경에서의 연산 속도와 비교했을 때 최대 15배의 성능 향상 효과가 있음을 확인하였다.

  • PDF

A Study on the Parallel Processing Architecture for the Real Time Image Reconstruction of X-ray CT (X-ray CT의 실시간 영상재구성을 위한 병렬처리 구조에 관한 연구)

  • Jin, Seung-Oh;Heo, Chang-Won;Huh, Young
    • Proceedings of the KIEE Conference
    • /
    • 1999.07g
    • /
    • pp.3153-3155
    • /
    • 1999
  • 최근 수년간 의료영상분야는 국내외적으로 급격한 발전을 거듭하고 있다. 특히 자기공명영상장치 (Magnetic Resonance Imaging), X-ray CT(Computed Tomography)와 단층촬영장치는 인체내부를 비침습적(non-invasive)으로 영상화함으로써 해부학적인 질병진단에 많은 장점을 가지고 있다. 이와같은 단층영상 재구성에는 역매트릭스법(matrix inversion). 반복재구성법(interative method), 역투영 법(back-projection), 2차원 Fourier 변환법(2D FFT), 중첩재구성법(Filtered back-projection) 등의 다양한 알고리즘을 사용하고 있다. 본 연구에서는 X-ray CT에서의 단층영상재구성 기법 중 널리 사용되고 있는 Filtered Back Projection 기법의 연산순서도와 연산량을 분석하고 이를 시뮬레이션을 통하여 확인하고 실시간 영상재구성을 위하여 범용 Digital Signal Processor의 병렬처리시스템 구성에 기반된 최적 Architecture를 선정하고자 한다.

  • PDF

Implementation and Performance Evaluation of Task Creation/Assignment Algorithms in Parallel Spatial Join using R-tree (R-tree를 이용한 병렬공간 조인의 태스크 생성/할당 알고리즘의 구현 및 성능평가)

  • 서영덕;김진덕;홍봉희
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10b
    • /
    • pp.111-113
    • /
    • 1998
  • 공간조인은 지리정보 시스템에서 공간분석을 위한 주요 연산중의 하나이다. 이러한 공간조인은 대상이 되는 공간 객체의 수가 증가함에 따라 연산시간이 지수적으로 증가하는 특징을 가지고 있다. 그래서 대규모 공간 데이터에 다한 공간 연산시간을 줄이기 위한 처리기법이 연구되고 있다. 그렇지만, 공유 디스크 구조에서 다중 프로세서의 디스크 동시 접근으로 인한 병목현상을 완화하고, 프로세서간의 공유 디스크 구조에서 다중 프로세서의 디스크 동시 접근으로 인한 병목현상을 완화하고, 프로세서간의 메시지 전달을 최소화하기 위한 태스크 생성방법, 태스크 할당방법에 관한 구체적인 연구가 없었다. 그래서 우선 병렬 공간 조인의 성능저하 요인을 분석하고, 이에 대한 성능 향상방안을 제시한다. 구체적으로 디스크 접근 시간을 줄이기 위한 객체 캐쉬 방법과 시공간 지역성을 이용한 태스크 생성 및 할당방법을 제시한다. 그리고 제안한 방법들에 대해 실험평가를 통해 최대 7.2배의 성능증가를 획득할 수 있음을 보여준다.

Deep Neural Network Optimization for Embedded Speech Recognition (내장형 음성 인식 시스템을 위한 심층 신경망 최적화 방법)

  • Chung, Hoon;Choi, Woo-Yong;Park, Jeon-Gue
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.231-233
    • /
    • 2015
  • 본 논문에서는 심층 신경망 기반의 내장형 음성 인식 시스템에서 음성 인식 속도를 개선하기 위한 최적화 방법에 대해 논한다. 심층 신경망 기반의 음성 인식은 기존의 Gaussian Mixture Model (GMM) 기반에 비해 좋은 인식 성능을 보이지만 높은 연산량으로 인해 리소스가 제약된 내장형 단말기에 적용하기에는 어려움이 따른다. 따라서, 본 연구에서는 심층 신경망의 계산량 문제를 해결하고자 ARM 코어에 내장된 병렬 명령어를 사용한 최적화 기법과 특이값 분해를 통해 심층 신경망 매트릭스 연산량 감소 방안에 대해 제안한다.

  • PDF

Performance Evaluation of the GPU Architecture Executing Parallel Applications (병렬 응용프로그램 실행 시 GPU 구조에 따른 성능 분석)

  • Choi, Hong-Jun;Kim, Cheol-Hong
    • The Journal of the Korea Contents Association
    • /
    • v.12 no.5
    • /
    • pp.10-21
    • /
    • 2012
  • The role of GPU has evolved from graphics-specific processing to general-purpose processing with the development of unified shader core architecture. Especially, execution methods for general-purpose parallel applications using GPU have been researched intensively, since the parallel hardware architecture can be utilized efficiently when the parallel applications are executed. However, current GPU architecture has limitations in executing general-purpose parallel applications, since the GPU is not specialized for general-purpose computing yet. To improve the GPU performance when general-purpose parallel applications are executed, the GPU architecture should be evolved. In this work, we analyze the GPU performance according to the architecture varying the number of cores and clock frequency. Our simulation results show that the GPU performance improves by up to 125.8% and 16.2% as the number of cores increases and the clock frequency increases, respectively. However, note that the improvement of the GPU performance is saturated even though the number of cores increases and the clock frequency increases continuously, since the data cannot be provided to the GPU due to the limit of memory bandwidth. Consequently, to accomplish high performance effectiveness on GPU, computational resources must be more suitably considered.

Design of a High Performance Exponentiation VLSI in Galois Field through Effective Use of Systems Constants (시스템 상수의 효과적인 사용을 통한 Galois 필드에서의 고성능 지수제곱 연산 VLSI 설계)

  • Han, Young-Mo
    • Journal of the Institute of Electronics Engineers of Korea SC
    • /
    • v.47 no.1
    • /
    • pp.42-46
    • /
    • 2010
  • Encapsulation for information security is often carried out in Galois field in the form of arithmetic operations. This paper proposes how to efficiently perform exponentiation of arithmetic information on Galois field. Especially, by improving an existing bit-parallel exponentiator to exclude elements with heavy gate counts and to take advantage of system constants, this paper proposes how to implement a VLSI architecture with high performance even for large m.

Development of a Parallel DSP System (병렬 신호처리 시스템 개발에 관한 연구)

  • Oh, Hyung-Keun;Kim, Wook;Jung, Su-Woon;Lee, Dong-Ho;Park, Sung-Ju;Jeon, Chang-Ho
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10c
    • /
    • pp.847-849
    • /
    • 2001
  • 방대한 양의 실시간 연산을 요구하는 영상 신호처리, 소나, 레이다와 같은 시스템에서는 성능을 최대화하기 위해 병렬 신호처리 시스템의 사용이 불가피하다. 본 논문은 2개의 DSP칩(TMS320C6701)을 사용하여 설계 및 구현한 병렬 신호처리보드의 구성과 이를 구동시키기 위한 소프트웨어 구성체계를 제시한다.

  • PDF

Design of a SIMT architecture GP-GPU Using Tile based on Graphic Pipeline Structure (타일 기반 그래픽 파이프라인 구조를 사용한 SIMT 구조 GP-GPU 설계)

  • Kim, Do-Hyun;Kim, Chi-Yong
    • Journal of IKEEE
    • /
    • v.20 no.1
    • /
    • pp.75-81
    • /
    • 2016
  • This paper proposes a design of the tile based on graphic pipeline to improve the graphic application performance in SIMT based GP-GPU. The proposed Tile based on graphics pipeline avoids unnecessary graphic processing operation, and processes the rasterization step in parallel. The massive data processing in parallel through SIMT architecture improve the computational performance, thereby improving the 3D graphic pipeline performance. The more vertex data of 3D model, the higher performance. The proposed structure was confirmed to improve processing performance of up to 3 times from about 1.18 times as compared to 'RAMP' and previous studies.

Software Method for Improving the Performance of Real-time Rendering (실시간 렌더링의 속도 향상을 위한 소프트웨어적 기법)

  • Han, Young-Min;Hwang, Seok-Min;Sung, Mee-Young
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11a
    • /
    • pp.757-759
    • /
    • 2005
  • 일반적인 렌더링 방식은 응용$\rightarrow$기하$\rightarrow$래스터화로 진행되는 렌더링 파이프라인 상에서 진행된다. 그래픽 카드의 발전으로 기하 단계의 연산을 GPU가 담당함에 따라 CPU의 연산을 줄여 CPU가 많은 연산을 할 수 있게 되었다. 그러나 이 같은 분배로 인해 CPU와 GPU가 서로 끝나기를 기다리는 병목현상이 발생하게 되었다. 이러한 병목 현상은 효율적인 렌더링을 저해하는 요인이다. 본 연구의 목적은 CPU와 GPU의 병렬처리 과정에서 발생하는 병목현상을 줄여 실시간 렌더링에서 그래픽 출력을 더욱 빠르게 하는데 있다. 이를 위해 본 논문에서는 그래픽 출력 과정 중 CPU 와 GPU 사이에서 하드웨어적으로 처리되고 있는 동기적 처리 과정을 소프트웨어적인 기법을 이용하여 비동기적으로 처리함으로써 성능을 향상시킬 수 있음을 말하고자 한다.

  • PDF

Frequency Hopping Signal Analysis Using High-Speed Parallel Processing (고속 병렬처리 기법을 활용한 주파수 도약 신호 분석)

  • Lee, Kwang-Yong;Yoon, Hyun-Chul;Lee, Hyeon-Hwi
    • The Journal of Korean Institute of Electromagnetic Engineering and Science
    • /
    • v.25 no.2
    • /
    • pp.251-254
    • /
    • 2014
  • In this paper, we studied a technique of extracting a Frequency Hopping(FH) signal for analysis using high-speed parallel processing structure. Unlike fixed frequency signal, FH signal is difficult to detect and analyze because FH systems use many random frequencies instead of a single carrier frequency. To solve this problem we designed a method that analyze FH signal using high-speed parallel processing. In order to apply parallel processing, we use CUDA using GPU and compare single processing with prarallel processing. As a result, using CUDA on a GPU is about 8.53 times faster than single processing.