• Title/Summary/Keyword: 병렬 연산 처리

Search Result 550, Processing Time 0.03 seconds

A Study on High Speed Image Rotation Algorithm using CUDA (CUDA를 이용한 고속 영상 회전 알고리즘에 관한 연구)

  • Kwon, Hee-Choul;Cho, Hyung-Jin;Kwon, Hee-Yong
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.16 no.5
    • /
    • pp.1-6
    • /
    • 2016
  • Image rotation is one of main pre-processing step in image processing or image pattern recognition. It is implemented with rotation matrix multiplication. However it requires lots of floating point arithmetic operations and trigonometric function calculations, so it takes long execution time. We propose a new high speed image rotation algorithm without two major time-consuming operations. It use just 2 shear translation operations, so it is very fast. In addition, we apply a parallel computing technique with CUDA. CUDA is a massively parallel computing architecture using prevailed GPU recently. As GPU is a dedicated graphic processor, it is exellent for parallel processing of pixels. We compare the proposed algorithm with the conventional rotation one with various size images. Experimental results show that the proposed algorithm is superior to the conventional rotation ones.

Implementation of DES Algorithm using CUDA (CUDA를 이용한 DES 구현)

  • Kim, Juho;Park, Neungsoo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.11a
    • /
    • pp.1086-1087
    • /
    • 2012
  • GPU를 이용하여 병렬 처리 연산을 하는 연구는 활발히 진행되고 있고, 이미 많은 곳에서 사용되고 있다. 본 논문에서는 엔비디아에서 개발한 CUDA를 사용하여 DES 알고리즘을 고속으로 구현하기 위해 CUDA overlapping을 이용했다. 이것은 GPU 에서 연산을 하는 동시에 연산 결과를 바로 Host로 보내어 연산시간과 전송시간을 Overlap 하여 시간을 더 단축 하도록 하는 구현방법이다. 그 결과 Overlap 하기 전보다 약 30%의 성능향상을 확인 할 수 있었다. 향후 DES 뿐만 아니라 3DES, AES, SEED 등 여러 암호화 알고리즘들도 적용할 예정이다.

Technology and Trend of Parallel Processor (병렬 프로세서 기술 및 동향)

  • Chung, M.K.;Park, S.M.;Eum, N.W.
    • Electronics and Telecommunications Trends
    • /
    • v.24 no.6
    • /
    • pp.86-93
    • /
    • 2009
  • 프로세서는 더 이상 동작 주파수를 높이는 방법이 아닌 다수의 프로세서를 집적하는 멀티프로세서로 기술 발전이 이루어지고 있다. 최근 2, 4, 8개의 프로세서 코어를 넘어 64, 128개 이상의 프로세서를 집적한 대규모 데이터 처리 및 과학 연산용 고성능 프로세서들이 개발되고 있다. 본 문서는 이러한 병렬 프로세싱의 개념 및 병렬 프로세서의 기술을 정리하고 최근 동향과 함께 당면한 문제점들을 기술한다.

Design of a Pipelined PC Cluster using Idle PCs on LAN (LAN상의 유휴 PC들을 사용한 파이프라인 방식의 PC Cluster의 설계)

  • Kim, Young-Gyun;Oh, Gil-Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.11b
    • /
    • pp.1037-1040
    • /
    • 2003
  • 본 논문에서는 LAN 상에서 유휴 PC 들을 연산에 활용하는 PC Cluster 시스템에 대해 연구하였다. 특히, PC 실습실에 있는 PC 들의 유휴시간(Idle time)대를 이용하여 Cluster 연산에 사용함으로써 별도의 전용 클러스터 시스템을 설치하기 위한 하드웨어 및 설치 공간이 필요로 하지 않는다는 장점을 갖는다. PC 실습실의 PC 들은 주간에는 주로 교육 및 실습에 사용되며 오후 6시부터 오전 9시까지의 실습에 사용되지 않는 유휴시간을 CPU-Intensive 한 작업들을 병렬로 수행하는 PC Cluster로 구성하여 저가격의 고성능 시스템을 구축할 수 있다. 그리고 특정 연산을 전담하는 노드들을 지정하고 이 노드들의 연산 결과를 인접한 다른 노드들에게 전달함으로써 연속적인 다음 연산을 적용할 수 있도록 파이프라인(Pipeline) 형태로 구성한다. 파이프라인 형태의 PC Cluster 에서 연산을 겹침(Overlapped)으로서 처리량(Throughput)을 높일 수 있다. LAN으로 연결된 PC 실습실의 PC 들은 인터넷상의 연산 자원들보다 안정되고 신뢰성이 있기 때문에 복잡한 보안 기법을 사용하지 않아도 된다. 또한 연산시간이 유휴시간으로 고정되어 있기 때문에 네트워크의 부하 및 노드의 부하를 고려하는 복잡한 부하균등화 기법이나 스케줄링 기법이 필요로 하지 않는다.

  • PDF

A Study on the 3 Dimension Graphics Accelerator for Phong Shading Algorithm (Phong Shading 알고리즘을 적용한 3차원 영상을 위한 고속 그래픽스 가속기 연구)

  • Park, Youn-Ok;Park, Jong-Won
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.10 no.5
    • /
    • pp.97-103
    • /
    • 2010
  • There are many algorithms for 2D to 3D graphic conversion technology which have the high complexity and large scale of iterative computation. So in this paper propose parallel algorithm and high speed graphics accelerator architecture using Park's MAMS(Multiple Access Memory System) for Phong Shading, one of many 3D algorithms. The Proposed SIMD processor architecture is simulated by HDL and simulated and got 30 times faster result. It means any kinds of 3D algorithm can make parallel algorithm and accelerated by SIMD processor with Park's MAMS for real time processing.

Parallel Rabin Fingerprinting on GPGPU for Efficient Data Deduplication (효율적인 데이터 중복제거를 위한 GPGPU 병렬 라빈 핑거프린팅)

  • Ma, Jeonghyeon;Park, Sejin;Park, Chanik
    • Journal of KIISE
    • /
    • v.41 no.9
    • /
    • pp.611-616
    • /
    • 2014
  • Rabin fingerprinting used for chunking requires the largest amount computation time in data deduplication, In this paper, therefore, we proposed parallel Rabin fingerprinting on GPGPU for efficient data deduplication. In addition, for efficient parallelism in Rabin fingerprinting, four issues are considered. Firstly, when dividing input data stream into data sections, we consider the data located near the boundaries between data sections to calculate Rabin fingerprint continuously. Secondly, we consider exploiting the characteristics of Rabin fingerprinting for efficient operation. Thirdly, we consider the chunk boundaries which can be changed compared to sequential Rabin fingerprinting when adapting parallel Rabin fingerprinting. Finally, we consider optimizing GPGPU memory access. Parallel Rabin fingerprinting on GPGPU shows 16 times and 5.3 times better performance compared to sequential Rabin fingerprinting on CPU and compared to parallel Rabin fingerprinting on CPU, respectively. These throughput improvement of Rabin fingerprinting can lead to total performance improvement of data deduplication.

Design of Line Scratch Detection and Restoration Algorithm using GPU (GPU를 이용한 선형 스크래치 탐지와 복원 알고리즘의 설계)

  • Lee, Joon-Goo;Shim, She-Yong;You, Byoung-Moon;Hwang, Doo-Sung
    • Journal of the Korea Society of Computer and Information
    • /
    • v.19 no.4
    • /
    • pp.9-16
    • /
    • 2014
  • This paper proposes a linear scratch detection and restoration algorithm using pixel data comparison in a single frame or consecutive frames. There exists a high parallelism in that a scratch detection and restoration algorithm needs a large amount of comparison operations. The proposed scratch detection and restoration algorithm is designed with a GPU for fast computation. We test the proposed algorithm in sequential and parallel processing with the set of digital videos in National Archive of Korea. In the experiments, the scratch detection rate of consecutive frames is as fast as about 20% for that of a single frame. The detection and restoration rates of a GPU-based algorithm are similar to those of a CPU-based algorithm, but the parallel implementation speeds up to about 50 times.

Implementation of PSO(Particle Swarm Optimization) Algorithm using Parallel Processing of GPU (GPU의 병렬 처리 기능을 이용한 PSO(Particle Swarm Optimization) 알고리듬 구현)

  • Kim, Eun-Su;Kim, Jo-Hwan;Kim, Jong-Wook
    • Proceedings of the KIEE Conference
    • /
    • 2008.10b
    • /
    • pp.181-182
    • /
    • 2008
  • 본 논문에서는 연산 최적화 알고리듬 중 PSO(Particle Swarm Optimization) 알고리듬을 NVIDIA사(社)에서 제공한 CUDA(Compute Unified Device Architecture)를 이용하여 새롭게 구현하였다. CUDA는 CPU가 아닌 GPU(Graphic Processing Unit)의 다양한 병렬 처리 능력을 사용해 복잡한 컴퓨팅 문제를 해결하는 소프트웨어 개발을 가능케 하는 기술이다. 이 기술을 연산 최적화 알고리듬 중 PSO에 적용함으로써 알고리듬의 수행 속도를 개선하였다. CUDA를 적용한 PSO 알고리듬의 검증을 위해 언어 기반으로 프로그래밍하고 다양한 Test Function을 통해 시뮬레이션 하였다. 그리고 기존의 PSO 알고리듬과 비교 분석하였다. 또한 알고리듬의 성능 향상으로 여러 가지 최적화 분야에 적용 할 수 있음을 보인다.

  • PDF

Improving the Performance of Information Retrieval System by using GPU Parallelism (GPU 병렬성을 이용한 정보 검색 시스템의 성능 개선)

  • Park, Il-Nam;Bae, Byunggurl;Im, Eun-Jin;Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 2011.10a
    • /
    • pp.83-84
    • /
    • 2011
  • 정보 검색 시스템에서 사용되고 있는 벡터 공간 모델은 벡터 유사도 계산 속도에 따라 전체 시스템의 성능에 많은 영향을 미친다. 본 논문에서는 문서 유사도 계산 성능을 향상시키기 위하여 GPU(Graphic Processing Unit)를 이용하는 CUDA프레임워크에서 병렬처리 연산을 구현하였으며, CPU(Central Processing Unit) 환경에서의 연산 속도와 비교했을 때 최대 15배의 성능 향상 효과가 있음을 확인하였다.

  • PDF

A Study on the Parallel Processing Architecture for the Real Time Image Reconstruction of X-ray CT (X-ray CT의 실시간 영상재구성을 위한 병렬처리 구조에 관한 연구)

  • Jin, Seung-Oh;Heo, Chang-Won;Huh, Young
    • Proceedings of the KIEE Conference
    • /
    • 1999.07g
    • /
    • pp.3153-3155
    • /
    • 1999
  • 최근 수년간 의료영상분야는 국내외적으로 급격한 발전을 거듭하고 있다. 특히 자기공명영상장치 (Magnetic Resonance Imaging), X-ray CT(Computed Tomography)와 단층촬영장치는 인체내부를 비침습적(non-invasive)으로 영상화함으로써 해부학적인 질병진단에 많은 장점을 가지고 있다. 이와같은 단층영상 재구성에는 역매트릭스법(matrix inversion). 반복재구성법(interative method), 역투영 법(back-projection), 2차원 Fourier 변환법(2D FFT), 중첩재구성법(Filtered back-projection) 등의 다양한 알고리즘을 사용하고 있다. 본 연구에서는 X-ray CT에서의 단층영상재구성 기법 중 널리 사용되고 있는 Filtered Back Projection 기법의 연산순서도와 연산량을 분석하고 이를 시뮬레이션을 통하여 확인하고 실시간 영상재구성을 위하여 범용 Digital Signal Processor의 병렬처리시스템 구성에 기반된 최적 Architecture를 선정하고자 한다.

  • PDF