• 제목/요약/키워드: Parallel Processing Algorithm

검색결과 680건 처리시간 0.028초

SDR 시스템에서 GPU를 사용한 Lattice Reduction-aided 검출기 구현 (Implementation of Lattice Reduction-aided Detector using GPU on SDR System)

  • 김태현;이현석;최승원
    • 디지털산업정보학회논문지
    • /
    • 제7권3호
    • /
    • pp.55-61
    • /
    • 2011
  • This paper presents an implementation of Lattice Reduction (LR)-aided detector for Multiple-Input Multiple-Output (MIMO) system using Graphics Processing Unit (GPU). GPU is a parallel processor which has a number of Arithmetic Logic Units (ALUs), thus, it can minimize the operation time of LR algorithm through the parallelization using multiple threads in the GPU. Through the implemented LR-aided detector, we verify that the LR-aided detector operates a lot faster than Maximum Likelihood (ML) detector. The implemented LR-aided detector has been applied to WiMAX system to show the feasibility of its real-time processing. In addition, we demonstrate that the processing time can be reduced at the cost of 3dB SNR loss by limiting the repeating loop in Lenstra-Lenstra-Lovasz (LLL) algorithm which is frequently used in LR-aided detector.

Improved Disparity Map Computation on Stereoscopic Streaming Video with Multi-core Parallel Implementation

  • Kim, Cheong Ghil;Choi, Yong Soo
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제9권2호
    • /
    • pp.728-741
    • /
    • 2015
  • Stereo vision has become an important technical issue in the field of 3D imaging, machine vision, robotics, image analysis, and so on. The depth map extraction from stereo video is a key technology of stereoscopic 3D video requiring stereo correspondence algorithms. This is the matching process of the similarity measure for each disparity value, followed by an aggregation and optimization step. Since it requires a lot of computational power, there are significant speed-performance advantages when exploiting parallel processing available on processors. In this situation, multi-core CPU may allow many parallel programming technologies to be realized in users computing devices. This paper proposes parallel implementations for calculating disparity map using a shared memory programming and exploiting the streaming SIMD extension technology. By doing so, we can take advantage both of the hardware and software features of multi-core processor. For the performance evaluation, we implemented a parallel SAD algorithm with OpenMP and SSE2. Their processing speeds are compared with non parallel version on stereoscopic streaming video. The experimental results show that both technologies have a significant effect on the performance and achieve great improvements on processing speed.

병렬 처리 시스템을 위한 효율적인 복제 중심 스케쥴링 알고리즘 (An Efficient Duplication Based Scheduling Algorithm for Parallel Processing Systmes)

  • 박경린;추현승
    • 한국정보처리학회논문지
    • /
    • 제6권8호
    • /
    • pp.2050-2059
    • /
    • 1999
  • 다중 처리기 시스템에서의 병렬 처리를 위한 스케줄링 문제는 지난 수 십년 동안 중요한 연구 과제가 되어왔다. 다중 처리기 스케줄링 문제(multiprocessor scheduling problem)란 다중 처리기 시스템에서 병렬 수행 시간(parallel execution time)을 최소화 할 수 있는 최적의 스케줄을 구하는 문제로 정의된다. 복제 중심 타스크 스케줄링은 이러한 문제를 풀기 위한 비교적 새로운 접근 방법이다. 이 논문은 복제 중심 스케줄링 알고리즘들을 타스크 복제 방법에 따라서 전체 복제와 부분 복제의 두 가지로 분류하고, 그 두가지 방법의 장점들을 결합한 새로운 스케줄링 알고리즘을 제안한다. 시뮬레이션 결과는 이 논문에서 제안된 스케줄링 알고리즘이 비슷한 복잡도(time complexity)를 갖는 다른 스케줄링 알고리즘보다 우수함을 보여준다.

  • PDF

EPIC 아키텍쳐를 위한 적극적 레지스터 할당 알고리듬 (An Aggressive Register Allocation Algorithm for EPIC Architectures)

  • 최준기;이상정
    • 한국정보처리학회논문지
    • /
    • 제6권2호
    • /
    • pp.497-511
    • /
    • 1999
  • 최근 많은 명령어 수준 병렬 처리 기술들이 개발되면서 ILP 프로세서 성능이 급격히 증가하고 있다. 특히, 새로운 기술로 주목 받고 있는 EPIC(Explicitly Parallel Instruction Computing) 아키텍쳐는 조건실행 (Predicated Execution)과 투기적실행(Speculative execution)을 하드웨어와 접목하여 성능 향상을 시도하고 있다. 본 논문에서는 EPIC 아키텍쳐의 특성을 최대로 활용하여 코드 스케줄 가능성을 높이는 새로운 레지스터 할당 알고리듬을 제안한다. 그리고, 제안된 레지스터 할당 알고리듬은 조건실행의 적용으로 인하여 더욱 효율을 높일 수 있음을 실험을 통하여 입증한다. 실험 결과 기존의 레지스터 할당 방법에 비하여 평균 19%의 성능 향상을 보임으로써 제안된 레지스터 할당 방법이 효과적임을 검증한다.

  • PDF

병렬처리를 위한 고속 Ray Tracing 프로세서의 설계 (Implementation of Ray Tracing Processor for the Parallel Processing)

  • 최규열;정덕진
    • 대한전기학회논문지:전력기술부문A
    • /
    • 제48권5호
    • /
    • pp.636-642
    • /
    • 1999
  • The synthesis of the 3D images is the most important part of the virtual reality. The ray tracing is the best method for reality in the 3D graphics. But the ray tracing requires long computation time for the synthesis of the 3D images. So, we implement the ray tracing with software and hardware. Specially we design the hit-test unit with FPGA tool for the ray tracing. Hit-test unit is a very important part of ray tracing to improve the speed. In this paper, we proposed a new hit-test algorithm and apply the parallel architecture for hit-test unit to improve the speed. We optimized the arithmetic unit because the critical path of hit-test unit is in the multiplication part. We used the booth algorithm and the baugh-wooley algorithm to reduce the partial product and adapted the CSA and CLA to improve the efficiency of the partial product addition. Our new Ray tracing processor can produce the image about 512ms/F and can be adapted to real-time application with only 10 parallel processors.

  • PDF

An FPGA-based Parallel Hardware Architecture for Real-time Eye Detection

  • Kim, Dong-Kyun;Jung, Jun-Hee;Nguyen, Thuy Tuong;Kim, Dai-Jin;Kim, Mun-Sang;Kwon, Key-Ho;Jeon, Jae-Wook
    • JSTS:Journal of Semiconductor Technology and Science
    • /
    • 제12권2호
    • /
    • pp.150-161
    • /
    • 2012
  • Eye detection is widely used in applications, such as face recognition, driver behavior analysis, and human-computer interaction. However, it is difficult to achieve real-time performance with software-based eye detection in an embedded environment. In this paper, we propose a parallel hardware architecture for real-time eye detection. We use the AdaBoost algorithm with modified census transform(MCT) to detect eyes on a face image. We parallelize part of the algorithm to speed up processing. Several downscaled pyramid images of the eye candidate region are generated in parallel using the input face image. We can detect the left and the right eye simultaneously using these downscaled images. The sequential data processing bottleneck caused by repetitive operation is removed by employing a pipelined parallel architecture. The proposed architecture is designed using Verilog HDL and implemented on a Virtex-5 FPGA for prototyping and evaluation. The proposed system can detect eyes within 0.15 ms in a VGA image.

GPGPU를 이용한 Grabcut의 수행 속도 개선 방법에 관한 연구 (A Study of How to Improve Execution Speed of Grabcut Using GPGPU)

  • 김지훈;박영수;이상훈
    • 디지털융복합연구
    • /
    • 제12권11호
    • /
    • pp.379-386
    • /
    • 2014
  • 본 논문에서는 Grabcut 알고리즘의 수행 속도를 효율적으로 개선시키기 위하여 GPU(Graphics Processing Unit)에서 데이터를 처리하는 방법을 제안한다. Grabcut 알고리즘은 뛰어난 성능의 객체 추출 알고리즘으로 기존의 Grabcut 알고리즘은 전경 영역과 배경 영역을 분할한 후 배경 K-클러스터와 전경 K-클러스터로 할당한다. 그리고 할당 된 결과를 점진적으로 개선될 때까지의 과정을 반복한다. 하지만 Grabcut 알고리즘은 반복된 클러스터링 작업으로 인하여 수행 시간이 오래 걸리는 단점이 존재한다. 따라서 GPGPU(General-Purpose computing on Graphics Processing Unit)를 이용해 반복되는 작업을 병렬적으로 처리하여 Grabcut 알고리즘의 수행 속도를 효율적으로 개선시키는 방법을 제안한다. 제안하는 방법으로 Grabcut 알고리즘의 수행시간을 평균 약 90.668% 감소시켰다.

변형 물체를 위한 GPU 기반 병렬 충돌 감지 (GPU-Based Parallel Collision Detection for Deformable Objects)

  • 성낙준;김민상;홍민;최유주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제7권1호
    • /
    • pp.25-32
    • /
    • 2018
  • 변형물체 시뮬레이션은 강체 시뮬레이션에 비해 많은 연산량을 요구하기 때문에 효과적인 충돌 검사 방법을 필요하다. 그러나 CPU 기반의 충돌 검사 알고리즘을 그대로 GPU 환경에 적용할 경우 GPU의 성능을 제대로 사용할 수 없기 때문에 GPU 환경에 최적화된 충돌 감지 알고리즘과 자료구조가 필요하다. 따라서 본 연구에서는 변형 물체 표현을 위해 널리 사용되고 있는 질량-스프링 시스템을 위한 GPU 기반의 병렬 충돌 감지 알고리즘을 제안한다. 제안하는 방법은 AABB-옥트리 구조를 이용한 GPU 기반의 컬링 알고리즘을 통해 충돌 감지 비용을 줄이는 병렬 알고리즘과 자료 구조를 사용하였다. 본 연구에서는 모든 삼각형 쌍의 충돌을 병렬로 검사하는 기존 방법과의 비교실험을 통하여 제안 알고리즘의 효율성을 입증하였다. 실험결과, 제안된 방법은 기존의 방법에 비해서 평균 약 24%의 성능 개선을 보였다. 따라서 제안하는 방법을 통해서 변형 물체에 대한 실시간 시뮬레이션의 성능 개선이 가능할 것으로 기대한다.

연합 처리기를 이용한 직교선형 스타이너 트리의 병렬 알고리즘 (A Parallel Algorithm For Rectilinear Steiner Tree Using Associative Processor)

  • Taegeun Park
    • 전자공학회논문지B
    • /
    • 제32B권8호
    • /
    • pp.1057-1063
    • /
    • 1995
  • This paper describes an approach for constucting a Rectilinear Steiner Tree (RST) derivable from a Minimum Spanning Tree (MST), using Associative Processor (AP). We propose a fast parallel algorithm using AP's basic algorithms which can be realized by the processing capability of rudimentary logic and the selective matching capability of Content- Addressable Memory (CAM). The main idea behind the proposed algorithm is to maximize the overlaps between the consecutive edges in MST, thus minimizing the cost of a RST. An efficient parallel linear algorithm with O(n) complexity to construct a RST is proposed using an algorithm to find a MST, where n is the number of nodes. A node insertion method is introduced to allow the Z-type layout. The routing process which only depends on the neighbor edges and the no-rerouting strategy both help to speed up finding a RST.

  • PDF

고속 DCT 병렬처리기의 개발 (A Development of a high speed DCT parallel processor)

  • 박종원;유기현
    • 전자공학회논문지B
    • /
    • 제32B권8호
    • /
    • pp.1085-1090
    • /
    • 1995
  • The Discrete Cosine Transform(DCT) is effective technique for image compression, which is widely used in the area of digital signal processing. In this paper, an efficient DCT processor is proposed and simulated by using Verilog HDL. This algorithm is improved 60% in processing speed, but it's somewhat complicate compared with Y. Arai's algorithm. This algorithm will be used efficiently for real time image processing.

  • PDF