• 제목/요약/키워드: Parallel GPU

검색결과 284건 처리시간 0.028초

Smart Control System Using Fuzzy and Neural Network Prediction System

  • Kim, Tae Yeun;Bae, Sang Hyun
    • 통합자연과학논문집
    • /
    • 제12권4호
    • /
    • pp.105-115
    • /
    • 2019
  • In this paper, a prediction system is proposed to control the brightness of smart street lamps by predicting the moving path through the reduction of consumption power and information of pedestrian's past moving direction while meeting the function of existing smart street lamps. The brightness of smart street lamps is adjusted by utilizing the walk tracking vector and soft hand-off characteristics obtained through the motion sensing sensor of smart street lamps. In addition, the motion vector is used to analyze and predict the pedestrian path, and the GPU is used for high-speed computation. Pedestrians were detected using adaptive Gaussian mixing, weighted difference imaging, and motion vectors, and motions of pedestrians were analyzed using the extracted motion vectors. The preprocessing process using linear interpolation is performed to improve the performance of the proposed prediction system. Fuzzy prediction system and neural network prediction system are designed in parallel to improve efficiency and rough set is used for error correction.

실시간 깊이 지도 획득을 위한 효율적인 병렬 처리 (Efficient Parallel Processing for Depth-Map Estimation in Real-Time)

  • 조칠석;전지인;추현곤;박종일
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2012년도 하계학술대회
    • /
    • pp.44-46
    • /
    • 2012
  • Depth map를 구하는 방법 중 많이 사용되어지는 방법으로 stripe 패턴을 이용하는 방법이 존재한다. 이 방법은 Pro-Cam 시스템을 이용하며 프로젝터로 조사한 패턴을 카메라로 촬영하여 원래의 패턴과 촬영된 패턴간의 기하학적인 관계를 구하여 depth map를 구하는 방법이다. 본 논문에서는 이와 같이 구조광을 이용하여 depth map 획득 시스템을 효과적으로 multi-thread를 사용하여 실시간 처리하는 것을 제안한다. 일반적으로 자주 사용되는 multi-threading 기법에는 CPU의 thread를 이용하는 OpenMP와 GPU의 thread를 이용하는 CUDA가 있다. 이 두 가지 기법은 수행하는데 차이점이 존재하기 때문에 상황에 따라 OpenMP가 더 좋은 효율을 보이는 부분이 있고 CUDA가 더 좋은 효율을 보이는 부분이 있다. 때문에 우리는 이 두 가지에 대해서 각 부분의 특성에 맞게 더 좋은 효율을 보이는 multi-thread를 이용하였다. 결과적으로 우리는 $1280{\times}800$의 영상에 대해 25fps 이상의 depth map를 획득하였다.

  • PDF

Real-Time Non-Local Means Image Denoising Algorithm Based on Local Binary Descriptor

  • Yu, Hancheng;Li, Aiting
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제10권2호
    • /
    • pp.825-836
    • /
    • 2016
  • In this paper, a speed-up technique for the non-local means (NLM) image denoising method based on local binary descriptor (LBD) is proposed. In the NLM, most of the computation time is spent on searching for non-local similar patches in the search window. The local binary descriptor which represents the structure of patch as binary strings is employed to speed up the search process in the NLM. The descriptor allows for a fast and accurate preselection of non-local similar patches by bitwise operations. Using this approach, a tradeoff between time-saving and noise removal can be obtained. Simulations exhibit that despite being principally constructed for speed, the proposed algorithm outperforms in terms of denoising quality as well. Furthermore, a parallel implementation on GPU brings NLM-LBD to real-time image denoising.

3D Inspection by Registration of CT and Dual X-ray Images

  • Kim, Youngjun;Kim, Wontae;Lee, Deukhee
    • Journal of International Society for Simulation Surgery
    • /
    • 제3권1호
    • /
    • pp.16-21
    • /
    • 2016
  • Computed tomography (CT) can completely digitize the interior and the exterior of nearly any object without any destruction. Generally, the resolution for industrial CT is below a few microns. The industrial CT scanning, however, has a limitation because it requires long measuring and processing time. Whereas, 2D X-ray imaging is fast. In this paper, we propose a novel concept of 3D non-destructive inspection technique using the advantages of both micro-CT and dual X-ray images. After registering the master object’s CT data and the sample objects’ dual X-ray images, 3D non-destructive inspection is possible by analyzing the matching results. Calculation for the registration is accelerated by parallel computing using graphics processing unit (GPU).

멀티코어에서 피부색상 정보와 병렬처리 방법을 이용한 얼굴 검출 (Face Detection using Skin Color Information and Parallel Processing Method on Multi-Core)

  • 김홍희;이재흥
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.219-222
    • /
    • 2012
  • 최근 얼굴검출에 관한 연구는 FPGA를 통한 H/W설계부터 DSP, GPU, ARM Core에 효율적인 S/W 설계까지 다양하게 연구되고 있다. 본 연구에서는 Multi-Core에 효과적인 얼굴검출 방법을 제안한다. 피부색을 통한 얼굴 후보를 추출하고 그 외의 배경 이미지는 삭제하여 연산처리를 빠르게 하였다. Viola-Jones가 제안한 얼굴검출 알고리즘을 POSIX Thread를 사용하여 병렬 처리하였고 그 성능을 단일 코어와 멀티코어에서 측정하였다. 단일 코어에서는 성능의 향상이 없었으나 멀티코어에서는 약 1.8배 속도가 향상되었고 검출 성공률은 기존과 동일하였다.

이기종 컴퓨팅 환경에서 OpenCL을 이용한 효율적인 병렬처리 (OpenCL-based Efficient Parallel Processing in a Heterogeneous Computing Environment)

  • 김희곤;이성주;정용화;박대희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.111-114
    • /
    • 2013
  • 최근 고성능 컴퓨팅과 모바일 컴퓨팅에서 GPU 등의 성능가속기 사용이 증가함에 따라 성능가속기를 사용한 다양한 병렬처리 방법이 소개되고 있다. 그러나 성능 가속기를 처음 접하거나 성능가속기를 사용한 병렬처리 경험이 적은 사용자의 경우, 이러한 성능가속기를 이용하여 효과적인 병렬처리를 하는 것은 쉽지 않다. 본 논문에서는 성능가속기와 마이크로프로세서를 동시에 사용하여 단순히 성능가속기만을 사용한 병렬처리보다 효율적인 병렬처리 방법을 제안하고, 성능가속기만을 사용하여 얻은 성능과 제안한 방법의 성능을 비교한다. 실험결과, 제안방법은 순차처리와 비교하여 약 40배의 성능 향상을 얻을 수 있었고, 성능가속기만을 사용한 병렬처리 방법보다도 25%의 성능 향상이 가능함을 확인하였다.

Heterogeneous Parallel Architecture for Face Detection Enhancement

  • Albssami, Aishah;Sharaf, Sanaa
    • International Journal of Computer Science & Network Security
    • /
    • 제22권2호
    • /
    • pp.193-198
    • /
    • 2022
  • Face Detection is one of the most important aspects of image processing, it considers a time-consuming problem in real-time applications such as surveillance systems, face recognition systems, attendance system and many. At present, commodity hardware is getting more and more heterogeneity in terms of architectures such as GPU and MIC co-processors. Utilizing those co-processors along with the existing traditional CPUs gives the algorithm a better chance to make use of both architectures to achieve faster implementations. This paper presents a hybrid implementation of the face detection based on the local binary pattern (LBP) algorithm that is deployed on both traditional CPU and MIC co-processor to enhance the speed of the LBP algorithm. The experimental results show that the proposed implementation achieved improvement in speed by 3X when compared to a single architecture individually.

처리 속도 향상을 위해 OpenCV CUDA를 활용한 도로 영역 검출 (A Road Region Extraction Using OpenCV CUDA To Advance The Processing Speed)

  • 이태희;황보현;윤종호;최명렬
    • 디지털융복합연구
    • /
    • 제12권6호
    • /
    • pp.231-236
    • /
    • 2014
  • 본 논문은 호스트(PC) 기반의 직렬처리 방식으로 도로영역 추출 방식에 디바이스(Graphic Card) 기반의 병렬 처리 방식을 추가함으로써 보다 향상된 처리 속도를 가지는 도로영역검출을 제안하였다. OpenCV CUDA는 기존의 OpenCV와 CUDA를 연동하여 병렬 처리 방식의 많은 함수들을 지원한다. 또한 OpenCV와 CUDA 연동 시 환경 설정이 완료된 OpenCV CUDA 함수들은 사용자의 디바이스(Graphic Card) 사양에 최적화된다. 따라서 OpenCV CUDA 사용은 알고리즘 검증 및 시뮬레이션 결과 도출의 용이성을 제공한다. 제안된 방법은 OpenCV CUDA 와 NVIDIA GeForce GTX 560 Ti 모델의 그래픽 카드를 사용하여 기존 방식보다 3.09배 빠른 처리 속도를 가짐을 실험을 통해 검증한다.

CUDA를 활용한 병렬 $B^+$-트리 벌크로드 기법 (A Parallel Bulk Loading Method for $B^+$-Tree Using CUDA)

  • 성주호;이윤우;한아;최원익;권동섭
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권6호
    • /
    • pp.707-711
    • /
    • 2010
  • 대부분의 관계형 데이터베이스 시스템은 대량의 키 값을 효율적으로 검색하고 관리하기 위하여 $B^+$-트리 기반의 인덱스 구조를 사용하며, $B^+$-트리를 효율적으로 생성하기 위해 일반적으로 상향식 벌크로드 기법을 사용한다. 비록 벌크로드 기법이 키를 하나씩 삽입하여 인덱스를 생성하는 방식보다 효율적이긴 하지만, 데이터가 클 경우 전체 데이터를 정렬해야하기 때문에 많은 시간을 필요로 한다. 벌크로드 기법의 성능을 개선하기 위하여, 본 논문에서는 NDIVIA에서 제공하는 병렬 컴퓨팅 아키텍쳐인 CUDA를 활용한 GPU 기반의 효율적인 $B^+$-트리 병렬 벌크로드 기법을 제안한다. 제안하는 병렬 벌크로드 기법의 성능을 증명하기 위하여 실험을 수행한 결과, 기존 CPU 벌크로드 방법보다 약 70% 이상 성능이 향상됨을 확인하였다.

단일 명령 다중 스레드 병렬 플랫폼을 위한 무작위 부분적 Haar 웨이블릿 변환 (Random Partial Haar Wavelet Transformation for Single Instruction Multiple Threads)

  • 박태정
    • 디지털콘텐츠학회 논문지
    • /
    • 제16권5호
    • /
    • pp.805-813
    • /
    • 2015
  • Compressive sensing 및 희소 복원 문제(sparse recovery problem)는 기존 디지털 기술의 한계를 극복할 수 있는 새로운 이론으로 많은 관심을 받고 있다. 그러나 신호 재구성에서 l1 norm 최적화 문제 해결에 많은 연산이 수행되며 따라서 병렬 처리 기법이 필요하다. 이 과정에서 무작위 행렬과 벡터 연산을 통한 변환 연산이 전체 과정 중에서 많은 부분을 차지하는데, 특히 원본 신호의 크기로 인해 이 과정에서 필요한 무작위 행렬을 메모리에 저장하기 곤란하며 계산 시 무작위 행렬의 절차적(procedural) 처리 방식이 필수적이다. 본 논문에서는 이 문제에 대한 해결책으로 단일 명령 다중 스레드(SIMT) 병렬 플랫폼 상에서 무작위 부분적 Haar 웨이블릿 변환을 절차적으로 계산할 수 있는 새로운 병렬 알고리듬을 제안한다.