• 제목/요약/키워드: OpenMP 구현

검색결과 33건 처리시간 0.027초

범용 그래픽스 하드웨어 기반 여과후 역투사 최적화 기법에 관한 연구 (An Optimized GPU based Filtered Backprojection method)

  • 박종현;이병훈;이호;신영길
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2009년도 학술대회
    • /
    • pp.436-442
    • /
    • 2009
  • 삼차원 재구성 기법은 대상을 파괴하지 않고도 그 내부 구조의 공간적 해석을 가능하게 해주는 단층 영상을 생성해주기 때문에, 산업, 의료분야에서 널리 사용되고 있다. 최근 영상 장비의 성능 향상으로 고해상도의 CT 영상을 얻을 수 있게 되었으나, 대용량 데이터를 재구성하기 위해 많은 시간이 소요된다. 본 논문에서는 재구성에서 가장 많은 시간이 소요되는 여과와 역투사 과정을 범용 그래픽스 하드웨어를 사용하여 최적화하는 방법을 제안한다. 여과에서는 네 장의 영상을 압축하여 동시에 처리하는 기법을 적용하고, 역투사 과정에서는 깊이 테스트를 이용하여 계산량을 줄이는 방법을 사용한다. 제안된 방법으로 구현된 GPU 기반 프로그램은 OpenMP 를 사용하여 최적화 된 CPU 기반 프로그램에 비해 약 50 배 이상 속도가 향상되었다.

  • PDF

CPU와 GPU의 병렬 처리를 이용한 고속 물체 인식 알고리즘 구현 (The Implementation of Fast Object Recognition Using Parallel Processing on CPU and GPU)

  • 김준철;정용한;박은수;최학남;김학일;허욱렬
    • 제어로봇시스템학회논문지
    • /
    • 제15권5호
    • /
    • pp.488-495
    • /
    • 2009
  • This paper presents a fast feature extraction method for autonomous mobile robots utilizing parallel processing and based on OpenMP, SSE (Streaming SIMD Extension) and CUDA programming. In the first step on CPU version, the algorithms and codes are optimized and then implemented by parallel processing. The parallel algorithms are debugged to maintain the same level of performance and the process for extracting key points and obtaining dominant orientation with respect to key points is parallelized. After extraction, a parallel descriptor via SSE instructions is constructed. And the GPU version also implemented by parallel processing using CUDA based on the SIFT. The GPU-Parallel descriptor achieves an acceleration up to five times compared with the CPU-Parallel descriptor, but it shows the lower performance than CPU version. CPU version also speed-up the four and half times compared with the original SIFT while maintaining robust performance.

멀티프로세서 기반의 고속 영상처리 기술에 대한 벤치마킹 (Benchmarking on High-speed Image Processing Techniques based on Multi-processor)

  • 최학남;박은수;김준철;김학일
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2007년도 심포지엄 논문집 정보 및 제어부문
    • /
    • pp.111-112
    • /
    • 2007
  • 본 논문에서는 멀티프로세서 기반의 고속 영상처리 알고리즘 개발방법에 대해 소개한다. 영상획득 방식의 발전과 더불어 고해상도 영상의 획득이 가능해지고 영상이 컬러화가 되면서 많은 영상처리 응용분야에서 알고리즘 고속화를 필요로 하고 있다. 이러한 수요를 만족시키기 위해서는 최근에 출시되고 있는 멀티프로세서를 최대한 활용할 수 있는 알고리즘 개발이 최우선이다. 본 논문에서는 OpenMP, MIL(Matrox Image Library), OpenCV, IPP(Integrated Performance Primitives), SSE (Streaming SIMD (Single Instruction Multiple Data) Extensions)등 병렬처리와 고속 영상처리 라이브러리를 이용한 알고리즘 개발방법에 대해 소개하고, 각 개발방법에 따른 알고리즘 성능을 분석 및 평가하였다. 실험결과로부터 SSE와 IPP, MIL(Thread)을 이용하여 Mean, Dilation, Erosion, Open, Closing, Sobel등 알고리즘을 구현하여 $4057{\times}4048$크기의 영상에 적용하였을 때 $7{\sim}35msec$의 좋은 성능을 나타내어 기타 방식보다 우수함을 알 수 있었다.

  • PDF

실시간 다중 객체인식 알고리즘 구현 (Implementation of Real time based Multi-object recognition algorithm)

  • 박태룡
    • 전기전자학회논문지
    • /
    • 제17권1호
    • /
    • pp.51-56
    • /
    • 2013
  • 본 논문에서는 ORB 알고리즘을 기반으로 하는 다중객체 인식 구현을 위하여 개선된 매칭 기법을 제안한다. 객체 인식 알고리즘으로 잘 알려진 SURF 알고리즘은 객체인식에 강인하지만 연산량이 많아 실시간으로 구현하기에는 어려운 단점이 있다. 따라서 ORB 알고리즘을 활용하여 객체를 인식하였고, 실시간 다중객체인식을 위해 매칭 단계를 개선하여 속도를 약 70% 향상 시켰다.

CPU-GPU간 긴밀성을 위한 효율적인 공유메모리 접근 방법과 검증 시스템 구현 (Implementation of Integrated CPU-GPU for Efficient Uniform Memory Access Method and Verification System)

  • 박현문;권진산;황태호;김동순
    • 대한임베디드공학회논문지
    • /
    • 제11권2호
    • /
    • pp.57-65
    • /
    • 2016
  • In this paper, we propose a system for efficient use of shared memory between CPU and GPU. The system, called Fusion Architecture, assures consistency of the shared memory and minimizes cache misses that frequently occurs on Heterogeneous System Architecture or Unified Virtual Memory based systems. It also maximizes the performance for memory intensive jobs by efficient allocation of GPU cores. To test between architectures on various scenarios, we introduce the Fusion Architecture Analyzer, which compares OpenMP, OpenCL, CUDA, and the proposed architecture in terms of memory overhead and process time. As a result, Proposed fusion architectures show that the Fusion Architecture runs benchmarks 55% faster and reduces memory overheads by 220% in average.

멀티코어 시스템에서 최적화된 소프트웨어 개발을 위한 병렬처리 프로그래밍 기법 조사 (The Survey of Parallel Programming Techniques for Developing Optimized Software in Multi-core System)

  • 이기홍;김지홍;엄영익
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(A)
    • /
    • pp.36-38
    • /
    • 2012
  • 이제 멀티코어 CPU가 보편화 되었지만 대다수의 프로그래밍 언어가 단일 코어를 대상으로 발전되었기 때문에 병렬화에 어려움이 있다. 이를 해결하고자 병렬처리 기법들이 연구되고 있지만 오히려 개발자는 여러 기법들 사이에서 혼란스러울 수 있다. 본 논문에서는 개발자들이 처한 상황에서 적절한 기법을 선택하는데 도움이 되고자 주요 병렬처리 기법인 OpenMP, Threading Building Blocks, Cilk Plus, Parallel Patterns Library를 비교 및 평가하였다. 각 기법마다 지원 기능, 지원 방식, 스케줄링 기법 등 개발자가 프로그램을 개발함에 있어 고려해야 할 특징들이 서로 다르고 각기 장단점이 존재한다. 따라서 병렬처리 기법을 선택하고 구현함에 있어 특정한 하나의 기법에 의존하는 것보다는 여러 기법들의 특성을 파악하여 상황에 맞는 기법을 선택한다면 보다 효율적이면서도 쉽게 병렬처리를 구현할 수 있다.

날씨 정보와 아두이노를 이용한 스마트 알람 시계 (Smart Alarm Clock using Weather Information and Arduino)

  • 허경용;김광훈
    • 한국정보통신학회논문지
    • /
    • 제23권8호
    • /
    • pp.889-895
    • /
    • 2019
  • 현대인의 복잡한 일상생활에서 시간 약속을 지키는 일은 쉽지 않다. 특히 차량의 증가는 출근 시간 교통 체증을 유발하여 지각으로 이어지고 이는 기상 상황에 따라 많은 변화를 보인다. 이 논문에서는 기상 상황에 따라 알람 시간을 자동으로 변경하여 교통 체증에 대비할 수 있도록 해주는 스마트 알람 시계를 제안한다. 제안하는 스마트 알람 시계는 일반적인 알람 시계의 기능을 터치를 통해 조작할 수 있도록 설계하였다. 여기에 오픈 API를 사용하여 날씨 정보를 알아내고 이를 활용하여 자동으로 알람 시간을 변경함으로써 예상되는 시간 지연에 대비할 수 있도록 하였다. 제안하는 설계는 아두이노 메가2560과 터치 TFT-LCD를 바탕으로 구현하였으며 인터넷 연결을 위한 WiFi 모듈, 시계 기능을 위한 RTC 모듈, 알람 소리 재생을 위해 MP3 플레이어 모듈 등이 함께 사용되었다. 제안하는 설계는 특허로 출원되어 현재 심사가 진행 중이다.

Improvement of Processing Speed for UAV Attitude Information Estimation Using ROI and Parallel Processing

  • Ha, Seok-Wun;Park, Myeong-Chul
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권1호
    • /
    • pp.155-161
    • /
    • 2021
  • 최근 UAV를 활용하는 정밀 추적이나 임무완수 등의 군사 목적의 연구가 활발하게 진행되고 있다. 특히 앞서가는 유도 UAV의 자세 정보를 추정하고 이 정보를 이용하여 임무 UAV가 스텔스로 따라가서 자신의 임무를 완수하는 기능이 필요한 경우에는 유도 UAV의 자세 정보 추정 속도를 실시간으로 처리 해야만 한다. 최근까지 영상처리와 칼만 필터를 사용해서 앞서가는 유도 UAV의 자세정보를 정밀하게 추정하는 연구가 수행되어 왔으나 처리과정의 순차처리로 인해 처리속도에 있어 문제점이 있어왔다. 따라서 본 연구에서는 영상 처리에 있어 처리영역을 전체영역이 아닌 물체를 포함하는 ROI 영역으로 한정하고 또한 연속적인 처리 과정을 OpenMP 기반의 멀티스레드로 분배하고 스레드동기를 맞추어서 병렬 형태로 처리함으로써 자세정보 추정 속도를 향상시킬 수 있는 방법을 제안한다. 구현 결과를 통해서 기본의 처리에 비해 45%이상 처리 속도를 향상시킴으로써 실시간처리가 가능하게 되어 임무 UAV의 추적 기능 향상을 통한 임무 완수 가능성을 증가시킬 수 있음을 확인하였다.

HD급 멀티미디어 Streaming을 위한 DSP Platform (A DSP Platform for the HD Multimedia Streaming)

  • 홍근표;박종순;문재필;김동환;장태규
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2005년도 학술대회 논문집 정보 및 제어부문
    • /
    • pp.409-411
    • /
    • 2005
  • 본 논문에서는 HD급 멀티미디어 streaming을 처리할 수 있는 DSP 플랫폼을 개발하였다. DSP 플랫폼은 Tl사의 C6400계열 DSP를 사용하였고 다채널의 오디오와 HD급 화질의 비디오_ 데이터를 처리할 수 있다. DSP가 decoder의 기능을 부담함으로써 하드웨어의 재구성이 용이하며 코덱을 다운로드하기 때문에 유연한 멀티미디어 컨텐츠의 재생이 가능하다. 개발한 DSP 플랫폼을 호스트 PC에 설치하여 PC로부터 DSP Configuration 파일과 멀티미디어 스트리밍 데이터를 전송받는 구조를 가진다. 소프트웨어는 실시간으로 demux를 실행하여 오디와 비디오_ 데이터를 분리하석 DSP 플랫폼의 외부메모리에 저장하고 동시에 비디오와 오디오의 디코딩을 실행한다. 오디오와 비디오 데이터의 버퍼 언더런/오버런을 극할 수 있는 buffer control 기법을 적용하였다. 호스트 PC에서 DSP 플랫폼으로의 스트리밍을 하기 위하여 Open Architecture 기반의 Windows OS에서 스트리밍 서비스 프로그램을 구현 하였다. 마지막으로 MPEG-2 video MP@ML인 비디오 코덱과 5.1ch 48kHz AC3인 오디오 코덱으 구성된 streaming 데이터를 사용하여 DSP 플랫폼을 검증하였다.

  • PDF

고해상도 SAR 영상처리 고속화를 위한 병렬 성능 최적화 기법 연구 (A Study on Parallel Performance Optimization Method for Acceleration of High Resolution SAR Image Processing)

  • 이규범;김규빈;안솔보름;조진연;임병균;김동현;김정호
    • 한국항공우주학회지
    • /
    • 제46권6호
    • /
    • pp.503-512
    • /
    • 2018
  • SAR(Synthetic Aperture Radar)는 레이더를 이용하여 얻은 신호를 처리해 영상을 획득하는 기술로서, SAR 영상의 활용도와 고해상도 영상에 대한 요구가 증가하고 있는 상황이다. 따라서 본 연구에서는 고해상도 영상 데이터의 고속 처리를 위해 SAR 영상처리 알고리즘을 다중코어 기반의 컴퓨터 구조에서 최적의 성능을 낼 수 있도록 구현하기 위한 연구를 수행했다. 고해상도 영상에 따른 방대한 양의 입출력에 의한 성능 저하를 개선시키기 위해 메모리를 최대한 활용하는 성능 최적화 기법을 적용하고 OpenMP의 동적 스케쥴링 기법과 중첩 병렬성(nested parallelism)을 사용해 코드의 병렬화 비율을 높였다. 그 결과 전체 계산시간을 줄일 뿐만 아니라 병렬 성능의 최대 한계치를 크게 높일 수 있었으며, 제안된 기법을 10개 코어를 가진 다중코어 시스템에 적용한 결과 기존 대비 8배 이상의 성능 향상이 있었다. 본 연구 결과는 대용량 메모리를 가진 다중코어 시스템을 대상으로 하는 고해상도 SAR 영상처리 소프트웨어 개발에 효과적으로 활용될 수 있을 것으로 기대된다.