• 제목/요약/키워드: GPU acceleration

검색결과 77건 처리시간 0.02초

편광 기반 주파수 스캐닝 간섭 시스템 및 병렬 프로그래밍 기반 측정 고속화 (A Polarization-based Frequency Scanning Interferometer and the Measurement Processing Acceleration based on Parallel Programing)

  • 이승현;김민영
    • 전자공학회논문지
    • /
    • 제50권8호
    • /
    • pp.253-263
    • /
    • 2013
  • 광학측정기법 중 주파수 스캐닝 간섭계는 기존 3차원 측정기법과 비교하여 광학 하드웨어 구조가 측정과정동안 고정되어 있어, 대물렌즈나 대상물체의 수직 스캐닝 없이 단지 광원의 주파수만 특정한 주파수 밴드내에서 스캐닝 하여 대상물체에 주사되므로, 우수한 광학 측정 성능을 보인다. 광원의 주파수를 변경하여 간섭계를 통해 간섭 영상을 획득한 후, 밝기 영상 데이터를 주파수 영역 데이터로 변환하고, 고속 푸리에 변환을 통한 주파수 분석을 이용하여 대상 물체의 높이 정보를 계측한다. 하지만, 대상물체의 광학적 특성에 기인한 광학노이즈와 주파수 스캐닝동안 획득되는 영상의 수에 따라 증가하는 영상처리시간은 여전히 주파수 스캐닝 간섭계의 문제이다. 이를 위해, 1) 편광기반 주파수 스캐닝 간섭계가 광학 노이즈에 대한 강인성을 확보하기 위해 제안되어진다. 시스템은 주파수 변조 레이저, 참조 거울 앞단의 ${\lambda}/4$ 판, 대상 물체 앞단의 ${\lambda}/4$ 판, 편광 광분배기, 이미지 센서 앞단의 편광기, 광섬유 광원 앞단의 편광기, 편광 광분배기와 광원의 편광기 사이에 위치하는 ${\lambda}/2$ 판으로 구성된다. 제안된 시스템을 이용하여, 편광을 기반으로한 간섭이미지의 대조대비를 조절할 수 있다. 2) 신호처리 고속화 방법이 간섭계 시스템을 위해 제안되며, 이는 그래픽 처리 유닛(GPU)과 같은 병렬처리 하드웨어와 계산 통합 기기 구조(CUDA)와 같은 프로그래밍 언어로 구현된다. 제안된 방법을 통해 신호처리 시간은 실시간 처리가 가능한 작업시간을 얻을 수 있었다. 최종적으로 다양한 실험을 통해 제안된 시스템을 정확도와 신호처리 시간의 관점으로 평가하였고, 실험결과를 통해 제안한 시스템이 광학측정기법의 실적용을 위해 효율적임을 보였다.

스마트 시설환경 실시간 시뮬레이션을 위한 하드웨어 가속 기술 분석 (A Benchmark of Hardware Acceleration Technology for Real-time Simulation in Smart Farm (CUDA vs OpenCL))

  • 민재기;이동훈
    • 한국농업기계학회:학술대회논문집
    • /
    • 한국농업기계학회 2017년도 춘계공동학술대회
    • /
    • pp.160-160
    • /
    • 2017
  • 자동화 기술을 통한 한국형 스마트팜의 발전이 비약적으로 이루어지고 있는 가운데 무인화를 위한 지능적인 스마트 시설환경 관찰 및 분석에 대한 요구가 점점 증가 하고 있다. 스마트 시설환경에서 취득 가능한 시계열 데이터는 온도, 습도, 조도, CO2, 토양 수분, 환기량 등 다양하다. 시스템의 경계가 명확함에도 해당 속성의 특성상 타임도메인과 공간도메인 상에서 정확한 추정 또는 예측이 난해하다. 시설 환경에 접목이 증가하고 있는 지능형 관리 기술 구현을 위해선 시계열 공간 데이터에 대한 신속하고 정확한 정량화 기술이 필수적이라 할 수 있다. 이러한 기술적인 요구사항을 해결하고자 시도되는 다양한 방법 중에서 공간 분해능 향상을 위한 다지점 계측 메트릭스를 실험적으로 구성하였다. $50m{\times}100m$의 단면적인 연동 딸기 온실을 대상으로 $3{\times}3{\times}3$의 3차원 환경 인자 계측 매트릭스를 설치하였다. 1 Hz의 주기로 4가지 환경인자(온도, 습도, 조도, CO2)를 계측하였으며, 계측 하는 시점과 동시에 병렬적으로 공간통계법을 이용하여 미지의 지점에 대한 환경 인자들을 실시간으로 추정하였다. 선행적으로 50 cm 공간 분해능에 대응하기 위하여 Kriging interpolation법을 횡단면에 대하여 분석한 후 다시 종단면에 대하여 분석하였다. 3 Ghz에 해당하는 연산 능력을 보유한 컴퓨터에서 1초 동안 획득한 데이터에 대한 분석을 마치는데 소요되는 시간이 15초 내외로 나타났다. 이는 해당 알고리즘의 매우 높은 시간 복잡도(Order of $O=O^3$)에 기인하는 것으로 다양한 시설 환경의 관리 방법론에 적절히 대응하기에 한계가 있다 할 수 있다. 실시간으로 시간 복잡도가 높은 연산을 수행하기 위한 기술적인 과제를 해결하고자, 근래에 관심이 증가하고 있는 NVIDIA 사에서 제공하는 CUDA 엔진과 Apple사의 제안을 시작으로 하여 공개 소프트웨어 개발 컨소시엄인 크로노스 그룹에서 제공하는 OpenCL 엔진을 비교 분석하였다. CUDA 엔진은 GPU(Graphics Processing Unit)에서 정보 분석 프로그램의 연산 집약적인 부분만을 담당하여 신속한 결과를 산출할 수 있는 라이브러리이며 해당 하드웨어를 구비하였을 때 사용이 가능하다. 반면, OpenCL은 CUDA 엔진이 특정 하드웨어에서 구동이 되는 한계를 극복하고자 하드웨어에 비의존적인 라이브러리를 제공하는 것이 다르며 클러스터링 기술과 연계를 통해 낮은 하드웨어 성능으로 인한 단점을 극복하고자 하였다. 본 연구에서는 CUDA 8.0(https://developer.nvidia.com/cuda-downloads)버전과 Pascal Titan X(NVIDIA, CA, USA)를 사용한 방법과 OpenCL 1.2(https://www.khronos.org/opencl/)버전과 Samsung Exynos5422 칩을 장착한 ODROID-XU4(Hardkernel, AnYang, Korea)를 사용한 방법을 비교 분석하였다. 50 cm의 공간 분해능에 대응하기 위한 4차원 행렬($100{\times}200{\times}5{\times}4$)에 대하여 정수 지수화를 위한 Quantization을 거쳐 CUDA 엔진과 OpenCL 엔진을 적용한 비교한 결과, CUDA 엔진은 1초 내외, OpenCL 엔진의 경우 5초 내외의 연산 속도를 보였다. CUDA 엔진의 경우 비용측면에서 약 10배, 전력 소모 측면에서 20배 이상 소요되었다. 따라서 우선적으로 OpenCL 엔진 기반 하드웨어 가속 기술 최적화 연구를 통해 스마트 시설환경 실시간 시뮬레이션 기술 도입을 위한 기술적 과제를 풀어갈 것이다.

  • PDF

조선해양 설계분야에서 협업시스템을 위한 프레임워크의 설계 및 구현 (Design and Implementation of a Framework for Collaboration Systems in the Shipbuilding and Marine Industry)

  • 윤문경;김현주;박민길;한명기;김완규
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2015년도 춘계학술대회
    • /
    • pp.270-273
    • /
    • 2015
  • 조선 해양산업에서 엔지니어링 설계시스템은 사용 데이터의 대량화와 실시간성으로 인하여 이전의 2D CAD(2차원 CAD)의 한계와 문제점에서 벗어나 최근에는 3D CAD(3차원 CAD) 환경으로 발전해오고 있다. 그러나 3D CAD 환경에서는 다양한 엔지니어링 모델 정보와 그래픽 데이터가 늘어남에 따라 서버의 자원 지원에 대한 부하가 크게 발생될 뿐만 아니라, 3D CAD로 제작한 설계 모델을 자유롭게 핸들링 할 수 없는 문제점이 있다. 또한 사용자 측면에서는 서버 당 접속 세션이 늘어남에 따라 전반적인 성능저하가 초래된다. 따라서 네트워크 퍼포먼스에 대한 효율적인 협업 환경을 지원하는 엔지니어링 설계시스템의 필요성이 제기되고 있다. 본 논문에서는 높은 그래픽 처리 능력과 공유 기술이 뛰어난 가상화 솔루션 시트릭스 젠앱 6.5(Citrix XenApp)와 강화된 GPU(Graphic Processing Unit) 하드웨어 가속 기술을 적용한 NVIDIA GRID(엔비디아 그리드) K2 솔루션을 적용함으로써 효율적인 엔지니어링 협업 설계시스템을 위한 프레임워크를 설계하고 구현하였다.

  • PDF

CUDA를 기반한 볼륨데이터의 집적영상 생성을 위한 고속화 기법 (Acceleration Method for Integral Imaging Generation of Volume Data based on CUDA)

  • 박찬;정지성;박재형;권기철;김남;류관희
    • 한국콘텐츠학회논문지
    • /
    • 제11권3호
    • /
    • pp.9-17
    • /
    • 2011
  • 최근 들어, 안경식 3D TV 등장으로 3D 입체 콘텐츠의 활성화가 기대된다. 안경식의 불편함을 해소하기 위해 무안경식 3차원 입체 영상 디스플레이에 대한 연구가 활발히 진행되고 있다. 이 연구에서 렌즈 어레이(lens array)로부터 만들어지는 기초영상(elemental images)을 생성하는 것이 필수적이다. 그러나 렌즈 어레이를 구성하는 렌즈의 개수가 증가함에 따라 기초영상을 생성하는데 많은 시간이 소요되고 있으며, 고용량의 볼륨데이터에 대해서는 더 많은 시간이 소요되고 있다. 본 논문에서는 이러한 문제를 좀 더 효율적으로 개선하기 위해 CUDA 기반의 OpenCL를 사용하여 집적영상을 생성하는 기법을 제시한다. 제안된 방법을 세 종류인 Tesla C1060, Geforce 9800GT와 Quadro FX 3800 그래픽 카드를 갖는 PC 환경에서 실험하였으며, 실험 결과 최근 연구 결과[11] 보다 약 20배 정도 성능 개선이 있었다.

비디오 인코더를 통한 딥러닝 모델의 정수 가중치 압축 (Compression of DNN Integer Weight using Video Encoder)

  • 김승환;류은석
    • 방송공학회논문지
    • /
    • 제26권6호
    • /
    • pp.778-789
    • /
    • 2021
  • 최근 다양한 분야에서 뛰어난 성능을 나타내는 Convolutional Neural Network(CNN)모델을 모바일 기기에서 사용하기 위한 다양한 연구가 진행되고 있다. 기존의 CNN 모델은 모바일 장비에서 사용하기에는 가중치의 크기가 크고 연산복잡도가 높다는 문제점이 있다. 이를 해결하기 위해 가중치의 표현 비트를 낮추는 가중치 양자화를 포함한 여러 경량화 방법들이 등장하였다. 많은 방법들이 다양한 모델에서 적은 정확도 손실과 높은 압축률을 나타냈지만, 대부분의 압축 모델들은 정확도 손실을 복구하기 위한 재학습 과정을 포함시켰다. 재학습 과정은 압축된 모델의 정확도 손실을 최소화하지만 많은 시간과 데이터를 필요로 하는 작업이다. Weight Quantization이후 각 층의 가중치는 정수형 행렬로 나타나는데 이는 이미지의 형태와 유사하다. 본 논문에서는 Weight Quantization이후 각 층의 정수 가중치 행렬을 이미지의 형태로 비디오 코덱을 사용하여 압축하는 방법을 제안한다. 제안하는 방법의 성능을 검증하기 위해 ImageNet과 Places365 데이터 셋으로 학습된 VGG16, Resnet50, Resnet18모델에 실험을 진행하였다. 그 결과 다양한 모델에서 2%이하의 정확도 손실과 높은 압축 효율을 달성했다. 또한, 재학습 과정을 제외한 압축방법인 No Fine-tuning Pruning(NFP)와 ThiNet과의 성능비교 결과 2배 이상의 압축효율이 있음을 검증했다.

헤드 마운티드 디스플레이를 위한 시간 제약 렌더링을 이용한 적응적 포비티드 광선 추적법 (Adaptive Foveated Ray Tracing Based on Time-Constrained Rendering for Head-Mounted Display)

  • 김영욱;임인성
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제28권3호
    • /
    • pp.113-123
    • /
    • 2022
  • 광선 추적 기반의 렌더링은 래스터화 기반의 렌더링보다 훨씬 더 사실적인 이미지를 생성한다. 하지만 넓은 시야와 높은 디스플레이 갱신 속도를 요구하는 헤드 마운티드 디스플레이(HMD) 시스템을 대상으로 이를 구현할 때에는 여전히 많은 연산량으로 인하여 부담스럽다. 또한, HMD 화면에 고품질 이미지를 표시하기 위해서는 시각적으로 성가신 공간적/시간적 앨리어스를 줄이기 위해 픽셀당 충분한 수의 광선 샘플링을 수행해야 한다. 본 논문에서는 최근 Kim 등[1]이 제시한 선택적 포비티드 광선 추적법을 확장하여 주어진 HMD 시스템에서 고전적인 Whitted-스타일 광선 추적 수준의 렌더링 효과를 효율적으로 생성해주는 실시간 렌더링 기법을 제안한다. 특히, GPU의 광선 추적 하드웨어를 통한 가속과 시간 제한을 둔 렌더링 방법의 결합을 통하여 고속의 HMD 광선 추적에 적합한 사람의 시각 시스템에 매우 효율적인 적응적 광선 샘플링 방법을 제안한다.

근접 치료에서 역방향 치료 계획의 선량분포 계산 가속화 방법 (An Accelerated Approach to Dose Distribution Calculation in Inverse Treatment Planning for Brachytherapy)

  • 조병두
    • 한국방사선학회논문지
    • /
    • 제17권5호
    • /
    • pp.633-640
    • /
    • 2023
  • 최근 근접 치료에서 방사선 차폐막을 사용하여 선량 분포를 변조하여 선량을 전달하는 정적 및 동적 변조 근접 치료 방법이 개발됨에 따라 새로운 방향성 빔 세기 변조 근접 치료에 적합한 역방향 치료 계획 및 치료 계획 최적화 알고리즘에서 선량 계산에 필요한 파라미터 및 데이터의 양이 증가하고 있다. 세기 변조 근접 치료는 방사선의 정확한 선량 전달이 가능하지만, 파라미터와 데이터의 양이 증가하기 때문에 선량 계산에 필요한 경과 시간이 증가한다. 본 연구에서는 선량 계산 경과 시간의 증가를 줄이기 위해 그래픽 카드 기반의 CUDA 가속 선량 계산 알고리즘을 구축하였다. 계산 과정의 가속화 방법은 관심 체적의 시스템 행렬 계산 및 선량 계산의 병렬화를 이용하여 진행하였다. 개발된 알고리즘은 모두 인텔(3.7GHz, 6코어) CPU와 단일 NVIDIA GTX 1080ti 그래픽 카드가 장착된 동일한 컴퓨팅 환경에서 수행하였으며, 선량 계산 시간은 디스크에서 데이터를 불러오고 전처리를 위한 작업 등의 추가 적으로 필요한 시간은 제외하고 선량 계산 시간만 측정하여 평가하였다. 그 결과 가속화된 알고리즘은 CPU로만 계산할 때보다 선량 계산 시간이 약 30배 단축된 것으로 나타났다. 가속화된 선량 계산 알고리즘은 적응방사선치료와 같이 매일 변화되는 어플리케이터의 움직임을 고려하여 새로운 치료 계획을 수립해야 하는 경우나 동적 변조 근접 치료와 같이 선량 계산에 변화되는 파라미터를 고려해야 하는 경우 치료 계획 수립 속도를 높일 수 있을 것으로 판단된다.