• 제목/요약/키워드: GPU 메모리

검색결과 128건 처리시간 0.024초

ELBP 분류기를 이용한 초해상도 기법의 CUDA 최적화 (CUDA Optimization of Super-Resolution Algorithm using ELBP Classifier)

  • 최지훈;송병철
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2016년도 하계학술대회
    • /
    • pp.92-94
    • /
    • 2016
  • 저해상도 영상을 고해상도 영상으로 복원하기 위한 다양한 방법의 초해상도 기법이 존재한다. 다양한 기법들 중에서도 ELBP 분류기를 이용한 초해상도 기법[1]은 단일 영상 기반의 초해상도 기법으로 사전에 학습된 필터를 이용하여 고해상도 영상을 획득하는 기법이다. 그러나 해당 알고리즘을 일반적인 CPU 환경에서 수행할 경우 실시간으로 영상을 획득하는데 어려움이 존재한다. 본 논문에서는 지역메모리를 이용한 GPU 환경에서의 최적화를 수행하여 ELBP 분류기를 이용한 초해상도 기법의 가속성을 보인다. 먼저, 알고리즘에 대하여 간단히 설명하고 CUDA 가속화 기법[2]을 차례로 적용했을 때 얻을 수 있는 가속 성능을 확인한다. 최종적으로 본 논문은 CPU 환경과 비교했을 때 5 배의 가속 효과를 얻을 수 있다.

  • PDF

사용자 행동예측을 위한 임베디드 인공지능 엔진 및 시스템 기술 개발 (Embedded artificial intelligence system development for action estimation on construction site)

  • 송혁;최인규;고민수;유지상
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2021년도 하계학술대회
    • /
    • pp.226-227
    • /
    • 2021
  • 딥러닝을 활용한 영상 분석 기술은 GPU 하드웨어의 발전으로 인하여 소프트웨어 기반 처리 기술이 급격히 발전하였고 기존 패턴 분석 기술 대비 높은 정확도를 보여주고 있다. PC나 특정 하드웨어에서 동작하는 소프트웨어 기반 영상분석기술은 적용분야의 한계가 발생하였다. 신경망 기술을 하드웨어로 구현한 NPU(Network processing unit)의 개발로 고가의 플랫폼이 아닌 임베디드 플랫폼에서의 딥러닝 구현이 가능해졌다. 반면에 하드웨어에서 활용 가능한 네트워크가 제한적임으로 인하여 구현 가능한 딥러닝 모델의 크기, 메모리 등의 한계가 있으며 시시각각 변하는 딥러닝 기술에 기반한 최신모델 또는 고성능 모델을 구동하기에는 한계가 발생하였다. 이를 해결하기 위하여 본 연구에서는 Distillation 기법을 적용한 임베디드 시스템을 개발하고 이에 기반한 딥러닝 모델의 구현 및 상황에 따른 가변적 딥러닝 모델의 적용이 가능한 시스템을 구현하였다.

  • PDF

음질 및 속도 향상을 위한 선형 스펙트로그램 활용 Text-to-speech (Text-to-speech with linear spectrogram prediction for quality and speed improvement)

  • 윤혜빈
    • 말소리와 음성과학
    • /
    • 제13권3호
    • /
    • pp.71-78
    • /
    • 2021
  • 인공신경망에 기반한 대부분의 음성 합성 모델은 고음질의 자연스러운 발화를 생성하기 위해 보코더 모델을 사용한다. 보코더 모델은 멜 스펙트로그램 예측 모델과 결합하여 멜 스펙트로그램을 음성으로 변환한다. 그러나 보코더 모델을 사용할 경우에는 많은 양의 컴퓨터 메모리와 훈련 시간이 필요하며, GPU가 제공되지 않는 실제 서비스 환경에서 음성 합성이 오래 걸린다는 단점이 있다. 기존의 선형 스펙트로그램 예측 모델에서는 보코더 모델을 사용하지 않으므로 이 문제가 발생하지 않지만, 대신에 고품질의 음성을 생성하지 못한다. 본 논문은 뉴럴넷 기반 보코더를 사용하지 않으면서도 양질의 음성을 생성하는 Tacotron 2 & Transformer 기반의 선형 스펙트로그램 예측 모델을 제시한다. 본 모델의 성능과 속도 측정 실험을 진행한 결과, 보코더 기반 모델에 비해 성능과 속도 면에서 조금 더 우세한 점을 보였으며, 따라서 고품질의 음성을 빠른 속도로 생성하는 음성 합성 모델 연구의 발판 역할을 할 것으로 기대한다.

구조적 압축을 통한 FPGA 기반 GRU 추론 가속기 설계 (Implementation of FPGA-based Accelerator for GRU Inference with Structured Compression)

  • 채병철
    • 한국정보통신학회논문지
    • /
    • 제26권6호
    • /
    • pp.850-858
    • /
    • 2022
  • 리소스가 제한된 임베디드 장치에 GRU를 배포하기 위해 이 논문은 구조적 압축을 가능하게 하는 재구성 가능한 FPGA 기반 GRU 가속기를 설계한다. 첫째, 조밀한 GRU 모델은 하이브리드 양자화 방식과 구조화된 top-k 프루닝에 의해 크기가 대폭 감소한다. 둘째, 본 연구에서 제시하는 재사용 컴퓨팅 패턴에 의해 외부 메모리 액세스에 대한 에너지 소비가 크게 감소한다. 마지막으로 가속기는 알고리즘-하드웨어 공동 설계 워크플로의 이점을 얻는 구조화된 희소 GRU 모델을 처리할 수 있다. 또한 모든 차원, 시퀀스 길이 및 레이어 수를 사용하여 GRU 모델에 대한 추론 작업을 유연하게 수행할 수 있다. Intel DE1-SoC FPGA 플랫폼에 구현된 제안된 가속기는 일괄 처리가 없는 구조화된 희소 GRU 네트워크에서 45.01 GOPs를 달성하였다. CPU 및 GPU의 구현과 비교할 때 저비용 FPGA 가속기는 대기 시간에서 각각 57배 및 30배, 에너지 효율성에서 300배 및 23.44배 향상을 달성한다. 따라서 제안된 가속기는 실시간 임베디드 애플리케이션에 대한 초기 연구로서 활용, 향후 더 발전될 수 있는 잠재력을 보여준다.

긴 문서를 위한 BERT 기반의 End-to-End 한국어 상호참조해결 (Korean End-to-End Coreference Resolution with BERT for Long Document)

  • 조경빈;정영준;이창기;류지희;임준호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.259-263
    • /
    • 2021
  • 상호참조해결은 주어진 문서에서 상호참조해결 대상이 되는 멘션(mention)을 식별하고, 동일한 개체(entity)를 의미하는 멘션들을 찾아 그룹화하는 자연어처리 태스크이다. 최근 상호참조해결에서는 BERT를 이용하여 단어의 문맥 표현을 얻은 후, 멘션 탐지와 상호참조해결을 동시에 진행하는 end-to-end 모델이 주로 연구되었으나, 512 토큰 이상의 긴 문서를 처리하기 위해서는 512 토큰 이하로 문서를 분할하여 처리하기 때문에 길이가 긴 문서에 대해서는 상호참조해결 성능이 낮아지는 문제가 있다. 본 논문에서는 512 토큰 이상의 긴 문서를 위한 BERT 기반의 end-to-end 상호참조해결 모델을 제안한다. 본 모델은 긴 문서를 512 이하의 토큰으로 쪼개어 기존의 BERT에서 단어의 1차 문맥 표현을 얻은 후, 이들을 다시 연결하여 긴 문서의 Global Positional Encoding 또는 Embedding 값을 더한 후 Global BERT layer를 거쳐 단어의 최종 문맥 표현을 얻은 후, end-to-end 상호참조해결 모델을 적용한다. 실험 결과, 본 논문에서 제안한 모델이 기존 모델과 유사한 성능을 보이면서(테스트 셋에서 0.16% 성능 향상), GPU 메모리 사용량은 1.4배 감소하고 속도는 2.1배 향상되었다.

  • PDF

GPGPU를 활용한 스파크 기반 공간 연산 (Spatial Computation on Spark Using GPGPU)

  • 손찬승;김대희;박능수
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제5권8호
    • /
    • pp.181-188
    • /
    • 2016
  • 최근 급격히 증가하는 공간 데이터를 효율적으로 처리하기 위해 많은 연구들이 진행되고 있다. 기존 관계형 데이터베이스 시스템을 확장한 공간 데이터베이스 시스템은 확장성에 대한 문제가 있으며, 분산 처리 플랫폼인 하둡을 확장한 SpatialHadoop은 중간 연산 결과를 디스크에 작성하기 때문에 파일 입출력의 오버헤드로 성능이 저하되는 문제가 있다. 본 논문은 인-메모리 기반 분산 처리 프레임워크인 스파크를 확장한 공간 연산 스파크를 제안하였다. 또한 공간 연산 스파크의 성능을 향상시키기 위하여 GPGPU를 결합한 모델을 개발하였다. 공간 연산 스파크는 중간 연산 결과를 메모리에 유지시키는 스파크의 특징을 그대로 사용하고 있으며, GPGPU 기반 공간 연산 스파크의 경우 다수의 PE를 이용하여 병렬처리하기 때문에 효율적으로 공간 연산을 수행할 수 있다. 본 논문은 단일 AMD 시스템에서 공간 연산 스파크와 GPGPU 기반 공간 연산 스파크를 구현하였다. 공간 연산 스파크와 GPGPU 기반 공간 연산 스파크의 성능을 평가하기 위하여 Point-in-Polygon 연산과 Spatial Join 연산을 수행하였으며, SpatialHadoop에 비하여 최대 8배의 성능 향상을 확인하였다.

단일 명령 다중 스레드 병렬 플랫폼을 위한 무작위 부분적 Haar 웨이블릿 변환 (Random Partial Haar Wavelet Transformation for Single Instruction Multiple Threads)

  • 박태정
    • 디지털콘텐츠학회 논문지
    • /
    • 제16권5호
    • /
    • pp.805-813
    • /
    • 2015
  • Compressive sensing 및 희소 복원 문제(sparse recovery problem)는 기존 디지털 기술의 한계를 극복할 수 있는 새로운 이론으로 많은 관심을 받고 있다. 그러나 신호 재구성에서 l1 norm 최적화 문제 해결에 많은 연산이 수행되며 따라서 병렬 처리 기법이 필요하다. 이 과정에서 무작위 행렬과 벡터 연산을 통한 변환 연산이 전체 과정 중에서 많은 부분을 차지하는데, 특히 원본 신호의 크기로 인해 이 과정에서 필요한 무작위 행렬을 메모리에 저장하기 곤란하며 계산 시 무작위 행렬의 절차적(procedural) 처리 방식이 필수적이다. 본 논문에서는 이 문제에 대한 해결책으로 단일 명령 다중 스레드(SIMT) 병렬 플랫폼 상에서 무작위 부분적 Haar 웨이블릿 변환을 절차적으로 계산할 수 있는 새로운 병렬 알고리듬을 제안한다.

계층적 군집화 기반 Re-ID를 활용한 객체별 행동 및 표정 검출용 영상 분석 시스템 (Video Analysis System for Action and Emotion Detection by Object with Hierarchical Clustering based Re-ID)

  • 이상현;양성훈;오승진;강진범
    • 지능정보연구
    • /
    • 제28권1호
    • /
    • pp.89-106
    • /
    • 2022
  • 최근 영상 데이터의 급증으로 이를 효과적으로 처리하기 위해 객체 탐지 및 추적, 행동 인식, 표정 인식, 재식별(Re-ID)과 같은 다양한 컴퓨터비전 기술에 대한 수요도 급증했다. 그러나 객체 탐지 및 추적 기술은 객체의 영상 촬영 장소 이탈과 재등장, 오클루전(Occlusion) 등과 같이 성능을 저하시키는 많은 어려움을 안고 있다. 이에 따라 객체 탐지 및 추적 모델을 근간으로 하는 행동 및 표정 인식 모델 또한 객체별 데이터 추출에 난항을 겪는다. 또한 다양한 모델을 활용한 딥러닝 아키텍처는 병목과 최적화 부족으로 성능 저하를 겪는다. 본 연구에서는 YOLOv5기반 DeepSORT 객체추적 모델, SlowFast 기반 행동 인식 모델, Torchreid 기반 재식별 모델, 그리고 AWS Rekognition의 표정 인식 모델을 활용한 영상 분석 시스템에 단일 연결 계층적 군집화(Single-linkage Hierarchical Clustering)를 활용한 재식별(Re-ID) 기법과 GPU의 메모리 스루풋(Throughput)을 극대화하는 처리 기법을 적용한 행동 및 표정 검출용 영상 분석 시스템을 제안한다. 본 연구에서 제안한 시스템은 간단한 메트릭을 사용하는 재식별 모델의 성능보다 높은 정확도와 실시간에 가까운 처리 성능을 가지며, 객체의 영상 촬영 장소 이탈과 재등장, 오클루전 등에 의한 추적 실패를 방지하고 영상 내 객체별 행동 및 표정 인식 결과를 동일 객체에 지속적으로 연동하여 영상을 효율적으로 분석할 수 있다.