• 제목/요약/키워드: 추론 가속화

검색결과 23건 처리시간 0.028초

Xilinx DPU를 사용한 CNN 추론 분석 (Analysis of CNN Inference Using Xilinx DPU)

  • 김채영;서태원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.60-62
    • /
    • 2019
  • 지능형 IoT 애플리케이션들을 효과적으로 사용하기 위해서는 추론 엔진을 Edge device로 포팅하는 것이 필수적이다. 그러나 컴퓨팅 자원이 제한적인 Edge 환경에서 computational cost가 상당히 큰 CNN 추론을 실시간으로 하는 것은 쉽지 않다. 이에, CNN 추론의 하드웨어 가속화의 필요성이 제기되어 활발한 연구가 진행되고 있으며, Xilinx, Intel 등에서도 하드웨어 가속화를 도와주는 툴을 개발하여 지속적으로 업그레이드하고 있다. 본 연구에서는 CIFAR-10 데이터베이스의 테스트 이미지 10,000개를 Xilinx 사의 CNN 추론 엔진인 DPU를 사용하여 Zynq UltraScale+ 보드에서 추론해보고, DPU 아키텍처에 따른 결과를 비교·분석했다. 병렬처리 수준을 높게 한 DPU는 그렇지 않은 DPU보다 소비전력 및 자원 사용량이 3배 이상 높았지만, 1.65배 좋은 성능을 보여 Trade-off 관계를 확인할 수 있었다.

드론 기반 실시간 객체 식별을 위한 추론 가속화 평가 (An Evaluation of Inference Acceleration for Drone-based Real-time Object Detection)

  • 권승상;문용혁
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.408-410
    • /
    • 2022
  • 최근 데이터 획득 위치에 가장 근접하고, 저 수준의 계산력을 제공하는 엣지 기기를 중심으로 직접 딥러닝 추론을 수행하고자 하는 요구가 증가하고 있다. 본 논문에서는 드론에서 촬영한 교통 영상 데이터를 기반으로, 다수의 차량 종류 및 보행자를 식별하는 모델을 Jetson Nano 에 탑재하여 기본 성능을 측정한다. 더불어, 자원제약형 기기 환경에서 TensorRT 와 Deepstream 을 활용하여 객체 식별 모델의 연산 경량화 및 추론 가속화 성능을 극대화하기 위한 구현 및 실험을 수행하여 Anchor-based 및 Anchor-free 객체 식별 모델의 정확도와 실시간 대응력을 평가하고 논의한다.

온-보드에서의 딥러닝을 활용한 드론의 실시간 객체 인식 연구 (A Study on Realtime Drone Object Detection Using On-board Deep Learning)

  • 이장우;김주영;김재경;권철희
    • 한국항공우주학회지
    • /
    • 제49권10호
    • /
    • pp.883-892
    • /
    • 2021
  • 본 논문에서는 드론을 활용한 감시정찰 임무의 효율성을 향상하기 위해 드론 탑재장비에서 실시간으로 구동 가능한 딥러닝 기반의 객체 인식 모델을 개발하는 연구를 수행하였다. 드론 영상 내 객체 인식 성능을 높이는 목적으로 학습 단계에서 학습 데이터 전처리 및 증강, 전이 학습을 수행하였고 각 클래스 별 성능 편차를 줄이기 위해 가중 크로스 엔트로피 방법을 적용하였다. 추론 속도를 개선하기 위해 양자화 기법이 적용된 추론 가속화 엔진을 생성하여 실시간성을 높였다. 마지막으로 모델의 성능을 확인하기 위해 학습에 참여하지 않은 드론 영상 데이터에서 인식 성능 및 실시간성을 분석하였다.

평균-분산 가속화 실패시간 모형에서 벌점화 변수선택 (Penalized variable selection in mean-variance accelerated failure time models)

  • 권지훈;하일도
    • 응용통계연구
    • /
    • 제34권3호
    • /
    • pp.411-425
    • /
    • 2021
  • 가속화 실패시간모형은 로그 생존시간과 공변량간의 선형적 관계를 묘사해 준다. 가속화 실패시간모형에서 생존시간의 평균뿐만 아니라 변동성에도 영향을 미치는 공변량 효과를 추론하는 것은 흥미가 있다. 이를 위해 생존시간의 평균뿐만 아니라 분산을 모형화 하는 것이 필요하며, 이러한 모형을 평균-분산 가속화 실패시간모형이라 부른다. 본 논문에서는 벌점 가능도함수를 이용하여 평균-분산 가속화 실패시간모형에서 회귀모수에 대한 변수선택 절차를 제안한다. 여기서 벌점함수로서 LASSO, ALASSO, SCAD 그리고 HL (계층가능도)와 같은 네 가지 벌점함수를 연구한다. 제안된 변수선택 절차를 통해 중요한 공변량의 선택 뿐만 아니라 회귀모수의 추정을 동시에 제공할 수 있다. 제안된 방법의 성능은 모의실험을 통해 평가하고, 하나의 임상 예제자료를 통해 제안된 방법을 예증하고자 한다.

RISC-V 플랫폼 기반 CNN 모듈의 버퍼링 분석 (Buffering analysis of CNN module based on RISC-V platform)

  • 김진영;임승호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 춘계학술발표대회
    • /
    • pp.9-11
    • /
    • 2021
  • 최근 임베디드 엣지 컴퓨팅 디바이스에서 AI와 같은 인공지은 연산을 수행하여 AI 추론 연산의 가속화 및 분산화가 많이 이루어지고 있다. 엣지 디바이스는 임베디드 프로세서를 기반으로 AI의 가속 연산을 위해서 내부에 딥러닝 가속기를 포함하여 가속화시키는 시스템 구성을 하고 있다. 딥러닝 가속기는 복잡한 Neural Network 연산을 위한 데이터 이동이 많으며 외부 메모리와 내부 딥러닝 가속기간의 효율적인 데이터 이동 및 버퍼링이 필요하다. 본 연구에서는 엣지 디바이스 딥러닝 가속기 내부의 버퍼 구조를 모델링하고, 버퍼의 크기에 따른 버퍼링 효과를 분석해 보았다. 딥러닝 가속기 버퍼 구조는 RISC-V 프로세서 기반 가상 플랫폼에 구현되었다. 이를 통해서 딥러닝 모델에 따른 딥러닝 가속기 버퍼의 사용성을 분석할 수 있다.

가속화 수명 실험에서의 비모수적 추론 (Nonparametric Inference for Accelerated Life Testing)

  • 김태규
    • 품질경영학회지
    • /
    • 제32권4호
    • /
    • pp.242-251
    • /
    • 2004
  • Several statistical methods are introduced 1=o analyze the accelerated failure time data. Most frequently used method is the log-linear approach with parametric assumption. Since the accelerated failure time experiments are exposed to many environmental restrictions, parametric log-linear relationship might not be working properly to analyze the resulting data. The models proposed by Buckley and James(1979) and Stute(1993) could be useful in the situation where parametric log-linear method could not be applicable. Those methods are introduced in accelerated experimental situation under the thermal acceleration and discussed through an illustrated example.

퍼지제어를 위한 가속화 추론 방법 (Accelerated reasoning method for fuzzy control)

  • 남세규;정인수
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 1993년도 한국자동제어학술회의논문집(국내학술편); Seoul National University, Seoul; 20-22 Oct. 1993
    • /
    • pp.1058-1062
    • /
    • 1993
  • A fuzzy reasoning method is proposed for the implementation of control systems based on non-fuzzy microprocessors. The essence of the proposed method is to search the local active miles instead of the global rule base. Thus the reasoning is conveniently performed on a master cell as a fuzzy accelerating kernel, which is transformed from an active fuzzy cell. The interpolative reasoning is simplified via adopting the algebraic product of fulfillment for the conditional connective AND and the weighted average for the rule sentence connective ALSO.

  • PDF

터커 분해 및 은닉층 병렬처리를 통한 임베디드 시스템의 다중 DNN 가속화 기법 (Multi-DNN Acceleration Techniques for Embedded Systems with Tucker Decomposition and Hidden-layer-based Parallel Processing)

  • 김지민;김인모;김명선
    • 한국정보통신학회논문지
    • /
    • 제26권6호
    • /
    • pp.842-849
    • /
    • 2022
  • 딥러닝 기술의 발달로 무인 자동차, 드론, 로봇 등의 임베디드 시스템 분야에서 DNN을 활용하는 사례가 많아지고 있다. 대표적으로 자율주행 시스템의 경우 정확도가 높고 연산량이 큰 몇 개의 DNN들을 동시에 수행하는 것이 필수적이다. 하지만 상대적으로 낮은 성능을 갖는 임베디드 환경에서 다수의 DNN을 동시에 수행하면 추론에 걸리는 시간이 길어진다. 이러한 현상은 추론 결과에 따른 동작이 제때 이루어지지 않아 비정상적인 기능을 수행하는 문제를 발생시킬 수 있다. 이를 해결하기 위하여 본 논문에서 제안한 솔루션은 먼저 연산량이 큰 DNN에 터커 분해 기법을 적용하여 연산량을 감소시킨다. 그다음으로 DNN 모델들을 GPU 내부에서 은닉층 단위로 최대한 병렬적으로 수행될 수 있게 한다. 실험 결과 DNN의 추론 시간이 제안된 기법을 적용하기 전 대비 최대 75.6% 감소하였다.

웹기반 전문가시스템의 구조 분류 (Classification of the Architectures of Web based Expert Systems)

  • 임규건
    • 지능정보연구
    • /
    • 제13권4호
    • /
    • pp.1-16
    • /
    • 2007
  • 인터넷의 대중화와 e-비즈니스의 활성화에 따라 향후 인터넷과 유비쿼터스 환경에 대비한 지능형시스템 연구가 가속화 되고 있다. 전문가시스템도 기존의 Stand Alone방식에서 웹기반의 클라이언트-서버방식으로 발전되고 있으며, 다양한 인터넷 환경에서 활용되고 있다. 본 논문에서는 인터넷 웹 환경에서의 전문가시스템 개발환경과 고려사항들을 살펴 보고 웹 기반 전문가시스템들을 유형별로 분류하고, 분석하여 이를 통해 웹 기반 전문가 시스템의 일반적인 유형 모델과 구조를 제시한다. 본 논문에서는 첫 번째 클라이언트와 서버 간의 Load Balancing 측면에 따라 서버중심의 Server Oriented, 클라이언트 중심의 Client Oriented의 두 가지 모델을 구분 하였다. 그리고, 두 번째 지식 및 추론 공유 정도에 따라 지식과 추론에 대한 공유가 전혀 이루어 지지 않는 No Sharing, 서버들 간에 지식 및 추론의 공유가 이루어지는 경우인 Server Sharing, 클라이언트 간의 공유가 이루어 지는 경우인 Client Sharing, 클라이언트, 서버 모두에서 공유가 이루어 지는 경우인 Client-Server Sharing의 네 가지 모델을 분류하였다. 이들의 조합을 통해 총 8가지의 유형을 도출하였다. 또한 각 모델 별로 유형별 구조와 장단점, 인터넷상에서의 지식베이스, Fact Base, 추론엔진 등의 위치 문제와 사용기술, 고려사항, 서비스 유형들을 구분, 분석하였다. 본 논문을 통해서 제시된 프레임워크를 활용하여 새로운 환경에 좀더 능동적으로 대처할 수 있는 효율적인 전문가시스템의 다양한 개발이 기대된다.

  • PDF

다중영상을 이용한 딥러닝 기반 온디바이스 증강현실 시스템 (Deep Learning Based On-Device Augmented Reality System using Multiple Images)

  • 정태현;박인규
    • 방송공학회논문지
    • /
    • 제27권3호
    • /
    • pp.341-350
    • /
    • 2022
  • 본 논문은 온디바이스 환경에서 다중 시점 영상을 입력 받아 객체를 증강하고, 현실 공간에 의한 가려짐을 구현하는 딥러닝 기반의 증강현실 시스템을 제안한다. 이는 세부적으로 카메라 자세 추정, 깊이 추정, 객체 증강 구현의 세 기술적 단계로 나눠지며 각 기법은 온디바이스 환경에서의 최적화를 위해 다양한 모바일 프레임워크를 사용한다. 카메라 자세 추정 단계에서는 많은 계산량을 필요로 하는 특징 추출 알고리즘을 GPU 병렬처리 프레임워크인 OpenCL을 통해 가속하여 사용하며, 깊이 영상 추론 단계에서는 모바일 심층신경망 프레임워크 TensorFlow Lite를 사용하여 가속화된 단안, 다중 영상 기반의 깊이 영상 추론을 수행한다. 마지막으로 모바일 그래픽스 프레임워크 OpenGL ES를 활용해 객체 증강 및 가려짐을 구현한다. 제시하는 증강현실 시스템은 안드로이드 환경에서 GUI를 갖춘 애플리케이션으로 구현되며 모바일과 PC 환경에서의 동작 정확도 및 처리 시간을 평가한다.