• 제목/요약/키워드: Kernel Memory

검색결과 179건 처리시간 0.021초

FFT 적용을 통한 Convolution 연산속도 향상에 관한 연구 (A Study on the Optimization of Convolution Operation Speed through FFT Algorithm)

  • 임수창;김종찬
    • 한국멀티미디어학회논문지
    • /
    • 제24권11호
    • /
    • pp.1552-1559
    • /
    • 2021
  • Convolution neural networks (CNNs) show notable performance in image processing and are used as representative core models. CNNs extract and learn features from large amounts of train dataset. In general, it has a structure in which a convolution layer and a fully connected layer are stacked. The core of CNN is the convolution layer. The size of the kernel used for feature extraction and the number that affect the depth of the feature map determine the amount of weight parameters of the CNN that can be learned. These parameters are the main causes of increasing the computational complexity and memory usage of the entire neural network. The most computationally expensive components in CNNs are fully connected and spatial convolution computations. In this paper, we propose a Fourier Convolution Neural Network that performs the operation of the convolution layer in the Fourier domain. We work on modifying and improving the amount of computation by applying the fast fourier transform method. Using the MNIST dataset, the performance was similar to that of the general CNN in terms of accuracy. In terms of operation speed, 7.2% faster operation speed was achieved. An average of 19% faster speed was achieved in experiments using 1024x1024 images and various sizes of kernels.

전이학습과 딥러닝 네트워크를 활용한 고해상도 위성영상의 변화탐지 (Change Detection for High-resolution Satellite Images Using Transfer Learning and Deep Learning Network)

  • 송아람;최재완;김용일
    • 한국측량학회지
    • /
    • 제37권3호
    • /
    • pp.199-208
    • /
    • 2019
  • 운용 가능한 위성의 수가 증가하고 기술이 진보함에 따라 영상정보의 성과물이 다양해지고 많은 양의 자료가 축적되고 있다. 본 연구에서는 기구축된 영상정보를 활용하여 부족한 훈련자료의 문제를 극복하고 딥러닝(deep learning) 기법의 장점을 활용하고자 전이학습과 변화탐지 네트워크를 활용한 고해상도 위성영상의 변화탐지를 수행하였다. 본 연구에서 활용한 딥러닝 네트워크는 공간 및 분광 정보를 추출하는 합성곱 레이어(convolutional layer)와 시계열 정보를 분석하는 합성곱 장단기 메모리 레이어(convolutional long short term memory layer)로 구성되었으며, 고해상도 다중분광 영상에 최적화된 정보를 추출하기 위하여 커널(kernel)의 차원에 따른 정확도를 비교하였다. 또한, 학습된 커널 정보를 활용하기 위하여 변화탐지 네트워크의 초기 합성곱 레이어를 고해상도 항공영상인 ISPRS (International Society for Photogrammetry and Remote Sensing) 데이터셋에서 추출된 40,000개의 패치로 학습된 값으로 초기화하였다. 다시기 KOMPSAT-3A (KOrean Multi-Purpose SATllite-3A) 영상에 대한 실험 결과, 전이학습과 딥러닝 네트워크를 활용할 경우 기복 변위 및 그림자 등으로 인한 변화에 덜 민감하게 반응하며 분류 항목이 달라진 지역의 변화를 보다 효과적으로 추출할 수 있었으며, 2차원 커널보다 3차원 커널을 사용할 때 변화탐지의 정확도가 높았다. 3차원 커널은 공간 및 분광정보를 모두 고려하여 특징 맵(feature map)을 추출하기 때문에 고해상도 영상의 분류뿐만 아니라 변화탐지에도 효과적인 것을 확인하였다. 본 연구에서는 고해상도 위성영상의 변화탐지를 위한 전이학습과 딥러닝 기법의 활용 가능성을 제시하였으며, 추후 훈련된 변화탐지 네트워크를 새롭게 취득된 영상에 적용하는 연구를 수행하여 제안기법의 활용범위를 확장할 예정이다.

로봇을 위한 운영체제 수준의 동적 전력 관리 (Operating System level Dynamic Power Management for Robot)

  • 최승민;채수익
    • 대한전자공학회논문지SD
    • /
    • 제42권5호
    • /
    • pp.63-72
    • /
    • 2005
  • 본 논문에서는 가정용 로봇에 적용 할 수 있는 운영체제 수준의 동적 전력 관리 기법인 EAJS(Energy-Aware Job Scheduler)를 제안한다. EAJS는 workload가 일정하지 않은 IO 장치를 사용하는 job들을 스케줄하여 장치의 idle주기를 가능하면 연속적이게 만든 후, 장치를 shutdown 시켜서 에너지 소모를 줄이는 능동적인 저전력 스케줄러이다. EAJS는 기존의 저전력 스케줄러와 달리, IO 장치를 사용하는 job의 workload, job의 buffering에 사용 가능한 메모리의 크기, buffering으로 인해 발생하는 시간 지연 등을 동시에 고려하여 job을 스케줄 하기 때문에, 에너지를 절약하면서도 시스템의 성능 저하를 최소화 할 수 있다. EAJS의 prototype을 본 연구에서 개발한 가정용 로봇인 AFM(Autonomous Family Machine)에 구현하였으며, H.263 인코더를 수행시키는 실험을 통해 무선랜과 DSP의 에너지 소모가 최대 $44\%$ 가량 줄어듬을 확인 하였다.

양방향 모델을 적용한 Full-image Guided Filter의 효율적인 VLSI 구조 (Efficient VLSI Architecture of Full-Image Guided Filter Based on Two-Pass Model)

  • 이겨레;박태근
    • 한국통신학회논문지
    • /
    • 제41권11호
    • /
    • pp.1507-1514
    • /
    • 2016
  • Full-image guided filter는 커널 윈도우 영역만 필터링에 반영되는 기존의 커널 윈도우 기반 가이드 필터와 달리 가중치 전파 도식과 양방향 모델이 적용되어 영상의 모든 픽셀이 필터링에 반영된다. 이로써 가이드 필터의 경계 보존과 평활화 등의 가이드 이미지 필터의 특성을 유지하면서도 계산 복잡도를 개선할 수 있다. 본 논문에서는 full-image guided filter의 더 빠른 처리가 필요한 스테레오 비전 및 각종 실시간 시스템 분야에 적용될 수 있도록 효율적인 하드웨어 구조를 제안하였다. 필터링 프로세스에서 발생하는 각종 데이터의 종속성 분석과 영상의 PSNR 분석, 데이터 빈도 분석 등을 통하여 적합한 하드웨어 구조를 제안하였다. 또한 양방향 모델이 적용된 가중치 연산 모듈의 휴식 구간이 최소화되도록 효율적인 스케줄링을 하였고 실시간 처리가 가능하게 하였다. 제안한 하드웨어 구조는 동부하이텍 0.11um 표준셀 라이브러리로 합성하였을 경우 최대 동작주파수 214MHz(384*288 영상: 965 fps)와 76K(내부 메모리 제외) 게이트의 하드웨어 복잡도를 나타냈다.

3 차원 시간영역 근사비선형 2 차경계요소법에 의한 선체의 대진폭 운동 및 파랑하중 계산 (Estimation of Large Amplitude Motions and Wave Loads of a Ship Advancing in Transient Waves by Using a Three Dimensional Time-domain Approximate Body-exact Nonlinear 2nd-order BEM)

  • 홍도천;홍사영;성홍근
    • 대한조선학회논문집
    • /
    • 제47권3호
    • /
    • pp.291-305
    • /
    • 2010
  • A three-dimensional time-domain calculation method is of crucial importance in prediction of the motions and wave loads of a ship advancing in a severe irregular sea. The exact solution of the free surface wave-ship interaction problem is very complicated because of the essentially nonlinear boundary conditions. In this paper, an approximate body nonlinear approach based on the three-dimensional time-domain forward-speed free-surface Green function has been presented. The Froude-Krylov force and the hydrostatic restoring force are calculated over the instantaneous wetted surface of the ship while the forces due to the radiation and scattering potentials over the mean wetted surface. The time-domain radiation and scattering potentials have been obtained from a time invariant kernel of integral equations for the potentials which are discretized according to the second-order boundary element method (Hong and Hong 2008). The diffraction impulse-response functions of the Wigley seakeeping model advancing in transient head waves at various Froude numbers have been presented. A simulation of coupled heave-pitch motion of a long rectangular barge advancing in regular head waves of large amplitude has been carried out. Comparisons between the linear and the approximate body nonlinear numerical results of motions and wave loads of the barge at a nonzero Froude number have been made.

시간 결정성을 보장하는 실시간 태스크 스케줄링 (Deterministic Real-Time Task Scheduling)

  • 조문행;이숭열;이원용;정근재;김용희;이철훈
    • 한국콘텐츠학회논문지
    • /
    • 제7권1호
    • /
    • pp.73-82
    • /
    • 2007
  • 오늘날의 내장형 시스템은 군사 무기체계, 로봇, 인공위성 등과 같이 전통적인 내장형 시스템에서 휴대폰, 디지털 캠코더, PMP, MP3플레이어와 같은 보다 복잡한 응용프로그램 구동을 필요로 하는 휴대용 시스템으로 그 영역을 넓혀가고 있다. 이런 내장형 실시간 시스템은 내장형 시스템의 한정된 자원을 효율적으로 관리하고 시간적 논리적 정확성을 보장하기 위해 실시간 운영체제를 사용한다. 실시간 운영체제의 서비스를 통해 응용프로그래머는 응용프로그램을 구성하는 각 태스크가 시간 결정성에 위배되지 않도록 응용프로그램을 구현할 수 있다. 더욱이, 실시간 운영체제는 시간 결정성 보장을 위해 스케줄링과 문맥교환에 사용되는 시간을 예측할 수 있어야 한다. 본 논문에서는 추가적인 메모리 오버헤드 없이 22r 레벨의 우선순위를 갖는 시스템에서 고정 상수 시간 내에 가장 높은 우선순위를 갖는 태스크를 결정할 수 있는 알고리즘에 대해 기술한다.

안드로이드에 실시간 성능 제공을 위한 태스크 관리 및 가비지컬렉션 실행 제어 방법 (Task Management and Garbage Collection Execution Control Method for Providing Real-time Performance to Android)

  • 조경연;조한무;이정국;서민원;이상길;이철훈
    • 한국콘텐츠학회논문지
    • /
    • 제18권3호
    • /
    • pp.101-113
    • /
    • 2018
  • 실시간으로 데이터를 획득하고 평가하는 것이 중요한 군용 점검 장비와 같은 시스템에서는 운영체제 레벨에서 실시간 처리가 가능해야 한다. 기술의 발전으로 기존 장비를 휴대용 단말로 대체하려는 요구가 있으나, 안드로이드가 적용된 휴대용 단말은 실시간성이 요구되는 시스템에 적합하지 않다. 안드로이드에서는 가비지 컬렉션을 통해 가용 메모리를 확보하는데, 이 작업이 수행되는 동안 다른 태스크가 중단되어 특정 태스크의 주기성을 보장할 수 없다. 본 논문에서는 이를 해결하기 위해 안드로이드의 가비지 컬렉션 실행을 제어하는 구조를 설계 및 구현하였다. 실시간 작업이 필요한 시간 동안 가비지 컬렉션을 제어하여 실시간 성능을 보장하며, 안드로이드에 실시간 성능 보장을 위한 RTiK을 적용하였다. 성능 평가를 위해 5ms 주기 태스크의 호출 주기를 측정하였으며, 제어 이전에는 태스크의 34.31%만 주기가 보장되었으나, 제어를 통해 98.18%의 태스크 주기가 만족되어 안드로이드에 실시간성을 제공하였다.

RT-eCos 3.0 기반의 RMMC 및 글로벌 타임 설계 및 구현 (Design & Implementation of the RMMC and Global Time based on the RT-eCos 3.0)

  • 한승연;김정국
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권7호
    • /
    • pp.759-767
    • /
    • 2010
  • RT-eCos 3.0은 대표적 분산 실시간 객체 모델인 TMO(Time-triggered Message-triggered Object)의 기본적 태스크 모델 실행을 제공하기 위하여 공개소스 eCos 3.0 기반으로 개발된 초경량 경성 실시간 임베디드 운영체제이다. 본 논문에서는 RT-eCos 3.0에서, TMO 표준 분산 IPC인 RMMC(Realtime Multicast & Memeory replication Channel)를 지원하기 위한 설계 및 구현에 대해 기술한다. 또한 RMMC를 사용하는 분산 노드에서 동일 시각을 사용하기 위한 글로벌 타임의 지원 기술에 대해서도 기술한다. 개발된 글로벌 타임 기반의 RMMC는 RT-eCos 3.0과 함께 광역 분산 컴퓨팅 환경에서 동일 시간기반으로 추상화된 고급의 분산 IPC 환경을 제공한다.

클라우드 환경에서 고성능 저장장치를 위한 동적 대역폭 분배 기법 (Dynamic Bandwidth Distribution Method for High Performance Non-volatile Memory in Cloud Computing Environment)

  • 권필진;안성용
    • 한국인터넷방송통신학회논문지
    • /
    • 제20권3호
    • /
    • pp.97-103
    • /
    • 2020
  • 리눅스 Cgroups은 컨테이너 기반 클라우드 서비스 구축에서 각 컨테이너 별 시스템 자원을 할당하기 위한 핵심적인 역할을 담당하고 있다. 특히 입출력 자원의 경우 리눅스 Cgroups은 컨테이너의 가중치에 따라 입출력 대역폭을 분배하는 기법을 지원하고 있다. 그러나 성능 분석 결과에 따르면 현재 리눅스 Cgroups의 입출력 대역폭 분배 기법은 NVMe SSD와 같은 고성능 저장장치를 사용할 경우 입출력 성능이 크게 저하된다는 한계점을 가지고 있다. 따라서 본 논문에서는 리눅스 Cgroups을 위한 새로운 피드백 기반의 동적 대역폭 분배 기법을 제안하고자 한다. 제안하는 기법은 가중치에 따라 입출력 크레딧을 분배하며 고성능 저장장치의 성능 변화를 동적으로 반영해 입출력 크레딧을 계산함으로써 저장장치의 성능 저하를 최소화한다. 제안된 기법은 리눅스 커널 5.3에 구현되었으며 성능 평가 결과 정확한 입출력 대역폭 분배를 수행할 뿐만 아니라 기존 기법에 비해 최대 2배 높은 입출력 성능을 보여주었다.

Implementation of High Speed Image Data Transfer using XDMA

  • Gwon, Hyeok-Jin;Choi, Doo-Hyun
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권7호
    • /
    • pp.1-8
    • /
    • 2020
  • 본 논문에서는 군용시험장비로 개발된 시험용 영상생성/수집 장치에 XDMA를 활용하여 고속 이미지 데이터 전송을 구현한다. 본 연구에서 제안하는 기술은 커널영역에서 시스템버퍼를 사용하여 데이터를 복사하는 방법을 FPGA내 DMA 엔진을 통한 송수신으로 대체하여 효율성을 얻는다. 본 연구를 위해 장치는 Life Cycle을 고려하여 PXIe 플랫폼으로 개발하였으며, 양산성을 고려하여 저가의 FPGA를 활용하여 퍼포먼스를 최대화하였다. 본 논문에서 구현한 영상입출력보드는 기존의 메모리복사방식을 통해 AXI 인터페이스 클럭 주파수, 링크속도를 변경하여 시험하였다. 그리고 FPGA의 DMA 엔진을 사용하여 보드를 구성하였으며, 그 결과 전송속도는 기존의 5~8Hz에서 140Hz로 증가함을 확인하였다. 제안된 방법은 PXIe 플랫폼을 이용한 장치개발의 비용절감, 기술수준을 높여 국방력 강화에 기여할 것이다.