• 제목/요약/키워드: ConvNet

검색결과 21건 처리시간 0.026초

전이학습 기반 다중 컨볼류션 신경망 레이어의 활성화 특징과 주성분 분석을 이용한 이미지 분류 방법 (Transfer Learning using Multiple ConvNet Layers Activation Features with Principal Component Analysis for Image Classification)

  • 바트후 ?바자브;주마벡 알리하노브;팡양;고승현;조근식
    • 지능정보연구
    • /
    • 제24권1호
    • /
    • pp.205-225
    • /
    • 2018
  • Convolutional Neural Network (ConvNet)은 시각적 특징의 계층 구조를 분석하고 학습할 수 있는 대표적인 심층 신경망이다. 첫 번째 신경망 모델인 Neocognitron은 80 년대에 처음 소개되었다. 당시 신경망은 대규모 데이터 집합과 계산 능력이 부족하여 학계와 산업계에서 널리 사용되지 않았다. 그러나 2012년 Krizhevsky는 ImageNet ILSVRC (Large Scale Visual Recognition Challenge) 에서 심층 신경망을 사용하여 시각적 인식 문제를 획기적으로 해결하였고 그로 인해 신경망에 대한 사람들의 관심을 다시 불러 일으켰다. 이미지넷 첼린지에서 제공하는 다양한 이미지 데이터와 병렬 컴퓨팅 하드웨어 (GPU)의 발전이 Krizhevsky의 승리의 주요 요인이었다. 그러므로 최근의 딥 컨볼루션 신경망의 성공을 병렬계산을 위한 GPU의 출현과 더불어 ImageNet과 같은 대규모 이미지 데이터의 가용성으로 정의 할 수 있다. 그러나 이러한 요소는 많은 도메인에서 병목 현상이 될 수 있다. 대부분의 도메인에서 ConvNet을 교육하기 위해 대규모 데이터를 수집하려면 많은 노력이 필요하다. 대규모 데이터를 보유하고 있어도 처음부터 ConvNet을 교육하려면 많은 자원과 시간이 소요된다. 이와 같은 문제점은 전이 학습을 사용하면 해결할 수 있다. 전이 학습은 지식을 원본 도메인에서 새 도메인으로 전이하는 방법이다. 전이학습에는 주요한 두 가지 케이스가 있다. 첫 번째는 고정된 특징점 추출기로서의 ConvNet이고, 두번째는 새 데이터에서 ConvNet을 fine-tuning 하는 것이다. 첫 번째 경우, 사전 훈련 된 ConvNet (예: ImageNet)을 사용하여 ConvNet을 통해 이미지의 피드포워드 활성화를 계산하고 특정 레이어에서 활성화 특징점을 추출한다. 두 번째 경우에는 새 데이터에서 ConvNet 분류기를 교체하고 재교육을 한 후에 사전 훈련된 네트워크의 가중치를 백프로퍼게이션으로 fine-tuning 한다. 이 논문에서는 고정된 특징점 추출기를 여러 개의 ConvNet 레이어를 사용하는 것에 중점을 두었다. 그러나 여러 ConvNet 레이어에서 직접 추출된 차원적 복잡성을 가진 특징점을 적용하는 것은 여전히 어려운 문제이다. 우리는 여러 ConvNet 레이어에서 추출한 특징점이 이미지의 다른 특성을 처리한다는 것을 발견했다. 즉, 여러 ConvNet 레이어의 최적의 조합을 찾으면 더 나은 특징점을 얻을 수 있다. 위의 발견을 토대로 이 논문에서는 단일 ConvNet 계층의 특징점 대신에 전이 학습을 위해 여러 ConvNet 계층의 특징점을 사용하도록 제안한다. 본 논문에서 제안하는 방법은 크게 세단계로 이루어져 있다. 먼저 이미지 데이터셋의 이미지를 ConvNet의 입력으로 넣으면 해당 이미지가 사전 훈련된 AlexNet으로 피드포워드 되고 3개의 fully-connected 레이어의 활성화 틀징점이 추출된다. 둘째, 3개의 ConvNet 레이어의 활성화 특징점을 연결하여 여러 개의 ConvNet 레이어의 특징점을 얻는다. 레이어의 활성화 특징점을 연결을 하는 이유는 더 많은 이미지 정보를 얻기 위해서이다. 동일한 이미지를 사용한 3개의 fully-connected 레이어의 특징점이 연결되면 결과 이미지의 특징점의 차원은 4096 + 4096 + 1000이 된다. 그러나 여러 ConvNet 레이어에서 추출 된 특징점은 동일한 ConvNet에서 추출되므로 특징점이 중복되거나 노이즈를 갖는다. 따라서 세 번째 단계로 PCA (Principal Component Analysis)를 사용하여 교육 단계 전에 주요 특징점을 선택한다. 뚜렷한 특징이 얻어지면, 분류기는 이미지를 보다 정확하게 분류 할 수 있고, 전이 학습의 성능을 향상시킬 수 있다. 제안된 방법을 평가하기 위해 특징점 선택 및 차원축소를 위해 PCA를 사용하여 여러 ConvNet 레이어의 특징점과 단일 ConvNet 레이어의 특징점을 비교하고 3개의 표준 데이터 (Caltech-256, VOC07 및 SUN397)로 실험을 수행했다. 실험결과 제안된 방법은 Caltech-256 데이터의 FC7 레이어로 73.9 %의 정확도를 얻었을 때와 비교하여 75.6 %의 정확도를 보였고 VOC07 데이터의 FC8 레이어로 얻은 69.2 %의 정확도와 비교하여 73.1 %의 정확도를 보였으며 SUN397 데이터의 FC7 레이어로 48.7%의 정확도를 얻었을 때와 비교하여 52.2%의 정확도를 보였다. 본 논문에 제안된 방법은 Caltech-256, VOC07 및 SUN397 데이터에서 각각 기존에 제안된 방법과 비교하여 2.8 %, 2.1 % 및 3.1 %의 성능 향상을 보였다.

다중 신경망 레이어에서 특징점을 선택하기 위한 전이 학습 기반의 AdaBoost 기법 (Transfer Learning based on Adaboost for Feature Selection from Multiple ConvNet Layer Features)

  • 주마벡;가명현;고승현;조근식
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 춘계학술발표대회
    • /
    • pp.633-635
    • /
    • 2016
  • Convolutional Networks (ConvNets) are powerful models that learn hierarchies of visual features, which could also be used to obtain image representations for transfer learning. The basic pipeline for transfer learning is to first train a ConvNet on a large dataset (source task) and then use feed-forward units activation of the trained ConvNet as image representation for smaller datasets (target task). Our key contribution is to demonstrate superior performance of multiple ConvNet layer features over single ConvNet layer features. Combining multiple ConvNet layer features will result in more complex feature space with some features being repetitive. This requires some form of feature selection. We use AdaBoost with single stumps to implicitly select only distinct features that are useful towards classification from concatenated ConvNet features. Experimental results show that using multiple ConvNet layer activation features instead of single ConvNet layer features consistently will produce superior performance. Improvements becomes significant as we increase the distance between source task and the target task.

시간 연속성을 고려한 딥러닝 기반 레이더 강우예측 (Radar rainfall prediction based on deep learning considering temporal consistency)

  • 신홍준;윤성심;최재민
    • 한국수자원학회논문집
    • /
    • 제54권5호
    • /
    • pp.301-309
    • /
    • 2021
  • 본 연구에서는 시계열 순서의 의미가 희석될 수 있는 기존의 U-net 기반 딥러닝 강우예측 모델의 성능을 개선하고자 하였다. 이를 위해서 데이터의 연속성을 고려한 ConvLSTM2D U-Net 신경망 구조를 갖는 모델을 적용하고, RainNet 모델 및 외삽 기반의 이류모델을 이용하여 예측정확도 개선 정도를 평가하였다. 또한 신경망 기반 모델 학습과정에서의 불확실성을 개선하기 위해 단일 모델뿐만 아니라 10개의 앙상블 모델로 학습을 수행하였다. 학습된 신경망 강우예측모델은 현재를 기준으로 과거 30분 전까지의 연속된 4개의 자료를 이용하여 10분 선행 예측자료를 생성하는데 최적화되었다. 최적화된 딥러닝 강우예측모델을 이용하여 강우예측을 수행한 결과, ConvLSTM2D U-Net을 사용하였을 때 예측 오차의 크기가 가장 작고, 강우 이동 위치를 상대적으로 정확히 구현하였다. 특히, 앙상블 ConvLSTM2D U-Net이 타 예측모델에 비해 높은 CSI와 낮은 MAE를 보이며, 상대적으로 정확하게 강우를 예측하였으며, 좁은 오차범위로 안정적인 예측성능을 보여주었다. 다만, 특정 지점만을 대상으로 한 예측성능은 전체 강우 영역에 대한 예측성능에 비해 낮게 나타나, 상세한 영역의 강우예측에 대한 딥러닝 강우예측모델의 한계도 확인하였다. 본 연구를 통해 시간의 변화를 고려하기 위한 ConvLSTM2D U-Net 신경망 구조가 예측정확도를 높일 수 있었으나, 여전히 강한 강우영역이나 상세한 강우예측에는 공간 평활로 인한 합성곱 신경망 모델의 한계가 있음을 확인하였다.

Spatio-Temporal Residual Networks for Slide Transition Detection in Lecture Videos

  • Liu, Zhijin;Li, Kai;Shen, Liquan;Ma, Ran;An, Ping
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제13권8호
    • /
    • pp.4026-4040
    • /
    • 2019
  • In this paper, we present an approach for detecting slide transitions in lecture videos by introducing the spatio-temporal residual networks. Given a lecture video which records the digital slides, the speaker, and the audience by multiple cameras, our goal is to find keyframes where slide content changes. Since temporal dependency among video frames is important for detecting slide changes, 3D Convolutional Networks has been regarded as an efficient approach to learn the spatio-temporal features in videos. However, 3D ConvNet will cost much training time and need lots of memory. Hence, we utilize ResNet to ease the training of network, which is easy to optimize. Consequently, we present a novel ConvNet architecture based on 3D ConvNet and ResNet for slide transition detection in lecture videos. Experimental results show that the proposed novel ConvNet architecture achieves the better accuracy than other slide progression detection approaches.

ConvNet을 활용한 영역기반 신속/범용 영상정합 기술 (Fast and All-Purpose Area-Based Imagery Registration Using ConvNets)

  • 백승철
    • 정보과학회 논문지
    • /
    • 제43권9호
    • /
    • pp.1034-1042
    • /
    • 2016
  • 영역기반 영상정합은 미리 정의된 특징의 도움 없이 영상을 정합할 수 있기 때문에, 기계학습과 접목된다면 이론 상 다양한 영상정합 문제에 적용 가능하다. 그러나 신속한 정합을 위하여, 미리 정의된 특징을 탐지하여 패치 쌍 후보를 선정에 사용하는데, 이는 영역기반 방법의 적용성에 제약을 준다. 이를 해소하기 위하여 본 연구에서는 단순히 두 패치의 관련도 뿐만 아니라 두 패치가 어느 정도 공간 상 떨어져 있는지에 대한 정보를 제공하는 ConvNet Dart를 개발하였다. 이러한 정보를 기반으로 효율적으로 패치 쌍 탐색공간을 줄일 수 있었다. 추가로 Dart가 제대로 작동할 수 없는 영역을 식별하는 ConvNet Fad를 개발하여 정합의 정밀도를 높였다. 본 연구에서는 이들을 딥러닝으로 학습하였으며, 이를 위해 소수의 정합된 영상에서 다량의 예제를 생성하는 방법을 개발하였다. 마지막으로 단순한 영상정합 문제에 성공적으로 적용하여, 이러한 방법론이 작동하는 것을 보였다.

Convolutional Neural Networks기반 항공영상 영역분할 및 분류 (Aerial Scene Labeling Based on Convolutional Neural Networks)

  • 나종필;황승준;박승제;백중환
    • 한국항행학회논문지
    • /
    • 제19권6호
    • /
    • pp.484-491
    • /
    • 2015
  • 항공영상은 디지털 광학 영상 기술의 성장과 무인기(UAV)의 발달로 인하여 영상의 도입 및 공급이 크게 증가하였고, 이러한 항공영상 데이터를 기반으로 지상의 속성 추출, 분류, 변화탐지, 영상 융합, 지도 제작 형태로 활용되고 있다. 특히, 영상분석 및 활용에 있어 딥 러닝 알고리즘은 패턴인식 분야의 한계를 극복하는 새로운 패러다임을 보여주고 있다. 본 논문은 딥 러닝 알고리즘인 ConvNet기반으로 항공영상의 영역분할 및 분류 결과를 통한 더욱더 넓은 범위와 다양한 분야에 적용할 수 있는 가능성을 제시한다. 학습데이터는 도로, 건물, 평지, 숲 총 3000개 4-클래스로 구축하였고 클래스 별로 일정한 패턴을 가지고 있어 특징 벡터맵을 통한 결과가 서로 다르게 나옴을 확인할 수 있다. 본 연구의 알고리즘은 크게 두 가지로 구성 되어 있는데 특징추출은 ConvNet기반으로 2개의 층을 쌓았고, 분류 및 학습과정으로 다층 퍼셉트론과 로지스틱회귀 알고리즘을 활용하여 특징들을 분류 및 학습시켰다.

RoutingConvNet: 양방향 MFCC 기반 경량 음성감정인식 모델 (RoutingConvNet: A Light-weight Speech Emotion Recognition Model Based on Bidirectional MFCC)

  • 임현택;김수형;이귀상;양형정
    • 스마트미디어저널
    • /
    • 제12권5호
    • /
    • pp.28-35
    • /
    • 2023
  • 본 연구에서는 음성감정인식의 적용 가능성과 실용성 향상을 위해 적은 수의 파라미터를 가지는 새로운 경량화 모델 RoutingConvNet(Routing Convolutional Neural Network)을 제안한다. 제안모델은 학습 가능한 매개변수를 줄이기 위해 양방향 MFCC(Mel-Frequency Cepstral Coefficient)를 채널 단위로 연결해 장기간의 감정 의존성을 학습하고 상황 특징을 추출한다. 저수준 특징 추출을 위해 경량심층 CNN을 구성하고, 음성신호에서의 채널 및 공간 신호에 대한 정보 확보를 위해 셀프어텐션(Self-attention)을 사용한다. 또한, 정확도 향상을 위해 동적 라우팅을 적용해 특징의 변형에 강인한 모델을 구성하였다. 제안모델은 음성감정 데이터셋(EMO-DB, RAVDESS, IEMOCAP)의 전반적인 실험에서 매개변수 감소와 정확도 향상을 보여주며 약 156,000개의 매개변수로 각각 87.86%, 83.44%, 66.06%의 정확도를 달성하였다. 본 연구에서는 경량화 대비 성능 평가를 위한 매개변수의 수, 정확도간 trade-off를 계산하는 지표를 제안하였다.

ConvXGB: A new deep learning model for classification problems based on CNN and XGBoost

  • Thongsuwan, Setthanun;Jaiyen, Saichon;Padcharoen, Anantachai;Agarwal, Praveen
    • Nuclear Engineering and Technology
    • /
    • 제53권2호
    • /
    • pp.522-531
    • /
    • 2021
  • We describe a new deep learning model - Convolutional eXtreme Gradient Boosting (ConvXGB) for classification problems based on convolutional neural nets and Chen et al.'s XGBoost. As well as image data, ConvXGB also supports the general classification problems, with a data preprocessing module. ConvXGB consists of several stacked convolutional layers to learn the features of the input and is able to learn features automatically, followed by XGBoost in the last layer for predicting the class labels. The ConvXGB model is simplified by reducing the number of parameters under appropriate conditions, since it is not necessary re-adjust the weight values in a back propagation cycle. Experiments on several data sets from UCL Repository, including images and general data sets, showed that our model handled the classification problems, for all the tested data sets, slightly better than CNN and XGBoost alone and was sometimes significantly better.

Deep learning based Person Re-identification with RGB-D sensors

  • Kim, Min;Park, Dong-Hyun
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권3호
    • /
    • pp.35-42
    • /
    • 2021
  • 본 연구에서는 3차원 RGB-D Xtion2 카메라를 이용하여 보행자의 골격좌표를 추출한 결과를 바탕으로 동적인 특성(속도, 가속도)을 함께 고려하여 딥러닝 모델을 통해 사람을 인식하는 방법을 제안한다. 본 논문의 핵심목표는 RGB-D 카메라로 손쉽게 좌표를 추출하고 새롭게 생성한 동적인 특성을 기반으로 자체 고안한 1차원 합성곱 신경망 분류기 모델(1D-ConvNet)을 통해 자동으로 보행 패턴을 파악하는 것이다. 1D-ConvNet의 인식 정확도와 동적인 특성이 정확도에 미치는 영향을 알아보기 위한 실험을 수행하였다. 정확도는 F1 Score를 기준으로 측정하였고, 동적인 특성을 고려한 분류기 모델(JCSpeed)과 고려하지 않은 분류기 모델(JC)의 정확도 비교를 통해 영향력을 측정하였다. 그 결과 동적인 특성을 고려한 경우의 분류기 모델이 그렇지 않은 경우보다 F1 Score가 약 8% 높게 나타났다.

Hair and Fur Synthesizer via ConvNet Using Strand Geometry Images

  • Kim, Jong-Hyun
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권5호
    • /
    • pp.85-92
    • /
    • 2022
  • 본 논문에서는 라인 형태인 가닥(Strand) 지오메트리 이미지와 합성곱 신경망(Convolutional Neural Network, ConvNet 혹은 CNN)을 이용하여 저해상도 헤어 및 털 시뮬레이션을 고해상도로 노이즈 없이 표현할 수 있는 기법을 제안한다. 저해상도와 고해상도 데이터 간의 쌍은 물리 기반 시뮬레이션을 통해 얻을 수 있으며, 이렇게 얻어진 데이터를 이용하여 저해상도-고해상도 데이터 쌍을 설정한다. 학습할 때 사용되는 데이터는 헤어 가닥 형태의 위치를 지오메트리 이미지로 변환하여 사용한다. 본 논문에서 제안하는 헤어 및 털 네트워크는 저해상도 이미지를 고해상도 이미지로 업스케일링(Upscaling)시키는 이미지 합성기를 위해 사용된다. 테스트 결과로 얻어진 고해상도 지오메트리 이미지가 고해상도 헤어로 다시 변환되면, 하나의 매핑 함수로 표현하기 어려운 헤어의 찰랑거리는(Elastic) 움직임을 잘 표현할 수 있다. 합성 결과에 대한 성능으로 이전 물리 기반 시뮬레이션보다 빠른 성능을 보였으며, 복잡한 수치해석을 몰라도 쉽게 실행이 가능하다.