• 제목/요약/키워드: 3D-CNN

검색결과 158건 처리시간 0.025초

Speech Emotion Recognition Using 2D-CNN with Mel-Frequency Cepstrum Coefficients

  • Eom, Youngsik;Bang, Junseong
    • Journal of information and communication convergence engineering
    • /
    • 제19권3호
    • /
    • pp.148-154
    • /
    • 2021
  • With the advent of context-aware computing, many attempts were made to understand emotions. Among these various attempts, Speech Emotion Recognition (SER) is a method of recognizing the speaker's emotions through speech information. The SER is successful in selecting distinctive 'features' and 'classifying' them in an appropriate way. In this paper, the performances of SER using neural network models (e.g., fully connected network (FCN), convolutional neural network (CNN)) with Mel-Frequency Cepstral Coefficients (MFCC) are examined in terms of the accuracy and distribution of emotion recognition. For Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS) dataset, by tuning model parameters, a two-dimensional Convolutional Neural Network (2D-CNN) model with MFCC showed the best performance with an average accuracy of 88.54% for 5 emotions, anger, happiness, calm, fear, and sadness, of men and women. In addition, by examining the distribution of emotion recognition accuracies for neural network models, the 2D-CNN with MFCC can expect an overall accuracy of 75% or more.

SC-CNN을 이용한 하이퍼카오스 동기화와 비밀통신 (Synchronization and Secure Communication in Hyper-chaos system using SC-CNN)

  • 배영철;임정석;황인호;김주완
    • 한국정보통신학회논문지
    • /
    • 제5권6호
    • /
    • pp.1175-1183
    • /
    • 2001
  • 본 연구에서는 간단한 전자회로로 카오스 특성을 나타내는 Chua 회로 대신 더욱 유연성이 있는 SC-CNN(State-Controlled CNN)을 이용해서 2-double scroll 과 3-double scroll 회로를 구성하고 이를 이용 하여 하이퍼카오스 회로를 제작하였다. 제작된 하이퍼카오스 회로로 두 개 이상의 카오스 어트렉터가 약한 결합을 하는 과정에서 발생하는 위상차를 이용하여 동기화를 이루고, 동기화된 하이피카오스 신호에 정보신호를 합성하여 전송한 후 수신부에서 이를 복조하는 하이퍼카오스 비밀통신을 수행하였다.

  • PDF

혼재된 환경에서의 효율적 로봇 파지를 위한 3차원 물체 인식 알고리즘 개발 (Development of an Efficient 3D Object Recognition Algorithm for Robotic Grasping in Cluttered Environments)

  • 송동운;이재봉;이승준
    • 로봇학회논문지
    • /
    • 제17권3호
    • /
    • pp.255-263
    • /
    • 2022
  • 3D object detection pipelines often incorporate RGB-based object detection methods such as YOLO, which detects the object classes and bounding boxes from the RGB image. However, in complex environments where objects are heavily cluttered, bounding box approaches may show degraded performance due to the overlapping bounding boxes. Mask based methods such as Mask R-CNN can handle such situation better thanks to their detailed object masks, but they require much longer time for data preparation compared to bounding box-based approaches. In this paper, we present a 3D object recognition pipeline which uses either the YOLO or Mask R-CNN real-time object detection algorithm, K-nearest clustering algorithm, mask reduction algorithm and finally Principal Component Analysis (PCA) alg orithm to efficiently detect 3D poses of objects in a complex environment. Furthermore, we also present an improved YOLO based 3D object detection algorithm that uses a prioritized heightmap clustering algorithm to handle overlapping bounding boxes. The suggested algorithms have successfully been used at the Artificial-Intelligence Robot Challenge (ARC) 2021 competition with excellent results.

행동 인식을 위한 시공간 앙상블 기법 (Spatial-temporal Ensemble Method for Action Recognition)

  • 서민석;이상우;최동걸
    • 로봇학회논문지
    • /
    • 제15권4호
    • /
    • pp.385-391
    • /
    • 2020
  • As deep learning technology has been developed and applied to various fields, it is gradually changing from an existing single image based application to a video based application having a time base in order to recognize human behavior. However, unlike 2D CNN in a single image, 3D CNN in a video has a very high amount of computation and parameter increase due to the addition of a time axis, so improving accuracy in action recognition technology is more difficult than in a single image. To solve this problem, we investigate and analyze various techniques to improve performance in 3D CNN-based image recognition without additional training time and parameter increase. We propose a time base ensemble using the time axis that exists only in the videos and an ensemble in the input frame. We have achieved an accuracy improvement of up to 7.1% compared to the existing performance with a combination of techniques. It also revealed the trade-off relationship between computational and accuracy.

PNCC와 robust Mel-log filter bank 특징을 결합한 조류 울음소리 분류 (Bird sounds classification by combining PNCC and robust Mel-log filter bank features)

  • 알자흐라 바디;고경득;고한석
    • 한국음향학회지
    • /
    • 제38권1호
    • /
    • pp.39-46
    • /
    • 2019
  • 본 논문에서는 합성곱 신경망(Convolutional Neural Network, CNN) 구조를 이용하여 잡음 환경에서 음향신호를 분류할 때, 인식률을 높이는 결합 특징을 제안한다. 반면, Wiener filter를 이용한 강인한 log Mel-filter bank와 PNCCs(Power Normalized Cepstral Coefficients)는 CNN 구조의 입력으로 사용되는 2차원 특징을 형성하기 위해 추출됐다. 자연환경에서 43종의 조류 울음소리를 포함한 ebird 데이터베이스는 분류 실험을 위해 사용됐다. 잡음 환경에서 결합 특징의 성능을 평가하기 위해 ebird 데이터베이스를 3종류의 잡음을 이용하여 4개의 다른 SNR (Signal to Noise Ratio)(20 dB, 10 dB, 5 dB, 0 dB)로 합성했다. 결합 특징은 Wiener filter를 적용한 log-Mel filter bank, 적용하지 않은 log-Mel filter bank, 그리고 PNCC와 성능을 비교했다. 결합 특징은 잡음이 없는 환경에서 1.34 % 인식률 향상으로 다른 특징에 비해 높은 성능을 보였다. 추가적으로, 4단계 SNR의 잡음 환경에서 인식률은 shop 잡음 환경과 schoolyard 잡음 환경에서 각각 1.06 %, 0.65 % 향상했다.

영상기반 비접촉식 PPG 신호 취득을 위한 3D-CNN 설계 (Designing a 3D-CNN for Non-Contact PPG Signal Acquisition Based on Video Imaging)

  • 김태완;염찬욱;곽근창
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.627-629
    • /
    • 2023
  • 생체 신호를 분석하여 사용자의 건강과 정신 상태를 예측하고, 관련 질병에 관해 예방하는 연구가 늘어나고 있다. 생체 신호 중 심박은 사람의 육체, 정신적인 상태를 반영하는 대표적인 신호이지만 기존의 접촉 패드를 통한 ECG나 광학 센서를 통한 PPG로 심박을 예측할 때는 구속적인 환경이 필요하여 일상적인 상황 속에 적용하기 어려웠다. 이러한 단점을 해결하고자 본 논문은 UBFC-RPPG 데이터셋의 동영상 프레임을 RGB 채널마다 다른 가중치를 적용하는 전처리를 하여 학습 데이터의 크기를 줄이면서 정확도를 높이고, 3D-CNN을 활용한 딥러닝으로 순간적인 영상에서도 PPG 신호를 예측할 수 있도록 1초 전처리 영상을 학습한 후, 신호를 예측하는 것을 목표로 한다. 이렇게 비접촉식으로 취득된 신호는 더 다양한 환경에서의 감정분류, 우울증 진단, 질병 감지 등 다양한 분야에 활용될 수 있다.

딥러닝을 활용한 흔들림 영상 안정화 알고리즘 (Video Stabilization Algorithm of Shaking image using Deep Learning)

  • 이경민;인치호
    • 한국인터넷방송통신학회논문지
    • /
    • 제19권1호
    • /
    • pp.145-152
    • /
    • 2019
  • 본 논문에서는 딥러닝을 활용한 흔들림 영상 안정화 알고리즘을 제안하였다. 제안하는 알고리즘은 기존 몇 가지 2D, 2.5D 및 3D 기반 안정화 기술과 다르게 딥러닝을 활용한다. 제안하는 알고리즘은 흔들리는 영상을 CNN 네트워크 구조와 LSTM 네트워크 구조를 통한 특징 추출 및 비교하여 이전 프레임과 현재 프레임 간의 특징점 위치 차이를 통해 특징점의 이동 크기와 방향의 반대로 영상을 변환하는 알고리즘이다. 흔들림 안정화를 위한 알고리즘은 각 프레임의 특징 추출 및 비교를 위해 Tensorflow를 활용하여 CNN 네트워크과 LSTM 구조를 구현하였으며, 영상 흔들림 안정화는 OpenCV open source를 활용해 구현하였다. 실험결과 영상의 흔들림이 상하좌우로 흔들리는 영상과, 급격한 카메라 이동이 없는 영상을 실험에 사용하여, 제안한 알고리즘을 적용한 결과 사용한 상하좌우 흔들림 영상에서는 안정적인 흔들림 안정화 성능을 기대할 수 있었다.

3차원 삼각형 메쉬를 정확하고 효율적으로 학습하기 위한 CNN 아키텍처 (CNN Architecture for Accurately and Efficiently Learning a 3D Triangular Mesh)

  • 나홍은;김종현
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제67차 동계학술대회논문집 31권1호
    • /
    • pp.369-372
    • /
    • 2023
  • 본 논문에서는 삼각형 구조로 구성된 3차원 메쉬(Mesh)에서 합성곱 신경망(Convolution Neural Network, CNN)을 응용하여 정확도가 높은 새로운 학습 표현 기법을 제시한다. 우리는 메쉬를 구성하고 있는 폴리곤의 edge와 face의 로컬 특징을 기반으로 학습을 진행한다. 일반적으로 딥러닝은 인공신경망을 수많은 계층 형태로 연결한 기법을 말하며, 주요 처리 대상은 1, 2차원 데이터 형태인 오디오 파일과 이미지였다. 인공지능에 대한 연구가 지속되면서 3차원 딥러닝이 도입되었지만, 기존의 학습과는 달리 3차원 딥러닝은 데이터의 확보가 쉽지 않다. 혼합현실과 메타버스 시장의 확대로 인해 3차원 모델링 시장이 증가하고, 기술의 발전으로 데이터를 획득할 수 있는 방법이 생겼지만, 3차원 데이터를 직접적으로 학습에 이용하는 방식으로 적용하는 것은 쉽지 않다. 그렇게 때문에 본 논문에서는 산업 현장에서 이용되는 데이터인 메쉬 구조를 폴리곤의 최소 단위인 삼각형 형태로 구성하여 학습 데이터를 구성해 기존의 방법보다 정확도가 높은 학습 기법을 제안한다.

  • PDF

Multiple damage detection of maglev rail joints using time-frequency spectrogram and convolutional neural network

  • Wang, Su-Mei;Jiang, Gao-Feng;Ni, Yi-Qing;Lu, Yang;Lin, Guo-Bin;Pan, Hong-Liang;Xu, Jun-Qi;Hao, Shuo
    • Smart Structures and Systems
    • /
    • 제29권4호
    • /
    • pp.625-640
    • /
    • 2022
  • Maglev rail joints are vital components serving as connections between the adjacent F-type rail sections in maglev guideway. Damage to maglev rail joints such as bolt looseness may result in rough suspension gap fluctuation, failure of suspension control, and even sudden clash between the electromagnets and F-type rail. The condition monitoring of maglev rail joints is therefore highly desirable to maintain safe operation of maglev. In this connection, an online damage detection approach based on three-dimensional (3D) convolutional neural network (CNN) and time-frequency characterization is developed for simultaneous detection of multiple damage of maglev rail joints in this paper. The training and testing data used for condition evaluation of maglev rail joints consist of two months of acceleration recordings, which were acquired in-situ from different rail joints by an integrated online monitoring system during a maglev train running on a test line. Short-time Fourier transform (STFT) method is applied to transform the raw monitoring data into time-frequency spectrograms (TFS). Three CNN architectures, i.e., small-sized CNN (S-CNN), middle-sized CNN (M-CNN), and large-sized CNN (L-CNN), are configured for trial calculation and the M-CNN model with excellent prediction accuracy and high computational efficiency is finally optioned for multiple damage detection of maglev rail joints. Results show that the rail joints in three different conditions (bolt-looseness-caused rail step, misalignment-caused lateral dislocation, and normal condition) are successfully identified by the proposed approach, even when using data collected from rail joints from which no data were used in the CNN training. The capability of the proposed method is further examined by using the data collected after the loosed bolts have been replaced. In addition, by comparison with the results of CNN using frequency spectrum and traditional neural network using TFS, the proposed TFS-CNN framework is proven more accurate and robust for multiple damage detection of maglev rail joints.

2D-CNN 기반 우울증 감지를 위한 음성데이터 전처리 (Speech data preprocessing for detection of depression based on 2D-CNN)

  • 박준희;문남미
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.933-934
    • /
    • 2021
  • 세계보건기구(WHO)에 따르면 전 세계적으로 우울증 장애를 앓고 있는 사람이 3 억 2,200 만명에 달하며, 매년마다 빠르게 늘어나는 환자로 인해 전세계적으로 문제가 되고 있다. 이에 따라 우울증을 감지하기 위한 시스템에 대한 연구가 진행되어지고 있다. 본 논문에서는 우울증 감지에 있어 높은 정확도를 얻을 수 있는 최적의 음성 세그먼트 길이와 멜 밴드의 수를 확인하고자 한다. DAIC-WOZ(Distress Analysis Interview Corpus Wizard of Oz) 데이터셋을 기반으로 2D-CNN(2Dimension - Convolutional Neural Network)를 사용하여 음성 세그먼트 길이와 멜 밴드의 수에 변화를 주며 테스트를 진행하였다. 최종적으로 12 초 길이의 음성 세그먼트와 512 개의 멜 밴드에서 86.3%의 정확도로 최적의 결과를 확인하였다.