• 제목/요약/키워드: Sound recognition

검색결과 311건 처리시간 0.026초

Random Forest를 결정로직으로 활용한 로봇의 실시간 음향인식 시스템 개발 (A Real-Time Sound Recognition System with a Decision Logic of Random Forest for Robots)

  • 송주만;김창민;김민욱;박용진;이서영;손정관
    • 로봇학회논문지
    • /
    • 제17권3호
    • /
    • pp.273-281
    • /
    • 2022
  • In this paper, we propose a robot sound recognition system that detects various sound events. The proposed system is designed to detect various sound events in real-time by using a microphone on a robot. To get real-time performance, we use a VGG11 model which includes several convolutional neural networks with real-time normalization scheme. The VGG11 model is trained on augmented DB through 24 kinds of various environments (12 reverberation times and 2 signal to noise ratios). Additionally, based on random forest algorithm, a decision logic is also designed to generate event signals for robot applications. This logic can be used for specific classes of acoustic events with better performance than just using outputs of network model. With some experimental results, the performance of proposed sound recognition system is shown on real-time device for robots.

광역 스펙트로그램과 심층신경망에 기반한 중첩된 소리의 인식과 영향 분석 (Recognition of Overlapped Sound and Influence Analysis Based on Wideband Spectrogram and Deep Neural Networks)

  • 김영언;박구만
    • 방송공학회논문지
    • /
    • 제23권3호
    • /
    • pp.421-430
    • /
    • 2018
  • 많은 음성인식 시스템들은 MFCC와 HMM등의 분류 기법을 사용하여 사람의 음성을 인식한다. 그러나 이러한 음성인식 시스템은 단일 음성신호를 인식하는 것을 목적으로 설계되어, 인간과 기계사이의 일대일 음성 인식에는 적합하나, 애완동물 소리와 실내 소리같은 음성보다 다양하고 넓은 주파수의 소리 군으로 중첩된 음향 속에서 설정된 소리를 인식하기에는 제한이 있다. 중첩된 소리들의 주파수는 사람의 목소리보다 높은 최대 20 kHz까지 넓은 주파수 범위로 구성된다. 본 논문에서는 광역 사운드 스펙트로그램과 DNN에 기반한 케라스 시?셜 모델 기법을 활용하여 인지 주파수 범위를 넓게 확대하는 새로운 인식방법을 제안한다. 광역 사운드 스펙트로그램이 본 논문에서 설계된 특징 추출 및 분류 시스템과 같이 넓은 주파수 범위의 다양한 소리를 분석하고 실험하도록 채택되었다. 소리 인식률을 개선하기 위하여, 케라스 시?셜 모델이 사운드 스펙트로그램에 의하여 생성되어 추출된 특징을 사용하여 패턴인식을 수행하기 위한 방법으로 채용되었다. 제안된 특징 추출 및 분류 시스템이 광역 사운드 스펙트로그램과 케라스 시?셜 모델을 채용하여 애완동물 소리와 실내 소리같은 다양한 주파수들로 구성되어 중첩된 음향 속에서 설정된 소리를 우수하게 분류하는 것을 확인하였다. 그리고 중첩된 소리의 크기에 비례하여 인식에 미치는 특성과 영향을 단계별로 비교 분석하였다.

스마트 시티에서의 이머전시 사운드 감지방법 (A Emergency Sound Detecting Method for Smarter City)

  • 조영임
    • 제어로봇시스템학회논문지
    • /
    • 제16권12호
    • /
    • pp.1143-1149
    • /
    • 2010
  • Because the noise is the main cause for decreasing the performance at speech recognition, the place or environment is very important in speech recognition. To improve the speech recognition performance in the real situations where various extraneous noises are abundant, a novel combination of FIR and Wiener filters is proposed and experimented. The combination resulted in improved accuracy and reduced processing time, enabling fast analysis and response in emergency situations. Usually, there are many dangerous situations in our city life, so for the smarter city it is necessary to detect many types of sound in various environment. Therefore this paper is about how to detect many types of sound in real city, especially on CCTV. This paper is for implementing the smarter city by detecting many types of sounds and filtering one of the emergency sound in this sound stream. And then it can be possible to handle with the emergency or dangerous situation.

음성의 감성요소 추출을 통한 감성 인식 시스템 (The Emotion Recognition System through The Extraction of Emotional Components from Speech)

  • 박창현;심귀보
    • 제어로봇시스템학회논문지
    • /
    • 제10권9호
    • /
    • pp.763-770
    • /
    • 2004
  • The important issue of emotion recognition from speech is a feature extracting and pattern classification. Features should involve essential information for classifying the emotions. Feature selection is needed to decompose the components of speech and analyze the relation between features and emotions. Specially, a pitch of speech components includes much information for emotion. Accordingly, this paper searches the relation of emotion to features such as the sound loudness, pitch, etc. and classifies the emotions by using the statistic of the collecting data. This paper deals with the method of recognizing emotion from the sound. The most important emotional component of sound is a tone. Also, the inference ability of a brain takes part in the emotion recognition. This paper finds empirically the emotional components from the speech and experiment on the emotion recognition. This paper also proposes the recognition method using these emotional components and the transition probability.

추론 능력에 기반한 음성으로부터의 감성 인식 (Inference Ability Based Emotion Recognition From Speech)

  • 박창현;심귀보
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2004년도 심포지엄 논문집 정보 및 제어부문
    • /
    • pp.123-125
    • /
    • 2004
  • Recently, we are getting to interest in a user friendly machine. The emotion is one of most important conditions to be familiar with people. The machine uses sound or image to express or recognize the emotion. This paper deals with the method of recognizing emotion from the sound. The most important emotional component of sound is a tone. Also, the inference ability of a brain takes part in the emotion recognition. This paper finds empirically the emotional components from the speech and experiment on the emotion recognition. This paper also proposes the recognition method using these emotional components and the transition probability.

  • PDF

주관적 소리인식에 관한 설문조사 연구 (A Questionnaire Research on the Subjective Sound Recognition)

  • 신용규;신훈;국찬
    • 한국소음진동공학회논문집
    • /
    • 제15권5호
    • /
    • pp.558-563
    • /
    • 2005
  • This research aims to derive the general emotion and preference of the 25 sounds by using the questionnaire method to provide the contents for the soundscape design fit to the characteristics of the given situation. The results can be summarized as follows : Nature sounds except dog barking and locust crying showed highest preference, and the traffic sounds, baby crying and footstep of upper floor showed the lowest. Hereby, the sound recognition can be different each other according to quality of tone and situation even they are the same sounds. The most impressive, wanted to be conserved and retrospective sound was the nature sound, and the most wanted to be removed sound was the machinery sound. And the social sound was shown as the most korean and fit to the art theme street.

주관적 소리인식에 관한 설문조사 연구 (A questionnaire research on the subjective sound recognition)

  • 신용규;장길수;국찬
    • 한국소음진동공학회:학술대회논문집
    • /
    • 한국소음진동공학회 2004년도 추계학술대회논문집
    • /
    • pp.806-809
    • /
    • 2004
  • This research aims to derive the general emotion and preference of the 25 sounds by using the questionnaire method to provide the contents for the soundscape design fit to the characteristics of the given situation. The results can be summarized as follows; Nature sounds except dog barking and locust crying showed highest preference, and the traffic sounds, baby crying and footstep of upper floor showed the lowest. Hereby, the sound recognition can be different each other according to quality of tone and situation even they are the same sounds. The most impressive, wanted to be conserved and retrospective sound was the nature sound, and the most wanted to be removed sound was the machinery sound. And the social sound was shown as the most korean and fit to the art theme street.

  • PDF

다양한 소리 환경에서 UBM 기반의 비명 소리 검출 (Scream Sound Detection Based on Universal Background Model Under Various Sound Environments)

  • 정용주
    • 한국전자통신학회논문지
    • /
    • 제12권3호
    • /
    • pp.485-492
    • /
    • 2017
  • GMM(: Gaussian Mixture Model)은 비명 소리를 검출하기 위해서 가장 많이 사용되는 기법의 하나이다. 기존의 GMM 방식에서는 전체 훈련데이터를 비명소리와 비-비명 소리로 나누고, 훈련과정을 통하여 각각의 GMM 모델을 생성하게 된다. 그러나 본 연구에서는 비명 소리 검출 과정이 화자인식과 매우 유사하다는 점에 착안하여 화자인식에서 매우 효과적으로 사용된 UBM(: Universal Background Model) 방식을 비명소리 검출에 적용할 것을 제안하였다. 제안된 UBM 방식을 통한 검출 실험 결과 기존의 GMM 방식에 비하여 더 나은 검출 성능을 보임을 인식 실험을 통하여 확인 할 수 있었다.

병원안전을 위한 입원실 음향패턴 인식 관한 연구 (A study on Recognition of Inpatient Room Acoustic Pattern for Hospital safety)

  • 류한술;안종영
    • 한국인터넷방송통신학회논문지
    • /
    • 제21권3호
    • /
    • pp.169-173
    • /
    • 2021
  • 현재 병원에서의 안전사고가 꾸준히 발생하고 있다. 특히, 요양병원 등 면역력이 약한 고령환자의 안전사고가 지속적으로 발생하고 있으며 이에 대한 대책이 필요하다. 대부분의 사고는 거동이 불편한 환자의 움직임에 의해 일어나고 있다. 이에 환자의 움직임에 따른 입원실 음향을 분석하고 인식하여 관리자가 사전대처 하여 안전사고를 줄이는 방법으로 본 논문에서는 시계열 패턴인식에 적용 가능한 알고리즘인 DTW (Dynamic Time Warping)을 사용하여 병원 입원실 음향인식을 위한 음향패턴을 분류하여 병원 입원실 환경에 적용하여 분석 하였다.

한글문자인식을 위한 WALSH-HADAMARD 변환과 그 특징추출 (The WALSH - HADAMARD Transfore and Characteristic Extraction for HANGEUL Character Recognition)

  • 박기웅;신승호;진용옥
    • 한국통신학회:학술대회논문집
    • /
    • 한국통신학회 1984년도 추계학술발표회논문집
    • /
    • pp.1-4
    • /
    • 1984
  • This paper is discussed to prepard reference data as a bassic study for Hangeul Character recognition and to extract 2 - Dtransform Korean Charater Image, The 1959 Hangeul Characters is established to form the total 170patterns of 17 formats classified by the initial soun, middle sound and terminal sound and prossessed the 2-D Korean Character Image. Using Superpostion theormm, we are applied to recognition Algorithm. For 50's Hangeul, the recognition efficiency is calculated by computer simulation.

  • PDF