• 제목/요약/키워드: 환경음 인식

검색결과 110건 처리시간 0.027초

오디오 전처리 방법에 따른 콘벌루션 신경망의 환경음 분류 성능 비교 (Comparison of environmental sound classification performance of convolutional neural networks according to audio preprocessing methods)

  • 오원근
    • 한국음향학회지
    • /
    • 제39권3호
    • /
    • pp.143-149
    • /
    • 2020
  • 본 논문에서는 딥러닝(deep learning)을 이용하여 환경음 분류 시 전처리 단계에서 사용하는 특징 추출 방법이 콘볼루션 신경망의 분류 성능에 미치는 영향에 대해서 다루었다. 이를 위해 환경음 분류 연구에서 많이 사용되는 UrbanSound8K 데이터셋에서 멜 스펙트로그램(mel spectrogram), 로그 멜 스펙트로그램(log mel spectrogram), Mel Frequency Cepstral Coefficient(MFCC), 그리고 delta MFCC를 추출하고 각각을 3가지 분포로 스케일링하였다. 이 데이터를 이용하여 4 종의 콘볼루션 신경망과 이미지넷에서 좋은 성능을 보였던 VGG16과 MobileNetV2 신경망을 학습시킨 다음 오디오 특징과 스케일링 방법에 따른 인식률을 구하였다. 그 결과 인식률은 스케일링하지 않은 로그 멜 스펙트럼을 사용했을 때 가장 우수한 것으로 나타났다. 도출된 결과를 모든 오디오 인식 문제로 일반화하기는 힘들지만, Urbansound8K의 환경음이 포함된 오디오를 분류할 때는 유용하게 적용될 수 있을 것이다.

다층 퍼셉트론에 기반한 한국어 숫자음 인식시스템 구현을 위한 특징 연구 (A Study on the Features for Building Korean Digit Recognition System Based on Multilayer Perceptron)

  • 김인철;김대영
    • 한국산업정보학회논문지
    • /
    • 제6권4호
    • /
    • pp.81-88
    • /
    • 2001
  • 본 논문에서는 한국어 숫자음 인식을 위해 다층 퍼셉트론을 이용한 인식시스템을 구현하였으며 음성인식 분야에서 일반적으로 널리 사용되는 여러 종류의 특징을 인식시스템의 입력으로 적용하여 각각의 인식 성능 및 특성을 알아보았다. 이를 위해 Mel-scale-Filterbank 계수, MFCC, LPCC, 그리고 PLP 계수를 입력 특징으로 사용하였다. 본 논문에서는 제한된 환경이 아닌 여러 종류의 잡음이 존재하는 일반적인 환경에서도 견실한 성능을 보일 수 있는 인식시스템을 구현하기 위해 잡음이 거의 포함되지 않은 음성 데이터뿐만 아니라 잡음이 첨가된 음성 데이터에 대해 인식 실험을 각각 수행하였다. 실험에서는 20개의 한국어 숫자음에 대한 인식 실험을 수행하였으며 그 결과로부터 Mel-scale Filterbank 계수가 잡음의 첨가 유무에 관계없이 화자 종속 및 화자 독립적인 음성 데이터에 대해 가장 견실한 인식 성능을 보임을 확인할 수 있었다.

  • PDF

HMM의 교정 학습과 후처리를 이용한 연결 숫자음 인식에 관한 연구 (A Study on the Recognition of the Connected Digits Using CorrectIve Trammg WIth HMM and Post Processing)

  • 우인봉
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1994년도 제11회 음성통신 및 신호처리 워크샵 논문집 (SCAS 11권 1호)
    • /
    • pp.161-165
    • /
    • 1994
  • HMM은 좋은 결과를 보이면서 현재 음성 인식 분야에서 널리 사용되는 알고리즘이다. 그러나, 이 HMM의 학습방법인 maimum like-ihood estimation 은 인식률을 극대화하는 모델의 파라메터 값을 생성하지 못하는 단점이 있다. 이러한 문제점을 보와하기 위하여 연결어 인식 알고리즘인 Segmental K-means의 학습과정에 교정 학습법을 도입하여 모델 파라메터 값을 재조정 해 준다. 한국어 연속 숫자음은 영어 연속 숫자음과 달리 연음 현상의 영향을 많이 받는다. Level building 과정에서 연음에 의한 오류를 감소시키기 위해 연음에 의해 발생할 수 있는 단어를 별도의 모델로 추가했다. 이렇게 추가된 단어 모델들에 대한 몇가지 규픽을 인식 결과에 적용하여 출력을 다시 조정한다. 본 시스템은 TMS320C30 프로세서 내장한 DSP 보드와 IBM PC 사엥서 구현되었고, 표준 패턴은 실험실 잡음 환경에서 남성화자 3명을 대상으로 작성하였다. 인식 결과 21종 전화번호 252개 데이터에 대하여 화자 종속으로 92.1% 인식률을 나타내었다.

  • PDF

전화망에서의 한국어 연속숫자음 인식 실험 (The Recognition Experiment of Korean Connected Digit in the Telephone Network)

  • 강점자;김갑기
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2002년도 하계학술발표대회 논문집 제21권 1호
    • /
    • pp.167-170
    • /
    • 2002
  • 본 논문에서는 전화망 환경에서의 한국어 숫자음 인식을 위한 특징 파라미터 추출, 음향 모델링 방식을 결정하기 위하여 HTK 툴을 사용한 4 연숫자음 인식실험 결과를 기술한다. 또한, 실험 결과를 토대로 빈번하게 발생하는 숫자음에 대해서 오류율을 분석하였다. 숫자 모델로는 left context biword 모델과 triword 모델을 사용하였으며, 상태수와 mixture 수를 바꾸어 인식 실험을 수행한 결과, triword 모델이 biword 모델보다 인식율이 높은 것으로 나타났으며, substitution 에러율은 " 이<->" 에서 가장 높은 에러가 발생하는 결과를 얻을 수 있다.

  • PDF

음성인식을 위한 자동차 소음환경에서의 끝점 검출 (Endpoint Detection in the Car Noise Environment for Speech Recognition)

  • 서동권;신원호;양태영;김원구;윤대희
    • 한국음향학회지
    • /
    • 제17권1호
    • /
    • pp.76-79
    • /
    • 1998
  • 소음이 존재하지 않는 환경에서는 에너지 파라메터만으로도 정확한 끝점 검출을 수 행할 수 있으나 신호대 잡음비가 0dB에 가까운 자동차 환경에서는 끝점 검출이 거의 불가 능하다. 본 논문에서는 자동차 소음 환경에서 음성 구간 검출을 위하여 단구간 영교차율과 2∼4kHz의 주파수 영역 에너지를 사용한 끝점 검출 방법을 제안하였다. 제안된 방법과 기 존의 방법의 성능을 DTW를 이용한 단독음 인식 시스템에 적용하여 인식률로 비교하였으 며 제안된 음성 구간 검출 방법을 적용한 경우가 보다 좋은 인식률을 나타내었다.

  • PDF

도시공간의 쾌적 음환경 창조를 위한 사운드스케이프 디자인 연구 - 지역의 음환경과의 관계에서 본 음의 의미와 역할 - (A Study on the Soundscape Design for the Creation of Sound Amenity in Urban Space -The role and the meaning of sound related sound environment in residential area-)

  • 한명호
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2002년도 하계학술발표대회 논문집 제21권 1호
    • /
    • pp.509-514
    • /
    • 2002
  • 이 연구는 도시공간의 어메니티를 실현하기 위한 수단으로서 사운드스케이프(soundscape)에 관한 연구조사의 결과를 소개한다. 사운드스케이프 및 사운드스케이프 디자인에 관한 개념과 사상을 고찰하고, 남원시의 사운드스케이프 조사를 예로 하여 지역에 있어서 음, 인간 및 환경과의 관계로부터 사운드 어메니티(sound amenity)를 실현하는데 있어서 음이 갖는 의미와 역할을 모색한다. 사운드스케이프 조사방법으로써 문헌조사, 필드조사 및 설문조사를 이용하여 남원지역의 음풍경을 조사${\cdot}$분석하고, 그 시대적, 계절적, 시간적인 음풍경의 변화와 현상, 그리고 지역주민의 음에 관한 인식특성을 파악한다. 조사결과, 지역에 있어서 자연환경을 보존하고 축제등의 전통적인 생활문화를 계승하는 것은 지역의 사운드스케이프와 어메니티 형성에 중요한 역할을 한다는 점을 알 수 있었다. 또한 도시공간의 사운드스케이프 연구는 이러한 일련의 조사연구활동 및 교육활동 등을 포함한 다양한 활동과 여러 영역에서의 유기적인 교류활동이 이루어져야 쾌적한 음환경 창조가 가능하다는 점을 확인할 수 있었다.

  • PDF

환경음에 대한 계층별 인식 차이에 관한 조사 연구 (The Study on Cognition Difference of Environmental Sounds due to Subject' Classes)

  • 신훈;백건종;송민정;장길수
    • 한국소음진동공학회:학술대회논문집
    • /
    • 한국소음진동공학회 2007년도 추계학술대회논문집
    • /
    • pp.1187-1190
    • /
    • 2007
  • This study aims to induce acoustic environmental characteristics which could be used for soundscape design by carrying out factor analysis on sound source image and cognition analysis on subjects' responses on selective questions due to class differences. The results of this study are as follows ; Satisfaction rate differences on exterior acoustic environment due to sensitivity and residence year were revealed. After factor analysis of living sound sources' image, it is known that natural sound, traditional sound, socials traffic sound, rural sound, religious sound and the others are main factors. Social traffic sound is the most one that should be eliminated and traditional sound is selected as a most Korean-like sound. Natural sound is evaluated as the most one that should be preserved and the most retrospectively one.

  • PDF

전화망 환경에서의 연속숫자음 인식 성능평가 (Performance Evaluation of Telephone Continuous Digit Recognition)

  • 김성탁;김상진;정호영;김회린;한민수
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2002년도 하계학술발표대회 논문집 제21권 1호
    • /
    • pp.253-256
    • /
    • 2002
  • 한국어 숫자는 단음절로 이루어져 있고, 연속적으로 발음할 때 조음현상에 의해 발음이 심하게 변하고, 숫자간의 경계를 규정하기가 어려워진다. 특히 잡음환경에서는 한국어의 무성음인 자음구간의 주파수 특징이 많이 왜곡되어 성능이 저하된다. 본 논문에서는 전화망에서의 고성능 연속숫자음 인식기 개발을 위하여 그 첫 단계로서 다양한 조건에서 MFCC 특징계수를 구하는 방법들과 문맥독립 및 문맥종속 HMM의 상태수 및 각 상태에서의 mixture 수 변화에 대한 성능을 분석해본다. 음향모델로는 문맥독립 모델인 음소와 문맥종속 모델인 triphone 모델을 모두 평가하였다.

  • PDF

스펙트럼사상학습을 이용한 잡음환경에서의 한국어숫자음인식 (Korean Digit Recognition Under Noise Environment Using Spectral Mapping Training)

  • 이기영
    • 한국음향학회지
    • /
    • 제13권3호
    • /
    • pp.25-32
    • /
    • 1994
  • 본 연구에서는 정적지도적응알고리즘을 기초로 한 스펙트럼사상학습을 이용하여 잡음환경에서의 한국어숫자음인식방법을 제시하였다. 제시한 인식방법에서 잡음이 섞인 음성스펙트럼 공간을 잡음이 없는 음성스펙트럼 공간으로 사상한 결과, 잡음이 섞인 음성스펙트럼의 왜곡이 개선되어 잡음처리를 행하지 않은 기존의 VQ(vector quantizaton)와 DTW(dynamic time warping)를 이용한 방법보다 높은 인식율을 얻을 수 있었으며 , 0 dB의 SNR 레벨에서도 기존방법의 인식율을 10배 정도 향상시키므로써, 스펙트럼사상학습이 잡음환경의 음성에 대한 인식성능을 향상시킬 수 있는 방법임을 확인하였다.

  • PDF

주변 배경음에 강인한 구간 검출을 통한 음원 인식 및 위치 추적 시스템 설계 (Sound recognition and tracking system design using robust sound extraction section)

  • 김우준;김영섭;이광석
    • 한국전자통신학회논문지
    • /
    • 제11권8호
    • /
    • pp.759-766
    • /
    • 2016
  • 본 논문은 비정상 상황 시 발생하는 음원에 대해 주변 환경 음에 강인한 음원 구간을 검출하여, 구간내의 신호를 이용한 음원 인식 과 위치 추적 시스템 설계에 관한 연구이다. 강인한 음원 구간 검출은 수신되는 오디오 신호로부터 단 구간 가중 평균 델타 에너지를 계산하여, 저역 통과 필터에 입력 후, 출력되는 결과 값들의 비교를 통해 배경음에 강인한 구간을 정의 하며, 음원 인식은 검출된 구간 내 데이터로부터 종래의 인식 방법인 HMM(: Hidden Markov Model)을 이용해, 음원 인식 정보를 생성하여 학습 및 인식을 한다. 이는 주변 배경음이 포함된 음원 신호에 대해 기존 신호의 에너지를 이용해 구간을 검출 후, HMM을 통한 인식에 비해 3.94% 상향된 인식률을 보인다. 또한 인식 결과를 바탕으로 구간내의 신호간의 TDOA(: Time Delay of Arrival)를 이용한 위치 파악은 실제 발생 위치와의 각도와 97.44%일치함을 보인다.