• 제목/요약/키워드: Mel-spectrum

검색결과 45건 처리시간 0.02초

차분 특징을 이용한 평균-교사 모델의 음향 이벤트 검출 성능 향상 (Performance Improvement of Mean-Teacher Models in Audio Event Detection Using Derivative Features)

  • 곽진열;정용주
    • 한국전자통신학회논문지
    • /
    • 제16권3호
    • /
    • pp.401-406
    • /
    • 2021
  • 최근 들어, 음향 이벤트 검출을 위하여 CRNN(: Convolutional Recurrent Neural Network) 구조에 기반 한 평균-교사 모델이 대표적으로 사용되고 있다. 평균-교사 모델은 두 개의 병렬 형태의 CRNN을 가진 구조이며, 이들의 출력들의 일치성을 학습 기준으로 사용함으로서 약-전사 레이블(label)과 비-전사 레이블 음향 데이터에 대해서도 효과적인 학습이 가능하다. 본 연구에서는 최신의 평균-교사 모델에 로그-멜 스펙트럼에 대한 차분 특징을 추가적으로 사용함으로서 보다 나은 성능을 이루고자 하였다. DCASE 2018/2019 Challenge Task 4용 학습 및 테스트 데이터를 이용한 음향 이벤트 검출 실험에서 제안된 차분특징을 이용한 평균-교사모델은 기존의 방식에 비해서 최대 8.1%의 상대적 ER(: Error Rate)의 향상을 얻을 수 있었다.

온사이트 지진조기경보를 위한 딥러닝 기반 실시간 오탐지 제거 (Deep Learning-Based, Real-Time, False-Pick Filter for an Onsite Earthquake Early Warning (EEW) System)

  • 서정범;이진구;이우동;이석태;이호준;전인찬;박남률
    • 한국지진공학회논문집
    • /
    • 제25권2호
    • /
    • pp.71-81
    • /
    • 2021
  • This paper presents a real-time, false-pick filter based on deep learning to reduce false alarms of an onsite Earthquake Early Warning (EEW) system. Most onsite EEW systems use P-wave to predict S-wave. Therefore, it is essential to properly distinguish P-waves from noises or other seismic phases to avoid false alarms. To reduce false-picks causing false alarms, this study made the EEWNet Part 1 'False-Pick Filter' model based on Convolutional Neural Network (CNN). Specifically, it modified the Pick_FP (Lomax et al.) to generate input data such as the amplitude, velocity, and displacement of three components from 2 seconds ahead and 2 seconds after the P-wave arrival following one-second time steps. This model extracts log-mel power spectrum features from this input data, then classifies P-waves and others using these features. The dataset consisted of 3,189,583 samples: 81,394 samples from event data (727 events in the Korean Peninsula, 103 teleseismic events, and 1,734 events in Taiwan) and 3,108,189 samples from continuous data (recorded by seismic stations in South Korea for 27 months from 2018 to 2020). This model was trained with 1,826,357 samples through balancing, then tested on continuous data samples of the year 2019, filtering more than 99% of strong false-picks that could trigger false alarms. This model was developed as a module for USGS Earthworm and is written in C language to operate with minimal computing resources.

강인한 음성인식을 위한 통계적 특징벡터 추출방법의 개선 (An Improvement of Stochastic Feature Extraction for Robust Speech Recognition)

  • 김회린;고진석
    • 한국음향학회지
    • /
    • 제23권2호
    • /
    • pp.180-186
    • /
    • 2004
  • 음성 신호에 존재하는 잡음은 음성 인식기의 성능을 현저하게 감소시킨다. 이것은 잡음이 훈련 조건과 인식 조건 사이의 불일치를 가져오기 때문이다. 본 논문에서는 이러한 불일치를 최소화하기 위해서 통계적 특징벡터의 추출방법을 개선하기 위한 방법을 연구하였다. 밴드 SNR에 따라 잡음 스펙트럼의 차감 레벨을 조절하는 기존의 멀티 밴드 잡음 차감법 (MSS)을 개선하기 위하여 잡음 정규화 상수를 이용하여 잡음 스펙트럼의 차감 레벨을 보다 정확하게 조절하는 방법 (M-MSS)을 제시하였다. 다음으로, 기존의 통계적 특징벡터 추출방법 (SFE)에서 잡음 차감법을 파워 스펙트럼 영역에 적용함으로써 성능을 개선하였다(M-SFE). 마지막으로, 위의 두 가지 방법의 장점을 결합하기 위해서 밴드 SNR에 근거한 통계적 특징벡터 추출방법 (MMSS-MSFE)을 제안하였다. 제안된 방법들은 다양한 잡음 환경 하에서 화자독립 고립 단어 인식으로 성능을 평가하였다. 기본적인 잡음 차감법 (SS)에 비하여 M-MSS, M-SFE와 MMSS-MSFE의 평균 에러율은 각각 18.6%, 15.1%와 33.9% 감소하였다. 위의 결과로부터 제안한 방법이 잡음에 강인한 음성인식을 위해 매우 효과적임을 입증하였다.

음성 분류 인공신경망을 활용한 자폐아 치료용 로봇의 지능화 동작 연구 (Motion Study of Treatment Robot for Autistic Children Using Speech Data Classification Based on Artificial Neural Network)

  • 이진규;이보희
    • 전기전자학회논문지
    • /
    • 제23권4호
    • /
    • pp.1440-1447
    • /
    • 2019
  • 현재 아이들의 자폐스펙트럼장애 유병률이 한층 더 높게 보고되고 있으며 다양한 형태의 장애 징후를 보이고 있다. 특히 이들은 사회적 의사소통 영역에서 의사소통장애로 인한 대화에 어려움을 겪고 있으며 이를 훈련을 통해 개선 시킬 필요가 대두된다. 이를 위해 본 연구에서는 사전 연구를 통해 설계된 로봇에 장착된 마이크를 통해 음성 정보를 취득하고 이러한 정보를 이용하여 지능적인 동작을 만드는 방식을 제안한다. 음성 정보를 로봇 동작으로 분류하기 위해 인공신경망을 이용하였으며 여러 신경망 기법중 합성곱 방식을 기본으로 한 순환신경망을 결합하여 정확도를 향상시키려고 하였다. 입력 음성 데이터의 전처리는 MFCC를 이용하여 분석하였으며 여러 데이터 정규화 및 인공신경망 최적화 기법을 활용하여 로봇의 동작을 추정하였다. 아울러 설계된 인공신경망은 기존에 사용한 구조 및 사람이 개입하여 분석하는 방법과의 정확도 비교 실험을 진행하여 분석 결과가 높은 정확도를 나타냈다. 향후 보다 높은 정확도를 가질 수 있는 로봇 동작을 설계하여 실제의 자폐아 치료 및 교육 환경에서 적용할 수 있기 위하여 다양한 형태의 데이터를 수집하고 효율적으로 전처리하는 방식에 대한 연구가 요구된다.

MCE기반의 다중 특징 파라미터 스코어의 결합을 통한 화자인식 성능 향상 (Performance Improvement of Speaker Recognition by MCE-based Score Combination of Multiple Feature Parameters)

  • 강지훈;김보람;김규영;이상훈
    • 한국산학기술학회논문지
    • /
    • 제21권6호
    • /
    • pp.679-686
    • /
    • 2020
  • 본 논문에서는 화자인식 성능 향상을 위해 음원에서 개선된 특징추출 방식과 최소 분류 오차 기반의 다중 특징 벡터 스코어에 대한 가중치 추정을 사용하여 스코어 결합을 제안하였다. 제안한 특징 벡터는 Glottal Flow에서 무의미한 정보구간인 평탄한 스펙트럼 구간을 제거하기 위하여 저역통과 필터를 수행한 신호에서 인지적 선형 예측 캡스트럼 계수, 왜도, 첨도를 추출하여 구성하였다. 제안한 특징 벡터는 종래의 음원에서 멜-주파수 캡스트럼 계수, 인지적 선형 예측 캡스트럼 계수를 추출하여 가우시안 혼합 모델로 모델링한 화자인식 시스템을 개선하기 위해 사용된다. 또한, 스코어 추정과정의 신뢰성을 높이기 위하여 기존의 스코어의 확률 분포를 사용하여 가중치를 추정하는 대신 제안한 특징 벡터에서 평가된 점수와 종래의 특징 벡터에서 평가된 점수에 대하여 최소 분류 오차 기법으로 가중치를 추정하여 스코어를 결합함으로써 최적의 화자를 찾는다. 실험 결과 제안한 특징 벡터가 화자를 인식하는데 유효한 정보를 포함하고 있는 것을 확인하였다. 또한, 최소 분류 오차 기반의 다중 특징 파라미터 스코어를 결합하여 화자인식을 수행하였을 때, 종래의 화자인식 성능보다 더 우수한 성능을 나타내는 것을 확인할 수 있으며, 특히 가우시안 혼합 모델이 낮을 때 더 높은 성능향상을 보였다.