• 제목/요약/키워드: Noise speech data

검색결과 144건 처리시간 0.019초

국방 분야에서 전장 소음 환경 하에 음성 인식 기술 연구 (A Study on the Effective Command Delivery of Commanders Using Speech Recognition Technology)

  • 김영훈;권현
    • 융합보안논문지
    • /
    • 제24권2호
    • /
    • pp.161-165
    • /
    • 2024
  • 최근 음성 인식 모델들이 점점 발달하고 있고 이와 더불어 좋은 데이터를 얻기 위한 다양한 음성 처리 기술들도 발전하고 있다. 한편 국방 분야에서도 노이즈가 낀 음성 데이터로부터 노이즈를 제거하고 이를 효과적으로 음성 인식하는 기술을 접목하려고 시도하고 있다. 본 논문에서는 다양한 소음이 존재하는 전장 상황 속에서 음성 인식 기술을 활용하여 효과적으로 지휘관이 명령을 전달할 수 있는 음성 인식방법을 제안하였다. 제안방법은 노이즈가 있는 음성에 대해서 노이즈를 제거 후 OpenAI의 Whisper 모델을 사용하여 텍스트로 변환하는 방법이다. 실험결과로써, 제안 방법은 노이즈를 제거하지 않은 기존 방법에 비해서 글자 오류률(Charactor Error Rate, CER)이 6.17% 감소된 것을 볼 수가 있었다. 추가적으로 제안방법을 이용하여 국방분야에 적용할 수 있는 부분에 대해서도 기술하였다.

멀티밴드필터에 의한 환경잡음억압 알고리즘 (Reduction Algorithm of Environmental Noise by Multi-band Filter)

  • 최재승
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권8호
    • /
    • pp.91-97
    • /
    • 2012
  • 본 논문에서는 각 프레임에서의 음성신호 및 비음성신호 구간을 검출하는 음성인식 알고리즘을 제안한다. 그리고 음성신호 및 비음성신호 구간의 검출에 따라서 각 프레임에서 잡음을 제거하는 멀티밴드필터에 의한 환경잡음억압 알고리즘을 제안한다. 이 알고리즘은 음성으로부터 특징 파라미터를 추출하여 필터뱅크의 서브밴드 영역에서 잡음을 제거하는 방법이다. 본 실험에서는 환경잡음억압 알고리즘의 성능을 멀티밴드필터를 사용하여 각 프레임에서 잡음을 제거하는 실험결과를 나타낸다. 잡음에 의하여 오염된 음성에 대하여 스펙트럴 왜곡률을 사용하여 본 알고리즘이 유효하다는 것을 확인한다.

음성강조에의 응용을 위한 신경회로망에 의한 잡음량의 추정법 (Estimation method of noise intensity by neural network for application in speech enhancement)

  • 최재승
    • 대한전자공학회논문지SP
    • /
    • 제42권3호
    • /
    • pp.129-136
    • /
    • 2005
  • 잡음이 중첩된 음성으로부터 잡음을 제거하기 위해서는, 잡음의 크기에 따라서 음성처리 시스템의 매개변수를 변경하는 것이 양호한 음질의 음성을 재생하는데 바람직하다. 본 논문은 백색잡음 및 자동차의 주행잡음에 의해 저하된 3단계의 음성을 학습할 수 있는 3층 구조의 신경회로망을 사용하여, 음성 중의 잡음량의 크기를 추정하는 방식을 제안한다. 실험결과, 제안한 방법은 신경회로망에 의해서 잡음량이 추정될 수 있는 것을 알 수 있었으며, 화자와 음성 데이터가 학습데이터와 다르더라도 백색잡음에 대해서 평균 $95\%$ 이상의 높은 잡음 추정율을 구할 수 있었다.

Improved Acoustic Modeling Based on Selective Data-driven PMC

  • Kim, Woo-Il;Kang, Sun-Mee;Ko, Han-Seok
    • 음성과학
    • /
    • 제9권1호
    • /
    • pp.39-47
    • /
    • 2002
  • This paper proposes an effective method to remedy the acoustic modeling problem inherent in the usual log-normal Parallel Model Composition intended for achieving robust speech recognition. In particular, the Gaussian kernels under the prescribed log-normal PMC cannot sufficiently express the corrupted speech distributions. The proposed scheme corrects this deficiency by judiciously selecting the 'fairly' corrupted component and by re-estimating it as a mixture of two distributions using data-driven PMC. As a result, some components become merged while equal number of components split. The determination for splitting or merging is achieved by means of measuring the similarity of the corrupted speech model to those of the clean model and the noise model. The experimental results indicate that the suggested algorithm is effective in representing the corrupted speech distributions and attains consistent improvement over various SNR and noise cases.

  • PDF

딥 뉴럴 네트워크 기반의 음성 향상을 위한 데이터 증강 (Data Augmentation for DNN-based Speech Enhancement)

  • 이승관;이상민
    • 한국멀티미디어학회논문지
    • /
    • 제22권7호
    • /
    • pp.749-758
    • /
    • 2019
  • This paper proposes a data augmentation algorithm to improve the performance of DNN(Deep Neural Network) based speech enhancement. Many deep learning models are exploring algorithms to maximize the performance in limited amount of data. The most commonly used algorithm is the data augmentation which is the technique artificially increases the amount of data. For the effective data augmentation algorithm, we used a formant enhancement method that assign the different weights to the formant frequencies. The DNN model which is trained using the proposed data augmentation algorithm was evaluated in various noise environments. The speech enhancement performance of the DNN model with the proposed data augmentation algorithm was compared with the algorithms which are the DNN model with the conventional data augmentation and without the data augmentation. As a result, the proposed data augmentation algorithm showed the higher speech enhancement performance than the other algorithms.

연속 잡음 음성 인식을 위한 다 모델 기반 인식기의 성능 향상에 대한 연구 (Performance Improvement in the Multi-Model Based Speech Recognizer for Continuous Noisy Speech Recognition)

  • 정용주
    • 음성과학
    • /
    • 제15권2호
    • /
    • pp.55-65
    • /
    • 2008
  • Recently, the multi-model based speech recognizer has been used quite successfully for noisy speech recognition. For the selection of the reference HMM (hidden Markov model) which best matches the noise type and SNR (signal to noise ratio) of the input testing speech, the estimation of the SNR value using the VAD (voice activity detection) algorithm and the classification of the noise type based on the GMM (Gaussian mixture model) have been done separately in the multi-model framework. As the SNR estimation process is vulnerable to errors, we propose an efficient method which can classify simultaneously the SNR values and noise types. The KL (Kullback-Leibler) distance between the single Gaussian distributions for the noise signal during the training and testing is utilized for the classification. The recognition experiments have been done on the Aurora 2 database showing the usefulness of the model compensation method in the multi-model based speech recognizer. We could also see that further performance improvement was achievable by combining the probability density function of the MCT (multi-condition training) with that of the reference HMM compensated by the D-JA (data-driven Jacobian adaptation) in the multi-model based speech recognizer.

  • PDF

잡음 차폐를 이용한 온라인 모델 보상 (On-line model compensation using noise masking effect for robust speech recognition)

  • 정규준;조훈영;오영환
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2003년도 5월 학술대회지
    • /
    • pp.215-218
    • /
    • 2003
  • In this paper we apply PMC (parallel model combination) to speech recognition system online. As a representative of model based noise compensation techniques, PMC compensates environmental mismatch by combining pretrained clean speech models and real-time estimated noise information. This is very effective approach for compensating extreme environmental mismatch but is inadequate to use in on-line system for heavy computational cost. To reduce the computational cost and to apply PMC online, we use a noise masking effect - the energy in a frequency band is dominated either by clean speech energy or by noise energy - in the process of model compensation. Experiments on artificially produced noisy speech data confirm that the proposed technique is fast and effective for the on-line model compensation.

  • PDF

위너필터에 의한 음성 중의 잡음제거 알고리즘 (Noise Reduction Algorithm in Speech by Wiener Filter)

  • 최재승
    • 한국전자통신학회논문지
    • /
    • 제8권9호
    • /
    • pp.1293-1298
    • /
    • 2013
  • 본 논문에서는 음성신호를 개선할 목적으로 잡음으로 오염된 음성신호로부터 잡음성분을 제거하기 위한 위너 필터를 사용한 잡음제거 알고리즘을 제안한다. 제안한 알고리즘은 먼저 잡음 복원 및 제거 방법에 기초하여 잡음으로 오염된 신호로부터 각 프레임에서 백색잡음의 잡음 스펙트럼을 제거한다. 또한 본 알고리즘은 선형예측 분석 방법에 기초한 위너 필터를 사용하여 음성신호를 강조한다. 본 실험에서는 일본 남성화자에 의한 음성과 잡음데이터를 사용하여 본 알고리즘의 실험 결과를 나타낸다. 백색잡음에 의하여 오염된 음성신호에 대하여 스펙트럼 왜곡률 척도를 사용하여 본 알고리즘이 유효하다는 것을 확인한다. 실험으로부터 백색잡음에 대하여 이전의 위너 필터와 비교하여 최대 4.94 dB의 출력 스펙트럼 왜곡률이 개선된 것을 확인할 수 있었다.

노년층의 말소리 지각 능력 및 관련 인지적 변인 (Speech perception difficulties and their associated cognitive functions in older adults)

  • 이수정;김향희
    • 말소리와 음성과학
    • /
    • 제8권1호
    • /
    • pp.63-69
    • /
    • 2016
  • The aims of the present study are two-fold: 1) to explore differences on speech perception between younger and older adults according to noise conditions; and 2) to investigate which cognitive domains are correlated with speech perception. Data were acquired from 15 younger adults and 15 older adults. Sentence recognition test was conducted in four noise conditions(i.e., in-quiet, +5 dB SNR, 0 dB SNR, -5 dB SNR). All participants completed auditory and cognitive assessment. Upon controlling for hearing thresholds, the older group revealed significantly poorer performance compared to the younger adults only under the high noise condition at -5 dB SNR. For older group, performance on Seoul Verbal Learning Test(immediate recall) was significantly correlated with speech perception performance, upon controlling for hearing thresholds. In older adults, working memory and verbal short-term memory are the best predictors of speech-in-noise perception. The current study suggests that consideration of cognitive function for older adults in speech perception assessment is necessary due to its adverse effect on speech perception under background noise.

차량 잡음 환경에서 인위적 왜곡 음성을 이용한 Eigenspace-based MLLR에 기반한 고속 화자 적응 (Fast Speaker Adaptation Based on Eigenspace-based MLLR Using Artificially Distorted Speech in Car Noise Environment)

  • 송화전;전형배;김형순
    • 말소리와 음성과학
    • /
    • 제1권4호
    • /
    • pp.119-125
    • /
    • 2009
  • This paper proposes fast speaker adaptation method using artificially distorted speech in telematics terminal under the car noise environment based on eigenspace-based maximum likelihood linear regression (ES-MLLR). The artificially distorted speech is built from adding the various car noise signals collected from a driving car to the speech signal collected from an idling car. Then, in every environment, the transformation matrix is estimated by ES-MLLR using the artificially distorted speech corresponding to the specific noise environment. In test mode, an online model is built by weighted sum of the environment transformation matrices depending on the driving condition. In 3k-word recognition task in the telematics terminal, we achieve a performance superior to ES-MLLR even using the adaptation data collected from the driving condition.

  • PDF