• 제목/요약/키워드: speech process

검색결과 526건 처리시간 0.024초

감마톤 특징 추출 음향 모델을 이용한 음성 인식 성능 향상 (Speech Recognition Performance Improvement using Gamma-tone Feature Extraction Acoustic Model)

  • 안찬식;최기호
    • 디지털융복합연구
    • /
    • 제11권7호
    • /
    • pp.209-214
    • /
    • 2013
  • 음성 인식 시스템에서는 인식 성능 향상을 위한 방법으로 인간의 청취 능력을 인식 시스템에 접목하였으며 잡음 환경에서 음성 신호와 잡음을 분리하여 원하는 음성 신호만을 선택할 수 있도록 구성되었다. 하지만 실용적 측면에서 음성 인식 시스템의 성능 저하 요인으로 인식 환경 변화에 따른 잡음으로 인한 음성 검출이 정확하지 못하여 일어나는 것과 학습 모델이 일치하지 않는 것을 들 수 있다. 따라서 본 논문에서는 음성 인식 향상을 위해 감마톤을 이용하여 특징을 추출하고 음향 모델을 이용한 학습 모델을 제안하였다. 제안한 방법은 청각 장면 분석을 이용한 특징을 추출을 통해 인간의 청각 인지 능력을 반영하였으며 인식을 위한 학습 모델 과정에서 음향 모델을 이용하여 인식 성능을 향상시켰다. 성능 평가를 위해 잡음 환경의 -10dB, -5dB 신호에서 잡음 제거를 수행하여 SNR을 측정한 결과 3.12dB, 2.04dB의 성능이 향상됨을 확인하였다.

한글 단어의 음성 인식 처리에 관한 연구 (A Study on Processing of Speech Recognition Korean Words)

  • 남기훈
    • 문화기술의 융합
    • /
    • 제5권4호
    • /
    • pp.407-412
    • /
    • 2019
  • 본 논문에서는 한글 단어 단위의 음성 인식 처리 기술을 제안한다. 음성 인식은 마이크와 같은 센서를 사용하여 얻은 음향학적 신호를 단어나 문장으로 변환시키는 기술이다. 대부분의 외국어들은 음성 인식에 있어서 어려움이 적은 편이다. 그에 반면, 한글의 모음과 받침 자음 구성이어서 음성 합성 시스템으로부터 얻은 문자를 그대로 사용하기에는 부적절하다. 기존 구조의 음성 인식 기술을 개선해야만 보다 정확하게 단어를 인식할 수 있다. 이러한 문제를 해결하기 위해 기존 방식의 음성 인식구조에 새로운 알고리즘을 추가하여 음성 인식률을 높이게 하였다. 먼저 입력된 단어를 전처리 과정을 수행한 후 결과를 토큰 처리한다. 레벤스테인 거리 알고리즘과 해싱 알고리즘에서 처리된 결과 값을 조합한 후 자음 비교 알고리즘을 거쳐 표준 단어를 출력한다. 최종 결과 단어를 표준화 테이블과 비교하여 존재하면 출력하고 존재하지 않으면 테이블에 등록하도록 하였다. 실험 환경은 스마트폰 응용 프로그램을 개발하여 사용하였다. 본 논문에서 제안된 구조는 기존 방식에 비해 인식률의 성능이 표준어는 2%, 방언은 7% 정도 향상되었음을 보였다.

인간의 청각모델에 기초한 잡음환경에 적응된 잡음억압 시스템 (Adaptive Noise Suppression system based on Human Auditory Model)

  • 최재승
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2008년도 춘계종합학술대회 A
    • /
    • pp.421-424
    • /
    • 2008
  • 본 논문에서는 다양한 배경잡음에 의해 열화된 음성을 강조하기 위하여 청각모델에 기초로 한 잡음환경에 적응된 잡음억압 시스템을 제안한다. 제안한 시스템은 먼저 유성음과 무성음의 구간을 검출한 후, 각 입력 프레임에서 적응적인 청각기강의 처리를 한다. 마지막으로 진폭성분과 위상성분이 포함된 신경회로망을 사용하여 잡음신호를 제거한 후에 음성을 강조하는 처리를 한다. 본 시스템은 신호대잡음비의 평가방법을 통하여 다양한 잡음에 의해서 열화된 음성신호에 대해서 유효하다는 것을 실험으로 확인한다.

  • PDF

아날로그 음성 비화기의 비도 및 음질 향상에 관한 연구 (A Study on the Improvements of Security and Quality for Analog Speech Scrambler)

  • 공병구;조동호
    • 전자공학회논문지B
    • /
    • 제30B권9호
    • /
    • pp.27-35
    • /
    • 1993
  • In this paper, a new algorithm for high level security and quality of speech is proposed. The algorithm is based on the rearrangement of the fast fourier transform (FFT) coefficients with pre and post filter process, hamming window and adaptive pseudo spectrum insertion. Then, the pre and post filters are used for the whitening of speech spectrum and the adaptive pseudo spectrum is inserted for the unclassification of silence/speech. Also, the hamming window technique is applied for the robustness to the syncronization error in the telephone line. According to the simulation results, it can be seen that the security of scrambled signal and the quality of descrambled signal have been improved fairly in both subjective and objective performance test and the new FFT scrambler is robust to the synchronization error.

  • PDF

주파수 대역 제한에 의한 한국어 모음의 지각 특성 분석 (Perceptual Characteristics of Korean Vowels Distorted by the Frequency Band Limitation)

  • 김연화;최대림;이숙향;이용주
    • 말소리와 음성과학
    • /
    • 제6권1호
    • /
    • pp.85-93
    • /
    • 2014
  • This paper investigated the effects of frequency band limitation on perceptual characteristics of Korean vowels. Monosyllabic speech (144 syllables of CV type, 56 syllables of VC type, 8 syllables of V type) produced by two announcers were low- and high-pass filtered with cutoff frequencies ranging from 300 to 5000 Hz. Six listeners with normal hearing performed perception tests by types of filter and cutoff frequencies. We reported phoneme recognition rates and types of perception error of band-limited Korean vowels to examine how frequency distortion in the process of speech transmission affect listener's perception.

외국어로서의 한국어 음성 코퍼스 구축과 이를 통한 외국인의 한국어 음성${\cdot}$음운체계 습득 양상 연구 (Speech Corpus for Korean as a Foreign Language and the Aspects of the Foreign Learners' Acquisition of the Phonetic and Phonological Systems in the Korean Language)

  • 이석재;김정아;장재응
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2005년도 춘계 학술대회 발표논문집
    • /
    • pp.29-33
    • /
    • 2005
  • This study aims to establish a speech corpus for Korean as a foreign language (L2 Korean Speech Corpus, L2KSC) and to examine the aspects of the foreign learners acquisition of the phonetic and phonological systems in the Korean Language. In the first year of this project, L2KSC will be established through the process of reading list organizing, recording, and slicing, and the second year includes an in-depth study of the aspects of foreign learners Korean acquisition and a contrastive analysis of phonetic and phonological systems. The expectation is that this project will provide significant bases for a variety of fields such as Korean education, academic research, and technological development of phonetic information.

  • PDF

서반아어 자음에 대한 음성학적 연구 -한국인의 서반아어 자음습득 과정을 중심으로- (A Phonetic Study of Spanish Consonants - On the Process of Koreans' Spanish Consonants Acquisition-)

  • 박지영
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 1996년도 10월 학술대회지
    • /
    • pp.409-414
    • /
    • 1996
  • The aim of this paper is to research on the actual condition of Koreans' Spanish consonants pronunciation with an emphasis on describing the phonetic different of Korean speakers and Spanish speakers. 40 Spanish words were chosen for the speech sampling, and 10 Spanish majoring Korean students from Seoul or Kyunggi Province and 3 Spanish speakers form Castile, Spain participated in the interview. The most noticeable phonetic differences of Korean speakers' pronunciation comparing with Spanish speakers are abstracted as follows: 1) The voiced stops are pronounced voiceless or weak voiced. 2) The voiced stops are slightly aspirated. 3) The length of voiceless consonants is quite longer than the length of proceeding vowel. 4) Fricatives and affricates are somewhat fronter, and weaker in the degree of friction. 5) There is a strong tendency to geminate dental lateral /l/ such as 'pelo' and to vocalize palatal lateral /$\rightthreetimes$/ such as 'calle' 6) Unlike in Spanish speech flap $\mid$r$\mid$ and trill [r] are pronounced similarly in Korean speech.

  • PDF

모음길이 비율에 따른 발화속도 보상을 이용한 한국어 음성인식 성능향상 (An Improvement of Korean Speech Recognition Using a Compensation of the Speaking Rate by the Ratio of a Vowel length)

  • 박준배;김태준;최성용;이정현
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 컴퓨터소사이어티 추계학술대회논문집
    • /
    • pp.195-198
    • /
    • 2003
  • The accuracy of automatic speech recognition system depends on the presence of background noise and speaker variability such as sex, intonation of speech, and speaking rate. Specially, the speaking rate of both inter-speaker and intra-speaker is a serious cause of mis-recognition. In this paper, we propose the compensation method of the speaking rate by the ratio of each vowel's length in a phrase. First the number of feature vectors in a phrase is estimated by the information of speaking rate. Second, the estimated number of feature vectors is assigned to each syllable of the phrase according to the ratio of its vowel length. Finally, the process of feature vector extraction is operated by the number that assigned to each syllable in the phrase. As a result the accuracy of automatic speech recognition was improved using the proposed compensation method of the speaking rate.

  • PDF

Training Method and Speaker Verification Measures for Recurrent Neural Network based Speaker Verification System

  • 김태형
    • 한국통신학회논문지
    • /
    • 제34권3C호
    • /
    • pp.257-267
    • /
    • 2009
  • This paper presents a training method for neural networks and the employment of MSE (mean scare error) values as the basis of a decision regarding the identity claim of a speaker in a recurrent neural networks based speaker verification system. Recurrent neural networks (RNNs) are employed to capture temporally dynamic characteristics of speech signal. In the process of supervised learning for RNNs, target outputs are automatically generated and the generated target outputs are made to represent the temporal variation of input speech sounds. To increase the capability of discriminating between the true speaker and an impostor, a discriminative training method for RNNs is presented. This paper shows the use and the effectiveness of the MSE value, which is obtained from the Euclidean distance between the target outputs and the outputs of networks for test speech sounds of a speaker, as the basis of speaker verification. In terms of equal error rates, results of experiments, which have been performed using the Korean speech database, show that the proposed speaker verification system exhibits better performance than a conventional hidden Markov model based speaker verification system.

MLLR 화자적응 기법을 이용한 적은 학습자료 환경의 화자식별 (Speaker Identification in Small Training Data Environment using MLLR Adaptation Method)

  • 김세현;오영환
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2005년도 추계 학술대회 발표논문집
    • /
    • pp.159-162
    • /
    • 2005
  • Identification is the process automatically identify who is speaking on the basis of information obtained from speech waves. In training phase, each speaker models are trained using each speaker's speech data. GMMs (Gaussian Mixture Models), which have been successfully applied to speaker modeling in text-independent speaker identification, are not efficient in insufficient training data environment. This paper proposes speaker modeling method using MLLR (Maximum Likelihood Linear Regression) method which is used for speaker adaptation in speech recognition. We make SD-like model using MLLR adaptation method instead of speaker dependent model (SD). Proposed system outperforms the GMMs in small training data environment.

  • PDF