• 제목/요약/키워드: Formant Frequencies

검색결과 75건 처리시간 0.025초

한국어 단모음의 성별, 연령별 특징변화 및 인식 (Changes in Features of Korean Vowels with Age and Sex of Speakers and Their Recognition)

  • 이용주;김경태;차균현
    • 대한전자공학회논문지
    • /
    • 제25권12호
    • /
    • pp.1503-1512
    • /
    • 1988
  • As the basic analysis to solve the within-and cross-speaker variability in phoneme based speech recognition, changes in pitch and formant frequencies of 8 Korean vowels with age and sex of speaker has been investigated by analyzing a large number fo samples. Conclusions obtained are as follows: 1) Changes in pitch frequency with age and sex of speaker for children are hard to distinguish and the difference of before and after the voice change is analyzed approximately 0.2 oct. for female an 0.9 oct. for male. 2) While most of the formants of vowel considerably change with the age of speaker, the change becomes smaller as the age becomes older. 3) While there is an indirect correlation between pitch and formant with change in age, it is hard to see a direct correlation. 4) When the objects of the recognition experiment by pitch and formants are various speakers in each age and sex, pitch also works as an efficient recognition parameter.

  • PDF

딥 뉴럴 네트워크 기반의 음성 향상을 위한 데이터 증강 (Data Augmentation for DNN-based Speech Enhancement)

  • 이승관;이상민
    • 한국멀티미디어학회논문지
    • /
    • 제22권7호
    • /
    • pp.749-758
    • /
    • 2019
  • This paper proposes a data augmentation algorithm to improve the performance of DNN(Deep Neural Network) based speech enhancement. Many deep learning models are exploring algorithms to maximize the performance in limited amount of data. The most commonly used algorithm is the data augmentation which is the technique artificially increases the amount of data. For the effective data augmentation algorithm, we used a formant enhancement method that assign the different weights to the formant frequencies. The DNN model which is trained using the proposed data augmentation algorithm was evaluated in various noise environments. The speech enhancement performance of the DNN model with the proposed data augmentation algorithm was compared with the algorithms which are the DNN model with the conventional data augmentation and without the data augmentation. As a result, the proposed data augmentation algorithm showed the higher speech enhancement performance than the other algorithms.

중국인 학습자의 한국어 발음 오류에 대한 음성 신호 파라미터들의 비교 연구 - 한국어의 /ㄹ/ 발음을 중심으로 (A Comparison Study on the Speech Signal Parameters for Chinese Leaners' Korean Pronunciation Errors - Focused on Korean /ㄹ/ Sound)

  • 이강희;유광복;임하영
    • 예술인문사회 융합 멀티미디어 논문지
    • /
    • 제7권6호
    • /
    • pp.239-246
    • /
    • 2017
  • 본 논문은 중국인 학습자들이 많은 오류를 나타내는 한국어 /ㄹ/발음을 중심으로 중국인 학습자들의 음성 신호 파라미터들을 한국인의 것과 비교하였다. 설측음 혹은 탄설음의 변이음으로 나타나는 한국어의 /ㄹ/ 발음에 대한 중국어의 유사 발음과의 관계를 언어학적 관점에서 알아봄으로 많은 오류를 보이는 이유를 확인해 보았다. 본 논문에서는 신호의 에너지, 시간 영역에서의 파형, 주파수 성분 분석이 가능한 스펙트로그램, 자기 상관 함수를 이용해 구한 피치 (F0), 포먼트 주파수 (f1, f2, f3, 그리고 f4) 등을 사용하여서 음성학적 측면에서 비교 분석 하였다. 본 논문에서 사용한 데이터는 국어학적 분석을 통한 제시어로 구성한 것을 사용하였고 이를 시뮬레이션 하였다. 에너지와 spectrogram 분석의 결과를 보면, 중국인 학습자는 한국어 /ㄹ/ 발음에서 한국인 화자들과 많은 차이를 보인다. 이외의 다른 음성 신호 파라미터들에서도 차이가 나는 것을 알 수 있다. 본 논문이 비교한 파라미터들을 이용하여서 중국인 화자가 한국어 학습시 나타나는 오류들을 상당히 줄일 수 있을 것으로 기대할 수 있다.

한국어 단독 숫자음 인식을 위한 DTW 알고리즘의 비교 (Comparison of the Dynamic Time Warping Algorithm for Spoken Korean Isolated Digits Recognition)

  • 홍진우;김순협
    • 한국음향학회지
    • /
    • 제3권1호
    • /
    • pp.25-35
    • /
    • 1984
  • This paper analysis the Dynamic Time Warping algorithms for time normalization of speech pattern and discusses the Dynamic Programming algorithm for spoken Korean isolated digits recognition. In the DP matching, feature vectors of the reference and test pattern are consisted of first three formant frequencies extracted by power spectrum density estimation algorithm of the ARMA model. The major differences in the various DTW algorithms include the global path constrains, the local continuity constraints on the path, and the distance weighting/normalization used to give the overall minimum distance. The performance criterias to evaluate these DP algorithms are memory requirement, speed of implementation, and recognition accuracy.

  • PDF

음향분석에 사용할 녹음장비로 갤럭시 스마트폰 녹음기능의 유용성 (Feasibility of Galaxy Smartphone Recording as Portable Recorder for Acoustic Analysis of Voice)

  • 윤매화;이재혁;이상혁;진성민
    • 대한후두음성언어의학회지
    • /
    • 제26권2호
    • /
    • pp.104-111
    • /
    • 2015
  • Background and Objectives : Acoustic analysis of voice could be influenced so much by the quality of voice files which were recorded by recording device. In clinical practice, voice files that were recorded by analysis program directly or portable digital recording device were analyzed mostly. This study examined the feasibility of using Galaxy smartphone recordings for acoustic analysis of voice. Materials and Methods : Acoustic measures were compared between voice signals recorded from 30 normal speakers (15 males and 15 females) through Galaxy smartphone, portable digital recording device and CSL. Fo, jitter, shimmer, NHR (Noise-Harmony ratio) and Formant frequencies were analyzed by MDVP. Results : Fo, Jitter, Shimmer, NHR and formant frequencies from 3 devices were no significantly difference. The intraclass correlation coefficient (ICC) was higher between each of the voice perturbation measures. Conclusion : The findings indicated that Galaxy smartphone recording system was useful device for acoustic analysis of voice. Furthermore, Galaxy smartphone can be applied widely in various way for acoustic analysis of voice.

  • PDF

The identification of /I/ in Spanish and French

  • Jorge A. Gurlekian;Benoit Jacques;Miguelina Guirao
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 1996년도 10월 학술대회지
    • /
    • pp.521-528
    • /
    • 1996
  • This presentation explores on the perceptual characteristics of the lateral sound /l/ in CV syllables. At initial position we found that /l/ has well marked formant transitions. Then several questions arise: 1) are these formant structures dependent on the following vowel\ulcorner. 2) Are the formant transitions giving an additional cue for the identification\ulcorner Considering that the French vocalic system presents a greater variety of vowels than Spanish, several experiments were designed to verify to what extent a more extensive range of vocalic timbres contribute to the perception of /l/. Natural emissions of /l/ produced in Argentine Spanish and Canadian French CV syllables were recorded, where V was successively /i, e, a, o, u/ for Spanish and /i, e, $\varepsilon$, a, $\alpha$, o, u, y, \phi$/ for French. For each item, the segment C was maintained and V was replaced by cutting & splicing by each of the remaining vowels without transitions. Results of the identification tests for Spanish show that natural /l/ segments with low Fl and high formants F3, F4 can be clearly identified in the /i, e, u/ vowel contexts without transitions. For French subjects the combination of /l/ with a vowel without transitions reflected correct identifications for its own original vowel context in /e, $\varepsilon$, y, $\phi$/. For both languages, in all these combinations, F1 values remained rather steady along the syllable. In the case of /o, u/ very likely the F2 difference lead to a variety of perceptions of the original /l/. For example in Ilul, French subjects reported some identifications of /l/ as a vowel, mainly /y/. Our observations reinforce the importance of F1 as a relevant cue for /l/, and the incidence of the relative distance between formants frequencies of both components.

  • PDF

음성신호 전처리를 위한 에너지 의존 프리엠퍼시스 (Energy-Dependent Preemphasis for Speech Signal Preprocessing)

  • 김동준;박상희
    • 한국음향학회지
    • /
    • 제16권3호
    • /
    • pp.18-25
    • /
    • 1997
  • 본 연구에서는 성문파에 의한 음원 특성과 입술에서 음성이 방사될 때 발생하는 방사 특성을 효과적으로 제거하기 위하여 성문파의 음원 특성과 입술에서의 방사 특성은 근사적으로 음파의 에너지와 비례한다고 가정하고, 정규화된 단구간 에너지를 이용하는 에너지 의존 프리엠퍼시스 기법을 제안하며, 이를 이용하여 비안정 구간인 발음의 시작 부분과 천이구간에 대하여 음성 신호 분석 성능을 개선하고자 한다. 제안된 프리엠퍼시스 기법을 이용하여 5개 한국어 단모음의 스펙트럼 및 형성음 주파수 추출 등의 음성 신호 분석을 수행하고, 기존에 널리 이용되던 두 가지 프리엠퍼시스 기법과 성능을 비교하여 본 결과, 제안된 방법에 의한 스펙트럼의 형태가 기존의 방법에 비하여 상당히 개선되었고, 보다 더 정확한 형성음 주파수를 나타내며, 인접한 두 형성음 주파수가 증첩되는 현상이 제거되었음을 알 수 있었다.

  • PDF

청각장애아동과 건청아동의 모음 및 파열음 산출의 음향음성학적 특성 비교 (Acoustic Comparisons of Vowel and Plosive Productions between the Normal and the Hearing-Impaired Children)

  • 오영자;지민제;김영태
    • 음성과학
    • /
    • 제7권2호
    • /
    • pp.51-70
    • /
    • 2000
  • Twenty normal and 20 severe-to-profound hearing-impaired subjects participated in the present study. The two groups are matched by their chronological age. Each subject made a recording of three vowels of /i/, /a/, and /u/, and nine $VC_{plosive}V$ (hereafter, VCV) disyllables of /epe/, /ep'e/, /$ep^{h}e$/, /ete/, /et'e/, /$et^{h}e$/, /eke/, /ek'e/, and /$ek^{h}e$/, each five times. Formant frequencies of $F_1,\;F_2,\;and\;F_3$ were measured for the three vowels and six measures were made for the nine disyllables. The six measures were (1) the total duration of the disyllable, (2) the duration of the first vowel, (3) the duration of the closed period, (4) the ratio of the first vowel over the first vowel plus the closure period of the consonant, (5) the duration of the aspiration, and (6) the duration of the second vowel. Results shows that the three formants and each of the measures were significantly different between the two groups of subjects.

  • PDF

후두 전적출술후 MR영상을 이용한 음성재활환자의 발성기전에 관한 연구 (Mechanism of Vowel Phonation in T-E Shunt Patient using MR Imaging after Total Laryngectomy)

  • 박병래
    • 대한방사선기술학회지:방사선기술과학
    • /
    • 제20권1호
    • /
    • pp.21-27
    • /
    • 1997
  • Total laryngectomy has become an usual treatment for any advanced carcinoma of the laynx, but most patients who have undergone total laryngectomy have shown permanant disability in voice production. I compared the first three formant frequencies estimated from MRI to those measured directly from speech data of the T-E patients and the normal. It was to estimate the accuracy of MRI and to compare the vocal tract shape of the normal to T-E patients. The obtained results were as follows : 1. The middle sagittle section of the MRI represents vocal tract well during pnonation. The vocal tract shape of the T-E shunt patients are lack of pharyngeal space and superior space of the glottis. 2. The length of the normal subject's vocal tract is 17 cm. For the T-E shunt patients, the length from lip to shunt opening is 17.5 cm in case 1, and 18.5 cm in case 2. That of the true resonante chamber is 13 cm and 13.5 cm for each case respectively. 3. T-E shunt patients phonated strained voice. The intensity of the higher formant frequency decreased especially in /o/, /u/. 4. The vocal tract is shortened during the phonation by T-E shunt patients. In case of /e/ and /i/, front cavities are constricted while back cavities are shortened. 5. The pseudoglottis of the T-E shunt patients is located at $14{\sim}15\;cm$ below from lips.

  • PDF

벅아이 코퍼스를 이용한 미국 영어의 /l/ 연구개음화 연구 (A study of /l/ velarization in American English based on the Buckeye Corpus)

  • 사재진
    • 말소리와 음성과학
    • /
    • 제13권2호
    • /
    • pp.19-25
    • /
    • 2021
  • 설측음의 변이음에는 어두운 [l]과 밝은 [l]이 있다고 알려져 왔으나 최근 설측음의 변이음의 종류가 언어마다 다르다는 주장이 제기되고 있다. 본 연구에서는 영어 설측음 /l/이 음절 내 출현 위치에 따라 연구개음화의 실현 정도가 유의미하게 다른 변이음이 있는지 확인하기 위해 자연발화 음성 데이터베이스인 벅아이 코퍼스를 이용하였다. 먼저, 설측음의 음절 내 출현 위치에 따라 측정한 포만트 주파수를 비교한 결과 음절 내 모든 위치에서 유의미한 차이를 보이는 F2 주파수를 근거로 연구개음화 정도가 유의미하게 다른 변이음이 어두운 [l]과 밝은 [l] 이외에도 존재한다고 판단할 수 있었다. 또한 인접 모음의 후설성이 설측음의 연구개음화에 미치는 영향으로 인해 표준적인 어두운 [l]과 표준적인 밝은 [l] 이외의 변이음이 존재하는지 확인하기 위해 포만트 주파수를 측정하고 이에 대해 분산분석을 한 결과 음절 말 위치에서 연구개음화될 때에도 인접 모음이 후설모음인 경우 인접 모음이 전설모음인 경우와 비교했을 때 유의미하게 차이나는 F2 주파수를 보여 연구개음화되는 정도에 차이가 있음을 확인할 수 있었다. 이는 음절 초 위치에서 설측음이 실현될 경우에도 마찬가지로 인접 모음의 종류에 무관하게 모든 설측음이 음절 초 위치에서는 표준적인 밝은 [l]로 발음될 것이라고 예측했지만 실제 F2 주파수는 음절 말 위치에서 선행모음이 전설모음일 경우의 설측음과 유사한 결과를 나타냈다. 이를 통해 음절 내의 위치뿐만 아니라 인접 모음의 후설성이 설측음의 연구개음화 정도에 미치는 영향이 매우 크다는 점을 확인할 수 있고, 이러한 논문의 결과는 설측음의 변이음의 종류가 언어마다 다르고 미국 영어의 경우 다양하게 나타난다는 주장에 대한 하나의 음성학적 근거로 사용될 수 있을 것이다.