• 제목/요약/키워드: formant trajectory

검색결과 7건 처리시간 0.017초

발화방식에 따른 미국인 남성 영어모음의 피치와 포먼트 궤적 (Pitch and Formant Trajectories of English Vowels by American Males with Different Speaking Styles)

  • 양병곤
    • 말소리와 음성과학
    • /
    • 제4권1호
    • /
    • pp.21-28
    • /
    • 2012
  • Many previous studies reported acoustic parameters of English vowels produced by a clear speaking style. In everyday usage, we actually produce speech sounds with various speaking styles. Different styles may yield different acoustic measurements. This study attempts to examine pitch and formant trajectories of eleven English vowels produced by nine American males in order to understand acoustic variations depending on clear and conversational speaking styles. The author used Praat to obtain trajectories systematically at seven equidistant time points over the vowel segment while checking measurement validity. Results showed that pitch trajectories indicated distinct patterns depending on four speaking styles. Generally, higher pitch values were observed in the higher vowels and the pitch was higher in the clear speaking styles than that in the conversational styles. The same trend was observed in the three formant trajectories of front vowels and the first formant trajectories of back vowels. The second and third trajectories of back vowels revealed an opposite or inconsistent trend, which might be attributable to the coarticulation of the following consonant or lip rounding gestures. The author made a tentative conclusion that people tend to produce vowels to enhance pitch and formant differences to transmit their information clearly. Further perceptual studies on synthesized vowels with varying pitch and formant values are desirable to address the conclusion.

Neural Spike Train Decoding에 기반한 인공와우 어음처리방식 성능평가 (Performance Evaluation of Cochlear Implants Speech Processing Strategy Using Neural Spike Train Decoding)

  • 김두희;김진호;김경환
    • 대한의용생체공학회:의공학회지
    • /
    • 제28권2호
    • /
    • pp.271-279
    • /
    • 2007
  • We suggest a novel method for the evaluation of cochlear implant (CI) speech processing strategy based on neural spike train decoding. From formant trajectories of input speech and auditory nerve responses responding to the electrical pulse trains generated from a specific CI speech processing strategy, optimal linear decoding filter was obtained, and used to estimate formant trajectory of incoming speech. Performance of a specific strategy is evaluated by comparing true and estimated formant trajectories. We compared a newly-developed strategy rooted from a closer mimicking of auditory periphery using nonlinear time-varying filter, with a conventional linear-filter-based strategy. It was shown that the formant trajectories could be estimated more exactly in the case of the nonlinear time-varying strategy. The superiority was more prominent when background noise level is high, and the spectral characteristic of the background noise was close to that of speech signals. This confirms the superiority observed from other evaluation methods, such as acoustic simulation and spectral analysis.

Speech recognition rates and acoustic analyses of English vowels produced by Korean students

  • Yang, Byunggon
    • 말소리와 음성과학
    • /
    • 제14권2호
    • /
    • pp.11-17
    • /
    • 2022
  • English vowels play an important role in verbal communication. However, Korean students tend to experience difficulty pronouncing a certain set of vowels despite extensive education in English. The aim of this study is to apply speech recognition software to evaluate Korean students' pronunciation of English vowels in minimal pair words and then to examine acoustic characteristics of the pairs in order to check their pronunciation problems. Thirty female Korean college students participated in the recording. Speech recognition rates were obtained to examine which English vowels were correctly pronounced. To compare and verify the recognition results, such acoustic analyses as the first and second formant trajectories and durations were also collected using Praat. The results showed an overall recognition rate of 54.7%. Some students incorrectly switched the tense and lax counterparts and produced the same vowel sounds for qualitatively different English vowels. From the acoustic analyses of the vowel formant trajectories, some of these vowel pairs were almost overlapped or exhibited slight acoustic differences at the majority of the measurement points. On the other hand, statistical analyses on the first formant trajectories of the three vowel pairs revealed significant differences throughout the measurement points, a finding that requires further investigation. Durational comparisons revealed a consistent pattern among the vowel pairs. The author concludes that speech recognition and analysis software can be useful to diagnose pronunciation problems of English-language learners.

Vowel Formant Trajectory Patterns for Shared Vowels of American English and Korean

  • Chung, Hyun-Ju;Kong, Eun-Jong;Weismer, Gary
    • 말소리와 음성과학
    • /
    • 제2권4호
    • /
    • pp.67-74
    • /
    • 2010
  • The purpose of this study was to explore the cross-linguistic difference in the spectral movement pattern of American English and Korean vowels. Eight American vowels /a/, /e/, /$\varepsilon$/, /i/, /I/, /o/, /u/, and /$\mho$/, and five Korean vowels, /a/, /e/, /i/, /o/ and /u/ in a fricative-vowel environment produced by adult speakers of each language were analyzed. The spectral movement patterns of the first two formant frequency values were measured and analyzed. The results showed that Korean vowels had minimal spectral movement, both in F1 and F2 values, as compared to American English vowels. Moreover, no consistent direction of movement was found in the three corner Korean vowels, while American English vowels showed consistent direction of movement for each vowel of the same phonemic category.

  • PDF

다이폰 군집화와 개선된 스펙트럼 완만화에 의한 음성합성 (Speech Synthesis using Diphone Clustering and Improved Spectral Smoothing)

  • 장효종;김관중;김계영;최형일
    • 정보처리학회논문지B
    • /
    • 제10B권6호
    • /
    • pp.665-672
    • /
    • 2003
  • 본 논문에서는 단위음소들의 연결을 통한 음성합성 방법에 관하여 기술한다. 이때, 발생하는 가장 큰 문제점은 두 단위음소 사이의 연결부분에서 불연속이 발생하는 것이며, 특히 다른 화자로부터 녹음한 단위음소의 연결에서 불연속이 많이 발생한다. 이 문제를 해결하기 위하여 본 논문에서는 군집화된 다이폰을 이용하며, 포만트 궤적과 스펙트럼의 분포특성을 사용할 뿐 아니라 인간의 청각적인 특성을 반영하여 스펙트럼을 완만화하는 방법을 제안한다. 즉, 제안하는 방법은 단위음소 연결구간의 스펙트럼 분포특성의 유사도를 사용하여 단위음소들을 군집화하고 단위음소의 연결 구간에서 인간의 청각신경 특성을 고려하여 완만화의 양과 범위를 결정한 다음, 두 다이폰 경계의 스펙트럼 분포를 시간에 따라 가중치를 다르게 주어 스펙트럼 완만화를 수행한다. 이 방법은 불연속을 제거하며 완만화로 인하여 발생할 수 있는 음성의 왜곡을 최소화한다. 제안하는 방법의 성능을 평가하기 위하여 5명으로부터 녹음한 20개의 문장 중에서 추출한 500여 개의 다이폰을 사용하여 실험을 수행하였다.

새로운 스펙트럼 완만화에 의한 합성 음질 개선 (Improvement of Synthetic Speech Quality using a New Spectral Smoothing Technique)

  • 장효종;최형일
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권11호
    • /
    • pp.1037-1043
    • /
    • 2003
  • 본 논문에서는 단위음소로 다이폰을 사용하여 음성을 합성하는 방법에 관하여 기술한다. 음성 합성은 기본적으로 단위음소들의 연결을 통하여 이루어지는데, 이때 발생하는 가장 큰 문제점은 두 단위음소 사이의 연결부분에서 불연속이 발생하는 것이다. 이 문제를 해결하기 위하여 본 논문에서는 포만트 궤적뿐 아니라 스펙트럼의 분포특성과 인간의 청각적인 특성을 반영하여 스펙트럼을 완만화하는 방법을 제안한다. 즉, 제안하는 방법은 단위음소의 연결 구간에서 인간의 청각신경 특성을 고려하여 완만화의 양과 범위를 결정한 다음, 두 다이폰 경계의 스펙트럼 분포를 시간에 따라 가중치를 다르게 주어 스펙트럼 완만화를 수행한다. 이 방법은 불연속을 제거하며 완만화로 인하여 발생할 수 있는 음성의 왜곡을 최소화한다. 제안하는 방법의 성능을 평가하기 위하여 ETRI 음성 DB 샘플과 개인별로 자체 녹음한 총 20여개의 문장에서 추출한 약 500여 개의 다이폰에 대하여 실험을 수행하였다.

음향음성학 파라메터를 이용한 이중모음의 분류 (Classification of Diphthongs using Acoustic Phonetic Parameters)

  • 이석명;최정윤
    • 한국음향학회지
    • /
    • 제32권2호
    • /
    • pp.167-173
    • /
    • 2013
  • 본 논문은 이중모음을 분류하기 위한 음향음성학적 파라메터를 연구하였다. 음향음성학적 파라메터는 성도를 통해 음성이 발성될 때 나타나는 특징을 기반으로 하여 분산분석(ANOVA) 방법을 통해 선별한 모음의 길이, 에너지 궤적, 그리고 포먼트의 차이를 이용하였다. TIMIT 데이터 베이스를 사용하였을 때, 단모음과 이중모음만을 구분하는 실험에서는 17.8% 의 밸런스 에러율(BER)을 얻을 수 있었고, /aw/, /ay/, 그리고 /oy/를 단모음과 분류하는 실험에서는 각각 32.9%, 29.9%, 그리고 20.2%의 에러율을 얻을 수 있었다. 추가적으로 진행한 실험에서, 음향음성학적 파라메터와 음성인식에 널리 쓰이고 있는 MFCC를 함께 사용하였을 경우 역시 성능향상이 나타나는 것을 확인하였다.