• 제목/요약/키워드: Speech sound

검색결과 628건 처리시간 0.03초

An Analysis of Acoustic Features Caused by Articulatory Changes for Korean Distant-Talking Speech

  • Kim Sunhee;Park Soyoung;Yoo Chang D.
    • The Journal of the Acoustical Society of Korea
    • /
    • 제24권2E호
    • /
    • pp.71-76
    • /
    • 2005
  • Compared to normal speech, distant-talking speech is characterized by the acoustic effect due to interfering sound and echoes as well as articulatory changes resulting from the speaker's effort to be more intelligible. In this paper, the acoustic features for distant-talking speech due to the articulatory changes will be analyzed and compared with those of the Lombard effect. In order to examine the effect of different distances and articulatory changes, speech recognition experiments were conducted for normal speech as well as distant-talking speech at different distances using HTK. The speech data used in this study consist of 4500 distant-talking utterances and 4500 normal utterances of 90 speakers (56 males and 34 females). Acoustic features selected for the analysis were duration, formants (F1 and F2), fundamental frequency, total energy and energy distribution. The results show that the acoustic-phonetic features for distant-talking speech correspond mostly to those of Lombard speech, in that the main resulting acoustic changes between normal and distant-talking speech are the increase in vowel duration, the shift in first and second formant, the increase in fundamental frequency, the increase in total energy and the shift in energy from low frequency band to middle or high bands.

한국어-영어 말처리 평가시스템 개발을 위한 기초 연구 (Pilot study for the development of Korean and English speech processing task system)

  • 김지영;하지완
    • 말소리와 음성과학
    • /
    • 제16권2호
    • /
    • pp.29-36
    • /
    • 2024
  • 심리언어학적 접근에 기반한 말처리 모델은 다양한 경로를 통해 말소리장애아동의 구체적인 말처리 결함을 한눈에 파악할 수 있는 모델이다. 말소리장애아동이 보이는 말산출 결함은 원인을 알 수 없는 경우가 대부분이기 때문에 개별화된 중재를 위해서는 기저의 강약점을 파악하는 것이 중요하다. 또한 말소리장애 아동의 모국어 결함은 외국어 산출에도 영향을 미칠 수 있기 때문에 모국어와 외국어라는 두 언어 간 말처리 능력을 함께 살펴볼 필요가 있다. 본 연구는 한국어-영어 말처리 평가시스템 개발을 위한 예비연구로, 말소리장애아동(SSD) 10명과 일반아동(NSA) 20명을 대상으로 말산출 과제와 말처리 과제(변별, 음운표상판단, 비단어따라말하기)를 한국어와 영어로 각각 실시하여 언어종류에 따른 집단 간 비교를 시도하였다. 연구 결과, SSD 집단은 두 언어에서 모두 NSA 집단에 비해 유의하게 낮은 산출능력을 보였다. 말처리 과제 결과, 변별과제에서는 유의한 차이를 보이지 않은 반면, 음운표상판단과제의 경우 언어 종류 간, 비단어따라말하기과제의 경우 언어종류와 집단 간에서도 그 차이가 유의하였다. 본 연구의 결과를 통해 아동의 모국어와 외국어 처리능력은 상이할 수 있으며, 추후 말처리 평가 프로그램 개발을 위해 하위과제를 보다 세분화하고 난이도를 조절할 필요가 있음을 확인하였다.

단순 손동작 반복이 말소리장애 아동과 일반 아동의 말소리산출의 정확성과 유창성에 미치는 영향 (What Effect can Simple Hand Tapping Have on the Accuracy and Fluency of Speech Production in Children With and Without Speech Sound Disorders?)

  • 신유나;하지완
    • 재활치료과학
    • /
    • 제8권2호
    • /
    • pp.67-78
    • /
    • 2019
  • 목적 : 본 연구에서는 말소리장애 아동과 일반 아동을 대상으로 어휘인출 시 단순 손동작(hand tapping)을 반복하게 하는 것이 조음정확도와 유창성에 어떠한 영향을 미치는지에 대해 알아보았다. 손동작을 반복하면서 어휘를 산출하는 것은 주의를 분산시키는 이중과제에 해당하기 때문에, 주의력 저하가 보고된 말소리장애 아동의 경우 일반 아동과 다른 행동 양상을 보이는지를 파악하고자 하였다. 연구방법 : 4, 5, 6세의 말소리장애 아동 15명과 일반 아동 15명이 본 연구에 참여하였다. 조음복잡성이 높은 어휘와 낮은 어휘를 각각 15개씩, 총 30개를 선정하여, 이에 대한 대면이름대기 과제를 실시하였다. 첫 번째 실험조건에서는 단순 손동작을 반복하지 않고, 두 번째 실험조건에서는 손바닥으로 책상을 두드리면서 그림 이름을 말하도록 하였다. 대상자의 반응에 대해 자음정확도, 비유창성 정도, 정확성 변화와 유창성 변화의 상관관계를 측정하여, 두 실험조건에 따른 두 집단 간 수행력을 비교하였다. 결과 : 첫째, 말소리장애 집단과 일반 집단 모두 손동작 반복 과제와 손동작 비반복 과제 간 자음정확도에는 유의한 차이가 없었다. 둘째, 일반 집단은 손동작 반복 과제에서 비유창성이 유의하게 증가하였으나, 말소리장애 집단은 차이가 없었다. 셋째 손동작 반복에 따른 자음정확도 변화와 비유창성 변화는 일반집단의 경우 유의한 양의 상관관계가 있었으나 말소리장애 집단은 아무런 상관을 보이지 않았다. 결론 : 본 연구에서 주의력 분산을 위해 사용한 단순 손동작 반복은 결과적으로 집단에 따라 대상자의 목표행동에 방해가 될 수도, 혹은 그 반대로 도움이 될 수도 있었다. 어휘인출에 대한 손동작 반복의 영향이 두 집단 간 다른 양상으로 나타난 만큼 이에 대한 심층적 논의가 필요할 것이다.

음성 에너지 분포 처리와 에너지 파라미터를 융합한 음성 인식 성능 향상 (Voice Recognition Performance Improvement using a convergence of Voice Energy Distribution Process and Parameter)

  • 오상엽
    • 디지털융복합연구
    • /
    • 제13권10호
    • /
    • pp.313-318
    • /
    • 2015
  • 전통적인 음성 향상 방법은 잘못된 잡음의 추정에 따라 남아있는 잡음이 발생하여 음성 스펙트럼을 왜곡하거나 음성 프레임을 찾지 못하여 음성 인식 성능을 저하시키는 문제가 발생된다. 본 논문에서는 음성 에너지 분포 처리와 음성 에너지 파라미터를 융합한 음성 검출 방법을 제안하였다. 제안한 방법은 음성 에너지를 최대화시켜 잡음의 영향을 적게 받는 특성을 이용하였다. 또한, 음성 신호의 특징 파라미터 중에서 작은 값을 가지는 로그에너지 특징의 구간에서는 큰 에너지를 가지는 구간에 비해 상대적으로 로그에너지 값을 더 많이 키워서 잡음이 포함한 음성신호의 로그에너지 특징의 크기와 비슷하게 하여 훈련과 인식 환경의 불일치를 융합으로 인해 줄여준다. 인식 실험 결과 기존 방법에 비해 향상된 인식 성능을 확인할 수 있었으며, car 잡음 환경의 음성 구간 적중률은 낮은 SNR구간인 0dB과 5dB에서는 97.1%와 97.3%의 정확도를 보였으며, 높은 SNR구간인 10dB와 15dB에서는 98.3%, 98.6%의 정확도를 보였다.

디지털 보청기에서 마이크로폰 어레이를 이용한 잡음제거 (Noise Cancellation using Microphone Array in Digital Hearing Aids)

  • 방동혁;길세기;강현덕;윤광섭;이상민
    • 전기학회논문지
    • /
    • 제58권4호
    • /
    • pp.857-866
    • /
    • 2009
  • In this paper, a noise cancellation-method using microphone array for digital hearing aids is proposed. The microphone array is located around the ear of a dummy. Speech sound is generated from the forward speaker positioned in the front of the dummy and noise sound is generated from the backward speaker. The speech and noise are mixed in the air space and entered into the microphones. VAD(voice activity detector) and ANC(adaptive noise cancellation) methods were used to eliminate noise in the sound of the microphones. 10 two-syllable words and 4 sentences were used for speech signals. Babble and car interior noise were used for noise signals. The performance of the proposed algorithm was evaluated by SNR(signal-to-noise ratio) and PESQ-MOS(perceptual evaluation of speech quality-mean opinion score). In babble noise condition, SNR was improved as much as $7.963{\pm}1.3620dB\;and\;3.968{\pm}0.6659dB$ for words and sentences respectively. In the case of car interior noise, SNR was improved as $10.512{\pm}2.0665dB\;and\;6.000{\pm}1.7642dB$ for words and sentences respectively. PESQ-MOS of the babble noise was improved as much as $0.1722{\pm}0.0861$ score for words and $0.083{\pm}0.0417$ score for sentences. And PESQ-MOS of the car interior noise was improved as $0.2661{\pm}0.0335$ score and $0.040{\pm}0.0201$ score for words and sentences respectively. It is verified that the proposed algorithm has a good performance in noise cancellation of microphone array for digital hearing aids.

텍스트의 의미 정보에 기반을 둔 음성컨트롤 태그에 관한 연구 (A Study of Speech Control Tags Based on Semantic Information of a Text)

  • 장문수;정경채;강선미
    • 음성과학
    • /
    • 제13권4호
    • /
    • pp.187-200
    • /
    • 2006
  • The speech synthesis technology is widely used and its application area is also being broadened to an automatic response service, a learning system for handicapped person, etc. However, the sound quality of the speech synthesizer has not yet reached to the satisfactory level of users. To make a synthesized speech, the existing synthesizer generates rhythms only by the interval information such as space and comma or by several punctuation marks such as a question mark and an exclamation mark so that it is not easy to generate natural rhythms of people even though it is based on mass speech database. To make up for the problem, there is a way to select rhythms after processing language from a higher level information. This paper proposes a method for generating tags for controling rhythms by analyzing the meaning of sentence with speech situation information. We use the Systemic Functional Grammar (SFG) [4] which analyzes the meaning of sentence with speech situation information considering the sentence prior to the given one, the situation of a conversation, the relationship among people in the conversation, etc. In this study, we generate Semantic Speech Control Tag (SSCT) by the result of SFG's meaning analysis and the voice wave analysis.

  • PDF

한국어 방언 음성의 실험적 연구 (An Experimental Study of Korean Dialectal Speech)

  • 김현기;최영숙;김덕수
    • 음성과학
    • /
    • 제13권3호
    • /
    • pp.49-65
    • /
    • 2006
  • Recently, several theories on the digital speech signal processing expanded the communication boundary between human beings and machines drastically. The aim of this study is to collect dialectal speech in Korea on a large scale and to establish a digital speech data base in order to provide the data base for further research on the Korean dialectal and the creation of value-added network. 528 informants across the country participated in this study. Acoustic characteristics of vowels and consonants are analyzed by Power spectrum and Spectrogram of CSL. Test words were made on the picture cards and letter cards which contained each vowel and each consonant in the initial position of words. Plot formants were depicted on a vowel chart and transitions of diphthongs were compared according to dialectal speech. Spectral times, VOT, VD, and TD were measured on a Spectrogram for stop consonants, and fricative frequency, intensity, and lateral formants (LF1, LF2, LF3) for fricative consonants. Nasal formants (NF1, NF2, NF3) were analyzed for different nasalities of nasal consonants. The acoustic characteristics of dialectal speech showed that young generation speakers did not show distinction between close-mid /e/ and open-mid$/\epsilon/$. The diphthongs /we/ and /wj/ showed simple vowels or diphthongs depending to dialect speech. The sibilant sound /s/ showed the aspiration preceded to fricative noise. Lateral /l/ realized variant /r/ in Kyungsang dialectal speech. The duration of nasal consonants in Chungchong dialectal speech were the longest among the dialects.

  • PDF