• 제목/요약/키워드: Speech Spectrogram

검색결과 90건 처리시간 0.021초

여성 결혼이민자들의 한국어 조음에 나타나는 음향음성학 특성 연구 - 일본과 필리핀 출신 여성 결혼이민자들을 대상으로 (Acoustic Characteristics of Korean Spoken by the Women Immigrants from Japan and Philippine)

  • 조선희;김현기;김선준
    • 음성과학
    • /
    • 제15권3호
    • /
    • pp.203-217
    • /
    • 2008
  • The number of Asian women immigrants in Korea is getting bigger and it's important to note that their communication problem in Korean causes not only the difficulty of adapting to Korean society but their children's speech-language disorder. To date there is little research on their acoustics characters and articulatory errors. Therefore, this study focuses on acoustic characters and articulatory error patterns of the women immigrants from Japan and Philippine based on the theory of "contrastive analysis". The subjects were 16 Japanese women immigrants(age: 42.5$\pm$4.4) and 14 Philippine women immigrants(age: 31.64$\pm$6.7) and control group consisted of 10 Korean women(age: 28.3$\pm$1.2). Speech and hearing of all subjects and control group were within normal limits. Speech samples were analyzed in a computer using CSL and data analysis was done on FFT widow for F1, F2, F3 of vowels and on wideband spectrogram for VOT of plosives and africatives. The results of this study were like this; For Japanese women immigrants, they had different articulatory patterns of /e/, /a/, /u/, /o/, /$\varepsilon$/, /m/ from those of Koreans and showed articulatory errors on the fortis and aspirated sounds. The reason is Japanese has only two distinctive characters for plosives and affricates; voicing and voiceless. The Philippine women immigrants also showed the same error patterns as the Japanese women immigrants. Especially the errors on aspirated sounds were prominent because their mother tongue has no distinctive characters about aspirated sounds. For vowels, they showed errors of /a/, /o/, /c/.

  • PDF

고음질의 음성합성을 위한 퍼지벡터양자화의 퍼지니스 파라메타선정에 관한 연구 (A Study on Fuzziness Parameter Selection in Fuzzy Vector Quantization for High Quality Speech Synthesis)

  • 이진이
    • 한국지능시스템학회논문지
    • /
    • 제8권2호
    • /
    • pp.60-69
    • /
    • 1998
  • 본 눈문에서는 퍼지 벡터양자호를 이용하여 음성을 합성하는 방법을 제시하고,원음에 가까운 합성음을 얻기 위하여 퍼지벡터양자화의 성능을 최적화 하는 Fuzziness갑의 선정방법을 연구한다. 퍼지벡터 양자화를 이용하여 음성을 합성할때, 분석단에서는 입력 음성패턴과 코드북의 음성패턴의 유사도를 나타내는 퍼지 소속함수값을 출력하고, 합성단에서는 분석단에서 얻은 퍼지소속 함수값, fuzziness값, 그리고 FCM(Fuzzy-C-Means) 연산식을 이용하여 음성을 합성한다. 시뮬레이션을 통하여 벡터양자화에 의해 합성된 음성과 퍼지 벡터양자화에 의해 합성된 음성을 코드북의 크기에 따라 비교한 결과, 퍼지벡터양자화를 이용한 음성합성의 성능이 코드북 크기가 절반으로 줄어도 벡터양자화에 의한 성능과 거의 같음을 알수 있다. 이것은 VQ(Vecotr Quantiz-ation)에 의한 음성합성 결과와 같은 성능을 얻기 위해서 퍼지 VQ를 사용하면, 코드북 저장을 위한 메모리의 크기를 절반으로 줄일 수 있음을 의미한다. 그리고 SQNR을 최대로 하는 퍼지 벡터양자화를 얻기 위한 최적 Fuzziness값은 음성분석 프레임의 분산값이 크면 작게 선정해야 하고, 작으면 크게 선정 해야함을 밝혔다. 또한 합성음들을 주파수 영역의 스펙트로그램에서 비교한 결과 포만트 주파수와 피치주파수에서 퍼지 VQ에 의한 합성음이 VQ에 의한 것보다 원 음성에 더 가까움을 알 수 있었다.

  • PDF

한국어 TTS 시스템에서 딥러닝 기반 최첨단 보코더 기술 성능 비교 (Performance Comparison of State-of-the-Art Vocoder Technology Based on Deep Learning in a Korean TTS System)

  • 권철홍
    • 문화기술의 융합
    • /
    • 제6권2호
    • /
    • pp.509-514
    • /
    • 2020
  • 기존의 TTS 시스템은 텍스트 전처리, 구문 분석, 발음표기 변환, 경계 분석, 운율 조절, 음향 모델에 의한 음향 특징 생성, 합성음 생성 등 여러 모듈로 구성되어 있다. 그러나 딥러닝 기반 TTS 시스템은 텍스트에서 스펙트로그램을 생성하는 Text2Mel 과정과 스펙트로그램에서 음성신호을 합성하는 보코더로 구성된다. 본 논문에서는 최적의 한국어 TTS 시스템 구성을 위해 Tex2Mel 과정에는 Tacotron2를 적용하고, 보코더로는 WaveNet, WaveRNN, WaveGlow를 소개하고 이를 구현하여 성능을 비교 검증한다. 실험 결과, WaveNet은 MOS가 가장 높으며 학습 모델 크기가 수백 MB이고 합성시간이 실시간의 50배 정도라는 결과가 나왔다. WaveRNN은 WaveNet과 유사한 MOS 성능을 보여주며 모델 크기가 수십 MB 단위이고 실시간 처리는 어렵다는 결과가 도출됐다. WaveGlow는 실시간 처리가 가능한 방법이며 모델 크기가 수 GB이고 MOS가 세 방식 중에서 가장 떨어진다는 결과를 보여주었다. 본 논문에서는 이러한 연구 결과로부터 TTS 시스템을 적용하는 분야의 하드웨어 환경에 맞춰 적합한 방식을 선정할 수 있는 참고 기준을 제시한다.

평양 지역어와 서울 지역어의 자음에 대한 음성신호 파라미터들의 비교 연구 - "ㅅ/ ㅆ"을 중심으로 (A Comparative Study of the Speech Signal Parameters for the Consonants of Pyongyang and Seoul Dialects - Focused on "ㅅ/ㅆ")

  • 소신애;이강희;유광복;임하영
    • 예술인문사회 융합 멀티미디어 논문지
    • /
    • 제8권6호
    • /
    • pp.927-937
    • /
    • 2018
  • 본 논문은 공학적 응용의 기초가 되는 신호 처리의 관점에서 한국어의 평양 지역어의 자음과 서울 지역어의 자음에 대한 비교 연구를 수행하였다. 지금까지 대다수의 음성학적 연구는 언어의 진화에서 중요한 역할을 하는 모음을 중심으로 이루어져 왔다. 그러나 어떤 언어든 거의 모든 경우 자음의 수가 모음의 수보다 많다. 따라서 자음에 대한 음성학적 연구 또한 언어 연구에서 중요한 것이다. 본 논문은 음운론적 또는 실험음성학적 방법들로 진행된 평양 지역어의 모음 연구에 더하여 공학적인 방법으로 자음 연구를 수행하였다. 평양 지역어와 서울 지역어에서 음가상 많은 차이를 보이는 치경 자음을 데이터로 하였고 음성신호의 주요한 파라미터들 - 포먼트 주파수, 피치, 스펙트로그램 등 - 을 측정하였다. 한국어 /시/와 /씨/에 대한 두 지역어의 음가를 비교하였다. 이러한 연구는 앞으로 음성 인식과 음성 합성을 위한 기초 자료로 활용될 수 있을 것이다.

x-vector를 이용한 다화자 음성합성 시스템 (A Multi-speaker Speech Synthesis System Using X-vector)

  • 조민수;권철홍
    • 문화기술의 융합
    • /
    • 제7권4호
    • /
    • pp.675-681
    • /
    • 2021
  • 최근 인공지능 스피커 시장이 성장하면서 사용자와 자연스러운 대화가 가능한 음성합성 기술에 대한 수요가 증가하고 있다. 따라서 다양한 음색의 목소리를 생성할 수 있는 다화자 음성합성 시스템이 필요하다. 자연스러운 음성을 합성하기 위해서는 대용량의 고품질 음성 DB로 학습하는 것이 요구된다. 그러나 많은 화자가 발화한 고품질의 대용량 음성 DB를 수집하는 것은 녹음 시간과 비용 측면에서 매우 어려운 일이다. 따라서 각 화자별로는 소량의 학습 데이터이지만 매우 많은 화자의 음성 DB를 사용하여 음성합성 시스템을 학습하고, 이로부터 다화자의 음색과 운율 등을 자연스럽게 표현하는 기술이 필요하다. 본 논문에서는 화자인식 기술에서 사용하는 딥러닝 기반 x-vector 기법을 적용하여 화자 인코더를 구성하고, 화자 인코더를 통해 소량의 데이터로 새로운 화자의 음색을 합성하는 기술을 제안한다. 다화자 음성합성 시스템에서 텍스트 입력에서 멜-스펙트로그램을 합성하는 모듈은 Tacotron2로, 합성음을 생성하는 보코더는 로지스틱 혼합 분포가 적용된 WaveNet으로 구성되어 있다. 학습된 화자 임베딩 신경망에서 추출한 x-vector를 Tacotron2에 입력으로 추가하여 원하는 화자의 음색을 표현한다.

중풍으로 인한 마비성 조음장애 환자의 침술 후 말소리의 음향학적 평가 연구 (Acoustic Evaluation of acupuncture therapy effects on post-stroke dysarthria)

  • 문병순;윤종민;신용일;김현기
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2007년도 한국음성과학회 공동학술대회 발표논문집
    • /
    • pp.211-212
    • /
    • 2007
  • Stroke makes several physical deficits. Dysarthria is one of the most difficult problems in conventional medicine because of the weakness of neuromotor control. The purpose of this study is to find the acoustic characteristics of acupuncture therapy effects on post-stroke dysarthria. Seven patients with stroke(infarction or hemorrhage) were selected by CT or MR imaging. The authors applied acupuncture therapy by inserting needles into 8 acupuncture points, ipsilateral ST4, ST6 and contralateral LI4, ST36 on facial palsy side, and CV23, CV24, bilateral "Sheyu" for 4 weeks. Speech sample were composed of five simple vowels /a,e,i,o,u/ and meaningless polysyllabic words CVCVC(C: stops, affricated, fricative sounds, v: /e/). .VOT, total duration of each speech samples and vowel formant (F1&F2) were analyzed on Spectrogram. The results are as follows: 1. VOT of bilabial and velar stops was decreased post treatment. The VOT of bilabial glottalized pre and post treatment were statistically significant (p < 0.05). 2. Total duration of polysyllabic words was decreased post treatment. Decrement of total duration containing the bilabial was statistically significant (p<0.05). 3. First formant of round vowel /o/ pre and post treatment was statistically significant (p<0.05).

  • PDF

음성 신호 분류에 따른 장애 음성의 변동률 분석, 비선형 동적 분석, 캡스트럼 분석의 유용성 (The Utility of Perturbation, Non-linear dynamic, and Cepstrum measures of dysphonia according to Signal Typing)

  • 최성희;최철희
    • 말소리와 음성과학
    • /
    • 제6권3호
    • /
    • pp.63-72
    • /
    • 2014
  • The current study assessed the utility of acoustic analyses the most commonly used in routine clinical voice assessment including perturbation, nonlinear dynamic analysis, and Spectral/Cepstrum analysis based on signal typing of dysphonic voices and investigated their applicability of clinical acoustic analysis methods. A total of 70 dysphonic voice samples were classified with signal typing using narrowband spectrogram. Traditional parameters of %jitter, %shimmer, and signal-to-noise ratio were calculated for the signals using TF32 and correlation dimension(D2) of nonlinear dynamic parameter and spectral/cepstral measures including mean CPP, CPP_sd, CPPf0, CPPf0_sd, L/H ratio, and L/H ratio_sd were also calculated with ADSV(Analysis of Dysphonia in Speech and VoiceTM). Auditory perceptual analysis was performed by two blinded speech-language pathologists with GRBAS. The results showed that nearly periodic Type 1 signals were all functional dysphonia and Type 4 signals were comprised of neurogenic and organic voice disorders. Only Type 1 voice signals were reliable for perturbation analysis in this study. Significant signal typing-related differences were found in all acoustic and auditory-perceptual measures. SNR, CPP, L/H ratio values for Type 4 were significantly lower than those of other voice signals and significant higher %jitter, %shimmer were observed in Type 4 voice signals(p<.001). Additionally, with increase of signal type, D2 values significantly increased and more complex and nonlinear patterns were represented. Nevertheless, voice signals with highly noise component associated with breathiness were not able to obtain D2. In particular, CPP, was highly sensitive with voice quality 'G', 'R', 'B' than any other acoustic measures. Thus, Spectral and cepstral analyses may be applied for more severe dysphonic voices such as Type 4 signals and CPP can be more accurate and predictive acoustic marker in measuring voice quality and severity in dysphonia.

다양한 합성곱 신경망 방식을 이용한 모바일 기기를 위한 시작 단어 검출의 성능 비교 (Performance comparison of wake-up-word detection on mobile devices using various convolutional neural networks)

  • 김상홍;이보원
    • 한국음향학회지
    • /
    • 제39권5호
    • /
    • pp.454-460
    • /
    • 2020
  • 음성인식 기능을 제공하는 인공지능 비서들은 정확도가 뛰어난 클라우드 기반의 음성인식을 통해 동작한다. 클라우드 기반의 음성인식에서 시작 단어 인식은 대기 중인 기기를 활성화하는 데 중요한 역할을 한다. 본 논문에서는 공개 데이터셋인 구글의 Speech Commands 데이터셋을 사용하여 스펙트로그램 및 멜-주파수 캡스트럼 계수 특징을 입력으로 하여 모바일 기기에 대응한 저 연산 시작 단어 검출을 위한 합성곱 신경망의 성능을 비교한다. 본 논문에서 사용한 합성곱 신경망은 다층 퍼셉트론, 일반적인 합성곱 신경망, VGG16, VGG19, ResNet50, ResNet101, ResNet152, MobileNet이며, MobileNet의 성능을 유지하면서 모델 크기를 1/25로 줄인 네트워크도 제안한다.

말소리장애 아동이 산출한 이중모음의 음향학적 특성 (Acoustic features of diphthongs produced by children with speech sound disorders)

  • 조윤수;표화영;한진순;이은주
    • 말소리와 음성과학
    • /
    • 제13권1호
    • /
    • pp.65-72
    • /
    • 2021
  • 본 연구의 목적은 말소리장애 아동이 산출하는 이중모음의 특성을 파악하여 평가 및 중재에 활용할 수 있는 기초 자료를 마련하는 것이다. 현재까지 말소리장애 아동의 이중모음 산출 특성에 관한 음향학적 연구는 미비하였다. 이에 말소리장애 아동과 일반 아동을 대상으로 집단 간 이중모음 산출 특성의 차이를 파악하고자 하였다. 이를 위해 각 10명의 만 4-5세 말소리장애와 일반 아동을 대상으로, 무의미 2음절 '이중모음+다'를 모방하도록 하였다. 산출된 이중모음의 활음 구간 내 제1, 2 포먼트 기울기, 포먼트 변화량, 활음 지속시간을 Praat(version 6.1.16)을 이용해 분석하였다. 연구 결과, 두 집단 간 /유/의 F1 기울기에 집단 간 유의한 차이가 있었다. 또한, 말소리장애 아동이 일반 아동에 비해 전반적으로 작은 포먼트 변화량과 더 짧은 활음 지속시간을 보였다. 유의한 포먼트 변화량의 집단 간 차이는 /유, 예/의 F1과 /야, 예/의 F2에서 나타났으며, 유의한 활음 지속시간의 차이는 /유, 예/에서 나타났다. 본 연구의 결과는 말소리장애 아동이 이중모음을 조음하는 범위가 일반 아동보다 상대적으로 작아 그만큼 조음하는데 걸리는 시간이 줄었음을 보여준다. 이러한 점은 말소리장애 아동의 이중모음에 관한 평가와 중재를 할 때 말소리장애 아동의 조음 범위를 고려해야 하며, 이에 음향학적 도구를 활용하는 것이 필요함을 뒷받침한다.

An Acoustic Study on the Pronunciation of English [kwJ Sequences by Korean EFL Students

  • Kim, Jung-Eun;Cho, Mi-Hui
    • 음성과학
    • /
    • 제9권1호
    • /
    • pp.193-206
    • /
    • 2002
  • The aim of this study is to find out how the labiovelar onglide /w/ in English kwV sequences that have minimal pairs with kV sequences is pronounced differently among Korean EFL learners based on acoustic evidence. This study tries to identify /w/ sound in English kwV sequences through spectrograms and to examine the duration ratios of each segment in kwV words to compare the patterns of an English native speaker with those of Korean speakers of English. In spectrographic analyses, the complete deletion of /w/ and partial pronunciation of /w/ dubbed [$k^{w}$] were identified as well as the targetappropriate production of /w/. The general production patterns with respect to the duration ratios in English [kw] sequence words showed that the subjects who produced /w/ had similar ratio patterns that the native speaker had in that the vowel duration ratio in kwV sequences was shorter than that in kV sequences. By contrast, the subjects who deleted [w] had a long ratio of the onset [$k^{h}$] while the speaker with a partial pronunciation of /w/ had a long ratio of the following vowel.

  • PDF