• 제목/요약/키워드: Speech style

검색결과 85건 처리시간 0.024초

한국어의 중간구 오름조 현상에 대하여 (On the Rising Tone of Intermediate Phrase in Standard Korean)

  • 곽동기
    • 대한음성학회지:말소리
    • /
    • 제40호
    • /
    • pp.13-27
    • /
    • 2000
  • It is generally accepted that there appears the rising tone at the end of the intermediate phrase in standard Korean. There have been discussions about whether the syllable with the rising tone, even if it is a particle or an ending, might be accented or not. The accented syllable is the most prominent one in the given phonological strings. It is determined by the nondistinctive stress which is located on the first or second syllable of lexical word according to vowel length and syllable weight. So pitch does not have any close relationship with accent. The intermediate phrase-final rising tone, therefore, is not associated with accent, but used to convey other pragmatic meanings, that is, i) speech style is more friendly, ii) the speaker tries to send the information for the hearer to hear more clearly, and iii) the speaker wants the hearer to keep on listening to him or her because the speaker's utterance is not complete.

  • PDF

한국어의 변이음 규칙과 변이음의 결정 요인들 (Allophonic Rules and Determining Factors of Allophones in Korean)

  • 이호영
    • 대한음성학회지:말소리
    • /
    • 제21_24호
    • /
    • pp.144-175
    • /
    • 1992
  • This paper aims to discuss determining factors of Korean allophones and to formulate and classify Korean allophonic rules systematically. The relationship between allophones and coarticulation, the most. influential factor of allophonic variation, is thoroughly investigated. Other factors -- speech tempo and style, dialect, and social factors such as age, set, class etc. -- are also briefly discussed. Allophonic rules are classified into two groups -- 3) those relevant to coarticulation and 2) those irrelevant to coarticulation. Rules of the first group are further classified into four subgroups according to the directionality of the coarticulation. Each allophonic nile formulation is explained and discussed in detai1. The allophonic rules formulated and classified in this paper are 1) Devoicing of Voiced Consonants, 2) Devoicing of Vowels, 3) Nasal Approach and Lateral Approach, 4) Uvularization, 5) Palatalization, 6) Voicing of Voiceless Lax Consonants, 7) Frication, 8) Labialization, 9) Nasalization, 10) Release Withholding and Release Masking, 11) Glottalization, 12) Flap Rule, 13) Vowel Weakening, and 14) Allophones of /ㅚ, ㅟ, ㅢ/ (which are realized as diphthongs or as monophthongs depending on phonetic contexts).

  • PDF

발화방식에 따른 미국인 남성 영어모음의 피치와 포먼트 궤적 (Pitch and Formant Trajectories of English Vowels by American Males with Different Speaking Styles)

  • 양병곤
    • 말소리와 음성과학
    • /
    • 제4권1호
    • /
    • pp.21-28
    • /
    • 2012
  • Many previous studies reported acoustic parameters of English vowels produced by a clear speaking style. In everyday usage, we actually produce speech sounds with various speaking styles. Different styles may yield different acoustic measurements. This study attempts to examine pitch and formant trajectories of eleven English vowels produced by nine American males in order to understand acoustic variations depending on clear and conversational speaking styles. The author used Praat to obtain trajectories systematically at seven equidistant time points over the vowel segment while checking measurement validity. Results showed that pitch trajectories indicated distinct patterns depending on four speaking styles. Generally, higher pitch values were observed in the higher vowels and the pitch was higher in the clear speaking styles than that in the conversational styles. The same trend was observed in the three formant trajectories of front vowels and the first formant trajectories of back vowels. The second and third trajectories of back vowels revealed an opposite or inconsistent trend, which might be attributable to the coarticulation of the following consonant or lip rounding gestures. The author made a tentative conclusion that people tend to produce vowels to enhance pitch and formant differences to transmit their information clearly. Further perceptual studies on synthesized vowels with varying pitch and formant values are desirable to address the conclusion.

세밀한 감정 음성 합성 시스템의 속도와 합성음의 음질 개선 연구 (A study on the improvement of generation speed and speech quality for a granularized emotional speech synthesis system)

  • 엄세연;오상신;장인선;안충현;강홍구
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 하계학술대회
    • /
    • pp.453-455
    • /
    • 2020
  • 본 논문은 시각 장애인을 위한 감정 음성 자막 서비스를 생성하는 종단 간(end-to-end) 감정 음성 합성 시스템(emotional text-to-speech synthesis system, TTS)의 음성 합성 속도를 높이면서도 합성음의 음질을 향상시키는 방법을 제안한다. 기존에 사용했던 전역 스타일 토큰(Global Style Token, GST)을 이용한 감정 음성 합성 방법은 다양한 감정을 표현할 수 있는 장점을 갖고 있으나, 합성음을 생성하는데 필요한 시간이 길고 학습할 데이터의 동적 영역을 효과적으로 처리하지 않으면 합성음에 클리핑(clipping) 현상이 발생하는 등 음질이 저하되는 양상을 보였다. 이를 보안하기 위해 본 논문에서는 새로운 데이터 전처리 과정을 도입하였고 기존의 보코더(vocoder)인 웨이브넷(WaveNet)을 웨이브알엔엔(WaveRNN)으로 대체하여 생성 속도와 음질 측면에서 개선됨을 보였다.

  • PDF

Neutralization of Vowels /ɨ/ and /u/ after a Labial Consonant in Korean: A Cross-generational Study

  • Kang, Hyunsook
    • 말소리와 음성과학
    • /
    • 제6권1호
    • /
    • pp.3-10
    • /
    • 2014
  • This study investigated whether Korean vowels, /ɨ/ and /u/, are distinctively perceived after a labial consonant given the fact that native and Sino-Korean nouns showed only vowel /u/ after a labial consonant while this pattern was massively broken by the recent introduction of loanwords. For this purpose, a perception experiment was conducted with $V_1C_1V_2$ sequences in which different vowels /a, i, u/ and consonants /p, t, k/ occurred in $V_1$ and $C_1$ before the target $V_2$, /ɨ/ and /u/. The data was produced by six speakers each from two different age groups, Age20 and Age40/50 in the read speech style. The results showed that consonant /p/ attracted significantly more responses of /u/ from /VCɨ/ sequences and significantly less responses of /u/ from /VCu/ sequence than the other consonants did in both age groups. Furthermore, Age20 group showed significantly less percentage of /u/ responses than Age40 group when the preceding consonant was /p/ regardless of the target vowel. We suggest therefore that unlike the traditional belief of labial assimilation, there is neutralization after a labial consonant in which vowels /ɨ/ and /u/ are often realized as any sound between two vowels, /ɨ/ and /u/. That is, this vowel change is not categorial but it rather produces an ambiguous stimulus which attracts different responses from different listeners. Ambiguous stimulus was produced due to coarticulatory efforts in speech production and perceptual compensation. We also argue that there is generational difference such that Age40/50 group speakers showed stronger tendency to produce /u/ after a labial consonant regardless of whether the target vowel was /ɨ/ or /u/.

화자 독립 음성 인식을 위한 반연속 HMM과 RBF의 혼합 구조에 관한 연구 (A Study on Hybrid Structure of Semi-Continuous HMM and RBF for Speaker Independent Speech Recognition)

  • 문연주;전선도;강철호
    • 한국음향학회지
    • /
    • 제18권8호
    • /
    • pp.94-99
    • /
    • 1999
  • 성 인식 알고리즘에서 높은 인식률을 보이는 방법은 hidden Markov mode1(HMM)과 신경망의 혼합 형태이다. 이것은 통계적인 모델과 신경망 모델의 장점을 혼용하는 방법이다. 본 연구에서 제안하는 인식 알고리듬은 반연속 HMM과 radial basis function(RBF)의 새로운 형태의 혼합 구조로써 반연속 HMM 파라미터 중에서 관측 확률을 결정하는 가중치(혼합확률밀도함수계수)확률을 Baum-Welch 추정 이후 RBF로로써 재 추정하는 인식 모델을 제안한다. 제안한 방법은 RBF의 은닉층(hidden layer)의 기본 함수(basis function)와 반연속 HMM의 확률 밀도 함수의 유사함을 고려한 것으로 RBF의 학습 및 추정된 가중치로써 보다 음성 파형을 분별력 있게 구분하고자 하는 것이다. 모의 실험 결과는 반연속 HM만을 사용 할 때 보다 제안한 반연속 HMM/RBF 혼합 구조가 비 학습 화자에 대한 인식률을 개선함으로써 단순히 반연속 HMM만을 사용하는 것 보다 훨씬 분별력이 높은 방법임을 보여준다.

  • PDF

구어체 말뭉치의 어휘 사용 특징 분석 및 감정 어휘 사전의 자동 구축 (Analyzing Vocabulary Characteristics of Colloquial Style Corpus and Automatic Construction of Sentiment Lexicon)

  • 강승식;원혜진;이민행
    • 스마트미디어저널
    • /
    • 제9권4호
    • /
    • pp.144-151
    • /
    • 2020
  • 모바일 환경에서 의사소통은 SMS 문자로 이루어진다. SMS 문자에서 사용되는 어휘들은 일반적인 한국어 문어체 문장에서 사용되는 어휘들과 다른 부류의 어휘들이 사용될 것으로 예상할 수 있다. 예를 들어, 일반적인 문어체의 경우 문장의 시작이나 끝맺음이 올바르고 문장의 구성요소가 잘 갖추어졌지만, SMS 문자 말뭉치의 경우 구성요소를 생략 및 간략한 표현으로 대체하는 경우가 많다. 이러한 어휘 사용 특성을 분석하기 위하여, 기존에 구축된 구어체 말뭉치와 문어체 말뭉치를 사용한다. 실험에서는 구어체 말뭉치인 SMS 문자 말뭉치와 네이버 영화평 말뭉치, 그리고 문어체 말뭉치인 한국어 문어체 원시 말뭉치의 어휘사용 특성을 비교-분석한다. 말뭉치별 어휘 비교 및 분석을 위하여 품사 태그 형용사(VA)를 기준으로 하였고, 공연강도를 측정하기 위해 변별적 공연어휘소 분석 방법론을 사용하였다. 그 결과 '좋-', '죄송하-', '즐겁-' 등 감정표현 형용사들이 SMS 문자 말뭉치에서 선호되는 반면, 네이버 영화평 말뭉치에서는 평가 표현과 관련된 형용사들이 선호되는 것을 확인할 수 있었다. 이러한 과정에서 추출된 공연강도가 높은 형용사를 기준으로 감정어휘 사전을 자동 구축하기 위하여 단어 임베딩 기법을 사용하였으며, 총 343,603개의 감성어휘를 자동 구축하였다.

LDA와 tri-tone 모델을 이용한 운율경계강도 예측 (Prosodic Break Index Estimation using LDA and Tri-tone Model)

  • 강평수;엄기완;김진영
    • 한국음향학회지
    • /
    • 제18권7호
    • /
    • pp.17-22
    • /
    • 1999
  • 본 논문에서는 발화된 문장으로부터 운율 경계 강도를 효과적으로 예측하기 위해 LDA와 tri-tone 모델을 혼합한 방법을 제안하였다. 이 방법은 기존의 LDA 방법을 사용하여 음절과 휴지기의 길이 정보를 운율경계강도 예측에 적용하고 피치정보를 벡터양자화에 적용하여 tri-tone이란 개념을 도입한 혼합형 모형이다. 제안된 방법은 주어진 200문장의 운율경계 강도를 예측하는 실험에서 72%의 정확성을 나타내었다.

  • PDF

한국어의 리듬 단위에 관한 연구 - 문법 구조와 관련하여 (A Study on Rhythmic Units in Korean -with Respect to Syntactic Structure-)

  • Kim, Sun-Mi
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 1996년도 10월 학술대회지
    • /
    • pp.224-228
    • /
    • 1996
  • This paper is intended as a study on how an utterance is divided into rhythmic units in Standard Korean with respect to its syntactic structure. With respect to the data in this study I used 150 sentences which contained similar number of words and various syntactic structures. Those sentences were read by 7 speakers of Seoul dialect in a conversation style. Each sentence was read twice in a normal speed and twice in a fast speed. As a total, 4200 sentences were recorded. Then listening to them, the author marked the sentences with two kinds of boundaries i.e. strong and weak. To explore the relationship between rhythmic units and syntactic structure I devised a framework of grammatical symbols. Each symbol is designed to have both syntactic and morphological information at the same time. So I assigned those grammatical symbols to the sentences. Having sentences marked with grammatical symbols on the one hand, and with the rhythmic boundaries on the other hand, 1 could show the relationship between rhythmic units and syntactic structure; which syntactic structures are likely to be pronounced as one rhythmic unit, and which are on the rhythmic boundaries.

  • PDF

감정 제어 가능한 종단 간 음성합성 시스템 (Emotion Transfer with Strength Control for End-to-End TTS)

  • 전예진;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.423-426
    • /
    • 2021
  • 본 논문은 전역 스타일 토큰(Global Style Token)을 기준으로 하여 감정의 세기를 조절할 수 있는 방법을 소개한다. 기존의 전역 스타일 토큰 연구에서는 원하는 스타일이 포함된 참조 오디오(reference audio)을 사용하여 음성을 합성하였다. 그러나, 참조 오디오의 스타일대로만 음성합성이 가능하기 때문에 세밀한 감정 조절에 어려움이 있었다. 이 문제를 해결하기 위해 본 논문에서는 전역 스타일 토큰의 레퍼런스 인코더 부분을 잔여 블록(residual block)과 컴퓨터 비전 분야에서 사용되는 AlexNet으로 대체하였다. AlexNet은 5개의 함성곱 신경망(convolutional neural networks) 으로 구성되어 있지만, 본 논문에서는 1개의 신경망을 제외한 4개의 레이어만 사용했다. 청취 평가(Mean Opinion Score)를 통해 제시된 방법으로 감정 세기의 조절 가능성을 보여준다.

  • PDF