• 제목/요약/키워드: Connected speech

검색결과 147건 처리시간 0.024초

2-5 세 아동의 자발적 발화에 나타난 한국어 음절 및 음운 빈도 (Syllable and Phoneme Frequencies in the Spontaneous Speech of 2-5 year-old Korean Children)

  • 김민정;배소영;고도흥
    • 음성과학
    • /
    • 제8권4호
    • /
    • pp.99-107
    • /
    • 2001
  • The purpose of this study was to investigate the syllable and phoneme frequencies in the spontaneous speech of some Korean children. Sixty four normally developing children aged from 2 to 5 were involved (male: female=1 : 1, 16 children in each age group). Fifty connected utterances were analyzed using the KCLA (Korean Computerized Language Analysis) 2.0 and Exel. The findings were as follows: 1) /i/ was the most frequently used syllable and was followed by /yo/, /k/, /s'/, /nen/ and so on. 2) The most frequently used Korean phonemes were syllable-initial consonant /k/, syllable- medial vowel /a/ and syllable-final consonant /n/. 3) All seven syllable final consonants (/p,t,k,m,n,n,l/) were used more frequently in the word-medial position than in the word-final position. Three syllable initial consonants(/k, I, s'/) were used more frequently in the word-medial position than in the word-initial position. The syllable and phoneme frequencies in the Korean children's spontaneous speech will provide valuable information in interpreting the severity of phonological disorder and in developing tools for the Korean phonological assessment and intervention.

  • PDF

내전형 연축성 발성장애의 연속 발화 특성 (Characteristics of Connected Speech in ADSD)

  • 황연신;김재옥;최홍식
    • 말소리와 음성과학
    • /
    • 제1권1호
    • /
    • pp.93-98
    • /
    • 2009
  • The aim of this study was to investigate voice characteristics of adductive spasmodic dysphonia(ADSD) by measuring electroglottal and acoustic examination at the sentence level. The clinical records of 86 ADSD female patients (age group of $20{\sim}50$ years) and the control records of 86 normal females (age group of $20{\sim}40$ years) were recorded by speech studio(Laryngograph Ltd., UK). An independent t-test was used to compare ADSD and normal group. Results were as follows. (1) Fundamental frequency($F_0$) was significantly decreased in ADSD compared with normal group. (2) Irregularity of frequency and closed quotient(CQ) was significantly increased in ADSD compared with normal group. (3) Voiceless duration increased and voiced duration was significantly decreased in ADSD compared with normal group. (4) Fricative duration was increased in ADSD compared with normal group but it wasn't significant. In conclusion, strained, tight and choked voice shows an increase of CQ, tremor voice shows an increase of irregularity of frequency and less feminine voice shows decrease of $F_0$. Increase of voiceless duration and fricative duration and decrease of voiced duration related with diminution speech intelligibility.

  • PDF

음성인식을 위한 성도 길이 정규화 (Vocal Tract Length Normalization for Speech Recognition)

  • 지상문
    • 한국정보통신학회논문지
    • /
    • 제7권7호
    • /
    • pp.1380-1386
    • /
    • 2003
  • 화자들 사이의 성도의 길이의 변이에 의하여 음성 인식기의 성능이 저하된다. 본 연구에서는 입력 음성에서 추출한 단구간 스펙트럼의 주파수축을 확대하거나 축소하여 음성인식기에 미치는 화자사이의 성도 길이의 영향을 최소화하는 방법을 사용한다 성도의 길이를 정규화하기 위한 주파수 변환 함수로서, 선형의 주파수 변환 함수와 조각적 선형적인 변환 함수를 고려하였다. 또한, 커다란 성도길이의 변이에 따른 주파수축의 척도변화를 보다 효과적으로 모의할 수 있는 가변구간 조각적 선형함수를 제안한다. TIDIGITS 연결 숫자음 음성자료에 대하여 제안한 방법을 적용한 결과, 단어의 오인식률을 2.15%에서 0.53%로 크게 감소시킴으로서, 성도 길이 정규화가 화자 독립 음성인식기의 성능 향상에 필수적임을 알 수 있었다.

HMM과 연결 숫자음의 후처리를 이용한 음성 다이얼링에 관한 연구 (A Study on the Voice Dialing using HMM and Post Processing of the Connected Digits)

  • 양진우;김순협
    • 한국음향학회지
    • /
    • 제14권5호
    • /
    • pp.74-82
    • /
    • 1995
  • 본 논문은 HMM과 연결 숫자음의 후처리를 이용한 음성 다이얼링에 관한 연구이다. HMM(Hidden Markov Model)은 좋은 결과를 보이면서 현재 음성 인식 분야에서 널리 사용되는 알고리즘이다. 그러나, HMM의 학습 방법인 maximum like-lihood estimation은 인식률을 극대화하는 모델의 파라메터 값을 생성하지 못하는 단점이 었다. 이러한 문제점을 보완하기 위하여 Segmental K-means 학습 과정에 후저리를 이용하여 인식 실험을 하였다. 한국어 연속 숫자음은 영어 연속 숫자음과 달리 연음 현상의 영향을 많이 받는다. Level Building 과정에서 연음에 의한 오류를 감소시키기 위해 연음에 의해 발생할 수 있는 단어를 별도의 모델로 추가하였다. 이렇게 추가된 단어 모델들에 대한 몇 가지 규칙을 인식 결과에 적용하여 출력을 다시 조정한다. 본 시 스템은 TMS320C30 프로세서를 내장한 DSP 보드와 IBM PC 상에서 구현되었고, 표준 패턴은 실험실 잡음 환경에서 남성 화자3명을 대상으로 작성하였다. 인식 실험 결과 21종 전화 번호 252개 데이타에 대하여 화자 종속의 경우 $91.6\%$, 회자 독립의 경우 $80.5\%$의 인식률을 나타내었다.

  • PDF

한국어 숫자음의 음운변화 및 화자 발성특성을 고려한 연결숫자 인식의 성능향상 (Performance Improvement of Connected Digit Recognition by Considering Phonemic Variations in Korean Digit and Speaking Styles)

  • 송명규;김형순
    • 한국음향학회지
    • /
    • 제21권4호
    • /
    • pp.401-406
    • /
    • 2002
  • 한국어 숫자는 모두 단음절로 이루어져 있으며, 연속적으로 발음될 때 인접 숫자들의 상호조음현상에 의해 각 숫자의 고유 발음이 변화하고, 또한 그 숫자들의 경계도 모호해지는 문제점이 있다. 이러한 문제점들과 더불어 배경잡음이나 채널에 의한 왜곡에 따른 문제점들로 인해 한국어 연결숫자의 인식 성능은 만족스럽지 못한 것이 현실이다. 본 논문에서는 연결숫자의 인식성능 향상을 위해서 한국어 숫자들의 음운변화를 고려하여 유사음소 (phonelike units: PLUs)군을 정의하고, 사용자의 여러 가지 발성형태에 따른 다양한 음운 현상의 변화를 흡수할 수 있도록 인식 시스템을 구성하는 방식을 검토하였다. 전화망 4연숫자를 이용한 화자독립 인식 실험을 수행한 결과 제안된 방법의 숫자열 인식률은 상태당 믹스쳐 (mixture) 개수가 1인 경우 83.2%로, 기준 시스템 (baseline)에 대한 오류감소률이 7.2%였고 가장 높은 성능을 나타낸 믹스쳐 개수가 11인 경우 숫자열 인식률은 91.8% 오류감소율은 4.7%였다.

영어 청해력 신장에 따른 문제점과 개선 방향 (Problems and Suggestions of the English Listening Comprehension - Focused on Effective Teaching Methods -)

  • 이미재
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 1997년도 7월 학술대회지
    • /
    • pp.81-91
    • /
    • 1997
  • This paper deals with the problems of English listening comprehension: the rate of understanding difference in positions and sentence structures, parts of speech easily missed to understand, English sounds only in English(not in Korean), confusion of sounds, unaccented prefixes and suffixes, polysemy, homonym, juncture, understanding as one word by two different words, and sound blending in a normal speed of connected speech. Bearing those in mind I taught Suwon University freshmen video English with the mixed idea of Peterson's bottom-up and top-down methods putting in a meaningful context with thought group rather than word to word understanding. As a consequence, their errors come: prepositions, conjunctions, unstressed prefixes and suffixes, -ing from the present progressives and so forth. Assignments to have students transcribe the TV commercials and the names of reporters or Korean related news from English broadcastings are of use and help.

  • PDF

자유 발화 자료에 나타난 {그래가지고}의 접속 부사화 (A Study on the Lexicalization of {Geuraegajigo} Based on the Spontaneous Speech Corpus)

  • 하영우;신지영
    • 한국어학
    • /
    • 제64권
    • /
    • pp.195-223
    • /
    • 2014
  • The aim of this paper is to study the morphemization of {Geuraegajigo} based on a spontaneous speech corpus. For this purpose, the distributions, the semantic functions, and the intonational phrase pattterns of the connective {Geuraegajigo} have been analyzed based on the corpus. The results are as follow; at first, coalescence that comes with a morphemization process was found, resulting in many variations. Secondly, there are three functions of it: [Direct/Indirect interrelationship], [Enumerate conjunction], and [Discourse marker]. And this semantic/functional diversity has many similarities with conjunctive adverbs. Lastly, intonational phrase patterns of {Geuraegajigo} accord with those of conjunctive adverbs. Especially, the discourse strategic IP pattern is connected with the short variation type. In conclusion, {Geuraegajigo} has finished turning into a conjunctive adverb through morphemization.

Merlin 툴킷을 이용한 한국어 TTS 시스템의 심층 신경망 구조 성능 비교 (Performance comparison of various deep neural network architectures using Merlin toolkit for a Korean TTS system)

  • 홍준영;권철홍
    • 말소리와 음성과학
    • /
    • 제11권2호
    • /
    • pp.57-64
    • /
    • 2019
  • 본 논문에서는 음성 합성을 위한 오픈소스 시스템인 Merlin 툴킷을 이용하여 한국어 TTS 시스템을 구성한다. TTS 시스템에서 HMM 기반의 통계적 음성 합성 방식이 널리 사용되고 있는데, 이 방식에서 문맥 요인을 포함시키는 음향 모델링 구성의 한계로 합성 음성의 품질이 저하된다고 알려져 있다. 본 논문에서는 여러 분야에서 우수한 성능을 보여 주는 심층 신경망 기법을 적용하는 음향 모델링 아키텍처를 제안한다. 이 구조에는 전연결 심층 피드포워드 신경망, 순환 신경망, 게이트 순환 신경망, 단방향 장단기 기억 신경망, 양방향 장단기 기억 신경망 등이 포함되어 있다. 실험 결과, 문맥을 고려하는 시퀀스 모델을 아키텍처에 포함하는 것이 성능 개선에 유리하다는 것을 알 수 있고, 장단기 기억 신경망을 적용한 아키텍처가 가장 좋은 성능을 보여주었다. 그리고 음향 특징 파라미터에 델타와 델타-델타 성분을 포함하는 것이 성능 개선에 유리하다는 결과가 도출되었다.

음성신호의 Jitter 성분의 장시간 변화에 관한 통계적 분석 (Statistical analysis on long-term change of jitter component on continuous speech signal)

  • 조철우
    • 말소리와 음성과학
    • /
    • 제12권4호
    • /
    • pp.73-80
    • /
    • 2020
  • 본 연구에서는 연속음성에서의 장시간 jitter 성분 측정 방법에 대해 고찰하였다. 기존의 jitter측정방법으로는 지속 발성한 모음을 대상으로 변동성을 측정하는 방법을 주로 사용하여왔다. 문장음성 등 연속음성의 경우는 문장에 따른 운율정보의 영향으로 기존의 측정법으로는 왜곡이 발생하게 된다. 이에 연속 발성에 대해 운율정보의 피치 변동을 상쇄시키는 방법을 제안하고자 한다. 피치 변동을 제거하는 방법으로는 분석구간내에서의 피치 변동을 다항식 보간법에 의해 변동 경향을 대표하는 곡선을 구하고 그 곡선을 기준으로 변이를 제거하였다. 이후 변이가 제거된 피치의 궤적으로부터 jitter를 측정하는 방법을 적용하여 피치 주파수의 변동성을 측정하고 기존의 지속모음에 의한 측정 방법과 비교하였다. 제안한 방법의 효용성 측정을 위해 Kay Pentax MEEI DB의 음성 표본을 사용하였다. 통계분석 결과 제안된 방법에 의해 연속음성으로부터 측정한 jitter 값은 동일 화자의 지속모음으로부터 측정한 파라미터 값과 유사한 변동성을 보여 주었다.

다양한 변별분석을 통한 한국어 연결숫자 인식 성능향상에 관한 연구 (Performance Improvement of Korean Connected Digit Recognition Using Various Discriminant Analyses)

  • 송화전;김형순
    • 대한음성학회지:말소리
    • /
    • 제44호
    • /
    • pp.105-113
    • /
    • 2002
  • In Korean, each digit is monosyllable and some pairs are known to have high confusability, causing performance degradation of connected digit recognition systems. To improve the performance, in this paper, we employ various discriminant analyses (DA) including Linear DA (LDA), Weighted Pairwise Scatter LDA WPS-LDA), Heteroscedastic Discriminant Analysis (HDA), and Maximum Likelihood Linear Transformation (MLLT). We also examine several combinations of various DA for additional performance improvement. Experimental results show that applying any DA mentioned above improves the string accuracy, but the amount of improvement of each DA method varies according to the model complexity or number of mixtures per state. Especially, more than 20% of string error reduction is achieved by applying MLLT after WPS-LDA, compared with the baseline system, when class level of DA is defined as a tied state and 1 mixture per state is used.

  • PDF