• 제목/요약/키워드: intra-speaker variation

검색결과 7건 처리시간 0.021초

음성인식에서 화자 내 정규화를 위한 진폭 변경 방법 (An Amplitude Warping Approach to Intra-Speaker Normalization for Speech Recognition)

  • 김동현;홍광석
    • 인터넷정보학회논문지
    • /
    • 제4권3호
    • /
    • pp.9-14
    • /
    • 2003
  • 기존의 성도 정규화 방법은 화자 간 정규화의 정확성을 개선하기 위한 매우 좋은 방법이다. 본 논문에서는 피치 변경 발성에 기반을 둔 새로운 화자 내 warping 인수 추정 방법을 제안한다. 화자 내 피치 변경 발성은 성문과 성도에 의해 발생되는 음성의 음향학적 차이 때문에 음성의 특징 공간 분포는 다르게 나타날 것이다. 발성의 변동은 frequency 성분과 amplitude 성분의 두가지 유형이 있다. 성도 정규화는 화자 간 정규화 방법들 중에서 주파수 정규화 방법이다. 여기에서는 화자 내 정규화를 위하여 진폭 변동을 정규화하는 방법을 제안한다. 참조 피치와 입력 피치의 역비례 계산에 의해서 진폭 warping 인수를 결정하는 것이 가능하다. 성능 평가를 위한 인식 실험 결과 숫자와 단어 인식에서 0.4%∼2.3% 정도의 인식 오류가 감소되었다.

  • PDF

잡음환경에 강인한 HMM기반 화자 확인 시스템에 관한 연구 (Speaker Verification System Based on HMM Robust to Noise Environments)

  • 위진우;강철호
    • 한국음향학회지
    • /
    • 제20권7호
    • /
    • pp.69-75
    • /
    • 2001
  • 화자확인에서 화자내 변이, 잡음환경, 그리고 학습환경과 인식 환경의 불일치는 화자확인 시스템이 실용화될 수 없는 가장 큰 원인이다. 본 연구에서는, 실제 환경에 강인한 화자 확인 시스템의 구현에 초점을 맞추어 음성 전처리 과정인 잡음환경에 강인한 끝점추출 알고리즘, 잡음제거 및 마이크특성 보상기법, LPG(Linear Predictive Coefficient)켑스트럼 가중치에 의한 화자간 변별력 향상 기법을 제안한다. 실험 결과, LPC잔차신호(residue)를 이용한 끝점추출 알고리즘을 사용한 경우 약 17.65% 가량의 끝점 추출 에러율을 향상시켰으며, 제안한 잡음제거 및 마이크특성 보상기법을 사용한 경우 다른 마이크 환경에서 화자 오인식율이 약 36.93% 가량 개선되었다. 또한, 제안한 LPC켑스트럼 가중치에 의한 화자간 변별력 향상 기법은 평균 화자 오인식율을 약 6.515% 향상시켰다.

  • PDF

Statistical Patterns in Consonant Cluster Simplification in Seoul Korean: Within-dialect Interspeaker and Intraspeaker Variation

  • Cho, Tae-Hong;Kim, Sa-Hyang
    • 말소리와 음성과학
    • /
    • 제1권1호
    • /
    • pp.33-40
    • /
    • 2009
  • This study examines how young speakers of Seoul Korean produce tri-consonantal clusters /1kt/ and /1pt/ as in palk-ta ('to be bright') and palp-ta ('to step on'). Production data were collected from 20 speakers of Seoul Korean. The results of narrow transcription of the data showed that simplification is not obligatory as some speakers often preserve all three consonants. When simplified, there was a clear asymmetry between /1kt/ and /1pt/. Speakers showed no clear preference for either C1 preservation (C1=/1/) or C2 preservation (C2=/k/ in /1kt/ and /p/ in /1pt/) in production of /1kt/, but in production of /1pt/, strong preference was found for C1-preserved to C2-preserved variant. When compared with production data in Cho (1999), simplification patterns appear to have changed over the past 10 years, in a direction to preserve the first member of the cluster (/1/) more often, especially with /1kt/. There was no substantial between-item variation, indicating that simplification patterns are not lexically specified. Finally, the results suggest that the process of tri-consonantal simplification has not been fully phonologized in the grammar of the language as evident in substantial inter- and intra-speaker variation.

  • PDF

VQ와 DTW를 이용한 문장 의존형 화자인식 시스템 (Text-dependent Speaker Recognition System Using DTW & VQ)

  • 정종순;오세영;배명진
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2001년도 추계학술발표대회 논문집 제20권 2호
    • /
    • pp.97-103
    • /
    • 2001
  • 초기 DTW(Dynamic Time Warping)를 이용한 화자인식 방법은 인식률이 시간이 지남에 따라 저하된다는 단점이 있었다[1][3][4]. 따라서 이를 보완하기 위한 새로운 알고리즘이 많이 제안되었다. 본 논문에서는 DTW방법을 이용한 화자 인식 시스템의 사용자 등록시기에 화자에 대한 불충분한 음성특징을 보충하고 시간이 지남에 따라 발생하는 오인식률의 증가를 줄이기 위해 사용자 등록시 기준패턴의 정규화를 수행하고 시스템 사용시 기준패턴을 변경하는 방법이다. 본 논문에서 사용된 핵심적인 알고리즘은 VQ(Vector Quantization)와 DTW 방법이다. 본 논문의 알고리즘을 이용한 모의 실험 결과 기존의 방법에 비해 $3.3\%$ 인식률 향상되어 $97.5\%$의 인식률을 얻을 수 있었다.

  • PDF

화자 확인 시스템을 위한 적응적 모델 갱신과 사전 문턱치 결정에 관한 연구 (A Study on Adaptive Model Updating and a Priori Threshold Decision for Speaker Verification System)

  • 진세훈;이재희;강철호
    • 한국음향학회지
    • /
    • 제19권5호
    • /
    • pp.20-26
    • /
    • 2000
  • 화자 확인시스템에서 화자의 장기간 음성 변동에 대처하기 위해서는 작은 양의 데이터로써 화자 확인을 위한 HMM(hidden Markov model) 파라미터 갱신과 사전 문턱치 결정이 중요한 요소이다. 본 연구에서는 화자내 변이(mea-speaker variation)에 적응하는 모델 갱신방법과 이에 따른 문턱치 적응에 관한 방법을 제안한다. 제안하는 방법은 분기간 화자내 변이로 발생할 수 있는 오인식율을 Baum-Welch re-estimation을 통해 현재 화자 모델 파라미터에 새로운 음성 데이터를 적응시킴으로써 감소시킨다. 본 논문에서 제안하는 사전 문턱치 결정 방법은 기존의 월드 모델(world model) 방법과 군중 모델(cohort model) 방법의 하이브리드 형태로써 실험적으로 결정된다. 실험에 의해 모델 갱신을 하지 않은 경우보다 제안하는 모델 갱신방법의 화자 인식율이 우수함을 확인하였다. 또한, 사후 문턱치 결정에 의한 인식율과 제안한 사전 문턱치 결정에 의한 인식율의 차이가 근소함을 확인하였다.

  • PDF

일본어 특수박의 지속시간에 관한 음향음성학적 분석 (An acoustic study on the duration of the morn in Japanese)

  • 김선희
    • 대한음성학회지:말소리
    • /
    • 제38호
    • /
    • pp.113-124
    • /
    • 1999
  • It is well known that Japanese prosodic structure assumes mora below the syllable tier. Syllables with V or CV structure are counted as having one morn whereas those with coda consonants /-pp, -tt, -kk, -ss, -N/ or long vowels are counted as having two morns in Japanese. This study measured the acoustic duration of these special moras ('tokusyuhaku') produced by Tokyo dialect speakers to see if they are isochronic with V or CV. It also examined the production of Korean(Seoul/Kyungsang dialect) and Chinese native speakers loaming Japanese as a second language to examine how the learners' first language influence their second language. Finally, it examined how speakers of the Akita dialect, which is blown as a syllabeme dialect in Japanese, produced them. The results showed that intra-speaker variation as well as inter-speaker variation was observed in the production by Akita dialect speakers. Production of native speakers of Chinese and Kyungsang dialect of Korean -- which have vowel length contrast in their phonological systems -- showed a similar result to Tokyo dialect speakers, which implies the influence of the learners' first language on the acquisition of the second language.

  • PDF

Electromyographic evidence for a gestural-overlap analysis of vowel devoicing in Korean

  • Jun, Sun-A;Beckman, M.;Niimi, Seiji;Tiede, Mark
    • 음성과학
    • /
    • 제1권
    • /
    • pp.153-200
    • /
    • 1997
  • In languages such as Japanese, it is very common to observe that short peripheral vowel are completely voiceless when surrounded by voiceless consonants. This phenomenon has been known as Montreal French, Shanghai Chinese, Greek, and Korean. Traditionally this phenomenon has been described as a phonological rule that either categorically deletes the vowel or changes the [+voice] feature of the vowel to [-voice]. This analysis was supported by Sawashima (1971) and Hirose (1971)'s observation that there are two distinct EMG patterns for voiced and devoiced vowel in Japanese. Close examination of the phonetic evidence based on acoustic data, however, shows that these phonological characterizations are not tenable (Jun & Beckman 1993, 1994). In this paper, we examined the vowel devoicing phenomenon in Korean using data from ENG fiberscopic and acoustic recorders of 100 sentences produced by one Korean speaker. The results show that there is variability in the 'degree of devoicing' in both acoustic and EMG signals, and in the patterns of glottal closing and opening across different devoiced tokens. There seems to be no categorical difference between devoiced and voiced tokens, for either EMG activity events or glottal patterns. All of these observations support the notion that vowel devoicing in Korean can not be described as the result of the application of a phonological rule. Rather, devoicing seems to be a highly variable 'phonetic' process, a more or less subtle variation in the specification of such phonetic metrics as degree and timing of glottal opening, or of associated subglottal pressure or intra-oral airflow associated with concurrent tone and stricture specifications. Some of token-pair comparisons are amenable to an explanation in terms of gestural overlap and undershoot. However, the effect of gestural timing on vocal fold state seems to be a highly nonlinear function of the interaction among specifications for the relative timing of glottal adduction and abduction gestures, of the amplitudes of the overlapped gestures, of aerodynamic conditions created by concurrent oral tonal gestures, and so on. In summary, to understand devoicing, it will be necessary to examine its effect on phonetic representation of events in many parts of the vocal tracts, and at many stages of the speech chain between the motor intent and the acoustic signal that reaches the hearer's ear.

  • PDF