Statistical Analysis of Korean Phonological Variations Using a Grapheme-to-phoneme System

발음열 자동 생성기를 이용한 한국어 음운 변화 현상의 통계적 분석

  • 이경님 (서강대학교 컴퓨터학과 음성언어처리연구실) ;
  • 정민화 (서강대학교 컴퓨터학과 음성언어처리연구실)
  • Published : 2002.10.01

Abstract

We present a statistical analysis of Korean phonological variations using a Grapheme-to-Phoneme (GPT) system. The GTP system used for experiments generates pronunciation variants by applying rules modeling obligatory and optional phonemic changes and allophonic changes. These rules are derived form morphophonological analysis and government standard pronunciation rules. The GTP system is optimized for continuous speech recognition by generating phonetic transcriptions for training and constructing a pronunciation dictionary for recognition. In this paper, we describe Korean phonological variations by analyzing the statistics of phonemic change rule applications for the 60,000 sentences in the Samsung PBS Speech DB. Our results show that the most frequently happening obligatory phonemic variations are in the order of liaison, tensification, aspirationalization, and nasalization of obstruent, and that the most frequently happening optional phonemic variations are in the order of initial consonant h-deletion, insertion of final consonant with the same place of articulation as the next consonants, and deletion of final consonant with the same place of articulation as the next consonant's, These statistics can be used for improving the performance of speech recognition systems.

본 논문에서는 한국어 발음열 자동 생성기를 이용하여 한국어의 음운 규칙에 대한 통계적 분석을 수행하였다. 실험에 사용한 발음열 자동 생성기는 한국어 음운 변화 현상에 대해 형태음운론에 기반 한 언어학적 분석과 문교부 표준어 규정의 표준 발음법에서 유도된 필수 및 수의적 음소 변동 규칙과 변이음 규칙의 단계적 적용 모델을 사용해서 구현되었으며, 특히 연속음성 인식을 위한 학습용 발음열과 인식용 발음사전 생성의 최적화를 목표로 하였다. 본 논문에서는 대어휘 연속음성 인식기의 음향 모델을 구축하기 위해 만들어진 삼성 PBS(Phonetically Balanced Sentence) 음성 데이터 베이스의 60,000문장에 적용된 발음열 생성기의 음소 변동규칙들의 분포 및 그 통계를 사용해서 한국어 음운 변화 양상을 분석하였다. 적용된 빈도수를 기준으로 분석한 결과, 필수음소 변동규칙의 경우는 연음법칙, 경음화, 격음화, 장애음의 비음화순으로, 수의적 음소 변동규칙의 경우는 초성 ㅎ 탈락, 중복 자음화, 동일 조음위치 자음탈락 순으로 음운 변화가 발생하였다. 이러한 적용 규칙들의 통계적 자료를 기반으로 한국어 음운 변화 양상을 파악할 수 있었으며, 나아가 본 논문의 연구 결과는 음성 인식 시스템을 개발하는데 유용하게 사용할 수 있을 것이다.

Keywords

References

  1. 한국음향학회지 v.20 no.2 한국어 연속음성 인식을 위한 발음열 자동 생성 이경님;전재훈;정민화
  2. IEEE Trans. Acoust. Speech, Signal Processing v.ASSP-24 no.6 Letter-to-sound rules for automatic translation of english text to phonetics H.Elovitz;R.Johnson;A.Mchugh;J.Shore
  3. Proc. of ACL-COLING 98 Unlimited vocabulary grapheme-to-phoneme conversion for Korean TTS B.Kim;W.Lee;G.Lee;J.Lee
  4. Proc. of the ESCA workshop Modeling pronunciation variation for automatic speech recognition Modeling pronunciation variation for ASR: Overview and comparison of methods H.Strik;C.Cucchiarini
  5. 한글 사용빈도의 분석 김흥규;강범모
  6. 표준 한국어 발음 대사전 한국방송공사
  7. 국어음운론 이기문;김진우;이상억
  8. An Introduction to Phonetics and Phonology J.Clark;C.Yallop
  9. 표준어 규정, 문교부 고시 v.88 no.2
  10. 제13회 음성통신 및 신호처리워크샵 논문집 v.13 no.1 공동 이용을 위한 단어음성DB의 구축 및 PBS 설계에 관한 검토 김봉완;김종진;김선태;김태환;김영일;이용주
  11. 서강대학교 컴퓨터학과 석사학위 논문 음소 문맥과 음운 변화 현상을 이용한 한국어 연속 음성 인식 김한준