다국어 음성 인식을 위한 자동 어휘모델의 생성에 대한 연구

A Study on the Automatic Lexical Acquisition for Multi-lingustic Speech Recognition

  • 발행 : 2003.08.01

초록

특정한 언어 (영어)로 구현된 소프트웨어를 다른 언어 (한국어, 중국어 등)에서 처리할 수 있도록 하는 과정인 소프트웨어의 국제화는 음성기술 분야에 적응할 때 매우 복잡해진다. 그 이유는 음성 자체가 언어와 많은 연관 관계를 갖기 때문이다. 그러나 어떠한 언어라 해도 그 나라의 언어표현은ASCII코드나 혹은 그 나라 고유의 코드 기반으로 소프트웨어를 처리한다. 영어의 경우는 ASCII코드의 코드체계로 이루어지지만 다른 나라 언어인 경우 다른 형태의 언어코드를 사용하는 것이 일반적이다. 음성 처리에서 언어의 본질적 특성은 어휘모델에 나타난다. 어휘모델은 문자집합, 음소집합, 발음규칙으로 구성된다. 본 논문에서는 다국어 음성인식처리를 위한 어휘모델을 자동으로 생성하기 위하여, 4단계로 나누어 처리하는 어휘모델 구축 방법을 제안한다. 우선 전처리 과정으로 특정한 언어로 표현한 단어를 유니코드로 변환한다. (1단계) 유니코드로부터 중간 형태 코드로의 변환 (2단계) 발음 형태를 기본으로 하는 표준화된 규칙 적용 (3단계) 음소 규칙들에 의한 문자소 구현 (4단계) 음운론을 적용하는 순서로 구성된다.

Software internationalization, the process of making software easier to localize for specific languages, has deep implications when applied to speech technology, where the goal of the task lies in the very essence of the particular language. A greatdeal of work and fine-tuning has gone into language processing software based on ASCII or a single language, say English, thus making a port to different languages difficult. The inherent identity of a language manifests itself in its lexicon, where its character set, phoneme set, pronunciation rules are revealed. We propose a decomposition of the lexicon building process, into four discrete and sequential steps. For preprocessing to build a lexical model, we translate from specific language code to unicode. (step 1) Transliterating code points from Unicode. (step 2) Phonetically standardizing rules. (step 3) Implementing grapheme to phoneme rules. (step 4) Implementing phonological processes.

키워드

참고문헌

  1. ICASSP '90 A real-time mandarin dictation machine for chinese language with unilimited texts and very large vocabulary L.S.Lee;C.Y.Tseng;H.Y.Gu;F.H.Liu;C.H.Chang;S.H.Hsieh;C.H.Chen
  2. Proc. Of the ARPA Workshop on Spoken Language Technology Large-vocabulary continuous- speech recognition using a japanese business newspaper (NIKKEI) T.Matsuoka;K.Ohtsuki;T.Mori;S.Furui;K.Shirai;Austin,T.X.;Morgan Kaufmann;Cohen(ed.)
  3. ICASSP '97 Integrated-multilingual speech recognition using universal features in a functional speech production model L.Deng
  4. The Johns Hopkins University Electrical Engineering and Computer Science Technical Report JHU/EECS-86/01 Nettalk: a parallel network that learns to read aloud T.J.Sejnowski;C.R.Rosenberg
  5. Connectionst Models of Memory and Language Self-learning and connectionst approaches to text-to-phoneme conversion R.I.Damper;Levy,J.(ed.);Bairaktaris,J.(ed.);Bullinaria,J.(ed.);Cairns,P.(ed.)
  6. The unicode standard, version 2.0 The Unicode Consortium
  7. EUROSPEECH '97 Statistical language modeling using the CMU-cambridge toolkit P.Clark;R.Rosenfeld