대어휘 연속음성 인식을 위한 결합형태소 자동생성

Automatic Generation of Concatenate Morphemes for Korean LVCSR

  • 박영희 (서강대학교 컴퓨터학과 음성언어처리연구실) ;
  • 정민화 (서강대학교 컴퓨터학과 음성언어처리연구실)
  • 발행 : 2002.05.01

초록

본 논문에서는 형태소를 인식 단위로 하는 한국어 연속음성 인식의 성능 개선을 위해 결합형태소를 자동으로 생성하는 방법을 제시한다. 학습코퍼스의 54%를 차지하고 오인식의 주요인이 되는 단음절 형태소를 감소시켜서 인식 성능을 높이는 것을 목적으로 한다. 품사의 접속 규칙을 이용한 기존의 지식기반의 형태소 결합방법은 접속 규칙의 생성이 어렵고, 학습 코퍼스에 나타난 출현 빈도를 반영하지 못하여 저빈도 결합형태소를 다수 생성하는 경향을 보였다. 본 논문에서 제시하는 방법은 학습데이터의 통계정보를 이용하여 결합형태소를 자동 생성한다. 결합할 형태소 쌍 선정을 위한 평가척도로는 형태소 쌍의 빈도, 상호정보, 유니그램 로그 유도값(unigram log likelihood)을 이용하였고 여기에 한국어의 특성 반영을 위해 단음절 형태소 제약과 형태소 결합길이를 제한하는 두개의 제약사항을 추가하였다. 학습에 사용된 텍스트 코퍼스는 방송뉴스와 신문으로 구성된 7백만 형태소이고, 최빈도 2만 형태소 다중 발음사전을 사용하였다. 세가지 평가척도 중 빈도를 이용한 것의 성능이 가장 좋았고 여기에 제약조건을 반영하여 성능을 더 개선할 수 있었다. 특히 최대 결합 길이를 3으로 할 때의 성능이 가장 우수하여 언어모델 혼잡도는 117.9에서 97.3으로 18%감소했으며, 형태소 에러율 (MER: Morpheme error rate)은 21.3%에서 17.6%로 감소하였다. 이때 단음절 형태소는 54%에서 30%로 24%가 감소하였다.

In this paper, we present a method that automatically generates concatenate morpheme based language models to improve the performance of Korean large vocabulary continuous speech recognition. The focus was brought into improvement against recognition errors of monosyllable morphemes that occupy 54% of the training text corpus and more frequently mis-recognized. Knowledge-based method using POS patterns has disadvantages such as the difficulty in making rules and producing many low frequency concatenate morphemes. Proposed method automatically selects morpheme-pairs from training text data based on measures such as frequency, mutual information, and unigram log likelihood. Experiment was performed using 7M-morpheme text corpus and 20K-morpheme lexicon. The frequency measure with constraint on the number of morphemes used for concatenation produces the best result of reducing monosyllables from 54% to 30%, bigram perplexity from 117.9 to 97.3. and MER from 21.3% to 17.6%.

키워드

참고문헌

  1. 국어정보베이스 Ⅱ CD-ROM KAIST
  2. 한국정보과학회 봄 학술발표 논문집 Tagged Word Bigram을 사용한 의사형태소 단위의 한국어 연속음성인식 박영희;정민화
  3. 제 10회 한글 및 한글 및 한국어 정보처리 학술대회 논문집 의사 형태소 단위의 음성인식 형태소 해석 이경님;정민화
  4. Proc. of EUROSPEECH v.4 Language modeling based on automatic word concatenations C. Beaujard;M. Jardino
  5. Proc. of EUROSPEECH v.5 Statistical language modeling using the CMU-CambridgeToolkit P. Clarkson;R. Rosenfeld
  6. HTK Hidden Markov Model Toolkit, Version 2.2
  7. Proc. of International Conference on Acoustics, Speech, and Signal v.2 Language-model optimization by mapping of corpora Dietrich Klakow
  8. Proc. of EUROSPEECH v.4 Phrase-based language models for speech recognition Hong-Kwang Jeff Kuo;Wolfgang Reichl
  9. Proc. of International Conference on Acoustics, Speech, and Signal v.3 Performance of LVCSR with morpheme-based and syllable-based recognition units Oh-Wook Kwon
  10. IEEE Trans. on ASSP v.9 no.4 Data-driven approach to designing compound words for continuous speech recognition George Saon;Mukund Padmanabhan
  11. Proc. of International Conference on Spoken Language Processing v.1 Effects of words string language models on noisy broadcast news speech recognition Kazuyuki Takagi;Rei Oguro;Kazuhiko Ozeki
  12. Proc. of EUROSPEECH v.4 Variable-length sequence language model for large vocabulary continuous dictation machines I. Zitouni;J. F. Mari;K. Smaili;J. P. Haton