• 제목/요약/키워드: Pronunciation lexicon

검색결과 23건 처리시간 0.029초

한국어 대어휘 연속음성 인식용 발음사전 자동 생성 및 최적화 (Building a Morpheme-Based Pronunciation Lexicon for Korean Large Vocabulary Continuous Speech Recognition)

  • 이경님;정민화
    • 대한음성학회지:말소리
    • /
    • 제55권
    • /
    • pp.103-118
    • /
    • 2005
  • In this paper, we describe a morpheme-based pronunciation lexicon useful for Korean LVCSR. The phonemic-context-dependent multiple pronunciation lexicon improves the recognition accuracy when cross-morpheme pronunciation variations are distinguished from within-morpheme pronunciation variations. Since adding all possible pronunciation variants to the lexicon increases the lexicon size and confusability between lexical entries, we have developed a lexicon pruning scheme for optimal selection of pronunciation variants to improve the performance of Korean LVCSR. By building a proposed pronunciation lexicon, an absolute reduction of $0.56\%$ in WER from the baseline performance of $27.39\%$ WER is achieved by cross-morpheme pronunciation variations model with a phonemic-context-dependent multiple pronunciation lexicon. On the best performance, an additional reduction of the lexicon size by $5.36\%$ is achieved from the same lexical entries.

  • PDF

음소변동규칙의 발견빈도에 기반한 음성인식 발음사전 구성 (Generating Pronunciation Lexicon for Continuous Speech Recognition Based on Observation Frequencies of Phonetic Rules)

  • 나민수;정민화
    • 대한음성학회지:말소리
    • /
    • 제64호
    • /
    • pp.137-153
    • /
    • 2007
  • The pronunciation lexicon of a continuous speech recognition system should contain enough pronunciation variations to be used for building a search space large enough to contain a correct path, whereas the size of the pronunciation lexicon needs to be constrained for effective decoding and lower perplexities. This paper describes a procedure for selecting pronunciation variations to be included in the lexicon based on the frequencies of the corresponding phonetic rules observed in the training corpus. Likelihood of a phonetic rule's application is estimated using the observation frequency of the rule and is used to control the construction of a pronunciation lexicon. Experiments with various pronunciation lexica show that the proposed method is helpful to improve the speech recognition performance.

  • PDF

발음 변이의 발음사전 포함 결정 조건을 통한 발음사전 최적화 (Pronunciation Lexicon Optimization with Applying Variant Selection Criteria)

  • 전재훈;정민화
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2006년도 추계학술대회 발표논문집
    • /
    • pp.24-27
    • /
    • 2006
  • This paper describes how a domain dependent pronunciation lexicon is generated and optimized for Korean large vocabulary continuous speech recognition(LVCSR). At the level of lexicon, pronunciation variations are usually modeled by adding pronunciation variants to the lexicon. We propose the criteria for selecting appropriate pronunciation variants in lexicon: (i) likelihood and (ii) frequency factors to select variants. Our experiment is conducted in three steps. First, the variants are generated with knowledge-based rules. Second, we generate a domain dependent lexicon which includes various numbers of pronunciation variants based on the proposed criteria. Finally, the WERs and RTFs are examined with each lexicon. In the experiment, 0.72% WER reduction is obtained by introducing the variants pruning criteria. Furthermore, RTF is not deteriorated although the average number of variants is higher than that of compared lexica.

  • PDF

한국어 연속음성인식 시스템 구현을 위한 형태소 단위의 발음 변화 모델링 (Modeling Cross-morpheme Pronunciation Variations for Korean Large Vocabulary Continuous Speech Recognition)

  • 정민화;이경님
    • 대한음성학회지:말소리
    • /
    • 제49호
    • /
    • pp.107-121
    • /
    • 2004
  • In this paper, we describe a cross-morpheme pronunciation variation model which is especially useful for constructing morpheme-based pronunciation lexicon to improve the performance of a Korean LVCSR. There are a lot of pronunciation variations occurring at morpheme boundaries in continuous speech. Since phonemic context together with morphological category and morpheme boundary information affect Korean pronunciation variations, we have distinguished phonological rules that can be applied to phonemes in within-morpheme and cross-morpheme. The results of 33K-morpheme Korean CSR experiments show that an absolute reduction of 1.45% in WER from the baseline performance of 18.42% WER was achieved by modeling proposed pronunciation variations with a possible multiple context-dependent pronunciation lexicon.

  • PDF

한국어 연속음성 인식을 위한 발음열 자동 생성 (Automatic Generation of Pronunciation Variants for Korean Continuous Speech Recognition)

  • 이경님;전재훈;정민화
    • 한국음향학회지
    • /
    • 제20권2호
    • /
    • pp.35-43
    • /
    • 2001
  • 음성 인식이나 음성 합성시 필요한 발음열을 수작업으로 작성할 경우 작성자의 음운변화 현상에 대한 전문적 언어지식을 비롯하여 많은 시간과 노력이 요구되며 일관성을 유지하기도 쉽지 않다. 또한 한국어의 음운 변화 현상은 단일 형태소의 내부와 복합어에서 결합된 형태소의 경계점, 여러 형태소가 결합해서 한 어절을 이룰 경우 그 어절 내부의 형태소의 경계점, 여러 어절이 한 어절을 이룰 때 구성 어절의 경계점에서 서로 다른 적용 양상을 보인다. 본 논문에서는 이러한 문제를 해결하기 위해서 형태음운론적 분석에 기반하여 문자열을 자동으로 발음열로 변환하는 발음 생성 시스템을 제안하였다. 이 시스템은 한국어에서 빈번하게 발생하는 음운변화 현상의 분석을 통해 정의된 음소 변동 규칙과 변이음 규칙을 다단계로 적용하여 가능한 모든 발음열을 생성한다. 각 음운변화 규칙을 포함하는 대표적인 언절 리스트를 이용하여 구성된 시스템의 안정성을 검증하였고, 발음사전 구성과 학습용 발음열의 유용성을 인식 실험을 통해 평가하였다. 그 결과 표제어 사이의 음운변화 현상을 반영한 발음사전의 경우 5-6% 정도 나은 단어 인식률을 얻었으며, 생성된 발음열을 학습에 사용한 경우에서도 향상된 결과를 얻을 수 있었다.

  • PDF

한국어 연속음성인식을 위한 형태소 경계에서의 발음 변화 현상 모델링 (Modeling Cross-morpheme Pronunciation Variation for Korean LVCSR)

  • 이경님;정민화
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2003년도 5월 학술대회지
    • /
    • pp.75-78
    • /
    • 2003
  • In this paper, we describe a cross-morpheme pronunciation variation model which is especially useful for constructing morpheme-based pronunciation lexicon for Korean LVCSR. There are a lot of pronunciation variations occurring at morpheme boundaries in continuous speech. Since phonemic context together with morphological category and morpheme boundary information affect Korean pronunciation variations, we have distinguished pronunciation variation rules according to the locations such as within a morpheme, across a morpheme boundary in a compound noun, across a morpheme boundary in an eojeol, and across an eojeol boundary. In 33K-morpheme Korean CSR experiment, an absolute improvement of 1.16% in WER from the baseline performance of 23.17% WER is achieved by modeling cross-morpheme pronunciation variations with a context-dependent multiple pronunciation lexicon.

  • PDF

Computerized Sound Dictionary of Korean and English

  • Kim, Jong-Mi
    • 음성과학
    • /
    • 제8권1호
    • /
    • pp.33-52
    • /
    • 2001
  • A bilingual sound dictionary in Korean and English has been created for a broad range of sound reference to cross-linguistic, dialectal, native language (L1)-transferred biological and allophonic variations. The paper demonstrates that the pronunciation dictionary of the lexicon is inadequate for sound reference due to the preponderance of unmarked sounds. The audio registry consists of the three-way comparison of 1) English speech from native English speakers, 2) Korean speech from Korean speakers, and 3) English speech from Korean speakers. Several sub-dictionaries have been created as the foundation research for independent development. They are 1) a pronunciation dictionary of the Korean lexicon in a keyboard-compatible phonetic transcription, 2) a sound dictionary of L1-interfered language, and 3) an audible dictionary of Korean sounds. The dictionary was designed to facilitate the exchange of the speech signal and its corresponding text data on various media particularly on CD-ROM. The methodology and findings of the construction are discussed.

  • PDF

확률 발음사전을 이용한 대어휘 연속음성인식 (Stochastic Pronunciation Lexicon Modeling for Large Vocabulary Continous Speech Recognition)

  • 윤성진;최환진;오영환
    • 한국음향학회지
    • /
    • 제16권2호
    • /
    • pp.49-57
    • /
    • 1997
  • 본 논문에서는 대어휘 연속음성인식을 위한 확률 발음사전 모델에 대해서 제안하였다. 확률 발음 사전은 HMM과 같이 단위음소 상태의 Markov chain으로 이루어져 있으며, 각 음소 상태들은 음소들에 대한 확률 분포 함수로 표현된다. 확률 발음 사전의 생성은 음성자료와 음소 모델을 이용하여 음소 단위의 분할과 인식을 통해서 자동으로 생성되게 된다. 제안된 확률 발음 사전은 단어내 변이와 단어간 변이를 모두 효과적으로 표현할 수 있었으며, 인식 모델과 인식기의 특성을 반영함으로써 전체 인식 시스템의 성능을 보다 높일 수 있었다. 3000 단어 연속음성인식 실험 결과 확률 발음 사전을 사용함으로써 표준 발음 표기를 사용하는 인식 시스템에 비해 단어 오류율은 23.6%, 문장 오류율은 10% 정도를 감소시킬 수 있었다.

  • PDF

DP 알고리즘에 의한 발음사전 전처리와 문맥종속 자소별 MLP를 이용한 영어 발음사전 생성기의 개선 (Improvements of an English Pronunciation Dictionary Generator Using DP-based Lexicon Pre-processing and Context-dependent Grapheme-to-phoneme MLP)

  • 김회린;문광식;이영직;정재호
    • 한국음향학회지
    • /
    • 제18권5호
    • /
    • pp.21-27
    • /
    • 1999
  • 본 논문에서는 가변어휘 단어 인식기에 사용하기 위한 개선된 MLP 기반 영어 발음사전 생성기를 제안한다. 가변어휘 단어 인식기는 인식대상 도메인이 수시로 바뀌는 상황에서 현재의 인식 도메인에 의해 결정되는 임의의 한국어 어휘들에 대해 처리 할 수 있다. 이 시스템을 영어 단어에 대해서도 처리할 수 있도록 하기 위해서는 미리 정의된 사전에 포함할 수 없는 영어 고유명사와 같은 단어의 발음열을 구할 수 있는 방법이 필요하다. 영어 발음사전 생성기를 구현하기 위하여 본 연구에서는 각 자소를 음소로 변환해 주는 문맥종속 다층 퍼셉트론 구조를 제안한다. 각 자소별 다층 퍼셉트론을 훈련하기 위해서는 표준 발음사전으로부터 각 자소에 대응하는 음소 학습용 데이터를 준비해야 한다. 이를 위해 본 연구에서는 적절한 거리척도를 사용하는 동적 프로그래밍 알고리즘을 사용한다. 훈련 및 평가를 위한 데이터로는 116,191개 영어 단어의 발음사전을 사용하였다. 평가 결과 각각 30~50개의 히든 노드를 가지는 26개 자소별 MLP와 예외 자소 발음사전을 가지고 표준 발음사전에 대하여 72.8%의 단어 정확도를 얻었으며, 이것은 기존의 규칙 에 기반한 발음사전 생성의 정확도인 24.0% 보다 매우 우수한 결과임을 보여주었다.

  • PDF

Sequence-to-Sequence Model을 이용한 영어 발음 기호 자동 변환 (Automatic Conversion of English Pronunciation Using Sequence-to-Sequence Model)

  • 이공주;최용석
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제6권5호
    • /
    • pp.267-278
    • /
    • 2017
  • 영어는 동일 철자의 발음이 매우 다양한 언어이기 때문에 사전에 기술되어 있는 단어의 발음기호를 읽어야만 정확한 발음을 알 수 있다. 영어 사전마다 사용하는 발음기호(phonetic alphabet) 시스템이 다르며 같은 단어에 대해 기술하고 있는 발음 역시 다르다. 본 연구에서는 최근 딥 러닝 분야에서 널리 사용되고 있는 sequence-to-sequence (seq2seq) model을 이용하여 사전마다 다른 발음을 자동으로 변환해 보고자 한다. 4가지 다른 종류의 사전에서 추출한 발음 데이터를 이용하여 모두 12개의 seq2seq model을 구현하였으며, 발음 자동 변환 모듈의 정확 일치율은 74.5% ~ 89.6%의 성능을 보였다. 본 연구의 주요 목적은 다음의 두 가지이다. 첫째 영어 발음기호 시스템과 각 사전의 발음 데이터 특성을 살펴보는 것이고, 둘째, 발음 정보의 자동 변환과 오류 분석을 통해 seq2seq model의 특성을 살펴보는 것이다.