• 제목/요약/키워드: Phonetically Balanced

검색결과 26건 처리시간 0.023초

공동이용을 위한 음성DB의 구축 및 음성 자료 수집을 위한 Workbench의 구현 (Construction of Korean Speech DB for Common Use and Implementation of Workbench for Spoken Language Data Acquisition)

  • 김봉완;이용주
    • 대한음성학회지:말소리
    • /
    • 제35_36호
    • /
    • pp.189-209
    • /
    • 1998
  • This study discusses Korean speech database that has been designed and constructed for common use, especially focusing on designing a list of words or sentences that covers various phonological environments. As the results, PBW(Phonetically Balanced words) and PBS(Phonetically Balanced Sentences) was selected from balanced text corpus using maximum entropy method. And, implemented workbench for spoken language data acquisition is presented in this paper. The workbench consists of grapheme to phoneme converter, utterance list selection module, speech data editing module, multi-layer labelling module, and phoneme context search module.

  • PDF

교실 음향에 대한 에어컨 소음의 영향 (The Effects of Air Conditioner Noise on Classroom Acoustics)

  • 김수연;전진용
    • 한국소음진동공학회:학술대회논문집
    • /
    • 한국소음진동공학회 2005년도 춘계학술대회논문집
    • /
    • pp.176-179
    • /
    • 2005
  • A case-study in classroom acoustics was conducted and the effects of two types(system air conditioner and packaged air conditioner) of air conditioner were investigated. Acoustical measurements were made in two different classrooms. Each classroom has different acoustics showing sound quality of air conditioner. Mental concentration test was conducted to evaluate the effects of air conditioner noise with different sound presure level(dBA). Speech intelligibility test was also planed with adopting Korean phonetic balanced words.

  • PDF

자동 음성분할 및 레이블링 시스템의 성능향상 (Performance Improvement of Automatic Speech Segmentation and Labeling System)

  • 홍성태;김제우;김형순
    • 대한음성학회지:말소리
    • /
    • 제35_36호
    • /
    • pp.175-188
    • /
    • 1998
  • Database segmented and labeled up to phoneme level plays an important role in phonetic research and speech engineering. However, it usually requires manual segmentation and labeling, which is time-consuming and may also lead to inconsistent consequences. Automatic segmentation and labeling can be introduced to solve these problems. In this paper, we investigate a method to improve the performance of automatic segmentation and labeling system, where Spectral Variation Function(SVF), modification of silence model, and use of energy variations in postprocessing stage are considered. In this paper, SVF is applied in three ways: (1) addition to feature parameters, (2) postprocessing of phoneme boundaries, (3) restricting the Viterbi path so that the resulting phoneme boundaries may be located in frames around SVF peaks. In the postprocessing stage, positions with greatest energy variation during transitional period between silence and other phonemes were used to modify boundaries. In order to evaluate the performance of the system, we used 452 phonetically balanced word(PBW) database for training phoneme models and phonetically balanced sentence(PBS) database for testing. According to our experiments, 83.1% (6.2% improved) and 95.8% (0.9% improved) of phoneme boundaries were within 20ms and 40ms of the manually segmented boundaries, respectively.

  • PDF

음성 인식에서 훈련 및 인식 과정에 사용되는 대상 어휘의 차이에 대한 음향 모델의 성능 평가 (Performance Evaluation of Acoustic Models According to Differences between Vocabularies in Training and Test Phases of Speech Recognition)

  • 김회린;이항섭;권오욱
    • 한국음향학회지
    • /
    • 제17권7호
    • /
    • pp.22-27
    • /
    • 1998
  • 본 논문에서는 ETRI에서 개발한 가변 어휘 음성 인식기의 어휘 독립 음향 모델링 방법을 기술하고, 이 모델의 어휘 종속, 어휘 독립 및 어휘적응 성능을 평가하기 위하여 다 양한 고립단어 및 연속음성 DB에 대하여 실험한 결과를 분석하였다. 평가를 위하여 사용한 음성 DB로는 고립단어 음성으로 POW(Phonetically Optimized Words) 3848, PBW(Phonetically Balanced Words) 445, PBW 452, 호텔예약 244 단어, 게임 제어용 단어 등이며, 연속음성으로 일반 문장 음성 및 연속 숫자음을 이용하였다. 성능 분석 결과 40개 음소 모델만으로도 비교적 높은 인식률을 보여 주었지만, 어휘독립의 경우는 어휘종속에 비 하여 성능이 크게 낮았고, 특히 대상 어휘가 숫자음, 알파벳, 연속음 등의 경우에는 POW 데이터나 PBW 데이터만 가지고는 우수한 가변 어휘 음성 인식기를 구현하기에 한계가 있 음을 알 수 있다. 또한, 훈련 데이터의 어휘와 평가데이터의 어휘가 비슷할 경우에는 변이음 모델을 사용하면 음소 모델만을 사용할 경우에 비하여 그 성능이 우수하였지만, 일반적인 어휘독립의 상황에서는 효과가 별로 없음을 알 수 있었다.

  • PDF

최대 사후 추정 화자 적응을 이용한 가변어휘 고립단어 음성인식기의 사무실 환경에서의 성능 평가 (Performance Evaluation of Variable-Vocabulary Isolated Word Speech Recognizers with Maximum a Posteriori (MAP) Estimation-Based Speaker Adaptation in an Office Environment)

  • 권오욱
    • 한국음향학회지
    • /
    • 제17권2호
    • /
    • pp.84-89
    • /
    • 1998
  • 본 논문에서는 임의의 단어를 인식하기 위하여 음성학적으로 최적화된 (phonetically-optimized word) 음성 데이터베이스를 사용하여 훈련된 가변어휘 고립단위 음 성인식기의 실제 인식기 사용 환경에서의 성능을 평가하였다. 이를 위하여, 훈련 데이터베이 스에서와 상이한 환경에서 수집된 음성학적으로 균형 잡힌(phonetically-balanced word) 고 립 단어 음성을 테스트 데이터로 사용하였다. 테스트 데이터는 일반적인 사무실에서 작동하 는 노트북 PC에서 내장 마이크를 사용하여 녹음되었다. 이렇게 녹음된 음성을 사용하여 고 립단어 인식기의 인식률을 측정하였다. 이 인식기는 최대 사후(maximum a posteriori) 추정 알고리듬을 사용하여 화자의 변화에 적응하였다. 컴퓨터 모의실험 결과에 의하면 화자 적응 을 하지 않은 기본 시스템은 깨끗한 음성에 대하여 81.3%에서 사무실 환경 음성에 대하여 69.8%로 인식률이 저하되었다. 사무실 환경 음성에 대하여, 비교사 점진(unsupervised incremental) 모드에서 최대 사후 추정 화자 적응 알고리듬을 적용하였을 경우에는 화자적 응을 하지 않은 경우에 비하여 9%의 에러를 감소시키며, 50단어의 적응 단어를 사용하여 교사 묶음(supervised batch) 모드에서 최대 사후 추정 화자 적응 알고리듬을 적용하였을 경우에는 16%의 에러를 감소시켰다.

  • PDF

음성인식기를 이용한 발음오류 자동분류 결과 분석 (Performance Analysis of Automatic Mispronunciation Detection Using Speech Recognizer)

  • 강효원;이상필;배민영;이재강;권철홍
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2003년도 10월 학술대회지
    • /
    • pp.29-32
    • /
    • 2003
  • This paper proposes an automatic pronunciation correction system which provides users with correction guidelines for each pronunciation error. For this purpose, we develop an HMM speech recognizer which automatically classifies pronunciation errors when Korean speaks foreign language. And, we collect speech database of native and nonnative speakers using phonetically balanced word lists. We perform analysis of mispronunciation types from the experiment of automatic mispronunciation detection using speech recognizer.

  • PDF

음성학적 지식 기반 변이음 모델을 이용한 가변 어휘 단어 인식기 (Variable Vocabulary Word Recognizer using Phonetic Knowledge-based Allophone Model)

  • 김회린;이항섭
    • 한국음향학회지
    • /
    • 제16권2호
    • /
    • pp.31-35
    • /
    • 1997
  • 본 논문에서는 훈련용 음성 데이터와 무관한 임의의 새로운 어휘를 인식해 낼 수 있는 가변 어휘 단어 인식기 개발에 대하여 기술한다. 가변 어휘 단어 인식기를 구현하기 위해서는, 인식 대상이 될 새로운 어휘를 즉시 발음 사전으로 변환시키는 on-line 발음 사전 생성기가 필요하고, 발음 사전 출력을 가지고 각 단어를 모델링할 수 있는 신뢰성 있는 음소 및 변이음 모델이 필요하다. 이와 같은 신뢰성 있는 음소 및 변이음 모델은 생성시키기 위하여 본 연구에서는, 각 음소의 전후 음소들의 음성학적 자질을 고려하여 3 음소열을 집단화(clustering)하여 변이음을 정의하고 이를 당 연구실이 보유하고 있는 POW(Phonetically Optimized Words) 3,848개 단어에 적용하여 1,548개의 변이음 모델을 생성시켰다. 이를 토대로 가변 어휘 단어 인식기를 구현하고 이를 POW 3,848 DB, PBW 445 DB 및 호텔 예약용 244 단어 DB 등에 적용하여 그 성능을 평가하였다. 평가 결과, POW DB에 대해서는 79.6%, PBW DB에 대해서는 445 단어 사전의 경우 79.4%, 100 단어 사전의 경우 88.9%의 성능을 보여 주었고, 호텔 예약 DB에 대해서는 71.4%의 성능을 보여 주었다.

  • PDF

한국어최적상호명코퍼스설계에관한연구 (A Study on the optimal text corpus for company names)

  • 이선정
    • 한국컴퓨터산업학회논문지
    • /
    • 제5권7호
    • /
    • pp.747-754
    • /
    • 2004
  • 본 논문에서는 114 안내시스템에 저장되어있는 서로 중복되어 있지 않는 1,566,943개의 상호명 코퍼스에서 이 코퍼스의 특징을 가장 잘 표현 해 줄 수 있는 최적 코퍼스를 설계하였다. 최적 코퍼스를 구하기 위해 두 단계의 방식을 택한다. 일 단계는 기본코퍼스에 존재하는 트라이폰이 모두 나타내는 최소의 단어 셋을 구하는 최적 음소균형 코퍼스 셋이고 다음 단계는 기본코퍼스에 존재하는 트라이폰의 빈번도를 고려하는 최소의 단어 셋을 구하는 음소 분포코퍼스 셋을 설계하였다. 실험 결과 최적 음소 균형 셋으로 8,699단어가 선정되었으며 최적 음소 분포 균형 셋으로 16,783 단어가 선정되었다. 이러한 최적 코퍼스는 음성 및 합성 시스템을 위한 음성데이터베이스를 구축 할 때 이용된다.

  • PDF

문맥종속 반음소단위에 의한 음운 자동 레이블링 시스템의 성능 개선 (Improvement of automatic phoneme labeling system using context-dependent demiphone unit)

  • 박순철;김봉완;이용주
    • 대한음성학회지:말소리
    • /
    • 제37호
    • /
    • pp.23-48
    • /
    • 1999
  • To improve the performance of automatic labelling system, the context-dependent demiphone unit was proposed. A phone is divided into two parts: a left demiphone that accounts for the left side coarticulation and a right demiphone that copes with the right side context. Demiphone unit provides a better training of the transition between phones. In this paper, If the length of the phone is less than 120 msec, it is split into two demiphones. If the length of the phone is greater than 120 msec, it is divided into three parts. In order to evaluate the performance of the system, we use 452 phonetically balanced words(PBW) database for training and testing phoneme models. According to the experiment, the system using proposed demiphone unit compared with that using old demiphone unit gains 3.83% improved result(71.63%) within 10ms of the duo boundary, and 2.20% improved result(86.41%) within 20ms of the true boundary.

  • PDF

Noise Robust Automatic Speech Recognition Scheme with Histogram of Oriented Gradient Features

  • Park, Taejin;Beack, SeungKwan;Lee, Taejin
    • IEIE Transactions on Smart Processing and Computing
    • /
    • 제3권5호
    • /
    • pp.259-266
    • /
    • 2014
  • In this paper, we propose a novel technique for noise robust automatic speech recognition (ASR). The development of ASR techniques has made it possible to recognize isolated words with a near perfect word recognition rate. However, in a highly noisy environment, a distinct mismatch between the trained speech and the test data results in a significantly degraded word recognition rate (WRA). Unlike conventional ASR systems employing Mel-frequency cepstral coefficients (MFCCs) and a hidden Markov model (HMM), this study employ histogram of oriented gradient (HOG) features and a Support Vector Machine (SVM) to ASR tasks to overcome this problem. Our proposed ASR system is less vulnerable to external interference noise, and achieves a higher WRA compared to a conventional ASR system equipped with MFCCs and an HMM. The performance of our proposed ASR system was evaluated using a phonetically balanced word (PBW) set mixed with artificially added noise.