• 제목/요약/키워드: Speech Recognition Technology

검색결과 527건 처리시간 0.028초

한국어 대어휘 연속음성 인식용 발음사전 자동 생성 및 최적화 (Building a Morpheme-Based Pronunciation Lexicon for Korean Large Vocabulary Continuous Speech Recognition)

  • 이경님;정민화
    • 대한음성학회지:말소리
    • /
    • 제55권
    • /
    • pp.103-118
    • /
    • 2005
  • In this paper, we describe a morpheme-based pronunciation lexicon useful for Korean LVCSR. The phonemic-context-dependent multiple pronunciation lexicon improves the recognition accuracy when cross-morpheme pronunciation variations are distinguished from within-morpheme pronunciation variations. Since adding all possible pronunciation variants to the lexicon increases the lexicon size and confusability between lexical entries, we have developed a lexicon pruning scheme for optimal selection of pronunciation variants to improve the performance of Korean LVCSR. By building a proposed pronunciation lexicon, an absolute reduction of $0.56\%$ in WER from the baseline performance of $27.39\%$ WER is achieved by cross-morpheme pronunciation variations model with a phonemic-context-dependent multiple pronunciation lexicon. On the best performance, an additional reduction of the lexicon size by $5.36\%$ is achieved from the same lexical entries.

  • PDF

실시간 고차통계 정규화와 Smoothing 필터를 이용한 강인한 음성인식 (Robust Speech Recognition Using Real-Time High Order Statistics Normalization and Smoothing Filter)

  • 정주현;송화전;김형순
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2005년도 춘계 학술대회 발표논문집
    • /
    • pp.91-94
    • /
    • 2005
  • The performance of speech recognition is degraded by the mismatch between training and test environments. Many methods have been presented to compensate for additive noise and channel effect in the cepstral domain, and Cepstral Mean Subtraction (CMS) is the representative method among them. Recently, high order cepstral moment normalization method has introduced to improve recognition accuracy. In this paper, we apply high order moment normalization method and smoothing filter for real-time processing. In experiments using Aurora2 DB, we obtained error rate reduction of 49.7% with the proposed algorithm in comparison with baseline system.

  • PDF

SMS 인증 기반의 보이스포탈에서의 음성인식을 위한 CTI 모듈 구현 (Voice Portal based on SMS Authentication at CTI Module Implementation by Speech Recognition)

  • 오세일;김봉현;고진환;박원배
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 춘계학술발표논문집 (하)
    • /
    • pp.1177-1180
    • /
    • 2001
  • 전화를 통해 인터넷 정보를 들을 수 있는 보이스 포탈(Voice Portal) 서비스가 인기를 얻고 있다. Voice Portal 서비스란 알고자 하는 정보를 Speech Recognition System에 음성으로 명령하면 전화를 통해 음성으로 원하는 정보를 듣는 서비스이다. Authentication의 절차를 수행하는 SMS (Short Message Service) 서버 Module, PSTN과 Database 서버사이의 Interface를 제공하는 CTI (Computer Telephony Integration) Module, CTI 서버와 WWW (World Wide Web) 사이의 Voice XML Module, 정보를 검색하기 위한 Searching Module들이 필요하다. 본 논문은 Speech Recognition technology를 기반으로 한 CTI Module 설계를 구현하였다. 또한 인정 방식으로 Random한 일회용 password를 기반으로 한 SMS Authentication을 택하므로 더욱 더 안정된 서비스 제공을 목적으로 하였다.

  • PDF

대용량 음성인식을 위한 인식기간 감축 알고리즘 (A Recognition Time Reduction Algorithm for Large-Vocabulary Speech Recognition)

  • 구준모;은종관
    • 한국음향학회지
    • /
    • 제10권3호
    • /
    • pp.31-36
    • /
    • 1991
  • 본 논문에서는 대용량 음성인식 시스템의 인식시간을 감축하기 위하여 후보단어를 선정하는 효과적인 방법을 제안하고 이 방법의 성능을 향상시키기 위하여 spectral smoothing과 temporal smoothing을 사용하는 것에 관하여 연구하였다. 제안된 방법은 사전내의 각 단어에 대하여 음성인식 단위의 음성 spectrum관찰확률과 길이정보를 이용하여 대강의 관찰확률을 계산하여 후보단어를 선정한다. 제안된 방법을 음소단위의 HMM을 이용하는 1160단어 인식 시스템에 적용한 결과, 전체 계산량의 74% 가량을 감축할 수 있었으며 이때 인식율의 감소는 매우 작았다. 또한 제안된 대감의 likelihood점수 계산방법은 Viterbi방법에 의하여 계산되는 likelihood 점수를 잘 추정함을 알 수 있었다.

  • PDF

생성형 AI 기술을 적용한 음성 및 모션 인식 기반 양방향 대화형 알고리즘 (Two-way Interactive Algorithms Based on Speech and Motion Recognition with Generative AI Technology)

  • 장대성;김종찬
    • 한국전자통신학회논문지
    • /
    • 제19권2호
    • /
    • pp.397-402
    • /
    • 2024
  • 음성 인식과 모션 인식 기술은 다양한 스마트 디바이스에 적용되어 사용되고 있으나, 단순한 명령어 인식 형태로 구성되어 단순 기능으로 사용되고 있다. 인식 데이터에 대한 단순 기능에서 벗어나 다양한 분야에서 학습된 데이터를 기반으로 전문적인 명령어 수행 능력이 요구되고 있다. 현재 세계적으로 경쟁이 이루어지고 있는 생성형 AI를 활용하여 사용자에게 최적의 데이터를 제공하고, 음성 인식과 모션 인식을 통해 상호작용할 수 있는 시스템 플랫폼에 대한 연구가 진행되고 있다. 본 연구를 위해 설계한 주요 기술 프로세스는 음성 및 모션 인식 기능, AI 기술 적용, 양방향 커뮤니케이션 등 기술을 이용한 설계하였다. 본 논문에서는 AI 기술을 적용한 디바이스와 음성인식과 모션 인식 기술을 통해 디바이스와 사용자 간 양방향 커뮤니케이션을 다양한 입력방식에 의해 이루어질 수 있도록 하였다.

발성유형지수 k (Phonation Type Index k)

  • 박한상
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2002년도 11월 학술대회지
    • /
    • pp.77-80
    • /
    • 2002
  • This study proposes phonation type index k as a descriptor of the overall spectral tilt, which is free from the effects of fundamental frequency and vowel quality. The newly proposed phonation type index k presents a simple and single measure of the overall spectral tilt. Phonation type index k can be applied to speech technology. It can also be used in diagnosing patients voice qualities in speech pathology. The distribution of phonation type index k, which is speaker-dependent, may be useful in forensic phonetics and voice recognition as an indicator of speaker identity.

  • PDF

다양한 음성을 이용한 자동화자식별 시스템 성능 확인에 관한 연구 (Variation of the Verification Error Rate of Automatic Speaker Recognition System With Voice Conditions)

  • 홍수기
    • 대한음성학회지:말소리
    • /
    • 제43호
    • /
    • pp.45-55
    • /
    • 2002
  • High reliability of automatic speaker recognition regardless of voice conditions is necessary for forensic application. Audio recordings in real cases are not consistent in voice conditions, such as duration, time interval of recording, given text or conversational speech, transmission channel, etc. In this study the variation of verification error rate of ASR system with the voice conditions was investigated. As a result in order to decrease both false rejection rate and false acception rate, the various voices should be used for training and the duration of train voices should be longer than the test voices.

  • PDF

음성인식기를 이용한 한국인의 외국어 발화오류 자동 검출 (Automatic Detection of Mispronunciation Using Phoneme Recognition For Foreign Language Instruction)

  • 권철홍;강효원;이상필
    • 대한음성학회지:말소리
    • /
    • 제48호
    • /
    • pp.127-139
    • /
    • 2003
  • An automatic pronunciation correction system provides learners with correction guidelines for each mispronunciation. In this paper we propose an HMM based speech recognizer which automatically classifies pronunciation errors when Korean speak Japanese. For this purpose we also develop phoneme recognizers for Korean and Japanese. Experimental results show that the machine scores of the proposed recognizer correlate with expert ratings well.

  • PDF

바람잡음을 고려한 자동차에서의 음성인식 성능 향상 (Improvement of Speech Recognition Performance in Running Car by Considering Wind Noise)

  • 이기훈;이철희;김종교
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2004년도 춘계 학술대회 발표논문집
    • /
    • pp.231-234
    • /
    • 2004
  • This paper describes an efficient method for improving the noise-robustness in speech recognition in a running car by considering wind noise. In driving car, mainly three kind of noises engine noise, tire noise and wind noise, are severely affect recognition performance. Especially wind noise is an important factor in driving car with window opened. We analyzed wind noise in various driving conditions that are 60, 80, 100 km/h with window fully opened, window half opened. We clarified that the recognition rate is significantly degenerated when the wind noise components in the frequency range above 200 Hz are large. We developed a preprocessing method to improve the noise robustness despite of wind noise. We adaptively changed the cutoff frequency of the front-end high-pass filter from 100 through 200 Hz according to the level of the wind noise components. By this method, the recognition rate is considerably improved for all kind of driving conditions

  • PDF

TMS320C6201 DSP를 이용한 HMM 기반의 음성인식기 구현 (Implementation of HMM Based Speech Recognizer with Medium Vocabulary Size Using TMS320C6201 DSP)

  • 정성윤;손종목;배건성
    • The Journal of the Acoustical Society of Korea
    • /
    • 제25권1E호
    • /
    • pp.20-24
    • /
    • 2006
  • In this paper, we focused on the real time implementation of a speech recognition system with medium size of vocabulary considering its application to a mobile phone. First, we developed the PC based variable vocabulary word recognizer having the size of program memory and total acoustic models as small as possible. To reduce the memory size of acoustic models, linear discriminant analysis and phonetic tied mixture were applied in the feature selection process and training HMMs, respectively. In addition, state based Gaussian selection method with the real time cepstral normalization was used for reduction of computational load and robust recognition. Then, we verified the real-time operation of the implemented recognition system on the TMS320C6201 EVM board. The implemented recognition system uses memory size of about 610 kbytes including both program memory and data memory. The recognition rate was 95.86% for ETRI 445DB, and 96.4%, 97.92%, 87.04% for three kinds of name databases collected through the mobile phones.