• Title/Summary/Keyword: speech recognition

검색결과 2,051건 처리시간 0.029초

IPA를 활용한 다국어 음성 인식에 관한 연구 (A Study on the Multilingual Speech Recognition using International Phonetic Language)

  • 김석동;김우성;우인성
    • 한국산학기술학회논문지
    • /
    • 제12권7호
    • /
    • pp.3267-3274
    • /
    • 2011
  • 최근 다양한 모바일 기기의 사용자 환경과 다양한 음성인식 소프트웨어의 영향으로 음성인식 기술역시 빠르게 발전되고 있다. 그러나 다국어를 대상으로 하는 음성인식의 경우 다국어 혼합음성에 대한 이해 부족과 시스템 성능의 한계로 인하여 원활한 인식율의 개선은 이루어지지 않고 있다. 여러 나라의 혼합 언어로 표현된 음성의 경우 하나의(단일) 음성모델로 구현하는 것이 쉽지 않고, 또한 여러 개의 음성모델을 사용한 시스템의 경우 음성인식 성능의 저하라는 문제점이 있다. 이에 따라 다양한 언어로 구성되어 있는 음성을 하나의 음성모델로 표현할 수 있는 다국어 음성인식 모바일 시스템의 개발 필요성이 증가되고 이에 대한 연구가 필요하다. 본 논문에서는 모바일 시스템에서 다국어 혼합 음성모델을 사용하기 위한 기본연구로써 한국어와 영어 음성을 국제 음성기호(IPA)로 인식하는 통합음성모델 시스템 구축을 연구하였고, 한국어와 영어 음소를 동시에 만족하는 IPA모델을 찾는데 중점을 두어 실험한 결과 우리말 음성은 94.8%, 영어 음성은 95.36%라는 인식률을 얻을 수 있었다.

MSVQ/TDRNN을 이용한 음성인식 (Speech Recognition Using MSVQ/TDRNN)

  • 김성석
    • 한국음향학회지
    • /
    • 제33권4호
    • /
    • pp.268-272
    • /
    • 2014
  • 본 논문에서는 MSVQ(Multi-Section Vector Quantization)와 시간지연 회귀 신경회로망(TDRNN)을 이용한 하이브리드 구조의 음성인식 방법을 제안한다. MSVQ는 음성의 길이를 일정한 구간 수로 정규화한 코드북을 생성하고, 시간지연 회귀 신경회로망은 이 코드북을 이용하여 음성을 인식한다. 시간지연 회귀 신경회로망은 음성의 시계열 문맥정보를 잘 학습할 수 있는 구조로 구성되었다. 음성특징으로 인지선형예측(PLP) 계수가 사용되었다. 음성인식 실험을 수행한 결과 MSVQ/TDRNN 음성인식기는 97.9 %의 화자독립 음성 인식률을 보였다.

남녀성별 분류를 위한 화자종속 음성인식 알고리즘 (Speaker-dependent Speech Recognition Algorithm for Male and Female Classification)

  • 최재승
    • 한국정보통신학회논문지
    • /
    • 제17권4호
    • /
    • pp.775-780
    • /
    • 2013
  • 본 논문에서는 백색잡음 및 자동차잡음 환경 하에서 남녀 성별인식이 가능한 신경회로망에 의한 화자종속 음성인식 알고리즘을 제안한다. 본 논문에서 제안한 음성인식 알고리즘은 남성화자 및 여성화자를 인식하기 위하여 LPC 켑스트럼 계수를 사용하여 신경회로망에 의하여 학습된다. 본 실험에서는 백색잡음 및 자동차잡음에 대하여 총 6개의 신경회로망의 네크워크에 대한 인식결과를 나타낸다. 인식실험의 결과로부터 백색잡음에 대해서는 최대 96% 이상의 인식률, 자동차잡음에 대해서는 최대 88% 이상의 인식률을 구하였다. 마지막으로 본 실험에서는 제안하는 음성인식 알고리즘이 배경잡음 환경 하에서의 기존의 음성인식 알고리즘과 비교하여 본 방식의 알고리즘이 유효하다는 것을 실험으로 확인한다.

철도예약서비스를 위한 VoiceXML 기반의 음성인식 구현에 관한 연구 (A Study on Realization of Speech Recognition System based on VoiceXML for Railroad Reservation Service)

  • 김범승;김순협
    • 한국철도학회논문집
    • /
    • 제14권2호
    • /
    • pp.130-136
    • /
    • 2011
  • 본 논문에서는 철도예약서비스를 위한 SIP를 기반으로 하는 텔레포니 환경에서의 VoiceXML을 이용한 실시간 음성인식을 구현하는 방안을 제안하였다. 제안된 방법은 PSTN 또는 인터넷을 통하여 들어온 음성신호를 VoiceXML을 이용한 Dialog 처리를 하고 전송된 음성신호를 음성인식 시스템에서 처리하여 출력된 결과값을 VoiceXML의 Dialog에 반환하여 사용자에게 전달하는 방식이다. VASR 시스템은 Dialog를 처리하는 Dialog 서버, 음성신호를 처리하기 위한 APP서버, 그리고 음성인식을 처리하는 음성인식 시스템으로 구성된다. 본 논문에서는 텔레포니 환경에서의 음성신호 처리를 위하여 VoiceXML의 Record Tag 기능을 이용하여 음성신호를 녹음하고 이를 실시간 재생하여 음성인식 시스템으로 전송하는 방식을 구현하였다.

Speech recognition rates and acoustic analyses of English vowels produced by Korean students

  • Yang, Byunggon
    • 말소리와 음성과학
    • /
    • 제14권2호
    • /
    • pp.11-17
    • /
    • 2022
  • English vowels play an important role in verbal communication. However, Korean students tend to experience difficulty pronouncing a certain set of vowels despite extensive education in English. The aim of this study is to apply speech recognition software to evaluate Korean students' pronunciation of English vowels in minimal pair words and then to examine acoustic characteristics of the pairs in order to check their pronunciation problems. Thirty female Korean college students participated in the recording. Speech recognition rates were obtained to examine which English vowels were correctly pronounced. To compare and verify the recognition results, such acoustic analyses as the first and second formant trajectories and durations were also collected using Praat. The results showed an overall recognition rate of 54.7%. Some students incorrectly switched the tense and lax counterparts and produced the same vowel sounds for qualitatively different English vowels. From the acoustic analyses of the vowel formant trajectories, some of these vowel pairs were almost overlapped or exhibited slight acoustic differences at the majority of the measurement points. On the other hand, statistical analyses on the first formant trajectories of the three vowel pairs revealed significant differences throughout the measurement points, a finding that requires further investigation. Durational comparisons revealed a consistent pattern among the vowel pairs. The author concludes that speech recognition and analysis software can be useful to diagnose pronunciation problems of English-language learners.

On Wavelet Transform Based Feature Extraction for Speech Recognition Application

  • Kim, Jae-Gil
    • The Journal of the Acoustical Society of Korea
    • /
    • 제17권2E호
    • /
    • pp.31-37
    • /
    • 1998
  • This paper proposes a feature extraction method using wavelet transform for speech recognition. Speech recognition system generally carries out the recognition task based on speech features which are usually obtained via time-frequency representations such as Short-Time Fourier Transform (STFT) and Linear Predictive Coding(LPC). In some respects these methods may not be suitable for representing highly complex speech characteristics. They map the speech features with same may not frequency resolutions at all frequencies. Wavelet transform overcomes some of these limitations. Wavelet transform captures signal with fine time resolutions at high frequencies and fine frequency resolutions at low frequencies, which may present a significant advantage when analyzing highly localized speech events. Based on this motivation, this paper investigates the effectiveness of wavelet transform for feature extraction of wavelet transform for feature extraction focused on enhancing speech recognition. The proposed method is implemented using Sampled Continuous Wavelet Transform (SCWT) and its performance is tested on a speaker-independent isolated word recognizer that discerns 50 Korean words. In particular, the effect of mother wavelet employed and number of voices per octave on the performance of proposed method is investigated. Also the influence on the size of mother wavelet on the performance of proposed method is discussed. Throughout the experiments, the performance of proposed method is discussed. Throughout the experiments, the performance of proposed method is compared with the most prevalent conventional method, MFCC (Mel0frequency Cepstral Coefficient). The experiments show that the recognition performance of the proposed method is better than that of MFCC. But the improvement is marginal while, due to the dimensionality increase, the computational loads of proposed method is substantially greater than that of MFCC.

  • PDF

음성 및 잡음 인식 알고리즘을 이용한 환경 배경잡음의 제거 (Reduction of Environmental Background Noise using Speech and Noise Recognition)

  • 최재승
    • 한국정보통신학회논문지
    • /
    • 제15권4호
    • /
    • pp.817-822
    • /
    • 2011
  • 본 논문에서는 먼저 신경회로망의 학습에 오차역전파 학습 알고리즘을 사용하여 각 프레임에서의 음성 및 잡음 구간의 검출에 의한 음성인식 알고리즘을 제안한다. 그리고 신경회로망에 의하여 음성 및 잡음 구간의 검출에 따라서 각 프레임에서 잡음을 제거하는 스펙트럼 차감법을 제안한다. 본 실험에서는 제안한 음성인식알고리즘의 성능을 원음성에 백색잡음 및 자동차 잡음을 부가하여 인식율을 평가한다. 또한 인식시스템에 의하여 검출된 음성 및 잡음 구간을 이용하여 각 프레임에서의 스펙트럼 차감법에 의한 잡음제거의 실험결과를 나타낸다. 잡음에 의하여 오염된 음성에 대하여 신호대잡음비를 사용하여 본 알고리즘이 유효하다는 것을 확인한다.

응급상황에서의 음성인식을 위한 필터기 구현 (Implementation of Speech Recognition Filtering at Emergency)

  • 조영임;장성순
    • 한국지능시스템학회논문지
    • /
    • 제20권2호
    • /
    • pp.208-213
    • /
    • 2010
  • 일반적으로 음성인식 시스템의 사용에 가장 저해되는 요소에는 배경 잡음을 들 수 있다. 잡음은 음성인식 시스템의 성능을 저하시키고, 이로 인해 사용 장소의 제약을 많이 받게 되는 이유가 된다. 이런 잡음의 영향을 해결하기 위해 본 논문에서는 음질 향상에 목적을 두고 신호단계에서부터 잡음성분을 제거하는 필터 중 FIR필터의 대역통과를 이용하여 일반적으로 사람의 음성 주파수 영역과 잡음 영역을 추출한 정보를 토대로 Wiener 필터를 구현, 그 성능을 향상하여, 전송되어지는 음성신호구간에서 잡음구간과 음성구간에 따라 잡음을 유연하게 처리하도록 구현하였다.

자동차 환경내의 음성인식 자동 평가 플랫폼 연구 (A Study of Automatic Evaluation Platform for Speech Recognition Engine in the Vehicle Environment)

  • 이성재;강선미
    • 한국통신학회논문지
    • /
    • 제37권7C호
    • /
    • pp.538-543
    • /
    • 2012
  • 주행 중 차량내의 음성인터페이스 에서 음성인식기의 성능은 가장 중요한 부분이다. 본 논문은 차량내 음성인식기의 성능 평가를 자동화하기 위한 플랫폼의 개발에 대한 것이다. 개발된 플랫폼은 주 프로그램, 중계 프로그램 데이터베이스 관리, 통계산출 모듈로 구성된다. 성능 평가에 있어 실제 차량의 주행 조건을 고려한 시뮬레이션 환경이 구축되었고, 미리 녹음된 주행 노이즈와 발화자의 목소리를 마이크를 통해 입력하여 실험하였다. 실험 결과 제안하는 플랫폼에서 얻어진 음성인식 결과의 유효성이 입증되었다. 제안한 플랫폼으로 사용자는 음성인식의 자동화와 인식결과의 효율적인 관리 및 통계산출을 함으로서 차량 음성인식기의 평가를 효과적으로 진행할 수 있다.

저가의 단 문장 음성 인식회로 설계 (Low Cost Circuit Design for a Sentence Speech Recognition)

  • 최지혁;홍광석
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2002년도 하계종합학술대회 논문집(4)
    • /
    • pp.365-368
    • /
    • 2002
  • In this paper, we present a low cost circuit design for a sentence speech recognition. The basic circuit of the designed sentence speech recognizer is composed of resistor, capacitance, OP Amp, counter and logic gates. Through a sentence recognition experiment, we can find the effectiveness of the designed sentence recognition circuit

  • PDF