• Title/Summary/Keyword: 모의 음성

Search Result 918, Processing Time 0.031 seconds

Effective Recognition of Velopharyngeal Insufficiency (VPI) Patient's Speech Using Simulated Speech Model (모의 음성 모델을 이용한 효과적인 구개인두부전증 환자 음성 인식)

  • Sung, Mee Young;Kwon, Tack-Kyun;Sung, Myung-Whun;Kim, Wooil
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.19 no.5
    • /
    • pp.1243-1250
    • /
    • 2015
  • This paper presents an effective recognition method of VPI patient's speech for a VPI speech reconstruction system. Speaker adaptation technique is employed to improve VPI speech recognition. This paper proposes to use simulated speech for generating an initial model for speaker adaptation, in order to effectively utilize the small size of VPI speech for model adaptation. We obtain 83.60% in average word accuracy by applying MLLR for speaker adaptation. The proposed speaker adaptation method using simulated speech model brings 6.38% improvement in average accuracy. The experimental results demonstrate that the proposed speaker adaptation method is highly effective for developing recognition system of VPI speech which is not suitable for constructing large-size speech database.

Analysis on Vowel and Consonant Sounds of Patent's Speech with Velopharyngeal Insufficiency (VPI) and Simulated Speech (구개인두부전증 환자와 모의 음성의 모음과 자음 분석)

  • Sung, Mee Young;Kim, Heejin;Kwon, Tack-Kyun;Sung, Myung-Whun;Kim, Wooil
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.18 no.7
    • /
    • pp.1740-1748
    • /
    • 2014
  • This paper focuses on listening test and acoustic analysis of patients' speech with velopharyngeal insufficiency (VPI) and normal speakers' simulation speech. In this research, a set consisting of 50-words, vowels and single syllables is determined for speech database construction. A web-based listening evaluation system is developed for a convenient/automated evaluation procedure. The analysis results show the trend of incorrect recognition for VPI speech and the one for simulation speech are similar. Such similarity is also confirmed by comparing the formant locations of vowel and spectrum of consonant sounds. These results show that the simulation method for VPI speech is effective at generating the speech signals similar to actual VPI patient's speech. It is expected that the simulation speech data can be effectively employed for our future work such as acoustic model adaptation.

Effective Recognition of Velopharyngeal Insufficiency (VPI) Patient's Speech Using DNN-HMM-based System (DNN-HMM 기반 시스템을 이용한 효과적인 구개인두부전증 환자 음성 인식)

  • Yoon, Ki-mu;Kim, Wooil
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.23 no.1
    • /
    • pp.33-38
    • /
    • 2019
  • This paper proposes an effective recognition method of VPI patient's speech employing DNN-HMM-based speech recognition system, and evaluates the recognition performance compared to GMM-HMM-based system. The proposed method employs speaker adaptation technique to improve VPI speech recognition. This paper proposes to use simulated VPI speech for generating a prior model for speaker adaptation and selective learning of weight matrices of DNN, in order to effectively utilize the small size of VPI speech for model adaptation. We also apply Linear Input Network (LIN) based model adaptation technique for the DNN model. The proposed speaker adaptation method brings 2.35% improvement in average accuracy compared to GMM-HMM based ASR system. The experimental results demonstrate that the proposed DNN-HMM-based speech recognition system is effective for VPI speech with small-sized speech data, compared to conventional GMM-HMM system.

Simulation of Vocal Fold Vibation with Artificial Larynx (인공성대를 이용한 성대 진동의 모의 실험)

  • 황병길
    • Proceedings of the KSLP Conference
    • /
    • 1994.06b
    • /
    • pp.82-82
    • /
    • 1994
  • 다양한 성대의 진동 형태와 조절 작용을 연구하기 위해서 실시간에서 움직이는 인공성대를 만들어 모델의 타당성을 검토하고 이를 이용하여 생리적 음성과 병적인 음성의 기전을 밝히는 것이 본 연구의 목적이다. 지금까지 연구되어온 정적 모델이나 후두절개 표본의 단점과 한계를 극복할 수 있는 모델을 제작하기 위해 고려해야 할 점은 모델을 이용한 성대 진동 파형의 수평적 수직적 요소의 관찰이 용이해야 하고 성대진동의 기본 요소들 즉 성대의 긴장도, 성문간격, 성문하압 등의 변화에 따른 음성 발현 양상의 차이를 쉽게 보여줄 수 있는 지에 관한 것이다. (중략)

  • PDF

Transcoding Algorithm from 8 kbps G.729A to 5.3 kbps G.723.1 (8 kbps G.729A에서 5.3 kbps G.723.1로의 상호부호화 알고리듬)

  • 윤성완;정성교;박영철;윤대희
    • Proceedings of the IEEK Conference
    • /
    • 2000.09a
    • /
    • pp.823-826
    • /
    • 2000
  • 유/무선 통신 시스템에서는 통신망마다 각각 다른 음성 부호화기를 사용하므로 음성신호는 두 번의 부/복호화 과정을 거치게 된다. 이로 인해 음질저하, 계산량 증가, 그리고 전달 지연 증가 등의 문제가 발생된다. 본 논문에서는 위의 문제점들을 개선하기 위하여 패킷 음성통신과 무선 이동 통신에 사용되는 음성 부호화기의 상호부호화를 위한 알고리듬을 제안한다 효율적인 음성 패킷 변환 방법을 제안하였으며, 8 kbps G.729A 패킷을 5.3 kbps G.723.1 패킷으로 변환하는 방법을 제안한다. 제안된 음성 패킷 변환 방법은 LSP 변환과정, 적응코드북 변환과정 그리고 고정 코드북 고속 탐색 과정으로 구성된다. 여러 가지 음성 신호로 모의 실험한 결과, 본 논문에서 제안된 상호부호화 알고리듬이 두 번의 부/복호화 과정을 거친 경우보다 짧은 전달 지연 시간과 적은 계산량으로 동등한 음질의 음성신호로 복호화함을 확인하였다.

  • PDF

On a Study of Relation Between Glottal Spectrum and Speaker Identification Parameter (Glottal Spectrum 과 화자식별 Parameter와의 상관 관계에 관한 연구)

  • 이윤주;신동성;배명진
    • Proceedings of the IEEK Conference
    • /
    • 2001.09a
    • /
    • pp.793-796
    • /
    • 2001
  • 음성인식 시스템은 인간의 의사소통 수단인 음성을 기계가 인지할 수 있게 하는 것이다. 이러한 음성 인식 알고리즘 개발은 현재 활발히 진행되고 있다. 올바른 음성인식 시스템의 구현을 위해서는 높은 인식률 구현과 적은 처리시간이 요구된다. 또한 인식률 향상을 위해서는 그 구현 알고리즘이 복잡해지고 이에 따라 많은 처리 시간이 요구된다. 본 논문에서는 성문 특성에 따른 Glottal Spectrum에 적응적인 필터계수를 적용하여 인식률 향상을 도모하였다. 제안한 알고리즘을 모의 실험한 결과 전체 인식률이 2% 향상되었다.

  • PDF

A Study on Weighted Spectral Subtraction Using Adaptive Threshold In Car Noise Environment (차량내 잡음 환경에서 적응적 경계값을 이용한 가중치 주파수 차감에 관한 연구)

  • 전선도
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06c
    • /
    • pp.185-188
    • /
    • 1998
  • 실제의 음성 인식 및 음성 통신 등의 음성 처리 시스템에서는 음성 신호를 손상시키는 배경 잡음 신호의 존재로 그 성능이 많이 저하된다. 특히 차량 내와 같은 잡음이 극심한 상황에서는 전처리 부분에서 이러한 잡음을 제거시켜 주어야한다. 본 연구는 자동차 내의 배경 잡음에 의해 손상된 음성에서 배경 잡음을 주파수 차감에 의하여 제거시킨다. 특히 음성 정보의 손실이 적은 잡음 추정 방법으로 가중치를 이용하여 잡음을 추정하는 가중치 주파수 차감법을 이용하였다. 이러한 가중치 주파수 차감법 사용의 전제 조건은 잡음의 변화가 완만한 경우에 적당하다. 그러나 실제적인 상황에서 배경잡음신호의 변화가 큰 경우가 존재한다. 이러한 이유에서 본 연구는 잡은 추정시 잡음 추정값을 이용하여 추정 잡음 경계값을 적응적으로 변화하는 차감법을 제안한다. 이러한 방법은 추정된 잡음 신호의 변화율을 이용하여 경계값을 상황에 따라 적응적으로 변화시키는 방법이다. 모의 실험에 의하여 고정적인 경계값을 갖는 가중치 주파수 차감법에 비해 제안한 적응적 경계값을 갖는 가중치 주파수 차감법의 출력 SNR이 증가함을 확인하였고, 음성 인식 시스템에 정용한 인식 실험에서도 성능이 향상됨을 확인하였다.

  • PDF

Implementation of the Acoustic Echo Canceller for a Voice-controlled PC (음성제어 PC를 위한 음향 반향 제거기의 구현)

  • 한철희;이혁재;윤대희
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 1998.06a
    • /
    • pp.103-106
    • /
    • 1998
  • 본 논문에서는 전이중(full duplex)으로 동작하는 멀티미디어 PC의 음성 명령어 인식기의 성능 향상을 위한 적응 음향 반향 제거기를 구현하였다. 최근 들어 일고 있는 인간과 컴퓨터의 인터페이스를 쉽고 친밀하게 하려는 노력은 음성으로 제어하는 컴퓨터의 탄생을 예고하고 있다. 이러한 시스템을 전이중 모드에서 사용할 경우 음향 반향은 피할 수 없는 현상이다. 본 논문에서는 이러한 음향 반향을 제거하기 위해서 서브밴드 적응 필터 구조를 이용하여 실시간 처리가 가능한 음향 반향 제거기를 설계하였다. 또한, 동시통화시 음성의 왜곡을 줄이는 스위칭 구조를 사용하였다. 동시통화의 검출은 상호상관도를 이용하여 구현하였다. 이렇게 구현된 반향제거기를 음향 입출력 루틴과 음성 인식기와 결합하여 Windows 95상에서 실시간으로 동작하는 음성 명령어 인식 소프트웨어를 완성하였다. 모의 실험 및 실시간 실험을 통하여 반향 제거기의 성능을 검증하였고, 음성인식 실험을 수행하여 반향 제거기가 인식율 향상에 기여함을 확인하였다.

  • PDF

Voice Packet Conversion from 13kbps QCELP to 8kbps QCELP Speech Codecs (13kbps QCELP에서 8kbps QCELP로의 음성 패킷 변환 기술)

  • 박호종;권상철
    • The Journal of the Acoustical Society of Korea
    • /
    • v.18 no.6
    • /
    • pp.71-76
    • /
    • 1999
  • In digital cellular communication systems, tandem coding occurs in communications between mobile phones with different speech codecs, resulting in poor voice quality, high computational load, and long transmission delay. In this paper, voice packet conversion technique is proposed to solve the tandem coding problems, and packet conversion algorithm from 13kbps QCELP to 8kbps QCELP is developed. Simulations using various speech data show that the proposed packet conversion method produces voice quality which is equivalent to that by the conventional tandem coding method with shorter transmission delay using about 33% computational load.

  • PDF