• Title/Summary/Keyword: 모의 음성

Search Result 918, Processing Time 0.028 seconds

Optimized Time Scale Modification (TSM) System Integrating G,729 Speech Decoder and Dual SOLA Algorithm (G.729 음성 복호화기와 듀얼 SOLA 알고리즘을 통합한 최적의 음성 속도 변환 시스템)

  • 박규식;오승록;김선영
    • The Journal of the Acoustical Society of Korea
    • /
    • v.21 no.3
    • /
    • pp.293-303
    • /
    • 2002
  • This paper implements optimized Time Scale Modification (TSM) system using ITU G.729 speech decoder and Dual SOLA algorithm. The proposed system assume 8 Kz sampling rate, 80 samples/frame input speech from the ITU G.729 speech Decoder and the TSM (Time Scale Modification) feature of Dual SOLA produces the high quality output speech that was slow-down or speed up as a user's choice. Especially, the proposed Optimized Dual SOLA base on various simulations and theoretical analysis, and the additional interpolation procedure of the speech makes it possible to setup high performance integrated TSM system at the maximum time scale modification rate. The system performance is analyzed and verified with various input speech and playback speed.

Speech Recognition based on Variable Information Rate Model (가변 정보율 모델을 이용한 음성인식)

  • 김남수
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1995.06a
    • /
    • pp.171-174
    • /
    • 1995
  • 기존의 음성인식에서는 음성의 모든 구간의 정보적 중요도를 같게 두는 고정정보율 처리가 일반적이다. 고정 정보율 처리는 변화가 작은 장 구간을 변화가 큰 단 구간보다 중시하는 경향이 있기 때문에, 음성인식에는 부적절한 요소를 내포하고 있다. 본 논문에서는, 가변 정보율 모델을 제시하여, 음성인식 시, 가변정보율 처리를 수용하게 하였다. 음성의 각 구간마다 정보율 파라메타를 두어, 확률값 계산에 그 구간의 중요도를 반영하였다. 또한 maximum mutual information을 이용하여 정보율 파라메타를 학습시키는 방법을 제안하였다. 화자독립 연속어 인식 실험을 통하여, 가변정보율 모델을 이용한 방법이 기존의 고정 정보율 방법보다 우수한 인식 성능을 보임을 확인할 수 있었다.

  • PDF

A Study on the Robust Bimodal Speech-recognition System in Noisy Environments (잡음 환경에 강인한 이중모드 음성인식 시스템에 관한 연구)

  • 이철우;고인선;계영철
    • The Journal of the Acoustical Society of Korea
    • /
    • v.22 no.1
    • /
    • pp.28-34
    • /
    • 2003
  • Recent researches have been focusing on jointly using lip motions (i.e. visual speech) and speech for reliable speech recognitions in noisy environments. This paper also deals with the method of combining the result of the visual speech recognizer and that of the conventional speech recognizer through putting weights on each result: the paper proposes the method of determining proper weights for each result and, in particular, the weights are autonomously determined, depending on the amounts of noise in the speech and the image quality. Simulation results show that combining the audio and visual recognition by the proposed method provides the recognition performance of 84% even in severely noisy environments. It is also shown that in the presence of blur in images, the newly proposed weighting method, which takes the blur into account as well, yields better performance than the other methods.

Performance Analysis of Speech Recognition in Communication Systems using Speech Coder (음성 압축기를 사용한 통신 시스템에서의 음성 인식 성능 분석)

  • Han Sang-Wook;Jung Heui Suck;Park Hochong
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.179-182
    • /
    • 2002
  • 본 논문에서는 음성 압축기를 사용하는 디지털 이동통신 환경에서 한글 음성 인식기의 성능을 분석하기 위하여 다양한 표준 음성 압축기를 이용하여 음성 압축기의 구조, 전송률, 전송 채널의 에러율에 대한 성능을 측정하여 비교하였다. 동일한 구조의 음성 압축기에 대하여 전송률의 증가에 따라 음성 인식률이 증가하지만, 음성 압축기의 구조에 따라 동일 전송률에서도 많은 성능 차이가 발생하는 것을 확인하였다. 특히 IS-127 EVRC의 인식 성능이 매우 떨어지는 것을 알 수 있고, EVRC의 잡음 제거기와 가변 전송률에 의하여 음성 인식 성능이 저하되는 것을 확인하였다. 이를 통하여 청취 음질과 음성 인식 성능 사이의 상관 관계가 높지 않는 것을 알 수 있다. 모든 음성 압축기에 대하여 채널 에러율과 음성 인식기의 성능은 매우 밀접한 관계가 있음을 확인하였고, 평균적으로 채널 에러율 $1.0\%$에서 인식률이 $0.6\%$ 감소하고, 에러 $5.0\%$에서 인식률이 $1.8\%$ 감소한다.

  • PDF

A Study on the Fevelopment of Teal Time Speech Detection in PC (PC를 이용한 실시간 음성검출 알고리즘에 관한 연구)

  • Chung, Hoon;Chung, Kwon;Chung, Ik-joo
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1994.06c
    • /
    • pp.129-132
    • /
    • 1994
  • 본 논문에서는 윈도우즈용 음성인식 software "voice access"를 개발하여 연구한 실시간 음성검출 알고리즘에 관해 소개한다. 이 음성검출 알고리즘은 200 sample 단위의 프레임 에너지, 프레임 영교차율, 음성의 길이를 음성검출의 파라메타로 사용한다. 각 파라메타의 문턱값은 신호의 평균값, 잡음의 표준편차, 미디안 표준편차와 한국어의 음성적 특성을 고려하여 설정하였으며 주변의 환경에 적응해 가며 문턱값을 조정하므로 주변 잡음환경의 변화에 대해서도 강인한 음성검출 결과를 보여준다. 또한 실시간으로 음성을 검출하므로 실용성이 높다. 음성의 검출은 일반사운드 카드를 통해 16-bit의 8KHz로 샘플링된 신호를 사용한다. 음성검출을 위한 분석은 200 sample 씩 하고 100 sample 씩 overlap 하면서 수행한다. 음성검출을 위한 모든 분석은 특별한 DSP의 도움없이 486D 이상에서 실시간으로 구현했다.시간으로 구현했다.

  • PDF

Performance Improvement of CELP Speech Coder (CELP 음성 부호화기의 성능 향상 방법)

  • 박호종
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06e
    • /
    • pp.289-292
    • /
    • 1998
  • 본 논문에서는 CELP 음성 부호화기의 성능을 향상시키는 방법을 제안한다. 제안된 방법은 최적 코드북 검색 과정에서 추가적인 알고리듬의 지연 없이 미래 정보를 이용하고 두 인접한 코드북 부프레임 사이의 동시 최적화를 통하여 음성 부호화기의 성능을 향상시킨다. 또한, 제안된 코드북 검색 과정의 계산량을 조절하기 위한 방법도 제공된다. 제안된 방법의 성능을 검증하기 위하여 IS-96A QCELP 음성 부호화기를 이용하여 합성음의 스펙트럼과 Segmental SNR로 성능을 측정하는 모의실험을 실시하였으며, 제안된 방법을 적용한 QCELP 음성 부호화기가 기존의 QCELP에 비하여 향상된 성능을 보여주었다.

  • PDF

Echo Cancellation of Voice Communication over VoIP (VoIP 기반에서의 음성통신 반향제거)

  • Park, Kwon-Ho;Kim, Min-Soo;Lee, Seung-Whan;Oh, Hak-Joon;Chung, Chan-Soo
    • Proceedings of the KIEE Conference
    • /
    • 2002.07d
    • /
    • pp.2316-2318
    • /
    • 2002
  • 지금까지 디지털 통신에서는 반향이 통신품질의 관점에서 별다른 문제가 되지 않았다. 그러나 인터넷의 발달로 인하여 음성 데이터 통합(VoIP:Voice over Internet Protocol)을 이용한 인터넷폰의 사용이 요구되고 있으며, 시외 또는 국제 통화의 경우에 음성신호를 서킷에서 패킷으로 전송하는 과정에서 전송 지연 증가에 따른 반향에 대한 문제가 발생되고 있다. 본 논문에서는 VoIP 기반의 음성통신에서 발생하는 반향을 적응 반향제어기를 통해 제거하는 방법에 대해 연구하였다. 모의 실험을 통해 ECLMS 알고리즘을 적용한 반향제거기가 우수한 반향제거 성능을 보여줌을 확인하였다.

  • PDF

The Study of Comparison between RPE-LTP and VSELP Speech Coder (RPE-LTP와 VSELP 음성부호화기의 비교에 관한 연구)

  • 박대덕;김화준;심재훈;유재희;정하봉;서정하
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.19 no.9
    • /
    • pp.1838-1847
    • /
    • 1994
  • Until recently, they decided the standard of the digital mobile communication speech coding method and competively developed the more detailed techniques in North America, Europe, Japan, etc. But, we have not yet determined. In this paper, we compared the RPE-LTP speech coding algorithm, standard in Europe, with the VSELP speech coding algorith, standard in North America, with respect to the soruce coding. We described the comprehensive verification and comparison with each speech coder, and discussed the improvement plan. Next, we also compared the number of computations which affects the real time processing seriously. Moreover, we performed the simulation with the Korean speech data, concreting the algorithm of each speech coder. Finally, we compared the performance of each speech coder with segmental SNR and 5-point MOS. The number of computations was calculated, and the result was that the number of multiplication computing times of VSELP speech encoder was the largest. With 26 speech data, the segmental SNR of VSELP was calculated larger than that of RPE-LTP. The 5-point MOS test was performed, and the result was that the basic speech quality of VSELP was equivalent or better than that of RPE-LTP.

  • PDF

The Optimal and Complete Prompts Lists Generation Algorithm for Connected Spoken Word Speech Corpus (연결 단어 음성 인식기 학습용 음성DB 녹음을 위한 최적의 대본 작성 알고리즘)

  • 유하진
    • The Journal of the Acoustical Society of Korea
    • /
    • v.23 no.2
    • /
    • pp.187-191
    • /
    • 2004
  • This paper describes an efficient algorithm to generate compact and complete prompts lists for connected spoken words speech corpus. In building a connected spoken digit recognizer, we have to acquire speech data in various contexts. However, in many speech databases the lists are made by using random generators. We provide an efficient algorithm that can generate compact and complete lists of digits in various contexts. This paper includes the proof of optimality and completeness of the algorithm.

Prioritized Packet Reservation CDMA Protocolfor Integrated Voice and Data Services (CDMA 망에서의 음성 및 데이터 통합 서비스를 위한 우선권 기반의 패킷 예약 접속 프로토콜)

  • Kim, Yong-Jin;Kang, Chung-Gu
    • Journal of the Institute of Electronics Engineers of Korea TC
    • /
    • v.37 no.1
    • /
    • pp.32-43
    • /
    • 2000
  • In this paper, we investigate the existing medium access control (MAC) protocols to integrate the voice and data services in packet-based CDMA networks and furthermore, propose a new approach to circumvent the operational limits inherent in them. We propose the $P^2R$-CDMA (Prioritized Packet Reservation Code Division Multiple Access) protocol for the uplink in the synchronous multi-code CDMA system, which employs the centralized frame-based slot reservation along with the dynamic slot assignment in the base station using the QoS-oriented dynamic priority of individual terminal. The simulation results show that, as compared with the existing scheme based on the adaptive permission probability control (APC), the proposed approach can significantly improve the system capacity while guaranteeing the real-time requirement of voice service.

  • PDF