• Title/Summary/Keyword: 음성 특성

Search Result 1,823, Processing Time 0.032 seconds

Modeling and Analysis of Delay Bound for Voice Traffic in the IEEE 802.11 Wireless LAN (IEEE 802.11 무선랜에서 음성신호의 딜레이 바운드에 관한 분석)

  • Choi, Won-Suk;Kim, Young-Yong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.05b
    • /
    • pp.1485-1488
    • /
    • 2003
  • IEEE 802.11 무선 랜 환경에서 멀티미디어 트래픽이 효과적으로 전송퇴기 위해서는 정해진 딜레이 바운드내에서 전송이 완료되어야 한다 대표적인 멀티미디어 트래픽인 음성신호를 전송할 때의 단방향 딜레이 바운드는 echo canceller를 쓰지 않았을 경우 $25ms{\sim}30ms$ 이다. 딜레이 바운드를 지키지 못하고 전송된다면 시간에 민감한 음성신호의 특성 때문에 음성품질이 유지되지 않을 뿐만 아니라 채널의 혼잡을 유발하게 된다. 본 논문에서는 음성의 품질이 보장되는 기준을 95%이상의 패킷이 성공적으로 전달되는 경우로 제한하여 음성의 딜레이 바운드에 관한 분석을 시도하였다. 이를 위해 음성패킷이 drop될 확률을 수학적인 분석을 통해 유도하고 시뮬레이션을 통한 검증을 시도하였다. 시뮬레이션에서는 IEEE 802.11의 두 가지 기본적인 MAC(Multiple Access Control) 프로토콜인 DCF와 PCF를 사용해서 음성신호를 전송할 때 딜레이 바운드를 지키지 못하는 음성 패킷을 사전에 drop 시킴으로써 몇 개의 음성 노드가 손실율 5% 이내 (음성의 품질이 유지되는 한계)를 만족시키는지를 음성신호를 발생시키는 STA 수와 손실율의 관계를 통해 알아보았다.

  • PDF

A Discriminative Training Algorithm for Speech Recognizer Based on Predictive Neural Network Models (예측신경회로망 모델 음성인식기의 변별력있는 학습 알고리즘)

  • 나경민
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1993.06a
    • /
    • pp.242-246
    • /
    • 1993
  • 예측신경회로망 모델은 다층 퍼셉트론을 연속되는 음성특징 벡터간의 비선형예측기로 사용하는 동적인 음성인식 모델이다. 이 모델은 음성의 동적인 특성을 인식에 이용하고 연속음성인식으로의 확장이 용이한 우수한 인식 모델이다. 그러나, 예측신경회로망 모델은 음운학적으로 유사한 음성구간에서의 변별력이 낮다는 문제점이 있다. 그것은 기존의 학습 알고리즘이 다른 어휘와의 거리는 고려하지 않고 대상어휘의 예측오차만 최소화시키기 때문이다. 따라서, 본 논문에서는 직접 인식오차를 최소화시키는 GPD알고리즘에 의해 유사어휘간의 거리를 고려하는 변별력있는 학습 알고리즘을 제안한다.

  • PDF

The Role of the Electroglottography on Laryngeal Articulatory Dynamics (전기 Glottographyy(EGG)에 의한 후두구 음력학적 특성)

  • 홍기환;김현기
    • Proceedings of the KSLP Conference
    • /
    • 1996.11a
    • /
    • pp.93-93
    • /
    • 1996
  • 최근 많은 음성검사기들의 개발에 의해 발성의 원리에 대한 많은 연구가 진행되었고 실제 임상에 이용되므로써 각종 음성질환의 기전을 연구하는데 많은 도움이 되어왔다. 그중 전기 glottogra-phy(EGG)는 값싸고 완전히 noninvasive한 음성검사기로서 각종 음성질환에 대해 진단, 치료 및 예후판정 등에 이용되어왔으며, 또한 정상 발성시의 성대진동 기전에 대해 연구되어왔다. 그러나 판독하는데 있어 실제 많은 논란이 있는데 이러한 논란은 복잡한 성 대진동 양상에 의해 생기는 것으로 EGG에 의한 양측 성대 사이의 전기 저항도는 실제 성문의 열림의 정도를 의미하는 것이 아니라 성문접촉율을 의미하기 때문이다. (중략)

  • PDF

A Crowd Noise Reduction Model for Speech Signal processing (음성 신호처리를 위한 군중잡음 제거 모델)

  • 안용운;김중환;김상철
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10d
    • /
    • pp.502-504
    • /
    • 2002
  • 군중잡음(crowd noise)이 발생하는 환경에서 음성 통화 및 화자 인식을 할 때에는 음성에 파열음이나 마찰음과 같은 유색잡음(colored noise)이 부가되어 원래 음성이 왜곡된다. 이와 같이 왜곡된 음성 신호를 처리할 때에는 군중잡음을 제거하는 과정이 반드시 필요하다. 본 논문에서는 군중잡음의 특성을 분석하고, 그 결과를 이용하여 음성 신호처리 시에 효과적으로 군중잡음만을 제거할 수 있는 모델을 제안한다. 제안된 모델은 시간 영역에서는 침묵 구간을 검출하여 마찰음과 파열음을 제거하는 과정과 주파수 영역에서는 잡음 평균을 생성하고 이를 이용한 스펙트럼 차감법(spectral subtraction)으로 군중 잡음을 제거하는 과정으로 이루어진다.

  • PDF

Classification of muscle tension dysphonia (MTD) female speech and normal speech using cepstrum variables and random forest algorithm (켑스트럼 변수와 랜덤포레스트 알고리듬을 이용한 MTD(근긴장성 발성장애) 여성화자 음성과 정상음성 분류)

  • Yun, Joowon;Shim, Heejeong;Seong, Cheoljae
    • Phonetics and Speech Sciences
    • /
    • v.12 no.4
    • /
    • pp.91-98
    • /
    • 2020
  • This study investigated the acoustic characteristics of sustained vowel /a/ and sentence utterance produced by patients with muscle tension dysphonia (MTD) using cepstrum-based acoustic variables. 36 women diagnosed with MTD and the same number of women with normal voice participated in the study and the data were recorded and measured by ADSVTM. The results demonstrated that cepstral peak prominence (CPP) and CPP_F0 among all of the variables were statistically significantly lower than those of control group. When it comes to the GRBAS scale, overall severity (G) was most prominent, and roughness (R), breathiness (B), and strain (S) indices followed in order in the voice quality of MTD patients. As these characteristics increased, a statistically significant negative correlation was observed in CPP. We tried to classify MTD and control group using CPP and CPP_F0 variables. As a result of statistic modeling with a Random Forest machine learning algorithm, much higher classification accuracy (100% in training data and 83.3% in test data) was found in the sentence reading task, with CPP being proved to be playing a more crucial role in both vowel and sentence reading tasks.

On the Perceptually Important Phase Information in Acoustic Signal (인지에 중요한 음향신호의 위상에 대해)

    • The Journal of the Acoustical Society of Korea
    • /
    • v.19 no.7
    • /
    • pp.28-33
    • /
    • 2000
  • For efficient quantization of speech representation, it is common to incorporate Perceptual characteristics of human hearing. However, the focus has been confined only to the magnitude information of speech, and little attention has been paid to phase information. This paper presents a novel approach, termed perceptually irrelevant phase elimination (PIPE), to find out irrelevant phase information of acoustic signals in terms of perception. The proposed method, which is based on the observation that the relative phase relationship within a critical band is perceptually important, is derived not only for stationary Fourier signal but also for harmonic signal. The proposed method is incorporated into the analysis/synthesis system based on harmonic representation of speech, and subjective test results demonstrate the effectiveness of proposed method.

  • PDF

Voice Activity Detection in Noisy Environment using Speech Energy Maximization and Silence Feature Normalization (음성 에너지 최대화와 묵음 특징 정규화를 이용한 잡음 환경에 강인한 음성 검출)

  • Ahn, Chan-Shik;Choi, Ki-Ho
    • Journal of Digital Convergence
    • /
    • v.11 no.6
    • /
    • pp.169-174
    • /
    • 2013
  • Speech recognition, the problem of performance degradation is the difference between the model training and recognition environments. Silence features normalized using the method as a way to reduce the inconsistency of such an environment. Silence features normalized way of existing in the low signal-to-noise ratio. Increase the energy level of the silence interval for voice and non-voice classification accuracy due to the falling. There is a problem in the recognition performance is degraded. This paper proposed a robust speech detection method in noisy environments using a silence feature normalization and voice energy maximize. In the high signal-to-noise ratio for the proposed method was used to maximize the characteristics receive less characterized the effects of noise by the voice energy. Cepstral feature distribution of voice / non-voice characteristics in the low signal-to-noise ratio and improves the recognition performance. Result of the recognition experiment, recognition performance improved compared to the conventional method.

The suppression of noise-induced speech distortions for speech recognition (음성인식을 위한 잡음하의 음성왜곡제거)

  • Chi, Sang-Mun;Oh, Yung-Hwan
    • Journal of the Korean Institute of Telematics and Electronics S
    • /
    • v.35S no.12
    • /
    • pp.93-102
    • /
    • 1998
  • In noisy environments, human speech productions are influenced by noises(Lombard effect), and speech signals are contaminated. These distortions dramatically reduce the performance of speech recognition systems. This paper proposes a method of the Lombard effect compensation and noise suppression in order to improve speech recognition performance in noise environments. To estimate the intensity of the Lombard effect which is a nonlinear distortion depending on the ambient noise levels, speakers, and phonetic units, we formulate the measure of the Lombard effect level based on the acoustic speech signal, and the measure is used to compensate the Lombard effect. The distortions of speech under noisy environments are cancelled out as follows. First, spectral subtraction and band-pass filtering are used to cancel out noise. Second, energy nomalization is proposed to cancel out the variation of vocal intensity by the Lombard effect. Finally, the Lombard effect level controls the transform which converts Lombard speech cepstrum to clean speech cepstrum. The proposed method was validated on 50 korean word recognition. Average recognition rates were 82.6%, 95.7%, 97.6% with the proposed method, while 46.3%, 75.5%, 87.4% without any compensation at SNR 0, 10, 20 dB, respectively.

  • PDF

Dynamic Slot Allocation Scheme for Voice Service in WATM (WATM에서 음성 서비스를 위한 동적 슬롯 할당 알고리즘)

  • 김관웅;박준성;정경택;전병실
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.26 no.9A
    • /
    • pp.1601-1608
    • /
    • 2001
  • 본 논문에서는 무선 ATM 환경에서 음성과 같은 실시간 서비스가 요구되는 트래픽의 QoS를 보장하기 위한 구현 방법을 제안하였다. 음성은 셀이 발생되는 토크스퍼트 구간과 셀이 발생되지 않는 휴지구간이 주기적으로 반복되는 특성을 갖는다. 따라서 음성과 같은 실시간 서비스의 QoS를 보장하기 위해서는 휴지구간 상태에 있는 음성단말의 수와 음성단말의 상태를 고려하여 음성단말의 수에 관계없이 일정한 QoS를 보장할 수 있어야 한다. 음성단말의 수에 관계없이 일정한 연결 지연시간을 제공하기 위하여, 휴지 상태에 있는 음성 단말 수와 휴지 상태의 지속시간에 따라서 동적으로 음성 예약 슬롯을 할당하는 방식을 제안한다. 컴퓨터 시뮬레이션을 통하여 slotted-ALOHA나 NC-PRMA 같은 기존의 슬롯 할당방법과 비교하였으며, 그 결과 제안된 방법이 동적으로 예약슬롯을 할당하여 부하에 관계없이 음성 트래픽에 일정한 지연시간과 낮은 충돌율을 제공하면서 프레임에 예약슬롯의 오버헤드를 최소화하므로, 채널 사용 효율을 높일 수 있음을 알 수 있었다.

  • PDF