• Title/Summary/Keyword: 음성구간 검출

Search Result 158, Processing Time 0.021 seconds

Frequency Domain Double-Talk Detector Based on Gaussian Mixture Model (주파수 영역에서의 Gaussian Mixture Model 기반의 동시통화 검출 연구)

  • Lee, Kyu-Ho;Chang, Joon-Hyuk
    • The Journal of the Acoustical Society of Korea
    • /
    • v.28 no.4
    • /
    • pp.401-407
    • /
    • 2009
  • In this paper, we propose a novel method for the cross-correlation based double-talk detection (DTD), which employing the Gaussian Mixture Model (GMM) in the frequency domain. The proposed algorithm transforms the cross correlation coefficient used in the time domain into 16 channels in the frequency domain using the discrete fourier transform (DFT). The channels are then selected into seven feature vectors for GMM and we identify three different regions such as far-end, double-talk and near-end speech using the likelihood comparison based on those feature vectors. The presented DTD algorithm detects efficiently the double-talk regions without Voice Activity Detector which has been used in conventional cross correlation based double-talk detection. The performance of the proposed algorithm is evaluated under various conditions and yields better results compared with the conventional schemes. especially, show the robustness against detection errors resulting from the background noises or echo path change which one of the key issues in practical DTD.

A Improvement Method of the Speech Quality by Pitch Compensation in Transition Region in G.723.1 (전이구간에서의 피치보상에 의한 G.723.1 부호화기의 음질 향상 방법)

  • KIM JongKuk;BAE MyungJin
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.43-46
    • /
    • 2000
  • G.723.1 부호화기는 음성신호의 주기성을 피치와 피치 이득계수로, 스펙트럼 정보를 LSP(Line Spectrum Pair)로 부호화하고 있다. 그런데 주기성을 부호화 할 때 유성음의 피치가 일정한 안정구간과 피치가 변화하는 전이구간의 차이를 두지 않고 처리하여 전이구간에서의 정확한 피치검출이 이루어지지 않는다. 이러한 처리 때문에 전이구간에서의 음질의 열하가 발생하게 된다. 본 논문에서는 전이구간의 피치검출의 정확성을 높여 음질을 향상시킬 수 있는 새로운 알고리즘을 제안한다. 먼저 G.723.1 부호화기에서 검출되는 피치 이득계수를 이용하여 안정구간의 피치 이득계수의 문턱 값을 정한다. 그리고 피치 이득 계수가 문턱 값을 넘는 부분에 한하여 구해진 피치를 전후 10샘플을 조절하여 피치 이득계수를 다시 구하여 문턱 값에 가장 가까운 값을 대표피치 이득계수로 정하고 그때의 피치와 함께 부호화한다. 실험 결과 평균 0.6(dB) segmental SNR(Signal to Noise)과 평균0.12 MOS가 향상되었다.

  • PDF

Voice Activity Detection Based on Non-negative Matrix Factorization (비음수 행렬 인수분해 기반의 음성검출 알고리즘)

  • Kang, Sang-Ick;Chang, Joon-Hyuk
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.35 no.8C
    • /
    • pp.661-666
    • /
    • 2010
  • In this paper, we apply a likelihood ratio test (LRT) to a non-negative matrix factorization (NMF) based voice activity detection (VAD) to find optimal threshold. In our approach, the NMF based VAD is expressed as Euclidean distance between noise basis vector and input basis vector which are extracted through NMF. The optimal threshold each of noise environments depend on NMF results distribution in noise region which is estimated statistical model-based VAD. According to the experimental results, the proposed approach is found to be effective for statistical model-based VAD using LRT.

A Study on the Simple Algorithm for Discrimination of Voiced Sounds (유성음 구간 검출을 위한 간단한 알고리즘에 관한 연구)

  • 장규철;우수영;박용규;유창동
    • The Journal of the Acoustical Society of Korea
    • /
    • v.21 no.8
    • /
    • pp.727-734
    • /
    • 2002
  • A simple algorithm for discriminating voiced sounds in a speech is proposed in this paper. In addition to low-frequency energy and zero-crossing rate (ZCR), both of which have been widely used in the past for identifying voiced sounds, the proposed algorithm incorporates pitch variation to improve the discrimination rate. Based on TIMIT corpus, evaluation result shows an improvement of 13% in the discrimination of voiced phonemes over that of the traditional algorithm using only energy and ZCR.

Audio Mixer Algorithm for Enhancing Speech Quality of Multi-party Audio Telephony (다자간 음성통화 품질 향상을 위한 오디오 믹서 알고리즘)

  • Ryu, Sang-Hyeon;Kim, Hyoung-Gook
    • The Journal of the Acoustical Society of Korea
    • /
    • v.32 no.6
    • /
    • pp.541-547
    • /
    • 2013
  • The speech quality of multi-party audio telephony between two, three or more participants is decreased by audio volume imbalance, audio volume saturation and noise level increase. To solve this issue, this paper proposes an advanced audio mixing algorithm for software-based multi-point control unit. Our approach is based on the combined voice activity detection and gain control technique that consists of a set of algorithms that classify audio signals, estimate audio volumes, adjust gain factors and mix audio signals of all channels. The proposed audio mixing algorithm is computationally efficient, delivers high-quality speech, and is suitable for use in any practical multi-party audio telephony.

A Study on Real-time Discrimination of FM Radio Broadcast Speech/Music (실시간 FM 방송중 음악/음성 검출에 관한 연구)

  • 황진만;강동욱;김기두
    • Proceedings of the IEEK Conference
    • /
    • 2003.07e
    • /
    • pp.2136-2139
    • /
    • 2003
  • 본 논문은 FM 라디오 방송중의 오디오 신호를 블록단위로 음악 및 음성을 검출하는 알고리즘에 대한 것으로, 이를 기반으로 방송중의 노래(가요, 팝, 클래식‥‥)만을 자동으로 인식하여 녹음하는 알고리즘을 개발한다. 본 논문에서는 기존에 제안되었던 것[1-4]과 같이 단지 음악과 음성을 구분함과 동시에 음악구간의 논리적 조합으로 이루어진 노래를 자동으로 인식하여 녹음하는 것을 알고리즘의 최종 목표로 한다. 알고리즘의 접근 역시 기존의 음소단위의 모델링을 거치는 GMM 기반의 접근이 아니기 때문에 모델링에 대한 훈련과정이 필요 없고, 시간영역에서의 오디오신호가 가지고 있는 직관적인 특징을 분석함으로써 비교적 적은 연산으로 실시간 구현이 가능하다.

  • PDF

인터넷 전화에서 통화품질 향상을 위한 묵음 처리 기법

  • 황인환;최대석;이정태
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10c
    • /
    • pp.222-224
    • /
    • 2000
  • 본 연구에서는 인터넷전화에서 전체 음성 트래픽의 56% 이상을 차지하는 묵음을 제거해줌으로써 네트워크 트래픽을 줄여 통화품질을 향상시키기 위한 방안을 제안하고 그 성능을 분석하였다. 묵음을 검출하기 위해서 평균 에너지 값을 이용하는 방법을 사용하였으며, 묵음을 제거함으로써 발생하는 음성과 묵음간의 부자연스러움에 대한 해결 방안 및 음성이면서 묵음구간에 포함되어 제거되는 프레임에 대한 보상기법을 제안하였다.

  • PDF

On a Research of Improving the Performance of Voice Activity Detector in G.723.1 (G.723.1 음성 활동 검출 장치 성능 향상에 관한 연구)

  • JANG KyungA;KIM JeongJin;Chang YoungOh;HONG SeongHoon;BAE MyungJin
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.53-56
    • /
    • 1999
  • ITU-T 국제 표준화 기구에서 인터넷 폰과 화상회의를 목적으로 개발된 G.723.1 음성 부호화기는 잡음 구간에서의 전송률을 낮추기 위한 방법으로 VAD(Voice Activity Detector)와 CNG(Comfort Noise Generator)를 사용하고 있다 이중 VAD는 최종적으로 현재 프레임의 에너지 레벨을 비교하여 음성의 활동 유무를 판정하고 있다. 하지만 G.723.1 VAD에서는 보다 안정적인 판정을 위해 음성 활동 구간 사이에 삽입되어 있는 묵음 구간에 대해서는 거의 대부분 음성이 활동하는 영역으로 판정을 하고 있다. 따라서 본 논문에서는 묵음 구간에 대해 보다 정확한 판정을 통하여 기존의 방법에 비해 전송율을 더욱 감소시킬 수 있는 방법을 제안한다. 실험에서는 묵음구간을 길게 조절한 문장을 사용하여 측정한 결과 평균 $46.8\%$ 정도의 전송율을 감소시킬 수 있었으며, 주관적인 음질평가의 경우 음질의 열하는 거의 발생하지 않았다.

  • PDF

Segmentation of the Korean speech signals into phonetic units using the super resolution pitch determination (고해상 피치검출을 이용한 한국어 음성신호의 음소분리)

  • 이응구;이두수
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.18 no.2
    • /
    • pp.270-278
    • /
    • 1993
  • This paper is presented the phonetic segmentation alg9rithm of the Korean speech signals which is finded the exact pitch using the super resoluton pitch determination and is compared corss-correlation to threshold each pitch period. The features of the proposed algorithm are infinite resolution and high reliability, and also can separate transient or silent segment. The algorithm is instrumental to speech processing applications which require vector quantization and speech recognition. The presented algorithm is implemented by 386-MATLAB on PC 386/DX and is verified the exact pitch period and the phonetic segmentation of speech signals.

  • PDF

Reduction Algorithm of Environmental Noise by Multi-band Filter (멀티밴드필터에 의한 환경잡음억압 알고리즘)

  • Choi, Jae-Seung
    • Journal of the Korea Society of Computer and Information
    • /
    • v.17 no.8
    • /
    • pp.91-97
    • /
    • 2012
  • This paper first proposes the speech recognition algorithm by detection of the speech and noise sections at each frame, then proposes the reduction algorithm of environmental noise by multi-band filter which removes the background noises at each frame according to detection of the speech and noise sections. The proposed algorithm reduces the background noises using filter bank sub-band domain after extracting the features from the speech data. In this experiment, experimental results of the proposed noise reduction algorithm by the multi-band filter demonstrate using the speech and noise data, at each frame. Based on measuring the spectral distortion, experiments confirm that the proposed algorithm is effective for the speech by corrupted the noise.