• Title/Summary/Keyword: 음성구간과 피치검출

Search Result 21, Processing Time 0.03 seconds

A Study on the Noise-Level Measurement using the Energy and relation of closed pitch (에너지와 인근피치간에 유사도를 이용한 잡음레벨 검출에 관한 연구)

  • Kang InGyu;Bae MyungJin
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.77-80
    • /
    • 2004
  • 인간은 "습관적 피치 레벨" 즉 자연스럽게 말할 때 평균적으로 사용하는 피치를 갖는다. 하지만 음성에 잡음이 첨가 되면 이 피치가 불규칙하게 바뀌게 된다. 이점을 이용하여 음성의 잡음레벨을 측정할 수 있다. 본 논문에서는 입력음성의 에너지를 구하고 일정 에너지레벨 이상에서의 구간에 대해 NAMDF(Normalized Average Magnitude Difference Function)방법으로 피치를 구하고, 각 프레임을 피치단위로 분절한 뒤 인근 피치간의 유사도를 측정하여 입력음성데이터의 잡음레벨을 검출하는 방법을 제안하였다.

  • PDF

A Study on the Improvement of Speaker Recognition System by Voice Activity Detection (음성구간검출을 통한 화자식별 시스템의 성능개선에 관한 연구)

  • 신동성;정영훈;배명진
    • Proceedings of the IEEK Conference
    • /
    • 2001.09a
    • /
    • pp.789-792
    • /
    • 2001
  • 성능향상에 관한 실험을 하였다. 화자식별 방식은 등록된 음성과 테스트 음성을 비교하여 결정논리에 의하여서 화자를 식별하는 방식이다. 이러한 시스템에서 전처리(preprocessing)를 어떻게 해 주느냐에 따라서 인식률에 큰 영향을 미치게 된다. 본 논문에서는 전처리 과정 중에서 음성구간 검출에 대한 실험을 수행하여 성능을 비교 하였다. 본 논문에서는 시간영역에서 안정구간(stationary region)과 전이구간(transition region)에서 Normalized AMDF를 적용하였을 때 피치점에서 골(valley)의 기울기가 크다는 점을 이용하여 유성을 검출하였다. 그리고 검출된 유성음 구간 앞뒤로 인접 샘플의 자기상관관계함수(Autocorrelation)의 비를 이용하여 무성음을 검출하였다. 결과적으로 처리시간은 비슷하였으나 전체 인식률은 약 2%정도 개선되었다.

  • PDF

The Speech Enhancement of G.723.1 Vocoder by the Improvement of Pitch Accuracy Using a Flattened Energy in a Transient Period (전이구간에서의 Energy 평탄화를 통한 피치정확도 향상에 의한 G.723.1 Vocoder의 음질향상)

  • Park Won;Kim JungJin;Bae MyungJin
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.59-62
    • /
    • 2000
  • 화상회의 및 인터넷폰을 목적으로 개발된 G.723.1은 CELP계열 보코더와 같이 화자의 개성정보를 위해 피치를 전송하고 있다. 하지만 안정구간과 비 안정구간의 차이를 두지 않고 처리를 하기 때문에 비 안정구간, 특히 전이구간에서 정확한 피치검출이 이루어지지 않는 이유로 음질의 열하가 발생하게 된다. 따라서 본 논문에서는 한 프레임 구간에서 에너지의 기울기로 대략적인 피치이득을 구한 다음 안정구간일 때와 프레임 내의 에너지의 기울기가 문턱 값을 넘을 때에는 기존의 방법으로 피치를 구하고 그런지 않은 경우에는 에너지를 조정하여 피치를 다시 구하는 방법을 사용하였다. 실제 음성시료에 대해 기존의 방법과 제안한 방법을 비교하기 위해 SegSNR 과 MOS를 비교하였을 때 각각 1.302(dB)와 평균 0.045 MOS가 향상되었다.

  • PDF

A Study on the relation of closed pitch for Noise-Level Measurement (음성의 잡음레벨 추정을 위한 피치간 유사도 측정에 관한 연구)

  • Kang InGyu;Kang SungMo;Bae MyungJin
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.73-76
    • /
    • 2004
  • 인간은 "습관적 피치 레벨" 즉 자연스럽게 말할 때 평균적으로 사용하는 피치를 갖는다. 하지만 음성에 잡음이 첨가되면 이 피치가 불규칙하게 바뀌게 된다. 이점을 이용하여 음성의 잡음레벨을 측정할 수 있다. 본 논문에서는 입력음성의 에너지를 구하고 일정 에너지레벨 이상에서의 구간에 대해 NAMDF(Normalized Average Magnitude Difference Function)방법으로 피치를 구하고, 각 프레임을 피치단위로 분절한 뒤 인근 피치간의 유사도를 측정하여 입력음성데이터의 잡음레벨을 검출하는 방법을 제안하였다.

  • PDF

Pitch Period Detection Algorithm Using Rotation Transform of AMDF (AMDF의 회전변환을 이용한 피치 주기 검출 알고리즘)

  • Seo, Hyun-Soo;Bae, Sang-Bum;Kim, Nam-Ho
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • v.9 no.2
    • /
    • pp.1019-1022
    • /
    • 2005
  • As recent information communication technology is rapidly developed, a lot of researches related to speech signal processing have been processed. So pitch period is applied as important factor to many application fields such as speech recognition, speaker identification, speech analysis and synthesis. Therefore, many algorithms related to pitch detection have been proposed in time domain and frequency domain and AMDF(average magnitude difference function) which is one of pitch detection algorithms in time domain chooses time interval from valley to valley as pitch period. But, in selection of valley point to detect pitch period, complexity of the algorithm is increased. So in this paper we proposed pitch detection algorithm using rotation transform of AMDF, that taking the global minimum valley point as pitch period and established a threshold about the phoneme in beginning portion, to exclude pitch period selection. and compared existing methods with proposed method through simulation.

  • PDF

A Study on the Simple Algorithm for Discrimination of Voiced Sounds (유성음 구간 검출을 위한 간단한 알고리즘에 관한 연구)

  • 장규철;우수영;박용규;유창동
    • The Journal of the Acoustical Society of Korea
    • /
    • v.21 no.8
    • /
    • pp.727-734
    • /
    • 2002
  • A simple algorithm for discriminating voiced sounds in a speech is proposed in this paper. In addition to low-frequency energy and zero-crossing rate (ZCR), both of which have been widely used in the past for identifying voiced sounds, the proposed algorithm incorporates pitch variation to improve the discrimination rate. Based on TIMIT corpus, evaluation result shows an improvement of 13% in the discrimination of voiced phonemes over that of the traditional algorithm using only energy and ZCR.

A Study on the Epoch Extraction of Voicd Speech (유성음 구간에서의 Epoch 추출에 관한 연구)

  • 강동규
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1995.06a
    • /
    • pp.216-220
    • /
    • 1995
  • 음성 신호처리분야의 기반을 이루고 잇는 선형예측기법으로 성대폐쇄구간 분석이 가능해질 경우 특히 음성합성가 부호화 시스템의 상당한 성능개선을 기대할 수 있기 때문에 최근 관련 분야에서 높은 신뢰도를 갖는 GCI 검출 알고리즘 개발에 많은 관심을 보이고 있다. 성대폐쇄구간 검출에서 가장 중요한 것은 성대폐쇄시점에 관한 정보이며, 본 논문에서는 이에 대응될 수 있는 정보인 epoch를 음성신호에서 직접 추출할 수 있는 기법을 제안하였다. 제안된 방법은 프레임 단위별 평균 피치를 참조하여 저역통과된 유성음 신호에서 3구간 영교차점별 평균진폭 변동율에 의해 pseudo-epoch를 검출한다. 대역 통과된 유성음 신호를 이용하여 pseudo-epoch 부근에 존재하는 보다 정밀한 실제 epoch을 최종적으로 결정하였다. 제안된 방법은 단계적으로 epoch가 존재할 수 있는 연역을 좁혀 나아가면서 처리하므로 검출오차를 줄일 수 있었고, 시간영역에서 처리되어 계산량이 적으므로 고속 처리가 가능하였다. 성능평가를 위해 처리결과를 EGG 신호와 비교한 결과 약 2샘플 정도의 오차만을 갖는 우수한 성능을 나타내었다.

  • PDF

Improvement of VAD Performance for the Reduction of the Bit Rate Under the Noise Environment in the G.723.1 (잡음 환경에서의 전송률 감소를 위한 G.723.1 음성활동 검출기 성능 개선에 관한 연구)

  • 김정진;장경아;배명진
    • The Journal of the Acoustical Society of Korea
    • /
    • v.20 no.3
    • /
    • pp.42-47
    • /
    • 2001
  • This paper improves the performance of VAD (Voice Activity Detector) in G.723.1 Annex A 6.3kbps/5.3kbps dual rate speech coder, which is developed for Internet Phone and videoconferencing. The VAD decision is based on a three-level energy threshold. We evaluates for processing time, speech quality, and bit rate. The processing time is reduced due to the accuracy of VAD decision on the silence period. On subjective quality test there is almost no difference compared with the G.723.1. In order to measure the bit rate we count the active speech frame (VAD=1) and we can reduce more bit rate as silence periods are shown.

  • PDF

Fast Speech Recognition System using Classification of Energy Labeling (에너지 라벨링 그룹화를 이용한 고속 음성인식시스템)

  • Han Su-Young;Kim Hong-Ryul;Lee Kee-Hee
    • Journal of the Korea Society of Computer and Information
    • /
    • v.9 no.4 s.32
    • /
    • pp.77-83
    • /
    • 2004
  • In this paper, the Classification of Energy Labeling has been proposed. Energy parameters of input signal which are extracted from each phoneme are labelled. And groups of labelling according to detected energies of input signals are detected. Next. DTW processes in a selected group of labeling. This leads to DTW processing faster than a previous algorithm. In this Method, because an accurate detection of parameters is necessary on the assumption in steps of a detection of speeching duration and a detection of energy parameters, variable windows which are decided by pitch period are used. A pitch period is detected firstly : next window scale is decided between 200 frames and 300 frames. The proposed method makes it possible to cancel an influence of windows and reduces the computational complexity by $25\%$.

  • PDF

On a detecting the transition segments of speech signal by energ approximatio degree of the synchronized pitch (피치 동기된 에너지 유사도에 의한 음성신호의 전이구간 검출)

  • 김종득;박형빈;김대호;배명진
    • Proceedings of the IEEK Conference
    • /
    • 1998.06a
    • /
    • pp.603-606
    • /
    • 1998
  • In a large number of words and the continued speech recognition system using a phoneme as teh recognition unit, it is necessary to segment processing. In this paper, a normalized AMDF new method. The suggested parameter represents a degree of sharpness at valley point. This method can detect the speech segment between the steady state and transient region to the continued speech without a prior information of speech signal.

  • PDF