• 제목/요약/키워드: unvoiced sound

검색결과 22건 처리시간 0.021초

프레임 분류와 합성필터의 변형을 이용한 적은 지연을 갖는 음성 부호화기의 성능 (Improving LD-CELP using frame classification and modified synthesis filter)

  • 임은희;이주호;김형명
    • 한국통신학회논문지
    • /
    • 제21권6호
    • /
    • pp.1430-1437
    • /
    • 1996
  • 중간 주파수 대역(8kbps) 이하에서 적은 지연을 갖는 벡터여기 선형예측 음성 부호화기(LD-CELP)에 대하여 고려한다. 합성필터를 입력 프레임의 종류에 따라 변화시켜 음성 부호화기의 성능을 향상시키고자 한다. 먼저 프레임을 유성음과 무성음 그리고 개시 프레임으로 분류한다. 유성음과 무성음 프레임에서는 합성필터의 스펙트럼 포락을 음운의 특성에 적합하도록 변화시킨다. 개시 프레임에서는 합성필터의 성격을 바꾸어주기 위하여 바이어스 필터를 이용한다. 제안된 부호화기는 다른 적은 지연을 갖는 벡터여기 선형예측 음성 부호화기들에 비하여 비슷한 지연시간을 갖으면서 더 나은 음질을 제공하였다.

  • PDF

Korean Native Speakers' Perception of English Sounds According to the Groupings of Phonetic Contrasts

  • Kim, Gi-Na;Kim, Soo-Jin
    • 음성과학
    • /
    • 제10권1호
    • /
    • pp.59-67
    • /
    • 2003
  • The purpose of this study was to investigate Korean native speakers' perception of English sounds according to groupings of phonetic contrasts. The four groupings looked at were vowels, voicing (voiced-unvoiced), fricatives with difference in place of articulation, and other clusters of specific sound contrasts, such as stop-fricatives and liquids. The position of a sound in syllable was also examined. According to the results of ANOVA and a post-hoc analysis, the perception of vowels, in the medial position was different from that of consonants in the initial and final position. Vowels proved to be the most difficult group to perceive correctly. With the consonants, there was not a big difference whether the contrasts came initially or finally. The order of difficulty was liquids, fricatives, stop-fricatives, and finally voicing.

  • PDF

웨이브렛 계수의 표준편차를 이용한 음성신호의 적응 잡음 제거 (Adaptive Noise Reduction using Standard Deviation of Wavelet Coefficients in Speech Signal)

  • 황향자;정광일;이상태;김종교
    • 감성과학
    • /
    • 제7권2호
    • /
    • pp.141-148
    • /
    • 2004
  • 일상생활의 대화중에 포함되는 잡음, 특히 모든 주파수 대역에 포함되는 백색잡음에 의해 오염된 음성신호는 청각적으로 심한 불쾌감과 거부감을 주며 대화의 명료성을 저해시키는 요인으로 작용할 수 있다. 본 논문은 이러한 잡음환경 하에서 음성인식을 위하여 음성에 부가된 잡음을 제거하는 방범으로 프레임 단위로 웨이브렛 변환을 하여 웨이브렛 계수의 표준편차를 이용하여 시간 적응 임계값을 정하는 새로운 방법을 제안한다. 음성의 특성을 고려하기 위하여 고주파 성분을 많이 가지는 무성음의 경우는 cD1 신호에서, 저주파 성분을 많이 가지는 유성음의 경우는 cA3 신호의 표준편차를 이용하여 시간 적응 임계값을 설정하였다. 실험을 통해 제안한 방법이 일반적인 웨이브렛 변환과 웨이브렛 패킷 변환을 이용한 방법보다 SNR과 MSE 측면에서 향상됨을 확인할 수 있었다. 또한 웨이브렛 변환과 웨이브렛 패킷 변환에서는 파열음, 마찰음 및 파찰음 성분이 많이 제거되는 반면 제안한 방법은 본래 신호와 유사하게 복원됨을 실험 결과 확인할 수 있었다.

  • PDF

웨이브렛 변환을 이용한 음성의 적응 잡음 제거 (Adaptive Noise Reduction of Speech Using Wavelet Transform)

  • 이창기;김대익
    • 한국전자통신학회논문지
    • /
    • 제4권3호
    • /
    • pp.190-196
    • /
    • 2009
  • 본 논문은 잡음 환경의 음성 인식을 위하여 음성에 부가된 잡음을 제거하는 방법으로 프레임 단위로 웨이브렛 변환을 하여 웨이브렛 계수의 표준편차를 이용하여 시간 적응 임계값을 정하는 새로운 방법을 제안한다. 음성의 특성을 고려하기 위하여 고주파 성분을 많이 가지는 무성음의 경우는 첫 번째 스케일의 detail 신호에서, 저주파 성분을 많이 가지는 유성음의 경우는 세 번째 스케일의 approximation 신호의 표준편차를 이용하여 시간 적응 임계값을 설정하였다 또한 제안한 방법으로 잡음을 제거한 후에도 묵음구간에 잔여 잡음이 존재하게 되므로 묵음구간을 검출하여 묵음구간의 잔여 잡음을 제거하였다 실험을 통해 제안한 방법이 일반적인 웨이브렛 변환과 웨이브렛 패킷 변환을 이용한 방법보다 SNR과 MSE측면에서 향상됨을 확인 할 수 있었다.

  • PDF

웨이브렛 변환을 이용한 음성의 적응 잡음 제거 (Adaptive Noise Reduction of Speech using Wavelet Transform)

  • 임형규;김철수
    • 한국컴퓨터산업학회논문지
    • /
    • 제6권2호
    • /
    • pp.271-278
    • /
    • 2005
  • 본 논문은 잡음 환경의 음성 인식을 위하여 음성에 부가된 잡음을 제거하는 방법으로 프레임 단위로 웨이브렛 변환을 하여 웨이브렛 계수의 표준편차를 이용하여 시간 적응 임계값을 정하는 새로운 방법을 제안한다. 음성의 특성을 고려하기 위하여 고주파 성분을 많이 가지는 무성음의 경우는 첫 번째 스케일의 detail 신호에서, 저주파 성분을 많이 가지는 유성음의 경우는 세 번째 스케일의 approximation 신호의 표준편차를 이용하여 시간 적응 임계값을 설정하였다. 또한 제안한 방법으로 잡음을 제거한 후에도 묵음구간에 잔여 잡음이 존재하게 되므로 묵음구간을 검출하여 묵음구간의 잔여 잡음을 제거하였다. 실험을 통해 제안한 방법이 일반적인 웨이브렛 변환과 웨이브렛 패킷 변환을 이용한 방법보다 SNR과 MSE측면에서 향상됨을 확인 할 수 있었다.

  • PDF

Speech Noise Cancellation using Time Adaptive Threshold Value in Wavelet Transform

  • Lee Chul-Hee;Lee Ki-Hoon;Hwang Hyang-Ja;Moon In-Seob;Kim Chong-Kyo
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2004년도 ICEIC The International Conference on Electronics Informations and Communications
    • /
    • pp.244-248
    • /
    • 2004
  • This paper proposes a new noise cancellation method for speech recognition in noise environments. We determine the time adaptive threshold value using standard deviations of wavelet coefficients after wavelet transform by frames. The time adaptive threshold value is set up by using sum of standard deviations of wavelet coefficients in cA3 and weighted cD1. cA3 coefficients represent the voiced sound with lower frequency components and cD1 coefficients represent the unvoiced sound with higher frequency components. In experiments, we removed noise after adding white Gaussian noise and colored noise to original speech. The proposed method improved SNR and MSE more than wavelet transform and wavelet packet transform does. As a result of speech recognition experiment using noise speech DB, recognition performance is improved by $2\sim4\;\%.$

  • PDF

피치 하모닉 움직임 예측과 적응적 신호 크기 예측을 이용한 패킷 손실 은닉 알고리즘 (Packet Loss Concealment Algorithm Using Pitch Harmonic Motion Estimation and Adaptive Signal Scale Estimation)

  • 김태하;이인성
    • 한국정보전자통신기술학회논문지
    • /
    • 제14권4호
    • /
    • pp.247-256
    • /
    • 2021
  • 본 논문에서는 피치 하모닉 움직임 예측과 적응적 신호 크기 예측을 이용한 패킷 손실 알고리즘을 제안한다. 스펙트럼 움직임 예측 방법은 사용 가능한 이전 패킷의 스펙트럼 상의 움직임을 일정한 부대역으로 나누어 손실된 신호의 움직임을 예측하여 복원한다. 제안하는 알고리즘에서는 음성신호를 유성음과 무성음으로 구분하여 유성음의 경우 피치 주파수를 활용하여 피치 하모닉으로 나누어 손실된 신호의 피치 하모닉 움직임을 예측하여 복원하고 무성음의 경우 스펙트럼 움직임 예측 방법을 사용하여 신호를 복원한다. 음성 프레임의 연속 손실이 발생한 경우 LMS(Least Mean Square) 예측기를 사용하여 이전 프레임의 이득 정보를 활용하여 신호 크기를 예측하여 출력 신호의 이득을 조절하는 방법을 제안한다. 객관적 평가방법인 PESQ (Perceptual Evaluation of Speech Quality) 시험을 통해 제안된 알고리즘의 성능을 평가하였고 기존의 방법보다 MOS 0.1의 성능 개선을 보였다.

한국어 고립 단어 음성의 자음/모음/유성자음 음가 분할 및 인식에 관한 연구 (A Study on Consonant/Vowel/Unvoiced Consonant Phonetic Value Segmentation and Recognition of Korean Isolated Word Speech)

  • 이준환;이상범
    • 한국정보처리학회논문지
    • /
    • 제7권6호
    • /
    • pp.1964-1972
    • /
    • 2000
  • For the Korean language, on acoustics, it creates a different form of phonetic value not a phoneme by its own peculiar property. Therefore, the construction of extended recognition system for understanding Korean language should be created with a study of the Korean rule-based system, before it can be used as post-processing of the Korean recognition system. In this paper, text-based Korean rule-based system featuring Korean peculiar vocal sound changing rule is constructed. and based on the text-based phonetic value result of the system constructed, a preliminary phonetic value segmentation border points with non-uniform blocks are extracted in Korean isolated word speech. Through the way of merge and recognition of the non-uniform blocks between the extracted border points, recognition possibility of Korean voice as the form of the phonetic vale has been investigated.

  • PDF

이산 웨이브렛 변환을 이용한 유효 음성 추출을 위한 머징 알고리즘 (A Merging Algorithm with the Discrete Wavelet Transform to Extract Valid Speech-Sounds)

  • 김진옥;황대준;백한욱;정진현
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제8권3호
    • /
    • pp.289-294
    • /
    • 2002
  • 데이타로부터 유효한 음성 데이타를 추출하는 것은 음성 인식분야에서 중요하다. 본 논문의 음성 추출 기술은 빠른 연산이 가능하며 음성의 전처리 과정에 적합한 이산 웨이브렛 변환을 사용하고 있으며, 이산 웨이브렛 변환의 복수 해상도 해석 특징을 이용한 머징 알고리즘으로 유효한 음성을 추출하고 노이즈 제거를 동시에 구현한다. 머징 알고리즘은 음성만으로도 처리 매개변수를 결정할 수 있고 또한 시스템 잡음에 대하여서도 독립적이기 때문에, 유효 음성을 추출하는데 매우 효과적이다. 그리고 머징 알고리즘은 시스템 잡음에 대한 적응 특성을 갖고 탁월한 노이즈 분리 특성을 갖는다.

Efficient Tracking of Speech Formant Using Closed Phase WRLS-VFF-VT Algorithm

  • Lee, Kyo-Sik;Park, Kyu-Sik
    • The Journal of the Acoustical Society of Korea
    • /
    • 제19권2E호
    • /
    • pp.8-13
    • /
    • 2000
  • In this paper, we present an adaptive formant tracking algorithm for speech using closed phase WRLS-VFF-VT method. The pitch synchronous closed phase methods is known to give more accurate estimates of the vocal tract parameters than the pitch asynchronous method. However the use of a pitch-synchronous closed phase analysis method has been limited due to difficulties associated with the task of accurately isolating the closed phase region in successive periods of speech. Therefore we have implemented the pitch synchronous closed phase WRLS-VFF-VT algorithm for speech analysis, especially for formant tracking. The proposed algorithm with the variable threshold(VT) can provide a superior performance in the boundary of phone and voiced/unvoiced sound. The proposed method is experimentally compared with the other method such as two channel CPC method by using synthetic waveform and real speech data. From the experimental results, we found that the block data processing techniques, such as the two-channel CPC, gave reasonable estimates of the formant/antiformant. However, the data windows used by these methods included the effects of the periodic excitation pulses, which affected the accuracy of the estimated formants. On the other hand the proposed WRLS-VFF-VT method, which eliminated the influence of the pulse excitation by using an input estimation as part of the algorithm, gave very accurate formant/bandwidth estimates and good spectral matching.

  • PDF