• 제목/요약/키워드: Speech Signals

검색결과 499건 처리시간 0.023초

전체 경로 제한 조건을 갖는 HMM을 이용한 단독음 인식 (HMM with Global Path constraint in Viterbi Decoding for Insolated Word Recognition)

  • 김원구;안동순;윤대희
    • The Journal of the Acoustical Society of Korea
    • /
    • 제13권1E호
    • /
    • pp.11-19
    • /
    • 1994
  • 상태 지속 밀도를 사용하는 hidden Markov Models(HMM/SD)은 음성 신호의 시간적인 변화를 보다 명확하게 나타낼 수 있다 그러나 상태 지속 밀도가 완만하거나 제한된 상태가 길면 이러한 장점은 감소된다. 이러한 문제점을 해결하기 위하여, 본 논문에서는 상태간의 천이가 특정한 시간 구간에서만 발생하도록 하는 전에 경로 제한 조건을 갖는 HMM/GPC를 제한한다. HMM/GPC는 상태 지속을 제한하고 음성 신호의 시간적 변화를 단순하고 효과적으로 표현할 수 있다. 또한 HMM/SD와 HMM/GPC를 결합한 새로운 형태의 HMM/SD+GPC를 제안하고 성능을 비교하였다. HMM/GPC는 기존 Viterbi 알고리즘을 약간 수정하여 구현될 수 있다. HMM/GPC와 HMM/SD+GPC는 기존 HMM과 HMM/SD에 비하여 우수한 성능을 보일 뿐만아니라 계산량도 매우 작다. 화자도립 단독음 인식 실험에서, HMM/GPC(1.6%)의 최소 오차는 기존 HMM보다 1.1% 낮았고 계산량도 57% 감소하였다.

  • PDF

이중 마이크를 사용한 보청기의 궤환 및 잡음제거 알고리즘 (A Feedback and Noise Cancellation Algorithm of Hearing Aids Using Dual Microphones)

  • 이행우
    • 한국통신학회논문지
    • /
    • 제36권7C호
    • /
    • pp.413-420
    • /
    • 2011
  • 본 논문에서는 양이 보청기의 음향궤환 및 잡음을 제거하기 위한 새로운 알고리즘을 제안한다. 이 알고리즘은 이중 마이크를 사용하여 잔차신호에서 음성신호를 제거한 후 궤환제거 필터의 계수를 갱신시킴으로써 수렴성능을 향상시킨다. 먼저 궤환제거기가 마이크 선호에서 궤환신호를 제거하고, 이어서 빔포밍 기법을 이용하여 잡음을 제거한다. 양이 보청기의 안정적 수렴을 보장하기 위해 좌측 및 우측 보청기를 분리하여 먼저 좌측 보청기를 수렴시키고 나서 그 다음 우측 보청기를 수렴시키는 과정으로 진행한다. 본 연구에서 제안한 궤환 및 잡음제거기의 성능을 검증하기 위하여 시뮬레이션 프로그램을 작성하고 모의실험을 수행하였다. 실험 결과, 제안한 적응 알고리즘을 사용하면 기존의 알고리즘을 사용하는 경우보다 궤환제거기에서 평균 14.43 dB의 SFR(Signal to Feedback Ratio), 잡음제거기에서 평균 10.19 dB의 SNR(Signal to Noise Ratio) 개선효과를 향상시킬 수 있는 것으로 확인하였다.

주입력신호의 LPC 필터 이득을 이용한 반향제거기의 수렴전 동시통화검출 성능 개선 (Performance Improvement of Double Talk Detection before Convergence of the Echo Canceller by Using Linear Predictive Coding Filter Gain of the Primary Input Signal)

  • 유재하
    • 한국지능시스템학회논문지
    • /
    • 제24권6호
    • /
    • pp.628-633
    • /
    • 2014
  • 본 논문에서는 반향제거기가 수렴하기 전에 동작할 수 있는 기존 동시통화검출법의 성능을 개선하기 위한 방법을 제안하였다. 제안된 방법은 LPC 필터 계수를 주입력신호로부터 추정하게 된다. 동시통화검출을 위한 문턱치는 주입력신호의 크기별로 기대되는 LPC 필터 이득치를 사용하여 가변적으로 설정하게 된다. 제안한 방법은 기존의 방법이 갖고 있는 단일통화를 동시통화로 잘못 판단하는 오검출률을 개선할 수 있을 뿐만 아니라 동시통화 검출 지연 시간도 단축시킬 수 있다. 장시간의 음성신호를 사용한 모의실험을 수행하였다. 제안한 방법이 기존 방법의 오검출률을 감소시키고 동시통화 검출 지연시간을 단축시킴을 확인할 수 있었다.

Electroglottographic Measurements of Glottal Function in Voice according to Gender and Age

  • Ko, Do-Heung
    • 말소리와 음성과학
    • /
    • 제3권1호
    • /
    • pp.97-102
    • /
    • 2011
  • Electroglottography (EGG) is a common method for providing non-invasive measurements of glottal activity. EGG has been used in vocal pathology as a clinical or research tool to measure vocal fold contact. This paper presents the results of pitch, jitter, and closed quotient (CQ) measurements in electroglottographic signals of young (mean = 22.7 years) and elderly (mean = 74.3 years) male and female subjects. The sustained corner vowels /i/, /a/, and /u/ were measured at around 70 dB SPL since the most notable among EGG variables is the phonation intensity, which showed positive correlation with closed phase. The aim of this paper was to measure EGG data according to age and gender. In CQ, there was a significant difference between young and elderly female subjects while there was no significant difference between young and elderly male subjects. The mean value for young males was higher than that for elderly males while the mean value for young females was lower than that for elderly females. Thus, it can be said that in mean values, increased CQ was related to decreased age for females, while CQ decreased for males as the speaker's age decreased. Although the laryngeal degeneration due to increased age seems to occur to a lesser extent in females, the significant increase of CQ in elderly female voices could not be explained in terms of age-related physiological changes. In standard deviation of pitch and jitter, the mean values for young and elderly males were higher than that for young and elderly females. That is, male subjects showed higher in mean values of voice variables than female subjects. This result could be considered as a sign of vocal instability in males. It was suggested that these results may provide powerful insights into the control and regulation of normal phonation and into the detection and characterization of pathology.

  • PDF

웨이브렛 계수의 표준편차를 이용한 음성신호의 적응 잡음 제거 (Adaptive Noise Reduction using Standard Deviation of Wavelet Coefficients in Speech Signal)

  • 황향자;정광일;이상태;김종교
    • 감성과학
    • /
    • 제7권2호
    • /
    • pp.141-148
    • /
    • 2004
  • 일상생활의 대화중에 포함되는 잡음, 특히 모든 주파수 대역에 포함되는 백색잡음에 의해 오염된 음성신호는 청각적으로 심한 불쾌감과 거부감을 주며 대화의 명료성을 저해시키는 요인으로 작용할 수 있다. 본 논문은 이러한 잡음환경 하에서 음성인식을 위하여 음성에 부가된 잡음을 제거하는 방범으로 프레임 단위로 웨이브렛 변환을 하여 웨이브렛 계수의 표준편차를 이용하여 시간 적응 임계값을 정하는 새로운 방법을 제안한다. 음성의 특성을 고려하기 위하여 고주파 성분을 많이 가지는 무성음의 경우는 cD1 신호에서, 저주파 성분을 많이 가지는 유성음의 경우는 cA3 신호의 표준편차를 이용하여 시간 적응 임계값을 설정하였다. 실험을 통해 제안한 방법이 일반적인 웨이브렛 변환과 웨이브렛 패킷 변환을 이용한 방법보다 SNR과 MSE 측면에서 향상됨을 확인할 수 있었다. 또한 웨이브렛 변환과 웨이브렛 패킷 변환에서는 파열음, 마찰음 및 파찰음 성분이 많이 제거되는 반면 제안한 방법은 본래 신호와 유사하게 복원됨을 실험 결과 확인할 수 있었다.

  • PDF

성대신호 기반의 명령어인식기를 위한 특징벡터 연구 (Effective Feature Vector for Isolated-Word Recognizer using Vocal Cord Signal)

  • 정영규;한문성;이상조
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권3호
    • /
    • pp.226-234
    • /
    • 2007
  • 본 논문은 환경 노이즈를 원천적으로 차단하는 성대 마이크를 이용한 명령어 인식기를 개발한다. 성대마이크는 환경 노이즈의 효과를 최소화하는 장점이 있다. 그러나 고주파의 부재와 부분적인 포먼트 정보 손실 때문에, 성대마이크를 이용해서 개발된 ASR시스템은 표준마이크를 이용한 시스템에 비해 낮은 성능을 보인다. 이러한 문제 때문에 ASR시스템 개발에 성대마이크를 이용한 경우는 표준 마이크로 낮은 성능을 보인다. 이러한 문제 때문에 ASR시스템 개발에 성대마이크를 이용한 경우는 표준 마이크로부터 입력되는 정보 보안하는데 주로 사용된다. 본 논문은 한국어의 음운적 특정과 신호 분석을 통해 성대마이크만을 사용한 높은 성능의 ASR 시스템을 개발 할 수 있음을 보인다. 주파수 대역내 에너지 합을 이용하는 MFCC 알고리즘이 갖는 성대신호 분석의 문제점을 제시하고, 성대신호를 대상으로 보다 높은 성능을 갖는 특정추출 알고리즘의 조건을 제시한다. 이러한 조건은 (1) 민감한 band-pass filter와 (2) 유/무성음 분리를 위해 사용하는 특정벡터의 사용이다 실험 결과 제안된 조건을 만족하는 ZCPA 알고리즘을 적용한 경우가 MFCC를 적용한 경우보다 약 16%정도의 높은 성능을 보인다. 그러고 CMS와 RASTA와 같은 channel normalization 알고리즘을 적용한 경우 약 2%의 성능 향상이 있다.

SOLA를 이용한 더빙 신호의 시간축 동기화 (Time-Synchronization Method for Dubbing Signal Using SOLA)

  • 이기승;지철근;차일환;윤대희
    • 방송공학회논문지
    • /
    • 제1권2호
    • /
    • pp.85-95
    • /
    • 1996
  • 본 논문에서는 음성 신호의 시간축 변화에 널리 사용되고 있는 SOLA(Synchronized Over-Lap and ADD)기법을 사용하여 더빙된 신호를 본래의 음성 신호와 시간적으로 일치시키는 기법을 제안하였다. 방송 녹음의 경우, 큰 레벨의 배경 잡음등으로 인하여 스튜디오에서의 재녹음이 필요한 경우가 발생하게 된다. 이러한 재녹음 신호는 원래의 녹음 시간과 비교하여 대략 200msec의 시간차이를 갖게 되며, 이러한 시간차이는 화면과 음성과의 합성시 입모양이 서로 불일치하는 현상을 야기시킨다. 본 논문에서는 이러한 문제점을 해결하기 먼저 에너지궤적을 통해 원녹음 신호와 더빙 신호간의 어절 시작점을 서로 일치시키고, 어절내의 음소 위치를 동기화시키기 위하여 LPC 켑스트럼 분석과 DTW(Dynamic Time Warping)을 적용하였다. 음소가 서로 일치하는 지점은 원래의 녹음 신호와 더빙된 신호간의 LPC켑스트럼 자승 오차가 취소로 되는 지점을 탐색함으로서 결정된다. 음성의 합성시에는 인접 프레임간의 위상 관계가 서로 일치하도록 SOLA 방법을 사용하였다. 컴퓨터를 이용하여 모의 실험을 수행한 결과, 제안된 알고리즘을 통해 시간축 보정된 음성 신호는 음성 파형, 스펙트로그램 및 청취상으로 원래의 녹음 신호와 시간적으로 서로 일치함을 확인할 수 있었다.

  • PDF

EVRC 코덱으로 재생하는 음악의 품질을 개선하기 위한 전처리 기법 (A Preprocessing Approach to Improving the Quality of the Music Produced by the EVRC)

  • 남영한;하태균;전윤호;김재수;박섭형
    • 한국통신학회논문지
    • /
    • 제28권5C호
    • /
    • pp.476-485
    • /
    • 2003
  • 이 논문에서는 CDMA(Code Division Multiple Access) 음성 압축 표준의 하나인 EVRC(enhanced variable rate codec) 코덱으로 재생되는 음악의 품질을 개선하기 위한 전처리 알고리듬을 제안한다. EVRC는 음성을 압축하는 목적으로 최적화되었기 때문에, 음악을 압축하여 전송하면 품질을 심하게 저하시키기도 한다. EVRC로 음악을 압축할 때 발생하는 품질 저하 현상들 중에서 가장 심한 것의 하나가 끊김 현상인데, 끊김 현상은 프레임들이 연속적으로 Rate 1/8로 전송될 때 발생한다. EVRC는 장기 예측 이득의 크기를 바탕으로 입력 프레임들의 전송률을 결정하므로, 장기 예측 이득을 증가시켜 대부분의 프레임이 Rate 1 혹은 Rate 1/2로 압축될 수 있도록 하였다. 실험 결과를 보면 이러한 전처리 방법은 음악 신호에 대해 잘 적용되며 끊김 현상이 발생하는 프레임의 개수가 상당히 줄어들었음을 확인할 수 있다.

마이크로폰 어레이를 위한 최적 패턴 형성 (Optimum Pattern Synthesis for a Microphone Array)

  • 장병건;권태능;변윤식
    • 한국음향학회지
    • /
    • 제16권1호
    • /
    • pp.47-53
    • /
    • 1997
  • 이 논문은 원거리회의 환경에서 음성신호와 같은 광대역 신호를 다룰 수 있는 마이크로폰 어레이의 빔패턴(beam pattern)을 형성하는 효과적인 방법에 대하여 서술한다. 어레이의 변수를 반복적으로 변화시킴으로써, 측면롭의 높이를 조정하여 일정한 수준의 측면롭을 형성하며, 갱신된 측면롭을 대수적으로 찾지 않고 수치적으로 찾는 접근방법을 제안하였다. 어레이 계수나 마이크로폰 간격을 어레이변수로 사용하였으며, 마이크로폰 어레이 가시범위에 공간적으로 균일하게 입력되는 방향성잡음 또는 배경잡음을 효과적으로 줄일 수 있는 Dolph-Chebyshev형태의 최적화패턴을 형성하였다. 어레이 계수보다 마이크로폰 간격을 변화시키는 것이 광대역신호를 더 효과적으로 다룰 수 있는 최적화 패턴을 제공하는 것이 판명되었다. 또한 방향조정(scanning)상황 하에서 측면롭에 강한(robust)패턴을 형성할 수 있는 방법을 제안하였으며, 컴퓨터 실험결과를 제시하였다.

  • PDF

저작운동으로 인한 진동 잡음 신호의 경감을 위한 측두골 이식형 마이크로폰의 설계 (The Design of Temporal Bone Type Implantable Microphone for Reduction of the Vibrational Noise due to Masticatory Movement)

  • 우승탁;정의성;임형규;이윤정;성기웅;이정현;조진호
    • 센서학회지
    • /
    • 제21권2호
    • /
    • pp.144-150
    • /
    • 2012
  • A microphone for fully implantable hearing device was generally implanted under the skin of the temporal bone. So, the implanted microphone's characteristics can be affected by the accompanying noise due to masticatory movement. In this paper, the implantable microphone with 2-channels structure was designed for reduction of the generated noise signal by masticatory movement. And an experimental model for generation of the noise by masticatory movement was developed with considering the characteristics of human temporal bone and skin. Using the model, the speech signal by a speaker and the artificial noise by a vibrator were supplied simultaneously into the experimental model, the electrical signals were measured at the proposed microphone. The collected signals were processed using a general adaptive filter with least mean square(LMS) algorithm. To confirm performance of the proposed methods, the correlation coefficient and the signal to noise ratio(SNR) before and after the signal processing were calculated. Finally, the results were compared each other.