• 제목/요약/키워드: Speech detection

검색결과 472건 처리시간 0.026초

입술움직임 영상신호를 고려한 음성존재 검출 (Speech Activity Decision with Lip Movement Image Signals)

  • 박준;이영직;김응규;이수종
    • 한국음향학회지
    • /
    • 제26권1호
    • /
    • pp.25-31
    • /
    • 2007
  • 본 논문은 음성인식을 위한 음성구간 검출과정에서, 음향에너지 이외에도 화자의 입술움직임 영상신호까지 확인하도록 함으로써, 외부의 음향잡음이 음성인식 대상으로 오인식되는 것을 방지하기 위하여 시도한 것이다. 먼저, PC용 화상카메라를 통하여 영상을 획득하고, 입술움직임 여부가 식별된다. 그리고 입술움직임 영상신호 데이터는 공유메모리에 저장되어 음성인식 프로세스와 공유한다. 한편, 음성인식의 전처리 단계인 음성구간 검출과정에서는 공유메모리에 저장되어 있는 데이터를 확인함으로써 사람의 발성에 의한 음향에너지인지의 여부를 확인하게 된다. 음성인식기와 영상처리기를 연동시켜 실험한 결과, 화상카메라에 대면해서 발성하면 음성인식 결과의 출력까지 정상적으로 진행됨을 확인하였고, 화상카메라에 대면하지 않고 발성하면 음성인식 결과를 출력하지 않는 것을 확인하였다. 이는 음향에너지가 입력되더라도 입술움직임 영상이 확인되지 않으면 음향잡음으로 간주하도록 한 것에 따른 것이다.

Two-Microphone Generalized Sidelobe Canceller with Post-Filter Based Speech Enhancement in Composite Noise

  • Park, Jinsoo;Kim, Wooil;Han, David K.;Ko, Hanseok
    • ETRI Journal
    • /
    • 제38권2호
    • /
    • pp.366-375
    • /
    • 2016
  • This paper describes an algorithm to suppress composite noise in a two-microphone speech enhancement system for robust hands-free speech communication. The proposed algorithm has four stages. The first stage estimates the power spectral density of the residual stationary noise, which is based on the detection of nonstationary signal-dominant time-frequency bins (TFBs) at the generalized sidelobe canceller output. Second, speech-dominant TFBs are identified among the previously detected nonstationary signal-dominant TFBs, and power spectral densities of speech and residual nonstationary noise are estimated. In the final stage, the bin-wise output signal-to-noise ratio is obtained with these power estimates and a Wiener post-filter is constructed to attenuate the residual noise. Compared to the conventional beamforming and post-filter algorithms, the proposed speech enhancement algorithm shows significant performance improvement in terms of perceptual evaluation of speech quality.

G-Peak의 특성에 의한 피치시점검출 (The Pitch Beginning Point Extraction Using Property of G-peak)

  • 이해군
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1993년도 학술논문발표회 논문집 제12권 1호
    • /
    • pp.259-262
    • /
    • 1993
  • In this paper, a new pitch beginning point detection method by extracting the G-peak, is proposed. By the speech production model, the area of the first peak on a pitch interval of speech signals is emphasized. By using the above characteristics, this method have more advantages than the others for pitch beginning point detection. The defective decision caused by an impulsive noise is minimized and the pre-filtering is not necessary for this method, because the integration of signals takes place in the process.

  • PDF

음성인식기를 이용한 한국인의 외국어 발화오류 자동 검출 (Automatic Detection of Mispronunciation Using Phoneme Recognition For Foreign Language Instruction)

  • 권철홍;강효원;이상필
    • 대한음성학회지:말소리
    • /
    • 제48호
    • /
    • pp.127-139
    • /
    • 2003
  • An automatic pronunciation correction system provides learners with correction guidelines for each mispronunciation. In this paper we propose an HMM based speech recognizer which automatically classifies pronunciation errors when Korean speak Japanese. For this purpose we also develop phoneme recognizers for Korean and Japanese. Experimental results show that the machine scores of the proposed recognizer correlate with expert ratings well.

  • PDF

청각 모델을 이용한 Cochannel 음성에서의 피치 추출에 관한 연구 (A Study on Pitch Detection using Cochlear Model on Cochannel Speech)

  • 신대규;신중인;이재혁;한두진;박상희
    • 대한전기학회논문지:시스템및제어부문D
    • /
    • 제49권6호
    • /
    • pp.330-333
    • /
    • 2000
  • In this paper, a new pitch estimation method is proposed using the Robinson cochlear model. This estimation method is useful in noisy environments and especially very efficient under cochannel in which two speaker voices exist at the same time. For the one speaker speech, the pitch can be extracted from just the neurogram of the Robinson cochlear model. In this case, as the estimation is performed in time domain, the exact pitch period can be detected though the pitch period is various. But in noisy and cochannel cases, the neurogram has many spurious peaks, so we use the autocorrelators in the neurogram to manifest the period. It the autocorrelators are used for the all delays, the large amount of calculations is necessary. Due to this defect, we propose that the autocorrelators are used for the part of the delays on which energy is concentrated. First of all, the proposed algorithm is applied to the one speaker speech, and later to the cochannel speech. And then the results are compared with the autocorrelation pitch detection method.

  • PDF

균일양자화기의 잔여신호를 이용한 음성신호의 피치검출 (On a Pitch Extraction of Speech Signal using Residual Signal of the Uniform Quantizer)

  • 배명진;한기천;차진종
    • 한국음향학회지
    • /
    • 제16권2호
    • /
    • pp.36-40
    • /
    • 1997
  • 음성신호처리 분야에서 정확한 피치검출은 중요하고 필요하다. 지금까지 제안된 피치검출 알고리즘들은 음성신호의 다양성으로 인해 피치를 정확히 검출하기가 어렵다. 본 논문에서는 PCM과 같은 균일 양자화기의 잔여신호에 대해 음성신호의 기본주기를 검출하는 새로운 피치검출법을 제안하였다. 제안한 방법은 무잡음 음성에 대해 평균 0.25%의 조오율이 그리고 0dB의 SNR에 대해서는 평균 3.39%의 조오율이 나타나는 정확성을 보였다. 또한 음소의 천이영역이나 배경잡음 하에서도 피치검출의 정확도가 개선된 피치검출의 결과를 얻었다.

  • PDF

음성신호 압축 및 복원을 위한 음성 천이구간 검출과 근사합성 방식 (Speech Transition Detection and approximate-synthesis Method for Speech Signal Compression and Recovery)

  • 이광석;김봉기;강성수;김현덕
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2008년도 춘계종합학술대회 A
    • /
    • pp.763-767
    • /
    • 2008
  • 유 무성음의 음원을 이용한 음성부호화 시스템에서는 프레임 내에 유성자음과 무성자음이 공존하는 경우 음질의 왜곡을 수반할 수 있다. 따라서 프레임 내에 유성자음과 무성자음이 공존하지 않도록 하기 위해서 무성자음을 탐색 및 검출을 포함하는 천이구간을 제안하였다. 본 연구는 최소 자승법과 주파수 대역 분할법을 사용함으로써 TS 근사합성의 새로운 방식을 제시하였다 결과적으로 이 방식은 0.547kHz이하와 2.813kHz 이상에서의 주파수 정보를 이용함으로써 TS내에서 고품질의 근사합성 파형을 얻을 수 있었다. 중요한 것은 최대 오류신호는 TS내에 저 왜곡 근사 합성파형이 생길 수 있다는 것이다. 이 방식은 유성음/묵음/TS의 새로운 음성부호화, 음성해석 및 음성합성에 적용할 수 있으리라 생각한다.

  • PDF

잡음환경에서 Teager 에너지와 음성부재확률 기반의 음성향상 알고리즘 (Speech Enhancement Algorithm Based on Teager Energy and Speech Absence Probability in Noisy Environments)

  • 박윤식;안홍섭;이상민
    • 대한전자공학회논문지SP
    • /
    • 제49권3호
    • /
    • pp.81-88
    • /
    • 2012
  • 본 논문에서는 다양한 잡음환경에서 효과적인 잡음 제거 (NS, noise suppression)를 위한 새로운 음성향상 (speech enhancement) 알고리즘을 제안한다. 제안된 방법에서는 음성향상 알고리즘에서 잡음전력 갱신을 위한 음성검출 (VAD, voice activity detection)의 피쳐 (feature) 파라미터로서 오염된 음성신호를 기반으로 주파수 밴드 별로 도출되는 기존의 지역 음성부재확률 (LSAP, local speech absecne probability) 대신 오염된 음성신호의 Teager energy (TE)를 적용한 LSAP를 적용한다. 또한 적용된 TE operator의 성능을 개선하기 위하여 프레임 단위로 도출되는 전역 음성부재확률 (GSAP, global SAP)을 TE의 가중치 파라미터로서 적용한다. 제안된 알고리즘은 기존의 방법과 객관적인 실험을 통해 비교 평가한 결과 다양한 배경잡음 환경에서 향상된 성능을 보였다.

천이구간 추출 및 근사합성에 의한 음성신호 압축과 복원 (Speech Signal Compression and Recovery Using Transition Detection and Approximate-Synthesis)

  • 이광석;이병로
    • 한국정보통신학회논문지
    • /
    • 제13권2호
    • /
    • pp.413-418
    • /
    • 2009
  • 유 무성음의 음원을 이용한 음성부호화 시스템에서는 프레임 내에 유성자음과 무성자음이 공존하는 경우에 음질왜곡을 일으킬 수 있다. 따라서 프레임 내에 유성자음과 무성자음이 공존하지 않도록 하기 방법으로써 무성자음을 탐색하고 검출을 포함하는 천이 구간을 제안하였다. 본 연구는 최소 자승법과 주파수 대 역 분할법을 사용함으로써 TS 근사합성의 새로운 방식을 제시하였으며 결과적으로 이는 0.547KHz이하와 2.813kHz 이상에서의 주파수 정보를 이용함으로써 TS내에서 고품질의 근사합성 파형을 얻을 수 있었다. 보다 중요한 것은 최대 오류신호는 TS 내에 저 왜곡 근사 합성파형이 생길 수 있다는 것이다. 이 방식은 유성음/묵음/TS의 새로운 음성부호화, 음성해석 및 음성 합성에 적용할 수 있으리라 생각한다.

잡음환경및 채널왜곡에 강인한 ARS용 전화음성인식 방식 연구 (The Development of a Speech Recognition Method Robust to Channel Distortions and Noisy Environments for an Audio Response System(ARS))

  • 안정모;임계종;계영철;구명완
    • 한국음향학회지
    • /
    • 제16권2호
    • /
    • pp.41-48
    • /
    • 1997
  • 본고는 음성인식 기능이 추가된 음성응답장치(ARS)의 음성 인식률을 향상시키는 방법을 제안한다. ARS에 입력되는 전화음성은 안내방송, 전화잡음, 그리고 채널왜곡에 의하여 영향을 받기 때문에, 양질의 음성을 대상으로 하여 개발된 인식 알고리듬을 그대로 적용하면 상당한 인식률의 저하를 가져오게 된다. 이러한 문제점을 극복하기 위하여 본고에서는 세 가지 방법을 제안한다: 1)음성이 시작되는 순간 안내 방송을 즉시 끊기 위한 음성 입력순간의 정확한 검출, 2)Teager 에너지를 이용한 잡음 섞인 전화음성의 효과적인 끝점검출, 3)SDCN 알고리듬을 이용한 채널왜곡의 보상. 위의 세 가지 방법을 모두 결합하여 화자독립인 전화음성을 대상으로 실험한 결과, 기존의 방법이 약 23%의 인식률을 보인 반면, 제안된 방식은 약 77%의 인식률로서 상당한 성능향상을 보여주었다.

  • PDF