• 제목/요약/키워드: Speech Enhancement

검색결과 340건 처리시간 0.022초

청자의 경험, 화자의 조음 중증도, 단서 유형이 인공와우이식 선천성 농 성인의 말명료도에 미치는 영향 (Effects of Listener's Experience, Severity of Speaker's Articulation, and Linguistic Cues on Speech Intelligibility in Congenitally Deafened Adults with Cochlear Implants)

  • 이영미;성지은;박정미;심현섭
    • 말소리와 음성과학
    • /
    • 제3권1호
    • /
    • pp.125-134
    • /
    • 2011
  • The current study investigated the effects of experience of deaf speech, severity of speaker's articulation, and linguistic cues on speech intelligibility of congenitally deafened adults with cochlear implants. Speech intelligibility was judged by 28 experienced listeners and 40 inexperienced listeners using a word transcription task. A three-way (2 $\times$ 2 $\times$ 4) mixed design was used with the experience of deaf speech (experienced/inexperienced listener) as a between-subject factor, the severity of speaker's articulation (mild to moderate/moderate to severe), and linguistic cues (no/phonetic/semantic/combined) as within-subject factors. The dependent measure was the number of correctly transcribed words. Results revealed that three main effects were statistically significant. Experienced listeners showed better performance on the transcription than inexperienced listeners, and listeners were better in transcribing speakers who were mild to moderate than moderate to severe. There were significant differences in speech intelligibility among the four different types of cues, showing that the combined cues provided the greatest enhancement of the intelligibility scores (combined > semantic > phonological > no). Three two-way interactions were statistically significant, indicating that the type of cues and severity of speakers differentiated experienced listeners from inexperienced listeners. The current results suggested that the use of a combination of linguistic cues increased the speech intelligibility of congenitally deafened adults with cochlear implants, and the experience of deaf speech was critical especially in evaluating speech intelligibility of severe speakers compared to that of mild speakers.

  • PDF

운율경계에 위치한 어두 모음의 성문 특성: 음향적 상관성을 중심으로 (Glottal Characteristics of Word-initial Vowels in the Prosodic Boundary: Acoustic Correlates)

  • 손형숙
    • 말소리와 음성과학
    • /
    • 제2권3호
    • /
    • pp.47-63
    • /
    • 2010
  • This study provides a description of the glottal characteristics of the word-initial low vowels /a, $\ae$/ in terms of a set of acoustic parameters and discusses glottal configuration as their acoustic correlates. Furthermore, it examines the effect of prosodic boundary on the glottal properties of the vowels, seeking an account of the possible role of prosodic structure based on prosodic theory. Acoustic parameters reported to indicate glottal characteristics were obtained from the measurements made directly from the speech spectrum on recordings of Korean and English collected from 45 speakers. They consist of two separate groups of native Korean and native English speakers, each including both male and female speakers. Based on the three acoustic parameters of open quotient (OQ), first-formant bandwidth (B1), and spectral tilt (ST), comparisons were made between the speech of males and females, between the speech of native Korean and native English speakers, and between Korean and English produced by native Korean speakers. Acoustic analysis of the experimental data indicates that some or all glottal parameters play a crucial role in differentiating the speech groups, despite substantial interspeaker variations. Statistical analysis of the Korean data indicates prosodic strengthening with respect to the acoustic parameters B1 and OQ, suggesting acoustic enhancement in terms of the degree of glottal abduction and the glottal closure during a vibratory cycle.

  • PDF

잡음에 강인한 음성인식을 위한 스펙트럼 보상 방법 (A Spectral Compensation Method for Noise Robust Speech Recognition)

  • 조정호
    • 전자공학회논문지 IE
    • /
    • 제49권2호
    • /
    • pp.9-17
    • /
    • 2012
  • 음성 인식 시스템의 용용에서 실제 문제점의 하나는 음성신호의 왜곡에 의한 인식성능의 저하이다. 음성신호의 왜곡에 가장 중요한 원인은 부가적인 잡음이다. 이 논문은 잡음에 강인한 음성인식을 위하여, 스펙트럼 피크 향상 기법과 효과적인 잡음 차감 기법에 기초한 스펙트럼 보상 방법을 기술한다. 제안한 방법은 음성 스펙트럼의 포먼트 구조를 향상시키고 스펙트럼 기울기를 보상하면서도 광 대역폭 스펙트럼 요소는 그대로 유지한다. 백색 가우스 잡음, 자동차 잡음, 음성 잡음 또는 지하철 잡음에 의해 왜곡된 음성을 이용한 인식실험을 수행한 결과, 새로운 방법은 스펙트럼 보상을 하지 않은 경우에 비해, 높은 SNR(Signal to Noise Ratio) 환경에서는 평균 오인식율을 약간 줄였으며, 낮은 SNR(10 dB) 환경에서는 평균 오인식율을 1/2로 크게 줄였다.

VoIP의 음성품질/대역효율 개선을 위한 음성패킷 처리 (Voice Packet Processing Scheme for Voice Quality and Bandwidth Efficiency in VoIP)

  • 김재원;손동철
    • 한국멀티미디어학회논문지
    • /
    • 제7권7호
    • /
    • pp.896-904
    • /
    • 2004
  • 본 논문에서는 10msec 프레임의 가변전송률 G.729 음성부호화기를 설계하여 VoIP에서의 대역 효율을 개선하고, 부전송률 부호화기 도입을 통한 인터넷 프로토콜에서 발생하는 패킷 손실구간의 음성 품질을 개선할 수 있는 방안을 도출하였다. 가변 전송률 음성부호화기 설계는 음성 통화중 발생하는 약 60% 정도의 묵음 구간을 활용하는 기법으로서 활성 음성구간은 8kbps로 전송하고,비 활성 음성구간은 1kbps로 전송함에 의하여 고정 전송률 방식의 음성 부호화기에 비하여 평균 패킷 전송량을 약 50% 감소시켜 대역 효율을 개선할 수 있다. 제안 방법의 성능은 동일 프레임 크기를 갖는 ITU-T G.729B방식과 감지 활성도의 변화분과 음성품질 손상 구간의 비율을 기준으로 비교 평가하였다. 그리고 인터넷 환경에서의 패킷 손실에 의한 음성 품질 저하 방지는 4kbps 부전송률 음성부호화기 도입과 오류 발생 전후의 패킷에 의한 오류은닉 방법을 활용하였으며, 성능은 재생 음성품질로서 평가하였다. 본 논문에서 설계한 가변 전송률 부호화 방식은 고정 전송률 방식에 대비하여 평균 음성 패킷의 전송량을 1/2로 감소시켜 대역효율 개선이 가능하며, 감소된 전송률을 손실 패킷구간에 활용하는 경우 8kbps 고정 전송률 방식과 동일 대역이용에서 3dB의 음성품질 개선이 가능하여 VoIP 성능 개선이 가능하리라 사료된다.

  • PDF

최소 통계법과 Short-Term 예측계수 코드북을 이용한 Non-Stationary/Mixed 배경잡음 추정 기법 (Non-Stationary/Mixed Noise Estimation Algorithm Based on Minimum Statistics and Codebook Driven Short-Term Predictor Parameter Estimation)

  • 이명석;노명훈;박성주;이석필;김무영
    • 한국음향학회지
    • /
    • 제29권3호
    • /
    • pp.200-208
    • /
    • 2010
  • 본 논문에서는 배경잡음에 강인한 잡음제거 알고리즘 설계를 위해서 minimum statistics (MS) 기법을 codebook driven short-term predictor parameter estimation (CDSTP) 기법에 접목하는 방법을 제안한다. MS는 stationary 배경잡음에는 강인하지만, non-stationary 배경잡음에는 상대적으로 취약하다. CDSTP는 non-stationary 배경잡음에 강인한 특성을 보이지만, 코드북에 없는 배경잡음 환경에는 취약하다. 따라서 non-stationary 배경잡음에 강인한 CDSTP 방법과 별도의 코드북 학습 과정이 필요 없는 MS를 결합해서 다양한 배경잡음에 강인한 알고리즘을 제안한다. 제안방법은 MS나 CDSTP 방법에 비해서 전체적으로 향상된 perceptual evaluation of speech quality (PESQ) 성능을 나타냈으며, 특히 stationary 배경잡음과 non-stationary 배경잡음이 섞여 있는 mixed 배경잡음 환경에서 강인한 특성을 보였다.

다채널 위너 필터의 주성분 부공간 벡터 보정을 통한 잡음 제거 성능 개선 (Improved speech enhancement of multi-channel Wiener filter using adjustment of principal subspace vector)

  • 김기백
    • 한국음향학회지
    • /
    • 제39권5호
    • /
    • pp.490-496
    • /
    • 2020
  • 본 논문에서는 잡음 환경에서 다채널 위너 필터의 성능을 향상시키기 위한 방법을 제안한다. 부공간(subspace) 기반의 다채널 위너 필터를 설계하는 경우, 목적 신호가 단일 음원인 경우는 음성 상관 행렬의 주성분 부공간에서 음성 성분을 추정할 수 있다. 이 때, 음성 상관 행렬은 음성과 간섭 잡음의 교차 상관도가 음성 상관 행렬에 비해 무시할만한 수준이라는 가정하에 신호 상관 행렬에서 간섭 잡음의 상관 행렬을 차감하여 추정하게 된다. 그러나 간섭 잡음 수준이 높아지게 되면 이러한 가정이 더 이상 유효하지 않게 되며 이에 따라 주성분 부공간 추정 오차도 증가하게 된다. 본 연구에서는 음성 존재 확률과 목적 신호의 방향 벡터를 이용하여 주성분 부공간을 보정하는 방법을 제안한다. 주성분 부공간에서 다채널 음성 존재 확률을 유도하고 주성분 부공간 벡터를 보정하는데 적용하였다. 실험을 통해 제안하는 방법이 잡음 환경에서 다채널 위너 필터의 성능을 향상시키는 것을 확인할 수 있다.

Statistical Model-Based Noise Reduction Approach for Car Interior Applications to Speech Recognition

  • Lee, Sung-Joo;Kang, Byung-Ok;Jung, Ho-Young;Lee, Yun-Keun;Kim, Hyung-Soon
    • ETRI Journal
    • /
    • 제32권5호
    • /
    • pp.801-809
    • /
    • 2010
  • This paper presents a statistical model-based noise suppression approach for voice recognition in a car environment. In order to alleviate the spectral whitening and signal distortion problem in the traditional decision-directed Wiener filter, we combine a decision-directed method with an original spectrum reconstruction method and develop a new two-stage noise reduction filter estimation scheme. When a tradeoff between the performance and computational efficiency under resource-constrained automotive devices is considered, ETSI standard advance distributed speech recognition font-end (ETSI-AFE) can be an effective solution, and ETSI-AFE is also based on the decision-directed Wiener filter. Thus, a series of voice recognition and computational complexity tests are conducted by comparing the proposed approach with ETSI-AFE. The experimental results show that the proposed approach is superior to the conventional method in terms of speech recognition accuracy, while the computational cost and frame latency are significantly reduced.

음성 신호에서의 시간-주파수 축 충격 잡음 검출 시스템 (Time-Frequency Domain Impulsive Noise Detection System in Speech Signal)

  • 최민석;신호선;황영수;강홍구
    • 한국음향학회지
    • /
    • 제30권2호
    • /
    • pp.73-79
    • /
    • 2011
  • 본 논문에서는 음성 신호를 녹음하는 과정에서 발생하는 충격 잡음의 위치를 검출하는 새로운 알고리즘을 제안하였다. 제안한 방법은 충격 잡음의 주파수 축 특성을 반영하여 기존의 방법에 비해 높은 검출 정확도를 가지면서 음성의 피치를 충격 잡음과 구분하지 못하는 문제를 해결하였다. 또한, 시간 축, 주파수 축 파라미터의 단점을 상호 보완하여 false-alarm 문제를 최소화하는 시간-주파수 축 충격 잡음 검출 시스템을 제안하였다. 실제 녹음된 충격 잡음을 이용한 실험 결과, 제안한 시간-주파수 축 충격 잡음 검출기는 99.33 %의 가장 높은 검출 정확도와 1.49 %의 가장 낮은 false-alarm 비율을 나타내었다.

핸즈프리 통신을 위한 다중채널 음성픽업 임베디드 시스템 설계 (A Design of Multi-channel Speech Pickup Embedded System for Hands-free Comuunication)

  • 주형준;박찬섭;전재국;김기만
    • 한국정보통신학회논문지
    • /
    • 제11권2호
    • /
    • pp.366-373
    • /
    • 2007
  • 본 논문에서는 핸즈프리 음성 통신의 통화 품질 개선을 위해 ALTERA Nios-II 임베디드 프로세서를 이용하여 다중채널 음성 픽업 시스템을 구현하였다. 다중채널 음성 픽업 시스템은 zero-padding을 포함한 보간기를 갖는 지연-합 빔 형성기를 이용하였다. 구현된 음성 픽업 임베디드 시스템은 컴퓨터 시뮬레이션(MATLAB)과 범용 DSP 프로세서(TMS320C6711)을 이용하여 처리한 결과와 일치하였다. 구현된 방법은 비용과 설계시 간 측면에서 이전의 설계 방법들보다 효율적이다. 설계 결과로써 하드웨어의 LE(Logic Element)는 칩 상에서 3,649/5,980(61%)을 사용하였다.

장구간 예측 필터를 이용한 음성 신호에서의 돌발 잡음 제거 (Transient Noise Reduction in Speech Signal Utilizing a Long-term Predictor)

  • 최민석;강홍구
    • 한국음향학회지
    • /
    • 제31권1호
    • /
    • pp.29-38
    • /
    • 2012
  • 본 논문에서는 음성 신호에 더해진 돌발 잡음을 제거하는 시스템을 제안한다. 제안한 돌발 잡음 제거 시스템은 중앙값 필터를 이용하여 돌발 잡음을 제거한다. 중앙값 필터는 잡음을 제거하는 과정에서 음성을 왜곡시킬 수 있기 때문에, 음성의 왜곡을 최소화하기 위하여 장구간 예측 필터를 전처리단으로 사용한다. 장구간 예측 필터로 보존된 음성 정보는 잡음이 제거된 후 다시 합성된다. 본 논문에서는 돌발 잡음이 존재하는 환경에서 음성의 정보를 보존하는데 있어 단구간 예측 필터의 문제점을 밝히고 장구간 예측 필터의 우수함을 보인다. 제안한 돌발 잡음 제거 시스템의 출력 신호는 입력 신호에 비해 음성이 존재하는 구간에서 신호 대 잡음비가 약 8dB 향상 되었으며, PESQ 점수가 약 1점 증가하였다.