• 제목/요약/키워드: speech separation

검색결과 89건 처리시간 0.021초

차량용 음성인식을 위한 주변잡음에 강건한 브라인드 음원분리 (Robust Blind Source Separation to Noisy Environment For Speech Recognition in Car)

  • 김현태;박장식
    • 한국콘텐츠학회논문지
    • /
    • 제6권12호
    • /
    • pp.89-95
    • /
    • 2006
  • 독립성분분석을 사용한 암묵신호분리의 성능은 잔향이 존재하는 환경에서 잔류 누설 성분 (cross-talk) 때문에 현저히 저하된다. 본 논문에서는 잔류 누설 성분을 제거하기 위한 후처리 방법을 제안한다. 제안하는 방법은 주파수 영역에서의 변형된 NLMS(normalized least mean square) 필터를 사용하며 필터의 역할은 잔류 누설 성분을 유발하는 누설 경로를 추정하는 데 있다. 특정 채널에서 잔류하는 누설 성분은 상대 채널의 직접 성분에 해당되므로 관측되는 상대 채널의 입력신호를 이용하여 누설 경로를 추정할 수 있다. 변형된 NLMS 필터는 필터 입력 신호의 전력과 추정 오차 신호의 전력을 함께 고려하여 정규화한다. 특정 채널의 직접 신호 성분은 적응 필터에서 잡음처럼 동작하여 결국 적응필터가 오조정되기 때문에 제안하는 방법을 통해 적응필터의 오조정을 방지할 수 있다. 음성 신호를 사용한 컴퓨터 시뮬레이션 결과를 통해 제안하는 방법이 후처리를 사용하지 않은 경우에 비해 잡음 제거 성능(NRR)이 약 3dB 정도 개선되는 것을 확인 할 수 있다.

  • PDF

음성의 특징 단계에 독립 요소 해석 기법의 효율적 적용을 통한 잡음 음성 인식 (Independent Component Analysis on a Subband Domain for Robust Speech Recognition)

  • 박형민;정호영;이태원;이수영
    • 전자공학회논문지CI
    • /
    • 제37권6호
    • /
    • pp.22-31
    • /
    • 2000
  • 본 논문에서는 잡음이 섞인 음성 신호로부터 특징을 추출하는 과정에서 잡음의 영향이 배제된 음성의 특징을 추출하는 방법을 제안한다. 이 방법은 여러 개의 마이크로폰으로 녹음된 잡음 음성 신호에 독립 요소해석 (Independent Component Analysis) 기법을 사용한 암묵 신호 분리를 적용하여 잡음 성분을 제거하게 된다. 또한, 새로운 스펙트럼 분석법을 제안하여 음성 인식을 위한 특징에 가까운 단계에서 독립 요소 해석 기법을 효율적으로 적용할 수 있도록 한다. 이 스펙트럼 분석법은 기존의 대역 에너지 계산 방법을 수정하여 하나의 대역을 몇 개의 영역으로 구분하고 그 영역내의 Fast Fourier Transform (FFT) 포인트 값들의 평균을 먼저 구한 후 대역 에너지를 계산하게 된다. 음성과 잡음에 대한 대역 에너지의 표본 분산을 사용한 해석과 인식 실험을 통해 이 스펙트럼 분석법이 잡음에 둔감한 방법임을 보였다. 또, 실세계에서 녹음된 잡음 음성 신호에 대해 새로운 스펙트럼 분석법에 독립 요소 해석 기법을 적용한 방법은 인식 성능을 크게 향상시켰으며, 특히 낮은 신호 대 잡음비에 대하여 효과적이었다. 이 방법은 음성 인식을 위한 특징 단계에 독립 요소 해석 기법을 효율적으로 적용 가능할 수 있도록 하는 방안을 제시한다.

  • PDF

Automatic Vowel Sequence Reproduction for a Talking Robot Based on PARCOR Coefficient Template Matching

  • Vo, Nhu Thanh;Sawada, Hideyuki
    • IEIE Transactions on Smart Processing and Computing
    • /
    • 제5권3호
    • /
    • pp.215-221
    • /
    • 2016
  • This paper describes an automatic vowel sequence reproduction system for a talking robot built to reproduce the human voice based on the working behavior of the human articulatory system. A sound analysis system is developed to record a sentence spoken by a human (mainly vowel sequences in the Japanese language) and to then analyze that sentence to give the correct command packet so the talking robot can repeat it. An algorithm based on a short-time energy method is developed to separate and count sound phonemes. A matching template using partial correlation coefficients (PARCOR) is applied to detect a voice in the talking robot's database similar to the spoken voice. Combining the sound separation and counting the result with the detection of vowels in human speech, the talking robot can reproduce a vowel sequence similar to the one spoken by the human. Two tests to verify the working behavior of the robot are performed. The results of the tests indicate that the robot can repeat a sequence of vowels spoken by a human with an average success rate of more than 60%.

인두피판술 전.후의 공명파라미터의 비교: 예비연구 (A Comparison of Resonance Parameters before and after Pharyngeal Flap Surgery:A Preliminary Report)

  • 강영애;강낙헌;이태용;성철재
    • 말소리와 음성과학
    • /
    • 제1권3호
    • /
    • pp.133-144
    • /
    • 2009
  • Pharyngeal flap surgery changes the space and shape of the oral cavity and vocal tract, and these changing conditions bring resonance change. The purpose of this study was to determine the most reliable and valuable parameters for evaluating hypernasality to distinguish two patients before and after pharyngeal flap surgery. Each patient was asked to clearly speak the vowels /a/, /i/, /u/, /e/, /o/ for voice recording. There were nine parameters: Formant (F1, F2, F3), Bandwidth (BW1, BW2, BW3), LPC energy slope ($\Delta$ |A2-A1/F2-F1|), and Band Energy (0-500 Hz, 500-1000 Hz) by each vowel. From the results of discrimination analyses on acoustic parameters, the vowels /a/, /e/ appeared to be insignificant but vowels /i/, /u/, /o/ appeared to be efficient in the separation. A 95%, 100%, and 100% recognition score could be reached when vowels /i/, /u/, and /o/ were analyzed. The results showed that F2, BW3, and LPC slope are more important parameters than the others. Finally, there is a relation between perceptual evaluation score and LPC energy slope of acoustic parameters by least square slope.

  • PDF

가변위치 고음성인식 기술을 이용한 무선 홈 네트워크 시스템 구현에 관한 연구 (A Study on the Realization of Wireless Home Network System Using High-performance Speech Recognition in Variable Position)

  • 윤준철;최상방;박찬섭;김세영;김기만;강석엽
    • 한국정보통신학회논문지
    • /
    • 제14권4호
    • /
    • pp.991-998
    • /
    • 2010
  • 실내 환경에서 음성인식 기술을 이용한 무선 홈 네트워크 시스템 구현에 있어, 잡음과 실내 잔향음은 시스템 성능 저하의 주요 원인이다. 본 연구에서는 실내 인식환경에서 스펙트럼 엔트로피(Spectral entropy) 기반의 음성 구간검출법을 이용하여 잔향음(reverberation) 및 실내잡음에 강인한 음성인식 홈 네트워크 시스템을 구현하고자 한다. 스펙트럼 차감법(Spectral Subtraction)은 잔향으로 인해 왜곡된 신호를 스펙트럼 상에서 제거하여 잔향의 효과를 줄일 수 있고 음성신호와 독립적인 잡음을 제거 할 수 있다. 효과적인 스펙트럼 차감을 위해서는 음성과 비음성 구간의 정확한 구분이 수반되어야 하며 이를 위해서 엔트로피 기반의 음성 구간 검출법을 적용하여 성능을 향상시킨다. 모의 및 실내환경 실험 결과 Spectral entropy 기반의 음성 구간 검출법을 이용할 경우 실내 잔향 및 잡음환경에서 명령어 인식률의 향상이 증명되었다.

후두기관 분리술로 치료한 만성 흡인 15례 (Laryngotracheal Separation in Patient with Chronic Intractable Aspiration)

  • 공일규;안수연;김봉직;정은정;이명철;;성명훈;김광현
    • 대한기관식도과학회지
    • /
    • 제13권1호
    • /
    • pp.23-28
    • /
    • 2007
  • Background and Objectives: Since intractable aspiration in patients with impaired protective function of the larynx often results in multiple episode of aspiration pneumonia, repeated hospitalizations and expensive nursing care. The authors reported the preliminary results of laryngotracheal separation(LTS) in patient with chronic intractable aspiration. The purpose of this study was to report the follow up results of patient outcome with the LTS. Materials and Methods: A retrospective review of 15 patients who underwent LTS between 1996 and 2006 was conducted. Ages ranged from 3 to 72 years. Results: Eight patients had morbid aspiration as a consequence of acquired neurologic injuries and seven patients with congenital neurologic injuries. Two patients had a postoperative fistula, which was well controlled with local wound care. Following LTS, aspiration was effectively controlled in all patients and eight were able to tolerate a regular diet. Conclusion: LTS is a low-risk, successful, definitive procedure which decreases the potential for aspiration, pulmonary complications, duration of hospitalizations and increases quality of life, especially in patent with irreversible upper airway dysfunction and poor speech potential.

  • PDF

폐쇄음 음향 단서의 다차원 표현과 상관관계 분석 (Multi-dimensional Representation and Correlation Analyses of Acoustic Cues for Stops)

  • 윤원희
    • 대한음성학회지:말소리
    • /
    • 제55권
    • /
    • pp.45-60
    • /
    • 2005
  • The purpose of this paper is to represent values of acoustic cues for Korean oral stops in the multi-dimensional space, and to attempt to find possible relationships among acoustic cues through correlation analyses. The acoustic cues used for differentiation of 3 types of Korean stops are closure duration, voice onset time and fundamental frequency of a vowel after a stop. The values of these cues are plotted in the two and three dimensional space to see what the critical cues are for separation of different types of stops. Correlation coefficient analyses show that multi-variate approach to statistical analysis is legitimate, and that there are statistically significant relationships among acoustic cues but Oey are not strong enough to make the conjecture that there is a possible relationship among the articulatory or laryngeal mechanisms employed by the acoustic cues.

  • PDF

Neighborhood 관계를 이용한 DUET Generalization (Generalization of DUET using neighborhood relationship)

  • 우성민;정홍
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2008년도 하계종합학술대회
    • /
    • pp.1017-1018
    • /
    • 2008
  • In this paper, we propose a method that makes use of neighborhood relationship in 2D spectrogram of separated sources toward the generalization of the binary mask in Degenerate Unmixing Estimation Technique (DUET). A new generalized mask can be consist of five to ten mask. According to the new mask, the original power of the spectrogram in each frequency-time point is assigned. The result showed a smooth and tender wave-form, indicating a high speech separation performance compared to the original method.

  • PDF

한국어 폐쇄음 음향단서의 다차원 표현 (Multi-dimenstional Representation of Acoustic Cues for Korean Stops)

  • 윤원희
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2005년도 춘계 학술대회 발표논문집
    • /
    • pp.25-28
    • /
    • 2005
  • The purpose of this paper is to represent values of acoustic cues for Korean oral stops in the multi-dimensional space, and to attempt to find possible relationships among acoustic cues through correlation coefficient analyses. The acoustic cues used for differentiation of 3 types of Korean stops are closure duration, voice onset time and fundamental frequency of a vowel after a stop. The values of these cues are plotted in the two and three dimensional space and see what the critical cues are for complete separation of different types of stops. Correlation coefficient analyses show that there are statistically significant relationships among acoustic cues but they are not strong enough to make a conjecture that there is a possible articulatory relationship among the mechanisms employed by the acoustic cues.

  • PDF

한국어 음절 인식을 위한 MLP 신경망 구조 및 특징 추출에 관한 연구 (A Study on MLP Neural Network Architecture and Feature Extraction for Korean Syllable Recognition)

  • 금지수;이현수
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 1999년도 추계종합학술대회 논문집
    • /
    • pp.672-675
    • /
    • 1999
  • In this paper, we propose a MLP neural network architecture and feature extraction for Korean syllable recognition. In the proposed syllable recognition system, firstly onset is classified by onset classification neural network. And the results information of onset classification neural network are used for feature selection of imput patterns vector. The feature extraction of Korean syllables is based on sonority. Using the threshold rate separate the syllable. The results of separation are used for feature of onset. nucleus and coda. ETRI's SAMDORI has been used by speech DB. The recognition rate is 96% in the speaker dependent and 93.3% in the speaker independent.

  • PDF