• 제목/요약/키워드: Vocal-cord signal

검색결과 16건 처리시간 0.022초

성대 신호를 이용한 인식 시스템 (RECOGNITION SYSTEM USING VOCAL-CORD SIGNAL)

  • 조관현;한문성;박준석;정영규
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2005년도 학술대회 논문집 정보 및 제어부문
    • /
    • pp.216-218
    • /
    • 2005
  • This paper present a new approach to a noise robust recognizer for WPS interface. In noisy environments, performance of speech recognition is decreased rapidly. To solve this problem, We propose the recognition system using vocal-cord signal instead of speech. Vocal-cord signal has low quality but it is more robust to environment noise than speech signal. As a result, we obtained 75.21% accuracy using MFCC with CMS and 83.72% accuracy using ZCPA with RASTA.

  • PDF

음성신호 분석 기반의 습도 변화에 따른 성대 기능 분석 (Analysis of Vocal Cord Function by Humidity Change Based on Voice Signal Analysis)

  • 김봉현;조동욱
    • 한국통신학회논문지
    • /
    • 제37A권9호
    • /
    • pp.792-798
    • /
    • 2012
  • 네트워크 지수가 중요한 현대 사회에서 음성을 통한 전달력 극대화로 대화 상대자로 하여금 호감도를 최대한 끌어 올리는 것이 중요한 사안이 되었다. 이때 공기 중에 포함된 습도는 음성의 전달력에 많은 영향을 미친다. 따라서 본 논문에서는 30%, 50%, 80%의 습도를 일정하게 유지한 환경에서 성대에 미치는 영향을 분석하기 위한 음성신호 분석 기술을 적용한 실험을 수행하여 습도가 음성의 전달력에 미치는 영향을 정량적으로 규명해 보고자 한다. 이를 위해 20대 남성 20명을 대상으로 30%, 50%, 80% 습도 환경을 유지하고 있는 공간에서 1시간동안 노출된 상태에서 음성을 수집하고 성대 진동 변화 및 음성 에너지 크기를 측정한 실험을 수행하였다. 최종적으로 습도 변화에 따른 성대 기능의 특징 요소를 측정하고 통계 분석을 통해 추출된 실험 결과가 통계적 유의성을 갖는지에 대해 분석해 보고자 한다.

성대신호 명령어 인식기를 위한 음운자질에 기반한 성대신호 연구 (Vocal-cord Signal Study based on Phonological Feature for Vocal-cord Signal Isolated-Word recognizer)

  • 정영규;한문성;조관현
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2006년도 학술대회 1부
    • /
    • pp.565-570
    • /
    • 2006
  • 웨어러블 환경에서 가장 유용한 사용자 인터페이스는 음성이다. 그러나 현재 노이즈 제거 기술로는 웨어러블 환경과 같은 고소음 환경에서 음성 인식기의 실제적인 응용은 거의 불가능하다. 본 논문은 환경노이즈를 원천적으로 차단하는 성대 마이크를 이용한 명령어 인식기를 개발한다. 이를 위해 성대신호를 한국어 음운자질 이론을 기반으로 설명하고, 입력신호를 분석하여 이러한 접근방법의 타당성을 검증한다. 이러한 성대신호의 분석을 위해 스펙트럼과, FFT 결과를 사용하고, MFCC 알고리즘을 이용하여 주파수 영역내의 정보량이 인식에 미치는 영향을 분석한다. 그리고 분석결과를 바탕으로 성대신호 명령어 인식기를 위한 특징벡터로 유/무성음 분리에 사용되는 특징벡터가 유용함을 ZCPA 알고리즘을 이용한 성대신호 명령어 인식기를 개발하여 검증한다. 실험결과 ZCPA 를 사용한 것이 MFCC 에 비해 16%높은 인식률을 보인다.

  • PDF

LSP를 이용한 성문 스펙트럼 기울기 추정에 관한 연구 (A Study on the Estimation of Glottal Spectrum Slope Using the LSP (Line Spectrum Pairs))

  • 민소연;장경아
    • 음성과학
    • /
    • 제12권4호
    • /
    • pp.43-52
    • /
    • 2005
  • The common form of pre-emphasis filter is $H(z)\;=\;1\;- az^{-1}$, where a typically lies between 0.9 and 1.0 in voiced signal. Also, this value reflects the degree of filter and equals R(1)/R(0) in Auto-correlation method. This paper proposes a new flattening algorithm to compensate the weaked high frequency components that occur by vocal cord characteristic. We used interval information of LSP to estimate formant frequency. After obtaining the value of slope and inverse slope using linear interpolation among formant frequency, flattening process is followed. Experimental results show that the proposed algorithm flattened the weaked high frequency components effectively. That is, we could improve the flattened characteristics by using interval information of LSP as flattening factor at the process that compensates weaked high frequency components.

  • PDF

웨이브렛 변환을 이용한 음성신호의 성문폐쇄시점 검출 (Detection of Glottal Closure Instant for Voiced Speech Using Wavelet Transform)

  • 배건성
    • 음성과학
    • /
    • 제7권3호
    • /
    • pp.153-165
    • /
    • 2000
  • During the phonation of voiced sounds, instants exist where the glottis is opened or closed, due to the periodic vibration of the vocal cord. When closed, this is called the glottal closure instant(GCI) or epoch.. The correct detection of the GCI is one of the important problems in speech processing for pitch detection, pitch synchronous analysis, and so on. Recently, it has been shown that the local maxima points of the wavelet transformed speech signal correspond to the GCIs of speech signal. In this paper, we investigate the accuracy of Gels estimated from this wavelet transformed speech signal. For this purpose we compare them with the negative peak points of the differentiated EGG signal that represents the actual GCIs of speech signal.

  • PDF

선형 스펙트럼쌍을 이용한 성문특성이 제거된 성도특성 추출법에 관한 연구 (A Study on Extraction of Vocal Tract Characteristic After Canceling the Vocal Cord Property Using the Line Spectrum Pairs)

  • 민소연;장경아;배명진
    • 한국음향학회지
    • /
    • 제21권7호
    • /
    • pp.665-670
    • /
    • 2002
  • 프리엠퍼시스 필터의 일반적인 형태는 y(n)=s(n)-As(n-1)이고, 여기서 A값은 유성음의 경우 0.9∼l.0사이의 값이다. 또한 A값은 프리엠퍼시스의 기울기 값을 반영하고 기존의 방법에서는 자기상관계수 값인 R(1)/R(0)를 사용한다. 본 논문에서는 성문특성으로 인해 고주파특성이 약화되는 것을 보상하기 위하여 새로운 평탄화 기법을 제안한다. 우선 포만트 주파수 예측을 위해 LSP 파라미터의 간격정보를 사용하였다. 찾아진 포만트 주파수들간의 선형보간을 통해 기울기와 역기울기 값을 구하여 평탄화 과정을 수행한다. 실험결과에서는 제안한 방법이 기존의 방법보다 평탄화 특성이 우수한 것으로 나타났다. 즉 본 논문에서는 약화된 고주파 성분을 보상하는 과정에서 평탄화 요소로 LSP의 간격정보를 사용하였다.

전기성문전도(EGG) 시스템의 개발 및 평가 (Implementation and Evaluation of Electroglottograph System)

  • 김기련;김광년;왕수건;허승덕;이승훈;전계록;최병철;정동근
    • 대한의용생체공학회:의공학회지
    • /
    • 제25권5호
    • /
    • pp.343-349
    • /
    • 2004
  • 전기성문전도는 발성시에 성문의 진동이 전기적 임피던스를 이용하여 검출되는 신호이다. 본 연구는 이러한 전기성문전도를 기록하기 위한 장비를 구현하고 음성분석 및 후두질환 진단에 대한 적용생을 평가하고자 하였다. 전기성문전도의 하드웨어는 2 쌍의 링전극, 동조증폭기, 검파기, 저역통과필터, 자동이득조절부 등으로 구성되며, 2.7MHz의 반송파 신호를 이용하고 진폭 변조 방식의 검파를 통해 임피던스 신호를 추출하도록 하였다. 추출된 신호는 PC 사운드 카드의 라인 입력을 통해 샘플링되고 양자화되었다. 검출 신호를 분석하기 위한 파라미터는 패래 시간을(CQ), 개폐 속도율(SQ), 개폐속도지수(SI), 성대진동 주파수(F0), 성대진동 주파수변동지수(Jitter), 성대진동 진폭변동지수(Shimmer) 등을 추출하였다. 전기성문전도를 분석한 결과, F0가 증가할수록 CQ는 커지고, SQ와 SI는 작아지는 경향을 보였으며, 전기성문전도와 음성 선호의 기본주파수가 일치함을 알 수 있었다. CQ, SQ, SI는 정상인과 후두암 환자를 비교한 결과 유의한 차이를 보였다. 이러한 결과는 성대의 운동을 관찰할 수 있는 휴대용 전기성문전도 계측기의 구현이 가능하게 하였고, 성대 기능 이상 검사가 가능함을 시사하였다.

후두 스트로보스코프 검사의 신호 동기화를 위한 진동 검출기의 유용성 (Usefullness of the Vibration Pick-Up in Detection of Pitch for Synchronization of Laryngeal Stroboscopy)

  • 이진춘;이병주;왕수건;노정훈;권순복;조철우
    • 대한후두음성언어의학회지
    • /
    • 제18권1호
    • /
    • pp.26-32
    • /
    • 2007
  • Objective and Background: Laryngeal stroboscope is an useful equipment in evaluation of vocal cord vibration and in early detection of mucosal lesion including invasive cancer of the vocal cord. Recently Lee et al. (2006) developed portable stroboscope using voice as synchronization signal. It has been frequently impaired ability to synchronize the flashes even in normal female. Authors tried to investigate various methods including vibration pick-up, microphone, laryngeal microphone, and contact microphone for development of simple and accurate method like electroglottograph signal. The purpose of this study was to estimate wheher the vibration pick-up is available and is consistent with the signal of EGG. Subjects and Methods: Authors compared the signals between EGG and noncontact method such as voice, contact methods including vibration pick-up, laryngeal microphone, and contact microphone in normal twenty adults (male 10 and female 10). The number of peak in one cycle was compared with the number of the peak in EGG, and the percent of phase difference in the peak was compared with EGG Also, authors tried to investigate which site of vibration pick-up was most effective for synchronization of stobo flashes. Three site including anterior neck below the cricoid cartilage, thyroid ala, and suprahyoid region were analysed. Results: Among various methods for synchronization of strobo flashes, vibration pick-up was most effective method in peak detection. And anterior neck below cricoid cartilage was the most available site of the vibration pick-up. Conclusion: Authors suggest that vibration pick-up is most available and effective method for synchronization of strobo flashes.

  • PDF

성문특성 측정을 통한 유/무성음 결정에 관한 연구 (A Study on Decision of Voiced/Unvoiced Region through Measuring the Vocal Cord Property)

  • 민소연;강은영;신동성;배명진
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 하계종합학술대회 논문집(4)
    • /
    • pp.281-284
    • /
    • 2001
  • Speech is classified into voiced signal and unvoiced signal. Since the amplitude of voiced fall off at about -20dB/decade, dynamic range is often compressed prior to spectral analysis so that details at weak, high frequencies may be visible[5][6] There is a distinct difference in spectrum slope between voiced signal and unvoiced signal. In this paper, we got the slope of each frame by using autocorrelation method, and determined voiced /unvoiced region. Also, we used energy to decide region of silence. To show experimental results, we allot to 1 value in voiced region, -1 value in unvoiced region and 0 value in silence region.

  • PDF

일측 성대마비 환자에서 성대내전술 후 성대접촉율의 증가가 음질 개선에 미치는 영향 (The Effect of An Increase of Closed Quotient on Improvement of Voice Quality after Type I Thyroplasty in Patients with Unilateral Vocal Cord Paralysis)

  • 김한수;최성희;임재열;최홍식
    • 대한후두음성언어의학회지
    • /
    • 제15권1호
    • /
    • pp.16-20
    • /
    • 2004
  • Purpose : To assess perceptual, acoustic and aerodynamic measure of voice quality in patients with unilateral vocal cord paralysis before and after type I thyroplasty. Methods : The clinical records of patients operated type I thyroplasty in the Departement of otorhinoalryngolgy, Yongdong Severance hospital from November 2001 to November 2003 were reviewed. All patients uderwent a vocal function evaluation including perceptual, acoustic and aerodynamic measures of voice preoperative and on $60^{th}$ postoperative day. The perceptual and acoustic measures were obtained from recording of patients' reading a 'Sanchak' passage. The perceptual evaluation was performed by 2 speech pathologist using a 4-point rating scale. Acoustic parameters(voice range profile low(RAL), voice range profile high(RAH), average fundamental frequency(AFX), closed quotient, harmonic to noise ratio, jitter and shimmer) were investigated by Lx speech studio. Mean flow rate(MFR), subglottic pressure(Psub) and intensity were measured using the Phonatory function analyzer. The maximum phonation time was also measured. The data were statistically analyzed. A paired t-test (p<0.1) was used to compare preoperative and postoperative results. And multiple regression test was used to find which parameter was most correlated to improvement of postoperative voice quality. Results : Among aerodynamic parameters, Psub $(88.11mmH_2O{\rightarrow}58.7mmH_2O)$, MPT(7.87sec${\rightarrow}$12.53sec), MFR (359.8ml/sec${\rightarrow}$161.06ml/sec) were statistically improved. AFx(205.5Hz${\rightarrow}$163.27Hz), AQx(23.9%${\rightarrow}$48.3%), RAL, RAH. Jotter and shimmer were improved. In multiple regression test, AFx and AQx was noted as the two meost correlated parameters to improvement of postoperative breathiness. But general grade of voice quality was more correlated to Psub and shimmer. Conclusion : Vocal fold medialization procedures effectively reduce glottic gap. Increasing of contact area of both vocal folds induced improvement in aerodynamic parameters and leaded stabilizing of vocal fold vibration. That effect results in improvement in acoustic parameters (shimmer, jitter, signal-to-noise ratio, voice range profile) and voice quality.

  • PDF