• 제목/요약/키워드: speech parameter

검색결과 373건 처리시간 0.022초

숫자음 분석과 인식에 관한 연구 (A Study on Spoken Digits Analysis and Recognition)

  • 김득수;황철준
    • 한국산업정보학회논문지
    • /
    • 제6권3호
    • /
    • pp.107-114
    • /
    • 2001
  • 본 논문에서는 한국어의 음성학적 규칙을 적용한 연속 숫자음 인식에 관하여 연구한다. 연속 숫자음의 인식률은 일반적으로 음성인식 시스템 중에서 낮은 인식률을 나타낸다. 따라서 숫자음에 대하여 강건한 모델을 작성하기 위하여 음성 특징 파라미터와 음성학적 규칙을 적용하고 실험을 통하여 그 유효성을 확인하고자 한다. 이를 위하여 음성자료로는 국어공학센터(KLE)에서 채록한 4연속 숫자음을 사용하며 인식의 기본단위로서는 음성학적 규칙을 적용한 19개의 연속분포 HMM을 유사음소 단위(PLUs)로 사용한다. 또한, 인식실험에 있어서는 일반적인 멜 켑스트럽과 회귀계수를 이용한 경우와 음성학적 규칙과 특징을 확장하여 모델을 작성한 경우에 대해서 유한상태 오토마타(Finite State Automata ; FSA)에 의한 구문제어를 통한 OPDP(One Pass Dynamic Programming) 법으로 인식실험을 수행하여 그 결과를 비교 검토하였다. 그 결과, 멜 켑스트럼만을 사용한 경우 55.4%, 멜 켑스트럼과 회귀계수를 사용한 경우에는 64.6%, 특징 파라미터를 확장한 경우 74.3%, 음성학적 특징까지 고려한 경우 75.4%로 기존의 경우보다 높은 인식률을 보였다. 따라서, 음성 특징 파라미터를 확장하고 음성학적 규칙까지 함께 적용한 경우 비교적 높은 인식률을 보여 제안된 방법이 연속 숫자음 인식에 유효함을 확인하였다.

  • PDF

일측 성대마비 환자에서 성대내전술 후 성대접촉율의 증가가 음질 개선에 미치는 영향 (The Effect of An Increase of Closed Quotient on Improvement of Voice Quality after Type I Thyroplasty in Patients with Unilateral Vocal Cord Paralysis)

  • 김한수;최성희;임재열;최홍식
    • 대한후두음성언어의학회지
    • /
    • 제15권1호
    • /
    • pp.16-20
    • /
    • 2004
  • Purpose : To assess perceptual, acoustic and aerodynamic measure of voice quality in patients with unilateral vocal cord paralysis before and after type I thyroplasty. Methods : The clinical records of patients operated type I thyroplasty in the Departement of otorhinoalryngolgy, Yongdong Severance hospital from November 2001 to November 2003 were reviewed. All patients uderwent a vocal function evaluation including perceptual, acoustic and aerodynamic measures of voice preoperative and on $60^{th}$ postoperative day. The perceptual and acoustic measures were obtained from recording of patients' reading a 'Sanchak' passage. The perceptual evaluation was performed by 2 speech pathologist using a 4-point rating scale. Acoustic parameters(voice range profile low(RAL), voice range profile high(RAH), average fundamental frequency(AFX), closed quotient, harmonic to noise ratio, jitter and shimmer) were investigated by Lx speech studio. Mean flow rate(MFR), subglottic pressure(Psub) and intensity were measured using the Phonatory function analyzer. The maximum phonation time was also measured. The data were statistically analyzed. A paired t-test (p<0.1) was used to compare preoperative and postoperative results. And multiple regression test was used to find which parameter was most correlated to improvement of postoperative voice quality. Results : Among aerodynamic parameters, Psub $(88.11mmH_2O{\rightarrow}58.7mmH_2O)$, MPT(7.87sec${\rightarrow}$12.53sec), MFR (359.8ml/sec${\rightarrow}$161.06ml/sec) were statistically improved. AFx(205.5Hz${\rightarrow}$163.27Hz), AQx(23.9%${\rightarrow}$48.3%), RAL, RAH. Jotter and shimmer were improved. In multiple regression test, AFx and AQx was noted as the two meost correlated parameters to improvement of postoperative breathiness. But general grade of voice quality was more correlated to Psub and shimmer. Conclusion : Vocal fold medialization procedures effectively reduce glottic gap. Increasing of contact area of both vocal folds induced improvement in aerodynamic parameters and leaded stabilizing of vocal fold vibration. That effect results in improvement in acoustic parameters (shimmer, jitter, signal-to-noise ratio, voice range profile) and voice quality.

  • PDF

입술 애니메이션을 위한 한글 발음의 동시조음 모델 (Coarticulation Model of Hangul Visual speedh for Lip Animation)

  • 공광식;김창헌
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제26권9호
    • /
    • pp.1031-1041
    • /
    • 1999
  • 기존의 한글에 대한 입술 애니메이션 방법은 음소의 입모양을 몇 개의 입모양으로 정의하고 이들을 보간하여 입술을 애니메이션하였다. 하지만 발음하는 동안의 실제 입술 움직임은 선형함수나 단순한 비선형함수가 아니기 때문에 보간방법에 의해 중간 움직임을 생성하는 방법으로는 음소의 입술 움직임을 효과적으로 생성할 수 없다. 또 이 방법은 동시조음도 고려하지 않아 음소들간에 변화하는 입술 움직임도 표현할 수 없었다. 본 논문에서는 동시조음을 고려하여 한글을 자연스럽게 발음하는 입술 애니메이션 방법을 제안한다. 비디오 카메라로 발음하는 동안의 음소의 움직임들을 측정하고 입술 움직임 제어 파라미터들을 추출한다. 각각의 제어 파라미터들은 L fqvist의 스피치 생성 제스처 이론(speech production gesture theory)을 이용하여 실제 음소의 입술 움직임에 근사한 움직임인 지배함수(dominance function)들로 정의되고 입술 움직임을 애니메이션할 때 사용된다. 또, 각 지배함수들은 혼합함수(blending function)와 반음절에 의한 한글 합성 규칙을 사용하여 결합하고 동시조음이 적용된 한글을 발음하게 된다. 따라서 스피치 생성 제스처 이론을 이용하여 입술 움직임 모델을 구현한 방법은 기존의 보간에 의해 중간 움직임을 생성한 방법보다 실제 움직임에 근사한 움직임을 생성하고 동시조음도 고려한 움직임을 보여준다.Abstract The existing lip animation method of Hangul classifies the shape of lips with a few shapes and implements the lip animation with interpolating them. However it doesn't represent natural lip animation because the function of the real motion of lips, during articulation, isn't linear or simple non-linear function. It doesn't also represent the motion of lips varying among phonemes because it doesn't consider coarticulation. In this paper we present a new coarticulation model for the natural lip animation of Hangul. Using two video cameras, we film the speaker's lips and extract the lip control parameters. Each lip control parameter is defined as dominance function by using L fqvist's speech production gesture theory. This dominance function approximates to the real lip animation of a phoneme during articulation of one and is used when lip animation is implemented. Each dominance function combines into blending function by using Hangul composition rule based on demi-syllable. Then the lip animation of our coarticulation model represents natural motion of lips. Therefore our coarticulation model approximates to real lip motion rather than the existing model and represents the natural lip motion considered coarticulation.

전기성문전도(EGG) 시스템의 개발 및 평가 (Implementation and Evaluation of Electroglottograph System)

  • 김기련;김광년;왕수건;허승덕;이승훈;전계록;최병철;정동근
    • 대한의용생체공학회:의공학회지
    • /
    • 제25권5호
    • /
    • pp.343-349
    • /
    • 2004
  • 전기성문전도는 발성시에 성문의 진동이 전기적 임피던스를 이용하여 검출되는 신호이다. 본 연구는 이러한 전기성문전도를 기록하기 위한 장비를 구현하고 음성분석 및 후두질환 진단에 대한 적용생을 평가하고자 하였다. 전기성문전도의 하드웨어는 2 쌍의 링전극, 동조증폭기, 검파기, 저역통과필터, 자동이득조절부 등으로 구성되며, 2.7MHz의 반송파 신호를 이용하고 진폭 변조 방식의 검파를 통해 임피던스 신호를 추출하도록 하였다. 추출된 신호는 PC 사운드 카드의 라인 입력을 통해 샘플링되고 양자화되었다. 검출 신호를 분석하기 위한 파라미터는 패래 시간을(CQ), 개폐 속도율(SQ), 개폐속도지수(SI), 성대진동 주파수(F0), 성대진동 주파수변동지수(Jitter), 성대진동 진폭변동지수(Shimmer) 등을 추출하였다. 전기성문전도를 분석한 결과, F0가 증가할수록 CQ는 커지고, SQ와 SI는 작아지는 경향을 보였으며, 전기성문전도와 음성 선호의 기본주파수가 일치함을 알 수 있었다. CQ, SQ, SI는 정상인과 후두암 환자를 비교한 결과 유의한 차이를 보였다. 이러한 결과는 성대의 운동을 관찰할 수 있는 휴대용 전기성문전도 계측기의 구현이 가능하게 하였고, 성대 기능 이상 검사가 가능함을 시사하였다.

서울말 /?/와 /?/의 지각특성 (Perceptual cues for /o/ and /u/ in Seoul Korean)

  • 변희경
    • 말소리와 음성과학
    • /
    • 제12권3호
    • /
    • pp.1-14
    • /
    • 2020
  • 서울말의 ᅩ/ᅮ가 모음 공간에서 융합하는 변화가 진행되고 있는 것이 많은 연구들에 의해 지적되어 왔다. 한편 ᅩ/ᅮ의 중복이 현저한 여성의 발화에서는 포먼트 대신 모음의 음질 (H1-H2)이 ᅩ/ᅮ를 구별하고 있는 것이 확인되었다. 본 고의 목적은 생성에 보이는 ᅩ/ᅮ 간의 H1-H2 차이가 지각에서도 유효한지를 확인하는 것이다. 지각에서도 H1-H2가 유효하게 기능하고 있다면 포먼트만으로는 설명이 어려운 여성의 ᅩ/ᅮ를 생성과 지각 모두에서 H1-H2로 정연하게 설명할 수 있을 것이다. 서울, 경기 출신의 대학생 35명을 대상으로 서울말 모어 화자가 단독발화한 ' 오'와 '우'를 사용하여 지각실험을 실시하였다. 자극음은 모두 여성의 발화로 모음 공간에서 상당한 중복을 보이는 182예이다. 생성과 지각의 관계를 보기 위해 자극음의 음향분석도 실시하였다. 정답률(바르게 지각한 동정률)은 평균 89%로 /ᅩ/가 86% (n=88), /ᅮ/가 91% (n=94)였다. 자극음의 음향분석에서 포먼트로 구별이 어려운 ᅩ/ᅮ의 경우 H1-H2가 유의하게 작용하고 있는 것이 확인되었다. 그러나 ᅩ/ᅮ의 지각에 H1-H2의 영향력은 매우 미미하며 ᅩ/ᅮ의 구별에는 남녀 모두 포먼트가 결정적인 역할을 하는 것으로 나타났다. 생성에서 H1-H2로 ᅩ/ᅮ를 구별하는 것은 여성의 발화로, 남성의 발화에서는 H1-H2가 아닌 포먼트로 구별된다. 남성의 발화에서도 H1-H2 차이가 ᅩ/ᅮ의 구별에 쓰인다면 지각에 있어서도 H1-H2가 주된 지각특성이 될 수도 있겠지만 적어도 현 단계에서 ᅩ/ᅮ의 지각에 H1-H2의 사용은 남녀 모두 아직 도입되지 않은 것으로 보인다.

성대 용종 환자의 후두미세수술 전후 음성 평가에서 OperaVOXTM와 Multi-Dimensional Voice Program 간의 신뢰도 연구 (Reliability of OperaVOXTM against Multi-Dimensional Voice Program to Assess Voice Quality before and after Laryngeal Microsurgery in Patient with Vocal Polyp)

  • 김선우;김소연;조재경;진성민;이상혁
    • 대한후두음성언어의학회지
    • /
    • 제31권2호
    • /
    • pp.71-77
    • /
    • 2020
  • Background and Objectives OperaVOXTM (Oxford Wave Research Ltd.) is a portable voice analysis software package designed for use with iOS devices. As a relatively cheap, portable and easily accessible form of acoustic analysis, OperaVOXTM may be more clinically useful than laboratory-based software in many situations. The aim of this study was to evaluate the agreement between OperaVOXTM and Multi-Dimensional Voice Program (MDVP; Computerized Speech Lab) to assess voice quality before and after laryngeal microsurgery in patient with vocal polyp. Materials and Method Twenty patients who had undergone laryngeal microsurgery for vocal polyp were enrolled in this study. Preoperative and postoperative voices were assessed by acoustic analysis using MDVP and OperaVOXTM. A five-seconds recording of vowel /a/ was used to measure fundamental frequency (F0), jitter, shimmer and noise-to-harmonic ratio (NHR). Results Several acoustic parameters of MDVP and OperaVOXTM related to short-term variability showed significant improvement. While pre-operative value of F0, jitter, shimmer, NHR was 155.75 Hz (male: 125.37 Hz, female: 183.37 Hz), 2.20%, 6.28%, 0.16, post-operative values of these parameter was 164.34 Hz (male: 129.42 Hz, female: 199.26 Hz), 2.15%, 5.18%, 0.14 Hz in MDVP. While pre-operative value of F0, jitter, shimmer, NHR was 168.26 Hz (male: 135.16 Hz, female: 201.37 Hz), 2.27%, 6.95%, 0.26, post-operative values of these parameters was 162.72 Hz (male: 128.267 Hz, female: 197.18 Hz), 1.71%, 5.36%, 0.20 in OperaVOXTM. There was high intersoftware agreement for F0, jitter, shimmer with intraclass correlation coefficient. Conclusion Our results showed that the short-term variability of acoustic parameters in both MDVP and OperaVOXTM were useful for the objective assessment of voice quality in patients who received laryngeal microsurgery. OperaVOXTM is comparable to MDVP and has high intersoftware reliability with MDVP in measuring the F0, jitter, and shimmer

근접센서를 이용한 수중 표적 정보 추정기법 (Underwater Target Information Estimation using Proximity Sensor)

  • 김정훈;윤경식;서익수;이균경
    • 전자공학회논문지
    • /
    • 제52권5호
    • /
    • pp.174-180
    • /
    • 2015
  • 본 논문은 근접센서를 이용하여 수중 표적의 정보를 추정하는 수동소나 신호처리 기법을 제안한다. 이 기법은 수중 센서망을 구성하는 단일 센서에서 수행되며 계층적 신호처리 구조를 가진다. 이를 통해 추정되는 표적 정보는 표적의 속도, 깊이, CPA 상황에서의 거리와 방위각이며 계층적 신호처리 구조를 가짐으로써 신호처리 기법의 정확도를 향상시킬 수 있다. 제안하는 기법의 성능을 검증하기 위해 모의실험을 수행하였고 이를 통해 최대 탐지거리 내에서 최대 20%의 오차를 가짐을 확인하였다. 또한 해상실험을 통해 실제 해상환경에서 신뢰성을 가지는지 확인하였다.

암묵 데이터를 활용한 인문학 인풋값과 다중 모달리티의 가중치 할당 방법에 관한 연구 (A Study on the Weight Allocation Method of Humanist Input Value and Multiplex Modality using Tacit Data)

  • 이원태;강장묵
    • 한국인터넷방송통신학회논문지
    • /
    • 제14권4호
    • /
    • pp.157-163
    • /
    • 2014
  • 이용자의 감성은 그 어느 때보다 기업, 정부 그리고 개인 간의 소통에서 중요한 변수로 인식된다. 특히 수많은 연구에서 이용자의 감성을 파악하는 방법으로 음성 톤, 속도, 얼굴 표정, 몸의 이동 방향과 속도, 제스쳐 등이 사용된다. 다중 모달리티는 단일의 모달리티보다 정확도가 높은 반면 멀티 센싱에 따른 인식률 한계와 데이터 처리 부하 그리고 센싱된 값을 추론하는 우수한 알고리즘이 요구된다. 즉 다중 모달리티는 각 모달리티의 개념, 속성이 상이하여 인간의 감성값이라는 표준화된 값으로 전환하는데 오류가 발생할 수 있다. 이 문제를 해결하기 위해 다중 모발리티 중관계망 분석, 문맥 파악, 디지털 필터 등의 기술을 이용하여 이용자에게 우선 순위를 갖는 감성 표현 모달리티를 추출할 필요가 있다. 특정 상황에 우선 순위를 갖는 모달리티와 그 주변을 에워싼 다른 모발리티를 암묵 값으로 처리하면 감성 인식에 있어 컴퓨터 자원의 소비 대비 견고한 시스템을 구성할 수 있다. 본 연구 결과, 암묵 데이터를 활용하여 다중 모발리티 중 가중치를 어떻게 부여할지에 대하여 제안하였다.

주변 잡음 환경에 강한 화자인식 알고리즘 연구 (A study on the robust speaker recognition algorithm in noise surroundings)

  • 정종순
    • 한국컴퓨터정보학회논문지
    • /
    • 제10권6호
    • /
    • pp.47-54
    • /
    • 2005
  • 대부분의 화자인식 시스템은 음성 분석을 통해 화자의 특징을 음향 파라미터 형태로 추출하여 화자의 표준패턴을 만든 후, 입력된 미지의 음성패턴과의 차이를 계산하여 허용 여부를 최종적으로 판단한다. 화자인식에 사용하는 파라미터는 화자의 특징을 충분히 표현함과 더불어 발성 시마다 변동이 작은 것이 바람직하다. 따라서 본 논문에서도 이를 위해서 다음과 같이 제안하였다. 벡터 양자화모델에 비잡음 환경에 강한 스펙트럼 특징과 잡음 환경에 강한 운율정보를 화자인식 시스템에 이용할 것을 제안하였다. 훈련과정에서 코드북 형성시 실제 데이터를 스펙트럼 특징과 운을 특징을 조합하여 원하는 모델 수만큼 만들었다. 인식과정에서는 입력된 테스트패턴을 각 모델간에 거리 측도로 비교하여 가부를 결정하였다. 실험결과 스펙트럼 특징과 운을 특징을 각각 이용할 경우 보다 좋은 인식율을 얻었으며, 특히 잡음 환경에서 안정된 인식율을 확보하므로 상용화의 가능성을 한층 높였다.

  • PDF

서포트 벡터 머신과 퍼지 클러스터링 기법을 이용한 오디오 분할 및 분류 (Audio Segmentation and Classification Using Support Vector Machine and Fuzzy C-Means Clustering Techniques)

  • ;강명수;김철홍;김종면
    • 정보처리학회논문지B
    • /
    • 제19B권1호
    • /
    • pp.19-26
    • /
    • 2012
  • 최근 멀티미디어 정보가 급증함에 따라 콘텐츠 관리에 대한 요구도 함께 증가되고 있다. 이에 오디오 분할 및 분류는 멀티미디어 콘텐츠를 효과적으로 관리할 수 있는 대안이 될 수 있다. 따라서 본 논문에서는 동영상에서 취득한 오디오 신호를 분할하고, 분할된 오디오 신호를 음악, 음성, 배경 음악이 포함된 음성, 잡음이 포함된 음성, 묵음(silence)으로 분류하는 정확도가 높은 오디오 분할 및 분류 알고리즘을 제안한다. 제안하는 알고리즘은 오디오 분할을 위해 서포트 벡터 머신(support vector machine, SVM)을 이용하였다. 오디오 신호의 분류를 위해서는 분할된 오디오 신호의 특징을 추출하고 이를 퍼지 클러스터링 알고리즘(fuzzy c-means, FCM)의 입력으로 사용하여 각 계층으로 오디오 신호를 분류하였다. 제안하는 알고리즘의 평가는 분할과 분류에 대해 각각 그 성능을 평가하였으며, 분할 성능 평가는 정확도율(precesion rate)과 오차율(recall rate)을 이용하였으며, 분류 성능 평가는 정확성(classification accuracy)을 사용하였다. 또한 오디오 분할의 경우는 이진 분류기와 퍼지 클러스터링을 이용한 기존의 알고리즘과 그 성능을 비교하였다. 모의 실험 결과, 제안한 알고리즘의 분류 성능이 기존 알고리즘 보다 정확도율과 오차율 면에서 모두 우수하였다.