• 제목/요약/키워드: 켑스트럼 거리

검색결과 22건 처리시간 0.025초

켑스트럼 정규화와 켑스트럼 거리기반 묵음특징정규화 방법을 이용한 잡음음성 인식 (Cepstral Normalization Combined with CSFN for Noisy Speech Recognition)

  • 최숙남;신광호;정현열
    • 한국멀티미디어학회논문지
    • /
    • 제14권10호
    • /
    • pp.1221-1228
    • /
    • 2011
  • 일반적인 음성인식 시스템은 보통 실내 환경에서는 잘 동작하지만 잡음이 존재하는 실제 환경에서는 여러 가지 잡음의 영향으로 그 성능이 급격히 떨어진다. 본 논문에서는 잡음환경에 강인한 음성인식을 위하여 훈련 환경과 실제 환경의 불일치를 줄이기 위한 방법으로 켑스트럼 거리기반 묵음특징 정규화(CSFN: Cepstral distance based SFN) 방법에 켑스트럼 정규화 방법(CMVN:cepstral mean and variance normalization)을 결합한 CSFN-CMVN 방법을 제안하였다. 이 방법은 켑스트럼 특징의 분포 특성의 차이를 나타내는 켑스트럼 유클리디언 거리를 결합하여 음성/묵음 분류에 사용하여 묵음특징을 정규화하는 CSFN 방법에 켑스트럼 정규화 방법을 결합하는 방법이다. Aurora 2.0 DB를 이용한 실험결과, 제안한 CSFN-CMVN은 기존의 대표적인 묵음특징 정규화 방법인 SFN-I 과 비교했을 때 모든 테스트 세트에 대한 평균 단어인식 정확도에서 약 7%의 인식률 향상을 가져옴을 확인하였다. 또한, 기존의 SFN-II, CSFN에 비해서도 약 6%, 5% 향상되었음을 확인 할 수 있어 제안한 방법의 유효성을 확인할 수 있었다.

잡음 환경에서 음성 인식을 위한 신호처리 (Signal Processing for Speech Recognition in Noisy Environment)

  • 김원구;임용훈;차일환;윤대희
    • 한국음향학회지
    • /
    • 제11권2호
    • /
    • pp.73-84
    • /
    • 1992
  • 본 논문에서는 잡음 환경에서 음성 인식 시스템의 성능을 개선할 수 있는 잡음제거 방식과 거리 측정 방법을 연구하고 백색 및 유색 잡음 환경에서 거리 측정 방법에 따른 음성 인식 시스템의 성능을 평가하였다. 잡음 제거 방법으로는 음성 인식 시스템의 전처리 과정으로서 사용될 수 있는 스펙트럼 차감법, 자기 상관 차감법, 적응 잡음 제거, 적응 빔 형성기가 있으며 거리 측정 방법으로는 Log Likelihood Ration($d_{LLR}$), 켑스트럼에 의한 거리 측정 ($d_{CEP}$), 가중 켑스트럼 거리 측정 ($d_{WCEP}$), 스펙트럼 기울기에 의한 거리 측정 ($d_{RPS}$), 켑스트럼 투영 거리 측정방법 ($d_{CP},\;d_{BCP},\;d_{WCP},\;d_{BWCP}$)들이 있다. 백색 및 자동차 잡음 환경에서의 화자 종속 단독음 인식 실험 결과, 켑스트럼 계수의 높은 차수에 큰 가중을 두는 거리 측정 방법인 $d_{RPS},\;d_{WCEP}$가 잡음에 강한 특성을 나타내었으며, 잡음이 존재할 때는 pre-emphasis를 하지 않은 경우가 높은 인식율을 얻을 수 있었다.

  • PDF

차량 항법용 음성 인식 시스템 구현 (Implementation of Speech Recognition System for Car Navigation)

  • 김지성
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 1호
    • /
    • pp.51-54
    • /
    • 1998
  • 본 논문에서는 자동차 잡음 환경에서 녹음된 데이터 베이스를 이용하여 인식 시스템의 성능을 향상시키기 위한 효율적인 잡음 제거 방법을 연구하였다. 먼저, 잡음 및 주변 환경 변화에 강인한 것으로 알려져 있는 특징 벡터들의 인식 성능을 비교하교, 가중 켑스트랄 거리 측정 방법을 이용한 인식 실험을 통하여 시스템의 성능 향상을 확인하였다. 실험 결과, 본 논문에서 기준 시스템으로 사용한 LPC 켑스트럼의 경우에 비하여 MFCC나 root-cepstrum을 사용한 경우 인식률이 향상되었다. 켑스트럼간의 거리 측정에 있어서는 RPS와 BPL과 같은 가중 켑스트랄 거리 측정 함수들이 인식 성능 향상에 도움을 주었다. 또한 켑스트럼 평균 차감법이라는 간단한 잡음 제거기술을 적용하여 자동차 잡음 환경에서 인식 성능 향상을 보였다. 마지막으로, 차량 항법용 음성 인식 시스템의 실시간구현을 위하여 여러 경우의 인식 성능을 비교하고, 메모리 량과 실행 시간 등을 고려하여 최적 시스템을 제시하였다.

  • PDF

LPC 켑스트럼 계수를 이용한 EMG 신호의 기능 인식에 관한 연구 (A Study on Function Recognition of EMG Signal Using LPC Cepstrum Coefficients)

  • 왕성문;정태윤;최윤호;변윤식;박상희
    • 대한전자공학회논문지
    • /
    • 제27권2호
    • /
    • pp.126-134
    • /
    • 1990
  • 본 논문에서는 3전극법으로 피검자의 이두박근과 삼두박근에서 검출한 표면 근전도 신호를 LPC 켑스트럼 계수를 이용하여 유클리드 및 가중 켐스트럼 거리 측정법을 통하여 8가지 팔 운동에 대한 기능분리 및 판별 인식에 관한 실험을 하였다. 유클리드 켑스트럼 거리 측정법의 경우,계수의 수가 8,10,12,14 등으로 증가함에 따라 동작기능 인식률도 각각 94.69, 95.63, 96.56, 96.88[%]로 증가하였으나 인식률의 증가폭은 상대적으로 적으며 가중 켑스트럼 거리 측정법의 경우에는 각각 91.88, 95, 99.69, 96.63[%]의 인식률을 보였다.

  • PDF

켑스트럼으로부터 변환된 로그 스펙트럼을 이용한 포먼트 평활화 켑스트럴 평균 차감법 (Formant-broadened CMS Using the Log-spectrum Transformed from the Cepstrum)

  • 김유진;정혜경;정재호
    • 한국음향학회지
    • /
    • 제21권4호
    • /
    • pp.361-373
    • /
    • 2002
  • 본 논문에서는 음성 인식과 화자 인식에서 채널 변이 정규화를 위해 널리 사용되는 전통적인 켑스트럴 평균차감법 (CMS: Cepstral Mean Subtraction)의 성능을 향상시키기 위한 정규화 방법을 제안한다. 기존의 켑스트럴 평균 차감법은 장구간 켑스트럼의 평균으로 채널 성분을 추정하므로 유성음의 포먼트에 의해 채널 성분이 편향되는 단점을 가진다. 제안된 포먼트 평활화 켑스트럴 평균 차감법 (FBCMS; Formant-broadened CMS)은 켑스트럼으로부터 변환된 로그 스펙트럼에서 포먼트 위치를 쉽게 찾을 수 있고, 포먼트는 전극점 모델로 표현되는 성도 전달 함수의 우세 극점에 대응된다는 사실에 근거한다. 따라서 제안된 방법은 켑스트럼으로부터 음성의 포먼트를 구하고, 이로부터 포먼트의 대역폭을 확장한 켑스트럼을 구한 후 평균함으로써 채널 켑스트럼 성분으로부터 우세 극점들의 영향을 제거한다. 전극점 모델의 우세 극점을 얻기 위해 다항식 인수분해 과정을 거치지 않으므로 연산량을 줄일 수 있으며 포먼트에 해당하는 우세 극점만으로 선택적으로 처리할 수 있다. 본 연구에서는 4가지의 모의 채널을 이용하여 전통적인 켑스트럴 평균 차감법, 극점 필터화 켑스트럴 평균 차감법 (Pole-filtered CMS) 그리고 제안된 방법의 비교실험을 수행하였다. 실제 채널 켑스트럼과 추정된 채널 켑스트럼과의 거리를 측정하는 실험에서 음성에 의한 편향을 완화시켜 실제 채널에 보다 가까운 평균 켑스트럼을 얻을 수 있음을 확인하였다. 또한 문장독립 화자 식별에서 제안된 방법은 전통적인 켑스트럴 평균 차감법보다 우세하고 극점 필터화 켑스트럴 평균 차감법 (Pole-filtered CU)과는 비슷한 결과를 보였다. 결과적으로 제안된 방법은 전통적인 켑스트럴 평균 차감법에 기반하여 효과적인 채널 정규화가 가능하다는 것을 보였다.

강인한 음성인식을 위한 켑스트럼 거리와 로그 에너지 기반 묵음 특징 정규화 (Cepstral Distance and Log-Energy Based Silence Feature Normalization for Robust Speech Recognition)

  • 신광호;정현열
    • 한국음향학회지
    • /
    • 제29권4호
    • /
    • pp.278-285
    • /
    • 2010
  • 훈련 환경과 인식 환경의 차이가 음성인식 성능저하의 주요요인이다. 이러한 환경의 불일치를 줄이기 위한 방법으로 다양한 묵음특징 정규화 방법이 제안되고 있다. 기존의 묵음특징 정규화 방법은 낮은 SNR (Signal-to-Noise Ratio)에서 묵음구간의 에너지 레벨이 증가하여 음성/묵음 분류의 정확도가 떨어짐으로 인해 인식성능이 저하되는 문제점이 있었다. 본 논문에서는 로그 에너지와 음성/묵음(또는잡음)의 켑스트럼 특징의 분포 특성의 차이를 나타내는 켑스트럼 유클리디언(Euclidean) 거리를 결합하여 음성/묵음을 분류하는 묵음특징 정규화 방법 (Cepstral distance and Log-energy based Silence Feature Normalization)을 제안하였다. 제안한 방법은 높은 SNR에서는 로그 에너지 특징이 잡음의 영향을 적게 받는 특성을 반영하여 기존의 묵음 특징 정규화 (Silence Feature Normalization)방법의 우수성을 그대로 유지하는 반면, 낮은 SNR에서는 로그 에너지 대신 음성/묵음 분류의 분별력이 우수한 켑스트럼 거리 정보를 이용함으로써 인식성능을 향상시킬 수 있다. 인식실험결과 기존의 SFN-I/II, CSFN 방법에 비해 전반적으로 향상된 인식성능을 얻을 수 있어 그 유효성을 확인할 수 있었다.

한국어 규칙 합성을 위한 다이폰의 자동 추출 (An Automatic Diphone Segmentation for Korean Speech Synthesis-by-Rule)

  • 정인종;경연정;김한우;이양희
    • The Journal of the Acoustical Society of Korea
    • /
    • 제12권2E호
    • /
    • pp.63-72
    • /
    • 1993
  • 본 논문에서는 무제한 음성 생성을 위한 단위음성으로서의 다이폰을 2음절 자연음성으로부터 자동 추출하는 알고리즘을 제안한다. 입력음성을 개량 켑스트럼 파라미터로 분석하여 이로부터 다이폰 추출 파라미터들을 도출한다. 제안된 파라미터로는 에너지 레벨을 나타내는 0차 켑스트럼의 동적변화량, 스펙트럼의 시간 변화량 영교차율, 캡스트럼의 유클리디안 거리이다. 스펙트럼 포락의 변화가 완만한 모음 연쇄등의 음소 경계를 보다 효율적으로 검출하기 위해 스펙트럼의 시간 변화를 미세부분과 개형부분으로 나누어 각각을 파라미터로 사용한다. VV(모음연쇄), VCV(C: 반모음, 자음), VCCV형들로 이루어진 2음절 단어들에 대해 실험한 결과, 모음연쇄 등이 포함되어 있음에도 약 85% 정확도의 음소경계검출을 얻었다. 본 논문에 의한 다이폰을 이용한 합성음의 청취실험 결과 명료도가 높음을 확인하였다.

  • PDF

다중대역 여기신호를 이용한 음성의 규칙합성에 관한 연구 (A Study on the speech synthesis-by-rue system using Multiband Excitation signal)

  • 경연정
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1993년도 학술논문발표회 논문집 제12권 1호
    • /
    • pp.80-83
    • /
    • 1993
  • 본 논문에서는 양질의 규칙합성을 얻기 위하여, 유성음에 대한 여기신호로 임펄스 스펙트럼과 노이즈 스펙트럼을 다중대역으로 혼합하여 생성한 여기신호를 규칙합성에 적용하는 방법을 제안한다. 이 방법에서는, 분석합성에서 각 프레임별로 요구되었던 혼합여기신호에 대한 정보량 문제를 해결하기 위해 유성음의 정상부분의 한 프레임에 대해 혼합여기신호를 구하여 규칙합성에 적용하였고, 정보량을 더욱 줄이는 방안으로, 켑스트럼 유클리디안 거리를 이용하여 유성음을 분류하여, 각 그룹에 대한 대표 여기신호를 규칙합성의 여기신호로 사용하였다. 제안된 방법으로 음성을 합성한 결과 양질의 합성음을 얻을 수 있음을 확인하였다.

  • PDF

한국어 음소 HMM 모델 결정을 위한 파라미터 비교 연구 (A Comparative Study on Parameter for Korean Phoneme-based HMM Model Decision)

  • 권혁제
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 제15회 음성통신 및 신호처리 워크샵(KSCSP 98 15권1호)
    • /
    • pp.302-305
    • /
    • 1998
  • 음소의 확률적 분포를 이용하는 음소 HMM 모델을 결정하기 위한 여러 가지 거리 측정방법에 대한 연구이다. 음소 HMM 모델 결정을 위해서 LPC 계수를 이용하고, 거리 측정자를 LPC 계수, LPC 스첵트럼, LPC 켑스트럼 등의 파라미터를 이용하고, 또한 양자화 과정은 k-means 와 LBG 알고리즘을 혼합한 하이브리드 알고리듬을 사용하였다. LPC 코드북을 구성하기 위해 세 가지 파라미터를 유클리디안 거리로 거리측정에 이용하였다. 이렇게 양자화한 파라미터의 평균과 분산을 구하고, 양자화한 파라미터 코드북의 확률갑승ㄹ 비교해 한국어 음소 HMM 모델 결정을 위한 거리 측정 파라미터를 비교하였으며, 그 결과 LPC 계수를 주파수 영역으로 변환하여 유클리디안 거리를 이용한 코드북의 분산이 작으므로 상대적으로 높은 확률을 가짐을 보았다.

  • PDF

확률적 방법을 이용한 음성 개성 변환 (Voice Personality Transformation Using a Probabilistic Method)

  • 이기승
    • 한국음향학회지
    • /
    • 제24권3호
    • /
    • pp.150-159
    • /
    • 2005
  • 본 논문에서는 임의의 음성을 특정 화자가 발성한 것처럼 들리도록 변환하는 음성 개성 변환 알고리즘에 대해 연구하였다. 제안된 기법은 화자의 음성을 LPC 켑스트럼, 피치, 발성 속도를 사용하여 표현하였으며 각각에 대한 변환 규칙을 생성하여 변환을 수행하였다. LPC 켑스트럼은 혼합 가우시안 모델을 이용한 확률적으로 모델링하고, 두 화자간의 대응관계를 조건 확률로 나타내었다. 확률적인 모델링에 필요한 각종 파라메터들을 얻기 위해 최대 가능도 기법이 사용되었으며, 변환 LPC 켑스트럼은 최소 자승 오차 방법에 근거하여 얻어지도록 하였다. 운율 변환을 위한 변수로 본 논문에서는 피치와 발성 속도를 사용하였으며, 두 음성간의 평균값 비율을 사용하여 운율 변환을 수행하였다. 제안된 기법은 기존 벡터 양자화 기반의 기법과 비교에서, 객관적인 척도로 사용한 평균 켑스트럼 거리 감소율, 가능도 증가율 면에서 우수한 성능을 나타내었다. 주관적인 테스트에서도 기존의 방법과 유사한 인식율을 얻었으며 특히 완만하게 변화하는 스펙트럼 궤적에 따른 고음질이 얻어짐을 확인할 수 있었다.