• 제목/요약/키워드: 모음화 확률

검색결과 4건 처리시간 0.015초

손실 데이터 이론을 이용한 강인한 음성 인식 (Robust Speech Recognition Using Missing Data Theory)

  • 김락용;조훈영;오영환
    • 한국음향학회지
    • /
    • 제20권3호
    • /
    • pp.56-62
    • /
    • 2001
  • 본 논문에서는 손실이 발생하는 상황에서 높은 인식률을 유지하기 위해서 손실 데이터 이론을 음성 인식기에 적용하였다 손실 데이터 이론은 일반적으로 이용되는 통계적 정합 방법인 은닉 마코프 모델 (HMM: hidden Markov model) 중 연속 Gaussian확률 밀도 함수를 이용하여 음성 특징들의 출력 확률을 나타내는 경우에 쉽게 적용할 수 있다는 장점을 갖고 있다. 손실 데이터 이론의 방법 중 계산량이 적고 인식기에 적용이 쉬운 주변화(marginalization)방법을 사용하였으며 특징 벡터의 특정 차수나 시간열의 손실 검출 방법은 음성 신호의 에너지와 주위 배경 잡음의 에너지의 차이가 임계치보다 작게 되는 부분을 찾는 주파수 차감 방법을 이용하였다. 본 논문에서 제안한 손실 영역의 신뢰도 평가는 분석 구간이 모음일 확률을 계산해서 비교적 잉여 정보가 많이 포함된 모음화된 구간의 손실만을 처리하도록 하였다. 제안한 방법을 사용하여 여러 잡음 환경에 대해서 기존의 손실 데이터 처리 방법만을 사용한 경우보다 452 단어의 화자독립 단어 인식 실험을 수행한 결과 오류율측면에서 평균적으로 약 12%의 성능 향상을 얻을 수 있었다.

  • PDF

사후 확률.확률 밀도 함수의 추정과 Probabilistic neural network을 이요한 모음 인식에 의한 평가

  • 허강인;이광석;김명기
    • 한국음향학회지
    • /
    • 제12권6호
    • /
    • pp.21-27
    • /
    • 1993
  • 계층형 신경망은 패턴 분류를 위해 사용되어 왔다. 이것은 주어진 교사패턴들의 학습으로 원하는 입력-출력 간의 매핑을 할 수 있기 때문이다. 신경망은 타겟ㅌ트 패턴이 입력 패턴의 카테고리에 일치할 때 타겟트 패턴을 학습하므로서 사후 확률을 근사화할 수 있다. 그리고 입력 공간을 부분 공간으로 나누어 학습 데이터들의 비율로서 만든 타겟트 벡터들로 학습한 신경망은 확률밀도 함수를 나타낼 수 있다. 본 연구에서는 역전파 학습법을 이용한 계층형 NN 과 코드북으로서 사후 확률과 확률밀도함수의 측정방법을 제안하였다. VQ 로 추정한 사후확률고 확률밀도함수를 이용하여 학습이 필요없는 RBF network 의 일종인 PNN으로 모음 인식을 수행 하였다. 인식 실험에서 PNN 의 결과는 역전파 학습법을 이용항 3층 신경망과 VQ 의 평균 인식율과 비교되었다. VQ-PNN의 인식율이 다른 것보다 우수하게 나타났다.

  • PDF

음성특징의 거리에 기반한 한국어 발음의 시각화 (Visualization of Korean Speech Based on the Distance of Acoustic Features)

  • 복거철
    • 한국정보전자통신기술학회논문지
    • /
    • 제13권3호
    • /
    • pp.197-205
    • /
    • 2020
  • 한국어는 자음과 모음과 같은 음소 단위의 발음은 고정되어 있고 표기에 대응하는 발음은 변하지 않기 때문에 외국인 학습자가 쉽게 접근할 수 있다. 그러나 단어와 어구, 문장을 말할 때는 음절과 음절의 경계에서 소리의 변동이 다양하고 복잡하며 표기와 발음이 일치하지 않기 때문에 외국어로서의 한국어 표준 발음 학습은 어려운 면이 있다. 그러나 영어 같은 다른 언어와 달리 한국어의 표기와 발음의 관계는 논리적인 원리에 따라 예외 없이 규칙화 할 수 있는 장점이 있으므로 발음오류에 대해 체계적인 분석이 가능한 것으로 여겨진다. 본 연구에서는 오류 발음과 표준 발음의 차이를 컴퓨터 화면상의 상대적 거리로 표현하여 시각화하는 모델을 제시한다. 기존 연구에서는 발음의 특징을 단지 컬러 또는 3차원 그래픽으로 표현하거나 입과 구강의 변화하는 형태를 애니메이션으로 보여 주는 방식에 머물러 있으며 추출하는 음성의 특징도 구간의 평균과 같은 점 데이터를 이용하는데 그치고 있다. 본 연구에서는 시계열로 표현되는 음성데이터의 특성 및 구조를 요약하거나 변형하지 않고 직접 이용하는 방법을 제시한다. 이를 위해서 딥러닝 기법을 토대로 자기조직화 알고리즘과 variational autoencoder(VAE) 모델 및 마코브 확률모델을 결합한 확률적 SOM-VAE 기법을 사용하여 클러스터링 성능을 향상시켰다.

이동 무선망의 경로 붕괴시간에 대한 통계적 분석 (Statistical Analysis for Path Break-Up Time of Mobile Wireless Networks)

  • 안홍영
    • 한국인터넷방송통신학회논문지
    • /
    • 제15권5호
    • /
    • pp.113-118
    • /
    • 2015
  • 이동 무선망은 통신기반 설치가 필요 없는 빠르고 쉬운 망 구성 등의 장점으로 미래의 통신망으로 많은 주목을 받고 있다. 이동 무선망에서 임의의 두 노드간의 통신 경로는 노드의 이동성으로 인해 어떤 링크에서는 전송 범위($r_0$)를 벗어나 경로 붕괴가 일어나고 통신이 불가능하게 된다. 모든 노드 쌍의 경로 붕괴 시간의 모음인 총 경로붕괴 시간 집합(${\bigcup}T_i$)은 이동 무선망의 동적인 연결 상태를 측정하는 좋은 척도가 될 수 있다. 본 논문에서는 총 경로붕괴 시간의 확률 밀도함수는 지수함수로 근사화 될 수 있음을 보이고 실험 데이터를 통해서 확인하였다. 경로붕괴 시간에 대한 통계적 특성을 알면 이동 무선망에서의 노드 간 지연, 패킷 손실률 등에 대한 정량적 예측을 할 수 있고 시뮬레이션 결과에 대한 확신을 더해 주게 된다.