• 제목/요약/키워드: segmental-feature HMM

검색결과 8건 처리시간 0.027초

분절 특징 HMM을 이용한 영어 음소 인식 (English Phoneme Recognition using Segmental-Feature HMM)

  • 윤영선
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권3호
    • /
    • pp.167-179
    • /
    • 2002
  • 본 논문에서는 여러 프레임 특징으로 표현되는 분절 특징(segmental feature) 표현 방법을 제안하고, HMM 개념 위에서 음향학적 모델과 그 알고리즘을 개발하여 HMM의 약점으로 지적되는 독립관측 가정을 완화시키고자 한다. 제안된 특징 표현은 단일 프레임 특징이 음성 신호의 시간적 동적 특성 (temporal dynamics)을 제대로 표현하지 못하기 때문에, 여러 프레임을 이용하여 음성 특징을 표현하도록 한다. 분절 특징은 다항식의 회귀 함수(polynomial regression function)에 의하여 관측 벡터의 궤적으로 표현되고, 이 특징을 패턴 분류에 사용하기 위하여 음성 신호의 궤적을 효과적으로 표현하는 분절 HMM(segmental HMM)을 이용한다. SHMM은 상태에서의 관측 확률을 외적 분절 변이와 내적 분절 변이로 세분하며, 외적 분절 변이는 장기적인 변화를, 내적 분절 변이는 단기적인 변화를 나타낸다. 음향학적 모델에서 분절 특성을 고려하기 위하여 외적 분절 변이는 분절의 확률 분포로 표현하고, 내적 분절 변이는 궤적의 추정 오차로 표현하도록 SHMM을 수정한 분절 특징 HMM(SFHMM; segmental-feature HMM)을 제안한다. SFHMM에서는 분절의 관측 확률을 분절 우도와 궤적의 추정 오차의 관계로써 표현하며, 추정오차는 특정 상태에서의 분절의 우도에 대한 가중치로 고려될 수 있다. 제안된 방법의 유효성과 분절 특징의 특성을 살펴보기 위하여 TIMIT 자료를 이용하여 몇 가지 실험을 하였다. 이들 실험 결과에서, 제안된 방법이 기존의 HMM보다 매개 변수가 많더라도, 성능의 향상과 제안된 특징이 유연하고 정보를 많이 가진다는 점에서 의미가 있다고 하겠다.

분절특징 HMM의 특성에 관한 연구 (A Study on the Characteristics of Segmental-Feature HMM)

  • 윤영선;정호영
    • 대한음성학회지:말소리
    • /
    • 제43호
    • /
    • pp.163-178
    • /
    • 2002
  • In this paper, we discuss the characteristics of Segmental-Feature HMM and summarize previous studies of SFHMM. There are several approaches to reduce the number of parameters in the previous studies. However, if the number of parameters decreased, the performance of systems also fell. Therefore, we consider the fast computation approach with preserving the same number of parameters. In this paper, we present the new segment comparison method to speed up the computation of SFHMM without loss of performance. The proposed method uses the three-frame calculation rather than the full(five) frames in the given segment. The experimental results show that the performance of the proposed system is better than that of the previous studies.

  • PDF

분절 특징 HMM의 매개 변수 수의 감소에 관한 연구 (Reduction of Number of Free Parameters in Segmental-feature HMM)

  • 윤영선;오영환
    • 한국음향학회지
    • /
    • 제19권7호
    • /
    • pp.48-52
    • /
    • 2000
  • 음성 인식에 많이 사용되는 HMM (hidden Markov model)을 개선하기 위하여 분절 특징을 사용한 분절 특징 HMM은 성능이 우수하다고 발표되었다. 그러나, 분절 길이가 증가하고 회귀 차수가 놓아질수록 분절 특징 HMM을 표현하는 매개 변수의 수도 같이 증가된다. 따라서, 본 연구에서는 상태에서 관측 가능한 분절의 분산을 분절 내의 모든 프레임에 대하여 공통적으로 표현하는 고정 분산 방법을 통하여 성능의 저하 없이 매개 변수의 수를 줄이도록 시도하였다. 실험 결과, 두 혼합 밀도인 경우 고정 분산을 이용한 분절 특징 HMM의 성능과 시변 분산을 이용한 성능의 차이가 거의 없어, 제안된 방법의 유효성을 입증하였다.

  • PDF

분절 특징 은닉 마코프 모델에서의 경향 공유에 관한 연구 (A Study on Trend Sharing in Segmental-feature HMM)

  • 윤영선
    • 한국음향학회지
    • /
    • 제21권7호
    • /
    • pp.641-647
    • /
    • 2002
  • 본 논문에서는 경향 양자화 기법을 적용하여 분절 특징 은닉 마코프 모델 (HMM: hidden Markov model)의 매개 변수 수를 줄이는 방법을 제안한다. 제안된 방법은 분절 특징 HMM에서 사용하는 분절 특징, 즉 모수적 궤적을 위치 정보와 경향 정보로 분리한 후, 분리된 경향 정보를 경향 코드북을 이용하여 공유한다. 분절 특징에서 위치 정보는 특징의 기준 점을 나타내고, 경향 정보는 분절 특징의 변이를 의미하며 특징의 많은 부분을 차지하고 있다. 따라서 경향 정보가 공유될 수 있다면 분절 특징 HMM의 매개 변수 수를 줄일 수 있을 것이다. 실험 결과 제안된 방식이 기존의 시스템과 비슷한 성능을 보였으며 매개 변수 수를 줄이는 방안으로 고려될 수 있음을 보였다.

모수적 궤적 기반의 분절 HMM을 이용한 연속 음성 인식 (Continuous Speech Recognition based on Parmetric Trajectory Segmental HMM)

  • 윤영선;오영환
    • 한국음향학회지
    • /
    • 제19권3호
    • /
    • pp.35-44
    • /
    • 2000
  • 본 논문에서는 음성 패턴을 효율적으로 모델링하고자 분절 특징(segmental feature)을 이 용하여 은닉 마코프 모델(hidden markov model)의 일반적인 형식에 기반한 새로운 모수적 궤적 모델 (parametric trajectory model)을 제안한다. 일반적으로 벡터의 열로써 표현되는 분절은 관측 열의 궤적(trajectory)으로 표현된다. 이 궤적은 연속적인 프레임들의 전이 정보(transitional information)를 표현하는 디자인 행렬을 이용하여 얻어지며, 다항식의 회귀 함수(polynomial regression function)로써 나타낼 수 있다. 이러한 궤적을 HMM에 적용하기 위해서 프레임 특징 대신 분절의 특성 을 표현하는 궤적으로 대치하고 우도(likelihood) 계산에 궤적들의 비교에 의한 확률 값을 반영시켜야 한다. 본 논문에서는 궤적간의 유사도를 측정하는 분절 우도(segment likelihood)와 모델을 구성하는 궤적변수의 추정 알고리즘을 제안한다. 임의의 분절에 대한 관측 확률은 제안된 분절 우도와 궤적의 추정 오차(estimation error of trajectories)의 곱으로써 표현된다. 궤적의 추정 오차는 상태에서 주어진 분절 우도의 가중치로 표현될 수 있으며, 이 가중치는 궤적과 대응되는 분절의 적합도를 표현하는 확률을 나타낸다. 본 논문에서 제 안된 모델은 일반적 인 HMM과 모수적 궤적 모델의 일반화(generalization) 또는 확장(extension) 모델로 생각될 수 있다. 본 모델의 성능을 평가하기 위하여 TIMIT 데이터에 기반한 실험을 한 결과, 분절 길이(segment length)와 회귀 차수(regression order)가 변할수록 일반적인 HMM에 비하여 뚜렷한 성능향상이 있음을 알 수 있었다.

  • PDF

분절 특징의 경향 공유에 관한 연구 (A study on trend tying of the segmental-feature)

  • 윤영선
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2001년도 추계학술발표대회 논문집 제20권 2호
    • /
    • pp.17-20
    • /
    • 2001
  • 본 논문에서는 분절 특징 HMM(SFHMM)의 매개변수를 줄이는 방법을 제안한다 SFHMM이 HMM보다 우수한 성능을 보이더라도, SFHMM의 매개 변수 수는 HMM보다 많기 때문에 매개 변수 수를 줄이는 방법에 대한 연구가 필요하다. 일반적으로 궤적(trajectory)은 경향(trend) 정보와 위치(location) 정보로 분리될 수 있다. 경향은 분절 특징의 변이를 나타내며, SFHMM 변수의 많은 부분을 담당하기 때문에, 경향 정보를 공유할 수 있다면 SFHMM의 매개 변수 수는 감소될 수 있을 것이다. 제안된 방법은 궤적의 경향 정보를 양자화(quantization)에 의하여 공유한다. 제안된 방법의 성능을 살펴보기 위하여 영어 데이터베이스인 TIMIT 자료를 사용하여 실험하였다. 실험 결과 제안된 방법의 성능은 기존 연구와 거의 유사하나, 궤적의 다양한 정보를 이용한다면 궤적 정보의 공유에 의하여 매개 변수를 줄일 수 있을 것으로 보인다.

  • PDF

운율경계정보를 이용한 HMM기반 한국어 TTS 자연성 향상 연구 (Improvement of Naturalness for a HMM-based Korean TTS using the prosodic boundary information)

  • 임기정;이정철
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권9호
    • /
    • pp.75-84
    • /
    • 2012
  • HMM 기반 음성합성시스템은 성능향상을 위해 일반적으로 대용량 음성 DB로부터 생성된 문맥의존 tri-phone을 이용한다. 그리고 대용량 DB의 경량화를 위해서 문맥의존정보를 이용하여 결정트리 방식으로 발화특성이 유사한 문맥의존음소들을 군집화한다. 군집화에 사용하는 문맥의존정보는 음소열 뿐만 아니라 운율정보도 포함하는데 이는 합성음의 자연성이 끊어 읽기, 억양패턴, 음의 장단과 같은 운율에 의해 크게 좌우되기 때문이다. 그러나 복잡한 운율정보를 사용할 경우 훈련과정에 포함되지 않은 문맥의존음소는 하나의 대표값으로 평활화되며 이로 인해 합성음의 자연성이 크게 저하된다. 본 논문에서는 합성음의 자연성을 향상시키기 위해 복잡한 운율정보 대신 억양 변화를 상승, 평탄, 하강으로 구분함으로써 운율정보표현을 간소화시킨 운율경계정보를 포함하는 문맥의존정보에 대한 문맥질의, 그리고 해당 질의의 패턴을 정의하는 방법을 제안하였다. 본 논문에서 제안하는 세 가지 운율경계정보를 포함한 문맥의존정보를 이용하여 합성음을 생성하고 MOS평가를 수행한 결과 운율경계정보를 이용한 HMM기반 한국어 TTS 합성음의 자연성이 향상됨을 확인하였다.

연속분포 HMM을 이용한 한국어 연속 음성 인식 시스템 개발 (On the Development of a Continuous Speech Recognition System Using Continuous Hidden Markov Model for Korean Language)

  • 김도영;박용규;권오욱;은종관;박성현
    • 한국음향학회지
    • /
    • 제13권1호
    • /
    • pp.24-31
    • /
    • 1994
  • 본 논문에서는 연속분포 hidden Markov모델을 이용한 화자독립 연속 음성 인식 시스템에 관해 기술한다. 연속분포 모델은 평균과 분산 벡터로 구성되며 음성신호를 직접 모델링하여 양자화 왜곡이 없어진다. 특징벡터는 filter bank 계수 및 그 1, 2차 미분계수를 사용하여 음성신호의 동적 특성을 반영하였다. Segmental K-means 알고리즘을 이용하여 학습하였으며, 연속어 인식에서 가장 문제가 되는 조음화 현상으로 인한 인식률 저하를 막기 위해 앞뒤의 음소를 고려해주는 triphone을 인식단위로 사용하였다. Search 알고리즘으로는 시간 면에서 효율이 좋은 one-pass search 알고리즘을 사용하였다 성능 평가를 위한 회자 독립인식 실험에서 문법이 없을 경우 $83\%$, finite state network을 적용한 경우에는 $94\%$의 인식률을 나타내었다.

  • PDF