• 제목/요약/키워드: 범용 화자모델

검색결과 2건 처리시간 0.02초

양자화 된 범용 화자모델을 이용한 연속적 화자분류 (Sequential Speaker Classification Using Quantized Generic Speaker Models)

  • 권순일
    • 전자공학회논문지CI
    • /
    • 제44권1호
    • /
    • pp.26-32
    • /
    • 2007
  • 연속적 화자 분류에 있어서 분류 대상이 되는 화자에 대한 정보가 없거나 부족할 경우 정확한 연속적 분류가 어렵다. 이러한 문제를 해결하기 위해 표본 화자모델을 이용하는 방법이 제안되었는데, 이 방법을 이용하면 미리 준비된 화자의 데이터가 없이 화자모델 초기화와 화자분류가 가능해진다. 하지만 여전히 화자모델의 표본을 얻는 방법에 어려움이 따른다. 이 문제를 해결하기 위해 벡터 양자화에서 비롯된 화자 양자화를 제안한다. 유선전화 데이터를 이용한 실험에서 화자 양자화를 이용한 표본 화자모델 방법은 무작위 표본추출 방법을 이용할 경우 보다 25%의 성능 향상을 보였다.

PCA와 HMM을 이용한 실시간 립리딩 시스템의 설계 및 구현 (Design and Implementation of a Real-Time Lipreading System Using PCA & HMM)

  • 이지근;이은숙;정성태;이상설
    • 한국멀티미디어학회논문지
    • /
    • 제7권11호
    • /
    • pp.1597-1609
    • /
    • 2004
  • 립리딩은 잡음 환경에서 저하되는 음성 인식률의 보상과 음성을 청취하기 어려운 상황에서의 음성인식보조 수단으로 많은 연구가 시도되고 있다. 기존 립리딩 시스템은 인위적인 조명 환경이나 얼굴과 입술 추출을 위하여 미리 정해진 제한된 조건에서 실험되어 왔다. 본 논문에서는 화자의 움직임이 허용되고 컬러나 조명과 같은 환경 변화에 제한조건을 완화한 영상을 이용하여 실시간 립리딩 시스템을 구현하였다. 본 논문의 시스템은 범용으로 사용되는 PC 카메라를 통해 입력받은 영상에서 얼굴과 입술 영역을 실시간으로 검출한 후, 립리딩에 필요한 영상정보를 추출하고 이 입술 영상 정보를 이용하여 실시간으로 발성 단어를 인식할 수 있다. 얼굴과 입술 영역 검출을 위하여 조명환경에 독립성을 갖는 색도 히스토그램 모델을 이용하였고 움직이는 화자의 얼굴 추적을 위하여 평균 이동 알고리즘을 이용하였다. 검출된 입술 영역에서 학습과 인식에 필요한 영상 정보를 추출하기 위하여 PCA(Principal Component Analysis)를 사용하였고, 인식 알고리즘으로는 HMM을 이용하였다. 실험 결과 화자종속일 경우 90%의 인식률을 보였으며 잡음이 있는 음성과 합병하여 인식률 실험을 해 본 결과, 음성 잡음비에 따라서 음성 인식률을 약 40~85%까지 향상시킬 수 있었다.

  • PDF