• 제목/요약/키워드: GMM Phoneme Recognizer

검색결과 2건 처리시간 0.014초

차량용 항법장치에서의 관심지 인식을 위한 다단계 음성 처리 시스템 (Multi-layer Speech Processing System for Point-Of-Interest Recognition in the Car Navigation System)

  • 방기덕;강철호
    • 한국멀티미디어학회논문지
    • /
    • 제12권1호
    • /
    • pp.16-25
    • /
    • 2009
  • 안전성을 최우선시 해야 하는 자동차 환경에서 관심지 (POI, Point-Of-Interest) 도메인을 대상으로 하는 대용량 고려 단어 인식 시스템은 최적의 인간-기계 상호접속(HMI, Human-Machine Interface) 기술을 요구하고 있다. 하지만, 매우 제한된 연산처리 능력과 메모리를 가지는 텔레매틱스 단말기에서 10만 단어 이상을 일반적인 음성인식 방식으로 처리하기는 불가능하다. 따라서 본 논문에서는 텔레매틱스 단말기의 관심지 인식을 위하여 다단계 구조의 대용량 고립단어 인식 시스템을 제안하였다. 이 관심지 인식 시스템의 성능향상을 위해 음소별 가우시안 혼합모델(GMM, Gaussian Mixture Model)을 사용한 음소 인식기와 음소별 거리 행렬(PDM, Phoneme-distance Matric) 레빈쉬타인(Levenshtein) 거리를 제안하였다. 제안한 방법은 낮은 처리속도와 적은 양의 메모리를 가지는 텔레매틱스 단말기에서도 대용량 고립단어에 대하여 우수한 인식 성능을 나타내었다. 본 논문에서 제안한 다단계 인식 시스템을 사용하였을 경우 실내에서 최대 94.8%, 자동차환경에서는 최대 92.4%의 인식 성능을 얻을 수 있었다.

  • PDF

음성/음악 판별을 위한 특징 파라미터와 분류기의 성능비교 (Performance Comparison of Feature Parameters and Classifiers for Speech/Music Discrimination)

  • 김형순;김수미
    • 대한음성학회지:말소리
    • /
    • 제46호
    • /
    • pp.37-50
    • /
    • 2003
  • In this paper, we evaluate and compare the performance of speech/music discrimination based on various feature parameters and classifiers. As for feature parameters, we consider High Zero Crossing Rate Ratio (HZCRR), Low Short Time Energy Ratio (LSTER), Spectral Flux (SF), Line Spectral Pair (LSP) distance, entropy and dynamism. We also examine three classifiers: k Nearest Neighbor (k-NN), Gaussian Mixure Model (GMM), and Hidden Markov Model (HMM). According to our experiments, LSP distance and phoneme-recognizer-based feature set (entropy and dunamism) show good performance, while performance differences due to different classifiers are not significant. When all the six feature parameters are employed, average speech/music discrimination accuracy up to 96.6% is achieved.

  • PDF