DOI QR코드

DOI QR Code

Efficient Continuous Vocabulary Clustering Modeling for Tying Model Recognition Performance Improvement

공유모델 인식 성능 향상을 위한 효율적인 연속 어휘 군집화 모델링

  • 안찬식 (광운대학교 컴퓨터공학과) ;
  • 오상엽 (경원대학교 IT대학 컴퓨터미디어학과)
  • Received : 2009.11.18
  • Accepted : 2010.01.26
  • Published : 2010.01.31

Abstract

In continuous vocabulary recognition system by statistical method vocabulary recognition to be performed using probability distribution it also modeling using phoneme clustering for based sample probability parameter presume. When vocabulary search that low recognition rate problem happened in express vocabulary result from presumed probability parameter by not defined phoneme and insert phoneme and it has it's bad points of gaussian model the accuracy unsecure for one clustering modeling. To improve suggested probability distribution mixed gaussian model to optimized for based resemble Euclidean and Bhattacharyya distance measurement method mixed clustering modeling that system modeling for be searching phoneme probability model in clustered model. System performance as a result of represent vocabulary dependence recognition rate of 98.63%, vocabulary independence recognition rate of 97.91%.

연속 어휘 인식 시스템에서는 통계적 방법에 의한 어휘 인식을 수행하기 위하여 확률분포를 이용하며 이는 음소 단위의클러스터링을사용하여모델링하여샘플들을기반으로 확률 파라미터를 추정한다. 어휘 검색 시 추정된 확률 파라미터로부터 인식 결과를 나타내는데 미리 정의되지 않은 음소와 추가되어진 음소로부터 인식률이 저하되는 문제점이 발생하며, 하나의 클러스터링으로 모델링하므로 가우시안 모델이 정확성을 확보하지 못한다는 단점이 있다. 이를 개선하기 위하여 확률 분포의 혼합 가우시안 모델을 최적화하여 유사도를 기반으로 Euclidean과 Bhattacharyya 거리 측정 방법을 혼합한 군집화 모델을 제안하고, 군집화된 모델에서 음소 단위로 확률 모델을 탐색할 수 있는 시스템을 모델링하였다. 본 논문에서 제안한 시스템을 적용한 결과 시스템 성능에서 어휘 종속 인식률은 98.63%, 어휘 독립 인식률은 97.91%의 인식률을 나타내었다.

Keywords

References

  1. S. Young, D. Kershaw, J. Odell, D. Ollason, Valtcher, P. Woodland, "The HTK Book," Cambridge University Engineering Department, 2002.
  2. L. R. Rabiner, B. H. Juang, "Fundamentals of speech recognition," Prentice Hall, 1993.
  3. 안태옥, "혼합 가우시안 군집화를 이용한 상태공유 음향모델 최적화," 대한전자공학회논문지, 제 42권, SP편 제 6호, 167-176쪽, 2005년 11월.
  4. D. Jurafsky and J. H. Martin, "Speech and Language Processing," Prentice-Hall, 2000.
  5. 우인성, 신좌철, 강흥순, 김석동, "다양한 연속밀도 함수를 갖는 HMM에 대한 우리말 음성인식에 관한 연구," 전기전자학회 논문지, 제11권, 제2호, 89-94쪽, 2007년 6월.
  6. 이호웅, 정희석, "지능형 홈네트워크 시스템을 위한 가변어휘 연속음성인식시스템에 관한 연구," 한국ITS학회 논문지, 제7권, 제2호, 37-42쪽, 2008년 4월.
  7. K. Demuynck, J. Duchateau, and D. Van Compernolle, "A static lexicon network repre- sentation for cross-word context dependent phones," In Proc. EUROSPEECH, Vol.1, pp.143-146, 1997.
  8. 조영수, 이기정, 김광태, 홍재근, "HMM을 이용한 한국어 음소인식," 대한전자공학회 학술발표회 논문집, 제 16권,제 1호, 81-84쪽, 1994년. 6월.
  9. M. F. Gales, "Model-based techniques for nosie robust speech recognition," Ph. D. dissertation, University of Cambridge, Sept, 1995.
  10. 안찬식, 오상엽, "MLHF 모델을 적용한 어휘 인식 탐색 최적화 시스템," 한국컴퓨터정보논문지, 제14권, 제10호, 217-223쪽, 2009년 10월.
  11. A. S. Manos and V. W. Zue, "Astudy on out-of-vocabulary word modeling for a segment- based keyword spotting system," Master Thesis, MIT, 1996.
  12. 김광호, 임민규, 김지환, "지식베이스를 이용한 임베디드용 연속음성인식의 어휘 적용률 개선," 대한음성학회지, 말소리, 제68호, 115-126쪽, 2008년 12월.
  13. 김동주, 김한우, "문맥가중치가반영된문장유사도척도," 전자공학회논문지, 제43권, 제6호, 496-504쪽, 2006년. 3월
  14. 김기백, 최종호, "음성인식 기반 컨텐츠 네비게이션 시스템," 한국컴퓨터정보학회지, 제 15권, 제 1호, 99-102쪽, 2007년 6월.
  15. S. Ortmanns, A. Eiden, H. Ney, and N. Coenen, "Look-ahead Techniques for Fast Beam Search," InProc. IEEE ICASSP-1997, pp. 1783-1786, 1997.
  16. Kris Demuynck, Tom Laureys, Dirk van Compernolle, and Hugo van Hamme, "FLaVor:a flexible architecture for LVCSR," In EUROSPEECH - 2003, pp.1973-1976, 2003.
  17. Justin Zobel and Philip Dart, "Phonetic String Matching: Lessons from Information Retrival," SIGIR'96, pp.166-173, 1996.
  18. T. Jitsuhiro, S. Takatoshi, and K. Aikawa, "Rejection of out-of-vocabulary words using phoneme confidence likelihood," ICASSP, pp. 217-220, 1998.
  19. L. R. Bahl, P. V. deSouza, P. S. Gopalakrishnan, D. Nahamoo, and M. Picheny, "A Fast Match for Continuous Speech Recognition Using Allophonic Models," In Proc. IEEE ICASSP-92, Vol.1, pp.17-21, 1992.
  20. W. Daelemans, S. Buchholz, and J. Veenstra, "Memorybased shallow parsing," in Proc. CoNLL, pp.53-60, 1999.

Cited by

  1. Improvement of the Semantic Information Retrieval using Ontology and Spearman Correlation Coefficients vol.11, pp.11, 2013, https://doi.org/10.14400/JDPM.2013.11.11.351
  2. Vocabulary Retrieve System using Improve Levenshtein Distance algorithm vol.11, pp.11, 2013, https://doi.org/10.14400/JDPM.2013.11.11.367
  3. Bayesian Method Recognition Rates Improvement using HMM Vocabulary Recognition Model Optimization vol.12, pp.7, 2014, https://doi.org/10.14400/JDC.2014.12.7.273
  4. Vocabulary Recognition Performance Improvement using a convergence of Bayesian Method for Parameter Estimation and Bhattacharyya Algorithm Model vol.13, pp.10, 2015, https://doi.org/10.14400/JDC.2015.13.10.353
  5. Vocabulary Recognition Model using a convergence of Likelihood Principla Bayesian methode and Bhattacharyya Distance Measurement based on Vector Model vol.13, pp.11, 2015, https://doi.org/10.14400/JDC.2015.13.11.165
  6. Noise Removal using a Convergence of the posteriori probability of the Bayesian techniques vocabulary recognition model to solve the problems of the prior probability based on HMM vol.13, pp.8, 2015, https://doi.org/10.14400/JDC.2015.13.8.295
  7. 음소 유사율 오류 보정을 이용한 어휘 인식 후처리 시스템 vol.15, pp.7, 2010, https://doi.org/10.9708/jksci.2010.15.7.083
  8. 음절 복원 알고리즘을 이용한 핵심어 오류 보정 시스템 vol.15, pp.10, 2010, https://doi.org/10.9708/jksci.2010.15.10.165
  9. 미등록어 거절 알고리즘에서 가우시안 모델 최적화를 이용한 신뢰도 정규화 향상 vol.15, pp.12, 2010, https://doi.org/10.9708/jksci.2010.15.12.125
  10. 베이시안 기법과 선택적 음성특징 추출을 융합한 음성 인식 성능 향상 vol.7, pp.6, 2010, https://doi.org/10.15207/jkcs.2016.7.6.007
  11. 음성 신호 특징과 셉스트럽 특징 분포에서 묵음 특징 정규화를 융합한 음성 인식 성능 향상 vol.8, pp.5, 2010, https://doi.org/10.15207/jkcs.2017.8.5.013