An Implementation of Multimodal Speaker Verification System using Teeth Image and Voice on Mobile Environment

이동환경에서 치열영상과 음성을 이용한 멀티모달 화자인증 시스템 구현

  • Kim, Dong-Ju (School of Information and Communication Engineering, Sungkyunkwan University) ;
  • Ha, Kil-Ram (School of Information and Communication Engineering, Sungkyunkwan University) ;
  • Hong, Kwang-Seok (School of Information and Communication Engineering, Sungkyunkwan University)
  • 김동주 (성균관대학교 정보통신공학부) ;
  • 하길람 (성균관대학교 정보통신공학부) ;
  • 홍광석 (성균관대학교 정보통신공학부)
  • Published : 2008.09.25

Abstract

In this paper, we propose a multimodal speaker verification method using teeth image and voice as biometric trait for personal verification in mobile terminal equipment. The proposed method obtains the biometric traits using image and sound input devices of smart-phone that is one of mobile terminal equipments, and performs verification with biometric traits. In addition, the proposed method consists the multimodal-fashion of combining two biometric authentication scores for totally performance enhancement, the fusion method is accompanied a weighted-summation method which has comparative simple structure and superior performance for considering limited resources of system. The performance evaluation of proposed multimodal speaker authentication system conducts using a database acquired in smart-phone for 40 subjects. The experimental result shows 8.59% of EER in case of teeth verification 11.73% in case of voice verification and the multimodal speaker authentication result presented the 4.05% of EER. In the experimental result, we obtain the enhanced performance more than each using teeth and voice by using the simple weight-summation method in the multimodal speaker verification system.

본 논문에서는 이동환경에서 개인의 신원을 인증하는 수단으로 치열영상과 음성을 생체정보로 이용한 멀티모달 화자인증 방법에 대하여 제안한다. 제안한 방법은 이동환경의 단말장치중의 하나인 스마트폰의 영상 및 음성 입력장치를 이용하여 생체 정보를 획득하고, 이를 이용하여 사용자 인증을 수행한다. 더불어, 제안한 방법은 전체적인 사용자 인증 성능의 향상을 위하여 두 개의 단일 생체인식 결과를 결합하는 멀티모달 방식으로 구성하였고, 결합 방법으로는 시스템의 제한된 리소스를 고려하여 비교적 간단하면서도 우수한 성능을 보이는 가중치 합의 방법을 사용하였다. 제안한 멀티모달 화자인증 시스템의 성능평가는 스마트폰에서 획득한 40명의 사용자에 대한 데이터베이스를 이용하였고, 실험 결과, 치열영상과 음성을 이용한 단일 생체인증 결과는 각각 8.59%와 11.73%의 EER를 보였으며, 멀티모달 화자인증 결과는 4.05%의 EER를 나타냈다. 이로부터 본 논문에서는 인증 성능을 향상하기 위하여 두 개의 단일 생체인증 결과를 간단한 가중치 합으로 결합한 결과, 높은 인증 성능의 향상을 도모할 수 있었다.

Keywords

References

  1. A. K. Jain, A. Ross, and Prabbakar, "An introduction to biometric recognition", IEEE Trans. Circuits System, Video Technology, vol.14, no.1, pp.4-20, Jan. 2004 https://doi.org/10.1109/TCSVT.2003.818349
  2. E. C. Epp, "Relationship Management: Secure Collaboration in a Ubiquitous Environment", IEEE Pervasive Computing, Volume 2, Issue 2, April , Pages 62-71, 2003
  3. 권만준, 양동화, 고현주, 김진환, 전명근, "PDA를 이용한 실시간 얼굴 인식 시스템 구현", 퍼지 및 지능시스템학회 논문지, Vol. 15, No. 5, pp. 649-654, 2005 https://doi.org/10.5391/JKIIS.2005.15.5.649
  4. Tae-Woo KIM and Tae-Kyung CHO, "Teeth Image Recognition for Biometrics", IEICE TRANSACTIONS on Information and Systems Vol. E89-D No. 3 pp. 1309-1313, 2006 https://doi.org/10.1093/ietisy/e89-d.3.1309
  5. K. Prajuabklang, P. Kumhom, T. Maneewarn, and K. Chamnongthai, "Real-time Personal Identification from Teeth-image using Modified PCA", Proceeding, the 4-th information and computer Engineering Postgraduate Workshop, Vol. 4, No. 1, pp.172-175, 2004
  6. C. Nadee, P. Kumhom, and K. Chamnongthai, "Improved PCA-Based Personal Identification Method Using Invariance Moment", The third International Conference on Intelligent Sensing and Information Processing, December 14-17, 2005
  7. Dong-Ju Kim, Jong-Bae Jeon and Kwang-Seok Hong, "Performance Evaluation of Feature Vectors for Teeth Image Recognition", The 4th Conference On New Exploratory Technologies, October 25-27, 2007
  8. P. Viola and M. J. Jones, "Robust real-time object detection", Technical Report Series, Compaq Cambridge research Laboratory, CRL 2001/01, Feb. 2001
  9. A. V. Nefien and M. H. Hayes, "An embedded HMM-based approach for face detection and recognition", In Proc, IEEE International Conference on Acoustics, Speech, and Signal Processing, volume 6, pp. 3553-3556, 1999
  10. A. P. Dempster, N. M. Laird, and D. B. Rubin, "Maximum likelihood from incomplete data wia the EM algorithm", Journal of the Royal Statistical Society B, 1977
  11. A. Ross and A. K. Jain, "Information fusion in biometrics", Pattern Recognition. Letter. 24 (13) 2003
  12. C. Sanderson and K. K. Paliwal, "Identity verification using speech and face information", Digital Signal Processing, Volume 14, Issue 5, September Pages 449-480, 2004 https://doi.org/10.1016/j.dsp.2004.05.001