DOI QR코드

DOI QR Code

Retrieval of Player Event in Golf Videos Using Spoken Content Analysis

음성정보 내용분석을 통한 골프 동영상에서의 선수별 이벤트 구간 검색


Abstract

This paper proposes a method of player event retrieval using combination of two functions: detection of player name in speech information and detection of sound event from audio information in golf videos. The system consists of indexing module and retrieval module. At the indexing time audio segmentation and noise reduction are applied to audio stream demultiplexed from the golf videos. The noise-reduced speech is then fed into speech recognizer, which outputs spoken descriptors. The player name and sound event are indexed by the spoken descriptors. At search time, text query is converted into phoneme sequences. The lists of each query term are retrieved through a description matcher to identify full and partial phrase hits. For the retrieval of the player name, this paper compares the results of word-based, phoneme-based, and hybrid approach.

본 논문은 골프 동영상에 포함된 오디오 정보로부터 검출된 이벤트 사운드 구간과 골프 선수이름이 포함된 음성구간을 결합하여 선수별 이벤트 구간을 검색하는 방식을 제안한다. 전체적인 시스템은 동영상으로부터 분할된 오디오 스트림으로부터 잡음제거, 오디오 구간분할, 음성 인식 등의 과정을 통한 자동색인 모듈과 사용자가 텍스트로 입력한 선수 이름을 발음열로 변환하고, 색인된 데이터베이스에서 질의된 선수 이름과 상응하는 음성구간과 연결되는 이벤트 구간을 찾아주는 검색 모듈로 구성된다. 선수이름 검색을 위해서 본 논문에서는 음소 기반, 단어 기반, 단어와 음소를 결합한 하이브리드 방식을 적용한 선수별 이벤트 구간 검색결과를 비교하였다.

Keywords

References

  1. S. E. Johnson, P. Jourlin, J. K. Sparck and P. C. Woodland, "Spoken document retrieval for TREC-9 at cambridge university," 9th TREC9, pp. 117-126, Mar, 2000
  2. N. Moreau, H.-G. Kim and T. Sikora, “Combination of phone n-grams for a MPEG-7-based spoken document retrieval system,” In Proc. EUSIPCO 2004, pp. 549-552, Sep. 2004
  3. P. Yu and F. Seide, "A hybrid word/phoneme-based approach or improved cocabulary-independent search in spontaneous speech," In Proc. ICSLP 2004, pp. 293-296, Oct. 2004
  4. C.-C. Lin, S.-H. Chen, T.-K. Truong and Y. Chang, "Audio classification and categorization based on wavelets and support vector machine," IEEE Trans. on Speech and Audio Processing, vol. 13, no. 5, pp. 644-651, 2005 https://doi.org/10.1109/TSA.2005.851880
  5. S. Ravindran and D.V Anderson, "Boosting as a dimen-sionality reduction tool for audio classitication," In Proc. ISCAS 2004, pp. 465-468, May 2004 https://doi.org/10.1109/ISCAS.2004.1328784
  6. 김형국, "오디오 정보를 이용한 골프 동영상 자동 색인 알고리즘," 한국음향학회지, 28권, 5호, 441-446쪽, 2009
  7. C. Jingdong J. Benesty, H. Yiteng and S. Doclo, “New insights into the noise reduction Wiener filter,” IEEE Trans. on Audio, Speech, and Language Processing, vol. 14. no. 4, pp. 1218-1234, 2006 https://doi.org/10.1109/TSA.2005.860851
  8. l. Cohen and B. Berdugo, "Speech enhancement for non-stationary noise environments," ScienceDirect Signal Pro-cessing, vol. 81, no. 11, pp. 2403-2418, 2001 https://doi.org/10.1016/S0165-1684(01)00128-1
  9. J. S. Erkelens, R. C. Hendriks, R. Heusdens and J. Jensen, "Minimum mean-square error estimation of discrete Fourier coefficients with generalized Gamma priors," IEEE Trans. on Audio, Speech, and Language Processing, vol. 15, no. 6, pp. 1741-1752, 2007 https://doi.org/10.1109/TASL.2007.899233
  10. G. Bouselmi, D. Fohr, I. Illina and J.-P. Haton, "Fully automated non-native speech recognition using confusion-based acoustic model integration," In Proc. Interspeech 2005, pp. 1369-1372, Sep. 2005