Keyword spotting에서의 후처리 과정에 관한 연구

A Study on the Postprocessing In Keyword Spotting

  • 발행 : 1994.06.01

초록

Keyword spotting 이란 음성인식의 한 분야로서 컴퓨터가 사람의 음성을 입력받아 이 음성에 미리 정해진 특정단어 또는복수개의 단어들 중 어느 것이 포함되어 있는지의 여부를 찾아내고 이 단어를 식별해 내는 작업을 의미한다. 이러한 keyword spotting 시스템의 인식 오류들을 감소시키는 방법의 하나로 keyword spotting 시스템에 후처리 과정을 둠으로써 잘못 검출된 keyword 들을 제거시키는 방법이 사용될 수 있다. 본 논문에서는 keyword로 검출된 영역에 대한 keyword 모델의 likeihood와 그 여역에 대한 filler 모델의 likelihood의 ratio 와 second best keyword 의 likelihood 그리고, 끝점존재 영역의 구간 길이등 여러 가지 정보를 이용한 후처리과정을 검토하고 인식실험을 통해 이들의 성능을 비교하였다. 6개의 부서명을 keyword로 하는 불특정 화자 keyword spotting 실험을 수행한 결과 baseline 시스템의 경우 고립단어 및 문장 형태의 음성에 대해 95.0%의 keyword 인식률을 얻었으며, 본 논문에서 검토된 네 가지 후처리 방법에 의해 keyword rejection ratio를 0%에서 5%까지 변화시켜 나갈 경우 최저 95.3%에서 최고 97.1%까지 keyword 인식률이 향상된 결과를 얻었다. 특히 성능과 계산량을 종합적으로 고려할 때 끝점 존재 영역의 구간 길이 정보를 이용한 방법이 가장 우수하였다.

키워드