A Study on the Design and the Construction of a Korean Speech DB for Common Use

공동이용을 위한 음성DB의 설계 및 구축에 관한 연구

  • 김봉완 (원광대학교 컴퓨터공학과) ;
  • 김종진 (원광대학교 컴퓨터공학과) ;
  • 김선태 (원광대학교 컴퓨터공학과) ;
  • 이용주 (원광대학교 컴퓨터공학과)
  • Published : 1997.08.01

Abstract

Speech database is an indispensable part of speech research. Speech database is necessary to use in speech research and development processes, and to evaluate performances of various speech-processing systems. To use speech database for common purpose, it is necessary to design utterance list that has all the possible phonetical events in minimal number of words, and is independent of tasks. To meet those restrictions this paper extracts PBW set from large text corpus. Speech database that was constructed using PBW set for utterance list and its properties are described in this paper.

공동이용 가능한 각종 대량의 음성 데이터를 수록, 보관, 공개하는 것은 연구 개발 과정에서의 이용 및 음성 정보 처리 시스템의 성능평가 양면에서 필요하다. 이러한 공동 음성 데이타 베이스의 구축을 위해서는 발생 가능한 모든 음운환경을 포함하며, 특정 테스크에 집중되지 않는 발성 대상 단어나 문장의 설계가 필요하다. 본 논문에서는 이와같은 목적으로 신문, 소설, 기타 구어자료로부터 수집된 120만여 어절의 텍스트 코퍼스에서 PBW(Phonetically Balanced Word)를 추출하고 이를 발성목록으로 음성DB를 구축한 결과와 구축된 음성DB의 특성을 제시한다.

Keywords