Text Corpus Construction for Language Model

대어휘 음성인식 언어모델링을 위한 텍스트 코퍼스 구축

  • Kim Jeong-se (Speech Technology Research Center, Network Laboratory, ETRI) ;
  • Yoon Aesun (Pusan National University, Department of cognitive science) ;
  • Kwon Hyuk-Chul (Pusan National University, School of Electrical & Computer Engineering)
  • 김정세 (한국전자통신연구원 네트워크연구소, 음성정보연구센타) ;
  • 윤애선 (부산대학교 인지과학협동과정) ;
  • 권혁철 (부산대학교 전자전기정보컴퓨터공학부)
  • Published : 2002.07.01

Abstract

본 논문은 음성정보연구센터에서 추진하고 있는 대용량 텍스트 코퍼스 구축에 관하여 기술한다. 총 3 년 동안 약 3 억$\~$5 억 어절 수집을 목표로 하고 있으며, 주 목적은 대어휘 음성인식용 언어모델링을 위한 통계정보 추출용으로 활용할 예정이다. 1 차년도인 2002 년에 수집할 텍스트의 양은 약 6 천만 어절로 주요 일간지와 방송뉴스를 대상으로 하고 있다. 이 중 2 천만 어절은 띄어쓰기, 철자오류 수정 등을 수동으로 수행하고, 나머지 어절은 자동 검증 툴을 사용하여 오류를 수정하고자 한다. 본 논문에서는 공동 이용 가능한 텍스트 코퍼스의 구축 방안과 구축 시의 고려해야 할 사항들을 제시하고자 한다.

Keywords