Text Corpus Construction for Language Model

Kim Jeong-se;Yoon Aesun;Kwon Hyuk-Chul;

Proceedings of the Acoustical Society of Korea Conference (한국음향학회:학술대회논문집)

spring
/
Pages.155-158
/
2002

The Acoustical Society of Korea (한국음향학회)

Text Corpus Construction for Language Model

대어휘 음성인식 언어모델링을 위한 텍스트 코퍼스 구축

Kim Jeong-se (Speech Technology Research Center, Network Laboratory, ETRI) ;
Yoon Aesun (Pusan National University, Department of cognitive science) ;
Kwon Hyuk-Chul (Pusan National University, School of Electrical & Computer Engineering)

김정세 (한국전자통신연구원 네트워크연구소, 음성정보연구센타) ;
윤애선 (부산대학교 인지과학협동과정) ;
권혁철 (부산대학교 전자전기정보컴퓨터공학부)

Published : 2002.07.01

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

본 논문은 음성정보연구센터에서 추진하고 있는 대용량 텍스트 코퍼스 구축에 관하여 기술한다. 총 3 년 동안 약 3 억$\~$5 억 어절 수집을 목표로 하고 있으며, 주 목적은 대어휘 음성인식용 언어모델링을 위한 통계정보 추출용으로 활용할 예정이다. 1 차년도인 2002 년에 수집할 텍스트의 양은 약 6 천만 어절로 주요 일간지와 방송뉴스를 대상으로 하고 있다. 이 중 2 천만 어절은 띄어쓰기, 철자오류 수정 등을 수동으로 수행하고, 나머지 어절은 자동 검증 툴을 사용하여 오류를 수정하고자 한다. 본 논문에서는 공동 이용 가능한 텍스트 코퍼스의 구축 방안과 구축 시의 고려해야 할 사항들을 제시하고자 한다.

Proceedings of the Acoustical Society of Korea Conference (한국음향학회:학술대회논문집)

Text Corpus Construction for Language Model

대어휘 음성인식 언어모델링을 위한 텍스트 코퍼스 구축

Abstract

Keywords

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)