A data-driven approach for lexicon selection for probabilistic language model

Ryu, Sung-Ho;Kim, Jin-Hyung;

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

2002.10e
/
Pages.3-8
/
2002
/
2005-3053(pISSN)

Human and Language Technology (한국정보과학회 언어공학연구회)

A data-driven approach for lexicon selection for probabilistic language model

확률적 언어 모델을 위한 자료 기반 어휘 구축

Ryu, Sung-Ho (Div. of Computer Science, KAIST) ;
Kim, Jin-Hyung (Div. of Computer Science, KAIST)

류성호 (한국과학기술원 전자전산학과 전산학) ;
김진형 (한국과학기술원 전자전산학과 전산학)

Published : 2002.10.11

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

한국어를 대상으로 하는 확률적 언어 모델에서는 대부분의 경우 형태소를 기본 어휘로서 사용하고 있다. 그러나, 이러한 모델들은 학습 및 검증을 위하여 사람에 의하여 형태소 분석이 이루어진 말뭉치를 필요로 한다. 또한, 형태소의 자동 분석은 현재 표준말을 중심으로 이루어져 있어 그 적용 분야에도 한계가 있다. 본 논문에서는 한국어의 특징을 고려하여 확률적 언어 모델의 구축에 적합한 어휘의 선택 기준에 대하여 고찰하고, 통계적인 기준을 통하여 확률적 언어 모델의 어휘를 구축하는 방법을 제안한다.

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

A data-driven approach for lexicon selection for probabilistic language model

확률적 언어 모델을 위한 자료 기반 어휘 구축

Abstract

Keywords