Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))
- 2003.10d
- /
- Pages.227-231
- /
- 2003
- /
- 2005-3053(pISSN)
Improvement of Automatic Word Segmentation of Korean by Simplifying Syllable Bigram
음절 바이그램 단순화 기법에 의한 한국어 자동 띄어쓰긴 시스템의 성능 개선
- Kang, Seung-Shik (Department of Computer Science, Kookmin University & AITrc)
- 강승식 (국민대학교 컴퓨터학부, 첨단정보기술연구센터)
- Published : 2003.10.10
Abstract
한극 문서의 자동 띄어쓰기는 웹 문서와 검색 질의어, 법률안 제목, 문자 메시지 등에서 띄어쓰지 않은 문장에 대해 자동으로 공백을 삽입해 주는 기능이다. 기존의 자동 띄어쓰기 기법은 각 문자 경계마다 공백 삽입 일치도를 비교하는 방식으로 평가되었으나, 실제 응용 시스템에서는 어절 인식 정확률이 높고, 공백의 과생성 오류가 적으며, 바이그램 데이터 크기가 작아야 한다. 본 논문에서는 이러한 요구 조건에 따라 새로운 평가 기준을 제시하고, 이에 따라 기존 방법보다 바이그램 데이터 크기가 매우 작고, 정확률이 높은 자동 띄어씌기 방법을 제안하였다.
Keywords