Improvement of Automatic Word Segmentation of Korean by Simplifying Syllable Bigram

음절 바이그램 단순화 기법에 의한 한국어 자동 띄어쓰긴 시스템의 성능 개선

  • 강승식 (국민대학교 컴퓨터학부, 첨단정보기술연구센터)
  • Published : 2003.10.10

Abstract

한극 문서의 자동 띄어쓰기는 웹 문서와 검색 질의어, 법률안 제목, 문자 메시지 등에서 띄어쓰지 않은 문장에 대해 자동으로 공백을 삽입해 주는 기능이다. 기존의 자동 띄어쓰기 기법은 각 문자 경계마다 공백 삽입 일치도를 비교하는 방식으로 평가되었으나, 실제 응용 시스템에서는 어절 인식 정확률이 높고, 공백의 과생성 오류가 적으며, 바이그램 데이터 크기가 작아야 한다. 본 논문에서는 이러한 요구 조건에 따라 새로운 평가 기준을 제시하고, 이에 따라 기존 방법보다 바이그램 데이터 크기가 매우 작고, 정확률이 높은 자동 띄어씌기 방법을 제안하였다.

Keywords