Automatic Word-Segmentation at Line-Breaks for Korean Text Processing

한국어 텍스트 처리를 위한 줄 경계 띄어쓰기 복원

  • 정영미 (연세대학교 문헌정보학과) ;
  • 이재윤 (연세대학교 문헌정보학과)
  • Published : 1999.08.01

Abstract

한국어 텍스트의 줄 경계에서의 띄어쓰기 복원을 위해 음절쌍 통계를 이용한 복원 기법을 설계하고 신문기사를 대상으로 통계 정보원과 음절쌍 위치에 따른 가중치를 달리하는 실험을 수행하였다. 실험 결과 처리 대상 기사를 포함하는 1개월 분 기사를 통계 정보원으로 하고 가중치는 균등하게 할 때 가장 높은 성공률을 얻었다. 이 결과는 디지털 원문을 텍스트 방식으로 소급하여 구축하는 경우에 적용될 수 있을 것이다.

Keywords