Two Statistical Models for Automatic Word Spacing of Korean Sentences

한글 문장의 자동 띄어쓰기를 위한 두 가지 통계적 모델

  • Published : 2003.04.01

Abstract

Automatic word spacing is a process of deciding correct boundaries between words in a sentence including spacing errors. It is very important to increase the readability and to communicate the accurate meaning of text to the reader. The previous statistical approaches for automatic word spacing do not consider the previous spacing state, and thus can not help estimating inaccurate probabilities. In this paper, we propose two statistical word spacing models which can solve the problem of the previous statistical approaches. The proposed models are based on the observation that the automatic word spacing is regarded as a classification problem such as the POS tagging. The models can consider broader context and estimate more accurate probabilities by generalizing hidden Markov models. We have experimented the proposed models under a wide range of experimental conditions in order to compare them with the current state of the art, and also provided detailed error analysis of our models. The experimental results show that the proposed models have a syllable-unit accuracy of 98.33% and Eojeol-unit precision of 93.06% by the evaluation method considering compound nouns.

자동 띄어쓰기는 문장 내에서 잘못 띄어쓴 어절들을 올바르게 복원하는 과정으로서, 독자에게 글의 가독성을 높이고 문장의 뜻을 정확히 전달하기 위해 매우 중요하다. 기존의 통계 기반 자동 띄어쓰기 접근 방법들은 이전 띄어쓰기 상태를 고려하지 않기 때문에 잘못된 확률 정보에 의한 띄어쓰기를 할 수밖에 없었다. 본 논문에서는 기존의 통계 기반 접근 방법 의 문제점을 해결할 수 있는 두 가지 통계적 띄어쓰기 모델을 제안한다. 제안하는 모델은 자동 띄어쓰기를 품사 부착과 같은 분류 문제(classification problem)로 간주할 수 있다는 착안에 기반하며, 은닉 마르코프 모델을 일반화함으로써 확장된 문맥을 고려할 수 있고 보다 정확한 확률을 추정할 수 있도록 고안되었다. 제안하는 모델과 지금까지 가장 좋은 성능을 보이는 기존의 방법을 비교하기 위해 여러 가지 실험 조건에 따른 다양한 실험을 수행하였고, 오류에 대한 자세한 분석을 제시하고 있다 제안하는 모델을 복합 명사를 고려하는 평가 방식에 적응한 실험 결과, 98.33%의 음절 단위 정확도와 93.06%외 어절단위 정확률을 얻었다.

Keywords

References

  1. E. Charniak, C. Hendrickson, N. Jacobson, and M. Perkowitz, Equations for Part-of-Speech Tagging, In Proceedings of the 11th National Conference on Artificial Intelligence(AAAI-93), pp.784-789, 1993
  2. B. Merialdo, Tagging English Text with a Probabilistic Model, Computational Linguistics, 20(2), pp.155-172, 1994
  3. 김진동, 임희석, 임해창, Twoply HMM : 한국어의 특성을 고려한 형태소 단위의 품사 태깅 모델, 한국정보과학회 논문지(B), 제24권, 12호, pp.1502-1512, 1997
  4. 이상주, 자동 품사 부착을 위한 새로운 통계적 모형, 고려대학교 컴퓨터학과 박사학위논문, 1999
  5. K. Seymore, A. McCallum, and R. Rosenfeld, Learning Hidden Markov Model Structure for Information Extraction, AAAI 99 Workshop on Machine Learning for Information Extraction, 1999
  6. D. Bikel, S. Miller, R. Schwartz, and R. Weischedel. NYMBLE: A High-Performance Learning Name-finder, In Proceedings of the Fifth Conference on Applied Natural Language Processing, pp. 194-201, 1997 https://doi.org/10.3115/974557.974586
  7. 오종훈, 최기선, 은닉마르코프 모델(HMM)을 이용한 과학기술문서에서의 외래어 추출 모델, 제 11회 한글 및 한국어 정보처리 학술발표 논문집, pp.137-141, 1999
  8. 박봉래, 대용량 한글 텍스트 데이터베이스 맞춤법 오류 교정 시스템의 구현, 고려대학교 전산과학과 석사학위논문, 1995
  9. 최재혁, 양방향 최장일치법을 이용한 한국어 띄어쓰기 자동 교정 시스템, 제9회 한글 및 한국어 정보처리 학술발표 논문집, pp.145-151, 1997
  10. 김계성, 이현주, 이상조, 연속 음절 문장에 대한 3단계 한국어 띄어쓰기 시스템, 정보과학회논문지, 제25권 제12호, pp.1838-1844, 1998
  11. 강승식, 한글 문장의 자동 띄어쓰기, 제10회 한글 및 한국어 정보처리 학술발표 논문집, pp.137-142, 1998
  12. 강승식, 한글 문장의 자동 띄어쓰기를 위한 어절블록 양방향 알고리즘, 정보과학회논문지, 제27권 제4호, pp.441-447. 2000
  13. 심광섭, 음절간 상호 정보를 이용한 한국어 자동 띄어쓰기, 정보과학회논문지, 제23권 제9호, pp.991-1000, 1996
  14. 신중호, 박혁로, 음절 단위 bigram 정보를 이용한 한국어 단어인식모델, 제9회 한글 및 한국어 정보처리학술발표 논문집, pp.255-260, 1997
  15. 정영미, 이재윤, 한국어 텍스트 처리를 위한 줄 경계 띄어쓰기 복원, 제6회 한국정보관리학회 학술대회 논문집, pp.21-24, 1999
  16. 전남열, 박혁로, 음절 Bi gram정보를 이용한 한국어 OCR 후처리용 자동 띄어쓰기, 제 12회 한글 및 한국어 정보처리 학술발표 논문집, pp.95-100, 2000
  17. 강승식, 음절 bigram를 이용한 띄어쓰기 오류의 자동 교정, 음성과학회논문지, 제8권 2호, pp.83-90, 2001
  18. 21세기 세종계획 국어기초자료 구축, 문화관광부, 1998
  19. 21세기 세종계획 국어기초자료 구축, 문화관광부, 1999
  20. 한국전자통신연구원, 품사 부착 말뭉치 구축 지침서, 1999, http://aladin.etri.re.kr/-nlu/STANDARD/