DOI QR코드

DOI QR Code

An Automatic Korean Word Spacing System for Devices with Low Computing Power

저사양 기기를 위한 한국어 자동 띄어쓰기 시스템

  • 송영길 (강원대학교 컴퓨터정보통신공학) ;
  • 김학수 (강원대학교 컴퓨터정보통신공학)
  • Published : 2009.08.31

Abstract

Most of the previous automatic word spacing systems are not suitable to use for mobile devices with relatively low computing powers because they require many system resources. We propose an automatic word spacing system that requires reasonable memory usage and simple numerical computations for mobile devices with low computing powers. The proposed system is a two step model that consists of a statistical system and a rule-based system. To reduce the memory usage, the statistical system first corrects word spacing errors by using a modified hidden Markov model based on character unigrams. Then, to increase the accuracy, the rule-based system re-corrects miscorrected word spaces by using lexical rules based on character bigrams or more. In the experiments, the proposed system showed relatively high accuracy of 94.14% in spite of small memory usage of about 1MB.

대부분의 기존 자동 띄어쓰기 시스템들은 많은 시스템 자원을 필요로 하기 때문에 상대적으로 낮은 컴퓨팅 파워를 가진 모바일 기기에 사용하기에는 적합하지 않다. 본 논문에서는 저사양 모바일 기기에 맞도록 메모리 사용량이 적고 수치 계산이 단순한 자동 띄어쓰기 시스템을 제안한다. 제안 시스템은 통계 기반 시스템과 규칙 기반 시스템으로 구성된 2단계 모델이다. 메모리 사용량을 줄이기 위해서 통계 기반 시스템이 음절 유니그램 기반의 개량된 은닉 마코프 모델을 사용하여 띄어쓰기 오류를 1차로 수정한다. 다음으로 정밀도 향상을 위해서 규칙 기반 시스템이 음절 바이그램 이상의 어휘 규칙을 이용하여 잘못 수정된 띄어쓰기 오류를 재보정한다. 실험 결과에 따르면 제안시스템은 1MB를 조금 넘는 메모리 사용하면서도 94.14%라는 비교적 높은 정밀도를 보였다.

Keywords

References

  1. Seon, C., Kim, H., Seo, J., 'Information extraction using finite state automata and syllable n-grams in a mobile environment,' Proceedings of the ACL-08: HLT Workshop on Mobile Language Processing, pp.13-18, 2008
  2. Johnston, M., 'Multimodal Voice Search for Interactive Media,' Demo of the ACL-08: HLT Workshop on Mobile Language Processing(http://mobilenlpworkshop.org/Demos.html), 2008
  3. 강승식, 장두성, 'SMS 변형된 문자열의 자동 오류 교정 시스템', 정보과학회논문지 : 소프트웨어 및 응용 제35권 제6호, pp.386-391, 2008
  4. 김계성, 이현주, 이상조, '연속 음절 문장에 대한 3단계 한국어 띄어쓰기 시스템', 정보과학회논문지(B) 제25권 제12호, pp.1938-1844, 1998
  5. 강승식, '한글 문장의 자동 띄어쓰기를 위한 어절 블록 양방향알고리즘', 정보과학회논문지:소프트웨어 및 응용 제27권 제4호, pp.441-447, 2000
  6. 강승식., '음절 bigram를 이용한 띄어쓰기 오류의 자동교정',음성과학회논문지, 제8권 제2호, pp.83-90, 2001
  7. 최성자, 강미영, 허희근, 권혁철, '음절 N-Gram과 어절 통계정보를 이용한 한국어 띄어쓰기 시스템', 한국정보과학회 언어공학연구회 학술발표 논문집, pp.47-53, 2003
  8. 임동희, 전영진, 김형준, 강승식, '확장된 음절 바이그램을 이용한 자동 띄어쓰기 시스템', 한국정보과학회 언어공학연구회학술발표 논문집, pp.189-193, 2005
  9. 태윤식, 박성배, 이상조, 박세영, '자기 조직화 n-gram모델을 이용한 자동 띄어쓰기', 한국정보과학회 언어공학연구회 학술발표 논문집, pp.125-132, 2006
  10. Lee, D., Rim, H., and Yook, D., 'Automatic word spacing using probabilistic models based on character n-grams,' IEEE Intelligent Systems, Vol.22 No.1, pp.28-35, 2007 https://doi.org/10.1109/MIS.2007.4
  11. Lafferty, J., McCallum, A., Pereira, F., 'Conditional random fields: Probabilistic models for segmenting and labeling sequence data,' Proceedings of ICML 2001, pp.282-289, 2001
  12. McCallum, A., Freitag, D., Pereira, F., 'Maximum entropy Markov models for information extraction and segmentation,' Intl. Conf. on Machine Learning, pp.591-598, 2000
  13. http://www.cs.brandeis.edu/~cs114/Spring2006/slides/CRFs_MEMMs.pdf (2009. 6. 16 방문)
  14. Riloff, E., Jones, R., 'Learning Dictionaries for Information Extraction by Multi-Level Bootstrapping,' Proceedings of the 16th National Conference on Artificial Intelligence, 1999