Korean Spacing System for Continuous Speech Characters

연속 음성 문자열에 대한 한국어 띄어쓰기 시스템

  • Kim, Kye-Sung (Dept. of Computer Engineering, Kyungpook National University) ;
  • Lee, Hyun-Ju (Dept. of Korean Language & Literature, Kyungpook National University) ;
  • Kim, Sung-Kyu (Dept. of Computer Engineering, Kyungpook National University) ;
  • Choi, Jae-Hyuk (Dept. of Computer Education, Silla University) ;
  • Lee, Sang-Jo (Dept. of Computer Engineering, Kyungpook National University)
  • 김계성 (경북대학교 컴퓨터공학과) ;
  • 이현주 (경북대학교 국어국문학과) ;
  • 김성규 (경북대학교 컴퓨터공학과) ;
  • 최재혁 (신라대학교 컴퓨터교육과) ;
  • 이상조 (경북대학교 컴퓨터공학과)
  • Published : 1998.10.09

Abstract

대용량의 연속된 음성을 인식하는 데에는 형태소 사이의 음운변동과 언절과 어절 사이의 불일치 등으로 인한 어려움이 따른다. 그러므로 언어학적인 지식을 이용한 자연어 처리 기술과의 결합이 필수적이라 할 수 있다. 본 논문에서는 문장 단위의 연속 음성 문자열을 올바른 어절로 띄어주는 시스템을 제안한다. 먼저 띄어쓰기 발음열 사전을 이용하여 어절의 경계를 추정한다. 이 때 보다 정확한 띄어쓰기 위치를 추정하기 위하여 2음절 이상의 최장 조사 어미와 음절 분리가능빈도가 이용된다. 이렇게 해서 분리된 어절들은 음절 복원기를 거친 뒤, 형태소 분석을 행하여 올바른 어절인지를 검사한다. 분석에 실패한 어절은 띄어쓰기 오류 유형에 따라 교정을 한 후 형태소 분석을 재시도한다. 제안한 시스템을 테스트해 본 결과 96.8%의 정확도를 보였다. 본 시스템은 음운 변동 처리기와 함께 말소리를 음성 그대로 인식하는 인식기의 후처리로 이용할 수 있을 것이다.

Keywords