Using CRF (Conditional Random Fields) to Predict Phrase Breaks in Korean

CRF를 이용한 한국어 운율 경계 추정

  • 김승원 (포항공과대학교 지능소프트웨어 연구실) ;
  • 김병창 (대구가톨릭대학교 컴퓨터정보통신공학부) ;
  • 정민우 (포항공과대학교 지능소프트웨어 연구실) ;
  • 이근배 (포항공과대학교 지능소프트웨어 연구실)
  • Published : 2005.10.21

Abstract

본 논문은 한국어 TTS(Text-To-Speech)에서 운율 경계를 추정하는 문제를 클래스 분류문제로 보고 CRF(Conditional Random Fields)를 적용하여 운율 경계를 추정하였다. 우리는 품사와 운율 경계로 구성된 말뭉치를 사용하여 품사, 어휘, 단어의 길이, 문장에서의 단어 위치와 같은 다양한 속성의 언어적 자질을 추출하여 CRF를 훈련시켰으며, 자질들을 서로 조합하여 최고의 성능을 보이는 자질 집합을 골랐다 또한 가우스 평활 (Gaussian Smoothing)을 적용하여 데이터의 희소성 문제를 줄였다. 실험 결과에서 본 방법이 기존의 방법보다 성능이 좋을 뿐만 아니라 운율 경계를 추정하기 위한 자질을 독립시켰기 때문에 다른 시스템과의 호환성도 높다는 것을 알 수 있었다.

Keywords