Disambiguating in Transliteration of some Text Symbols using Decision tree

결정 트리를 이용한 ′이음표′ 문자화의 중의성 해소

  • 정영임 (부산대학교 한국어정보처리연구실) ;
  • 이동훈 (부산대학교 한국어정보처리연구) ;
  • 남현숙 (동서사이버대학교 인터넷학) ;
  • 윤애선 (부산대학교 한국어정보처리연구) ;
  • 권혁철 (부산대학교 한국어정보처리연구실)
  • Published : 2004.04.01

Abstract

한국어 텍스트 음성합성에서 문장 기호의 문자화에 나타나는 오류는 기호의 중의성에 기인한다. 선행연구에서 규칙에 기반하여 중의성을 해결하는 방안이 제안되었으나 여전히 기호는 다양한 문맥에서 높은 중의성을 가지고 문자화된다. 따라서 본 연구에서는 신문 텍스트에 나타나는 문장 기호 중 이음표의 문자화를 이음표를 포함한 어절의 패턴, 패턴의 좌우에 위치하는 어절 정보 및 휴리스틱스 자질을 학습하여 제시된 이음표의 문자화의 중의성을 해소하는 방안을 제안하였다. 이를 위해 국내 1개 일간지 2년 치 기사에서 이음표를 포함한 어절 49,000여 개를 임의 추출하여 분석하였고, 분석된 자질을 자동추출하여 결정 트리를 구성하였다. 실험 결과, 96.2%~97.7%의 정확도를 보였다.

Keywords