The Method of Chinese Ellipsis Component Restoration for Chinese Dialog Machine Translation

중한 대화체 자동번역을 위한 중국어 긴축문 처리

  • 김운 (한국전자통신연구원 언어처리연구팀) ;
  • 오영순 (한국전자통신연구원 언어처리연구팀) ;
  • 권오욱 (한국전자통신연구원 언어처리연구팀)
  • Published : 2012.06.22

Abstract

긴축문은 형식 상 복문이지만 문장의 일부를 생략하여 단일문처럼 표현하기 때문에 의미상 논리적인 관계를 가지고 있는 비구문적인 복문으로서, 중국어 대화체 비정형 데이터의 대표적인 유형이다. 이는 비구문적인 문장에 취약한 대화체 자동번역 성능 향상의 걸림돌이 되고 있다. 이를 위해 본 논문에서는 패턴기반의 긴축문 추정과 긴축문 복원이라는 두 단계 처리 방법을 제안하며, 긴축문 처리의 필요성과 유효성을 자동번역 성능 향상 여부 실험을 통해 검증하였다. 실험 결과, 긴축문 추정은 95.5% 정확률을 보였으며, 전체 번역문의 번역성능은 2.21% 향상되는 결과를 보였다.

Keywords