Construction of English-Korean Automatic Translation System for Patent Documents Based on Domain Customizing Method

도메인 특화 방법에 의한 영한 특허 자동 번역 시스템의 구축

  • 최승권 (한국전자통신연구원 언어처리연구팀) ;
  • 권오욱 (한국전자통신연구원 언어처리연구팀) ;
  • 이기영 (한국전자통신연구원 언어처리연구팀) ;
  • 노윤형 (한국전자통신연구원 언어처리연구팀) ;
  • 박상규 (한국전자통신연구원 언어처리연구팀)
  • Published : 2007.02.15

Abstract

This paper describes an English-to-Korean automatic translation system for patent documents which is constructed by a method customizing from a general domain to a specific domain. The customizing method consists of following steps: 1) linguistically studying about characteristics of patent documents, 2) extracting unknown words from large patent documents and terminologically constructing, 3) customizing the target language words of existing terms, 4) extracting and constructing patent translation patterns peculiar to patent documents, 5) customizing existing translation engine modules according to linguistic study about characteristics of patent documents, 6) evaluation of automatic translation results. The English-to-Korean patent machine translation system implemented by these customization steps shows a translation accuracy of 81.03% and is improving.

본 논문은 웹과 같은 일반적인 도메인의 영한 자동 번역기를 특정 도메인으로 특화하는 방법에 의해 구축된 영한 특허 자동번역 시스템을 기술하는 것을 목표로 한다. 특정 도메인으로서의 특허 자동번역기를 위한 특화 방법은 다음과 같은 단계로 이루어진다: 1) 대용량 특허 문서의 수집 및 언어학적 특성 분석, 2) 전문용어 추출 및 대역어 구축, 3) 기보유한 용어의 대역어 특화, 4) 특허 고유의 번역 패턴추출 및 구축, 5) 언어학적 특성 분석에 따른 기보유 번역 엔진 모듈의 특화 및 개선, 6) 특화된 번역 지식 및 번역 엔진 모듈에 따른 번역률 평가. 이와 같은 특화 절차에 따른 특허 영한 자동 번역기는 특허 전문번역가의 평가에 의해 전분야 평균 81.03%의 번역률을 내었으며, 분야별로는 기계(80.54%), 전기전자 (81.58%), 화학일반(79.92%), 의료위생(80.79%), 컴퓨터(82.29%)의 성능을 보였으며 계속 개선 중에 있다.

Keywords

References

  1. 이민행, 지광신, 정소우 (1998), '기계번역 시스템 측정 장치 연구', 언어와 정보, Volume2, Number2
  2. 시정곤, 김원경, 고창수 (2000), '영-한 기계번역 성능 평가 방안 연구', 언어와 정보, Volume4, Number2
  3. 최승권 (2000) '영한자동번역에서의 두단계 영어전산 문법', 언어와 정보, Volume1, Number1. 97-109쪽
  4. Akihiro Shinmori, Manabu Okumura, Yuzo Marukawa and Makoto Iwayama (2003), 'Patent Claim Processing for Readability - Structure Analysis and Term Explanation,' ACL-2003 Workshop on Patent Corpus Processing
  5. Remi Zajac (2003), 'MT Customization,' MT Summit IX Workshop
  6. Munpyo Hong, Young-Gil Kim, Chang-Hyun Kim, Seong-Il Yang, Young-Ae Seo, Cheol Ryu, and Sang-Kyu Park (2005), 'Customizing a Korean- English MT System for Patent Translation,' MT Summit X. 181-187
  7. Ferran Pla and Antonio Molina (2005), 'Improving Part-of-speech Tagging Using Lexicalized HMMs,' Natural Language Engineering 10(2) 167-189 https://doi.org/10.1017/S1351324904003353