FromTo-$Web/EK^{TM}$: English-to-Korean Machine Translation System for HTML Documents

에서로-웹/$EK^{TM}$: 영한 웹 문서 번역 시스템

  • Sim, Chul-Min (Machine Translation Laboratory, Natural Language Information Processing Department, SERI) ;
  • Yuh, Sang-Wha (Machine Translation Laboratory, Natural Language Information Processing Department, SERI) ;
  • Jung, Han-Min (Machine Translation Laboratory, Natural Language Information Processing Department, SERI) ;
  • Kim, Tae-Wan (Machine Translation Laboratory, Natural Language Information Processing Department, SERI) ;
  • Park, Dong-In (Machine Translation Laboratory, Natural Language Information Processing Department, SERI) ;
  • Kwon, Hyuk-Chul (Computer Science Department, Pusan National University)
  • 심철민 (시스템공학연구소 자연어정보처리연구부 기계번역연구실) ;
  • 여상화 (시스템공학연구소 자연어정보처리연구부 기계번역연구실) ;
  • 정한민 (시스템공학연구소 자연어정보처리연구부 기계번역연구실) ;
  • 김태완 (시스템공학연구소 자연어정보처리연구부 기계번역연구실) ;
  • 박동인 (시스템공학연구소 자연어정보처리연구부 기계번역연구실) ;
  • 권혁철 (부산대학교 전자계산학과)
  • Published : 1997.10.10

Abstract

최근 들어 웹 상의 문서를 번역해 주는 번역 시스템이 상용화되고 있다. 일반 문서와 달리 웹 문서는 HTML 태그를 포함하고 있어 번역 시스템에서 문장 단위로 분리하는데 어려움이 있다. 또한 그 대상 영역이 제한되지 않으므로 미등록어 및 구문 분석 실패에 대한 대처 기능이 필요하다. 따라서 웹 문서의 번역 품질이 일반 문서 번역에 비해 현저히 떨어지게 된다. 이 논문에서는 HTML 태그를 보유한 영어 웹 문서를 대상으로 하는 번역 시스템인 "에서로-웹/EK"에 대해 기술한다. 에서로-웹/EK는 HTML 문서의 특성을 고려하여 태그를 분리, 복원하는 태그 관리자를 별도로 가진다. 또한 태그를 유지하면서 영어에서 한국어로 변환되는 과정에서 발생하는 어휘 분리, 어휘 통합, 어순 변환 둥의 다양한 변환 현상을 처리한다. 이 시스템은 변환 방식에 기반한 번역 시스템으로서 영어 해석, 영한 변환, 한국어 생성의 단계를 거친다. 구현된 시스템은 Netscape와 DDE(Dynamic Data Exchange) 방식으로 연동하여 HTML 문서를 번역한다.

Keywords