A Preprocessor for English-to-Korean Machine Translation of Web Pages

웹용 영한 기계번역을 위한 문서 전처리기의 설계 및 구현

  • An, Dong-Un (Faculty of Computer, Information and Communication Engineering Chonbuk National University) ;
  • Ryu, Hong-Jin (Faculty of Computer, Information and Communication Engineering Chonbuk National University) ;
  • Seo, Jin-Won (Faculty of Computer, Information and Communication Engineering Chonbuk National University) ;
  • Lee, Young-Woo (Faculty of Computer, Information and Communication Engineering Chonbuk National University) ;
  • Jeong, Sung-Jong (Faculty of Computer, Information and Communication Engineering Chonbuk National University) ;
  • Yuh, Sang-Hwa (Department of Natural Language Information Processing Software Engineering Research Institute) ;
  • Kim, Tae-Wan (Department of Natural Language Information Processing Software Engineering Research Institute) ;
  • Park, Dong-In (Department of Natural Language Information Processing Software Engineering Research Institute)
  • 안동언 (전북대학교 컴퓨터.정보통신공학부, 영상정보신기술연구소) ;
  • 유홍진 (전북대학교 컴퓨터.정보통신공학부, 영상정보신기술연구소) ;
  • 서진원 (전북대학교 컴퓨터.정보통신공학부, 영상정보신기술연구소) ;
  • 이영우 (전북대학교 컴퓨터.정보통신공학부, 영상정보신기술연구소) ;
  • 정성종 (전북대학교 컴퓨터.정보통신공학부, 영상정보신기술연구소) ;
  • 여상화 (시스템공학연구소 자연어정보처리연구부) ;
  • 김태완 (시스템공학연구소 자연어정보처리연구부) ;
  • 박동인 (시스템공학연구소 자연어정보처리연구부)
  • Published : 1997.10.10

Abstract

영어 웹 문서를 한국어로 기계번역을 하기 위해서는 HTML 태그를 번역 대상 문장과 분리하는 처리가 필요하다. HTML 태그를 단순히 제거하는 것이 아니라 대상 문장의 기계번역이 종료된 후에 같은 형태의 한국어 웹 문서로 복원하기 위한 방안이 마련 되어야 한다. 또한 문서 전처리기에서는 영어 형태소해석기의 성능을 높이기 위하여 번역 단위가 되는 문장의 인식 및 분리, 타이틀의 처리, 나열된 단어의 처리, 하이픈 처리, 고유명사 인식, 특수 문자 처리, 대소문자 정규화, 날짜 인식 등을 처리하여 문서의 정규화를 수행한다.

Keywords