• Title/Summary/Keyword: 대화체 자동번역

Search Result 18, Processing Time 0.023 seconds

Customization for English-Korean Spoken Language Machine Translation (영한 대화체 자동번역을 위한 특화 방안)

  • Lee, Ki-Young;Roh, Yoon-Hyung;Kwon, Oh-Woog;Choi, Sung-Kwon;Kim, Young-Gil
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.50-55
    • /
    • 2009
  • 현재, 자동번역의 도메인은 응용 프로그램의 요구에 따라, 점차 문어체에서 대화체(spoken language)로 옮겨가고 있는 추세이다. 본 논문은 대화체가 지니는 특성을 자동번역 시스템을 구성하는 각 모듈별 및 지식 관점에서 분석하였다. 특성 분석을 기반으로 하여, 본 논문에서는 여행 영역을 대상으로 하는 대화체 자동번역시스템의 특화를 수행하였다. 대화체 자동번역을 위한 새로운 지식으로 구조화 번역메모리(Translation Memory)가 도입되었으며, 시스템을 구성하는 각 모듈별로 대화체 특화가 이루어졌다. 또한 기존의 문어체용 기구축 패턴 등이 정비되었으며, 고빈도 대화체 표현에 대한 신규 패턴이 도입되었다. 제안하는 방법의 검증을 위해 수동평가를 수행하였으며, 그 결과, 영한 대화체 자동번역에 있어서 번역률 향상이 있었다.

  • PDF

Customizing a Pattern-based English-Korean MT System: From Written Style to Spoken Style (문어체에서 대화체 문장 패턴기반 영한 번역기로의 특화)

  • Cho, Sung-Kwon;Lee, Ki-Young;Roh, Yoon-Hyung;Kwon, Oh-Woog;Kim, Young-Gil
    • Annual Conference on Human and Language Technology
    • /
    • 2010.10a
    • /
    • pp.136-140
    • /
    • 2010
  • 본 논문은 지식경제부의 지원 하에 한국전자통신연구원 언어처리연구팀에서 2010년에 개발하고 있는 패턴기반 영한 메신저 대화체 문장 번역 시스템에 관한 것이다. 본 논문의 목표는 문어체 문장 위주의 패턴기반 영한 웹문서 자동번역 시스템을 대화체 문장 위주의 패턴기반 영한 메신저 자동번역 시스템으로 전환하고자 할 때, 특화하는 방법 및 모듈에 관해 기술하는 것이다. 영어권 Native speaker로부터 수집한 메신저 대화체 문장을 대상으로 번역률을 평가한 결과, 문어체 위주의 영한 웹 자동번역 시스템은 71.83%인 반면, 대화체 위주의 영한 메신저 자동번역 시스템은 76.88%였다. 대화체 문장을 대상으로 번역률을 5.05% 향상시킬 수 있었던 이유는 본 논문에서 제시한 특화 방법을 따른 결과라고 할 수 있다.

  • PDF

A Study on Generation of Polite Expressions for Dialogue Participants in Machine Translation System (대화체 자동번역 시스템에서 대화상대 맞춤 존대표현 생성에 관한 연구)

  • Choi, Sung-Kwon;Kim, Young-Gil
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.11a
    • /
    • pp.399-402
    • /
    • 2011
  • 현재의 자동번역 방식의 문제점은 대화 상대에 상관없이 항상 일정한 존대 표현을 생성하여 자동번역 결과를 부자연스럽게 만들고 앞뒤 대화 문맥을 혼란하게 만든다는 것이다. 예를 들어 대화 상대가 달라지면 동일한 원문에 대해서도 자동번역 결과는 다른 존대 표현을 생성해야 하나, 현재의 자동번역 시스템은 항상 하나의 일관된 존대 표현을 생성한다. 이 이유는 자동 번역 시스템에서 사용하는 번역지식 또는 데이터가 고정되어 있어 유동적으로 변하지 않기 때문이다. 본 논문에서는 이러한 기존 자동번역의 문제점을 해결하기 위하여, 소셜 네트워크(social network)에서 제공하는 디지털 인맥 정보와 같은 비언어적 정보와 발화상의 표현과 같은 언어적 정보로부터 대화 자간의 존대 관계를 계산하여 자동번역 결과에 반영함으로써 언어 문화적 존대 차이를 자동으로 극복하는 대화 상대 맞춤형 존대표현 자동 번역 방법을 기술하는 데 그 목적이 있다.

Contet Construction and Tt's Using for Dialogue Machine Translation in Automatic Interpreting Telephony (지동통역에서의 대화체 기계번역을 위한 문맥의 구축과 이용)

  • 이재원
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1994.06c
    • /
    • pp.80-85
    • /
    • 1994
  • 자동통역에서의 대화체 기계번역은 일반적인 문어체 문장 번여고가는 다른 몇가지 특징을 고려하여야 한다. 첫째, 자동통역에서의 기계번역은 음성인식의 결과를 번역하는 부분으로, 하나의 문장이 아닌 다중 입력을 받아 이 중 가장 올바른 문장을 번역하여야 한다. 둘째, 대화체 문장에서는 일반적으로 생략을 포함하는 단편적인 발화나 대용어의 사용빈도가 많다. 그러나, 이러한 현상은 언어마다 다소 다르게 사용되기 때문에 이들에 대한 올바른 해석을 한 후 번역하는 것이 필요하다. 대화체 기계번역이 이러한 문제점들을 해결하기 위해서는 문맥정보를 필요로 한다. 대화는 상호간 밀접한 관련성을 가지고 진행되기 때문이다. 이에 본 논문에서는 담화분석을 통해 올바르게 구축하고, 이 정보를 이용하여 앞에서 언급한 문제점들을 해결하기 위한 방법론에 대해 논하고자 한다.

  • PDF

The Method of Chinese Ellipsis Component Restoration for Chinese Dialog Machine Translation (중한 대화체 자동번역을 위한 중국어 긴축문 처리)

  • Jin, Yun;Wu, Yingshun;Kwon, Oh-Woog
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06b
    • /
    • pp.300-302
    • /
    • 2012
  • 긴축문은 형식 상 복문이지만 문장의 일부를 생략하여 단일문처럼 표현하기 때문에 의미상 논리적인 관계를 가지고 있는 비구문적인 복문으로서, 중국어 대화체 비정형 데이터의 대표적인 유형이다. 이는 비구문적인 문장에 취약한 대화체 자동번역 성능 향상의 걸림돌이 되고 있다. 이를 위해 본 논문에서는 패턴기반의 긴축문 추정과 긴축문 복원이라는 두 단계 처리 방법을 제안하며, 긴축문 처리의 필요성과 유효성을 자동번역 성능 향상 여부 실험을 통해 검증하였다. 실험 결과, 긴축문 추정은 95.5% 정확률을 보였으며, 전체 번역문의 번역성능은 2.21% 향상되는 결과를 보였다.

A Korean to English Dialogue Machine Translation System ($\Rightarrow$영 대화체 기계번역 시스템)

  • 서정연
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1994.06c
    • /
    • pp.65-70
    • /
    • 1994
  • 대화체는 문어체와는 달리 생략과 대용현상이 빈번히 발생하고, 문장의 표면적 의미외에 화자가 전달하고자 하는 의도를 내포하고 있다. 그러므로 대화체 번역은 언어적 분석에 의한 단순한 번역이 아닌, 이해에 기반한 번역이어야 한다. 본 논문에서는 대화의 상황을 모델링한 대화모델을 이용하여 이해에 기반한 대화체 기계번역을 시도하였다. 또한 대화체 기계번역이 자동통역 등에 응용된다고 할 때, 실시간 번역과 불완전한 입력과 같은 예외 상황에 대한 적절한 대응이 보장되어야 한다. 이러한 점을 반영하기 위하여 지식기반 모델과 확률 기반 모델을 결합한 해석, 생성 시스템을 구현하여 효율성과 견고성을 갖춘 이해에 기반한 대화체 기계번역 시스템을 연구하고자 한다. 이 연구는 한국통신으로부터 지원을 받아서 수행하고 있는 과제로써 현재 3000단어 수준의 실제 대화를 대상으로 한->영 대화 번역에 대해 실험을 하고 있으며, 시스템의 확장성을 고려한 지식 베이스-사전, 문법 등-를 구축하였다.

  • PDF

Spoken language Translation System Based on PDMT (PDMT 번역 방법론에 기반한 대화체 음성 언어 번역 시스템)

  • Yun, Seung;Yu, Cho-Rong;Choi, Mi-Ran;Oh, Seung-Shin;Park, Jun;Lee, Young-Jik
    • Annual Conference on Human and Language Technology
    • /
    • 2003.10d
    • /
    • pp.279-283
    • /
    • 2003
  • ETRI가 참여하고 있는 자동 통역 관련 국제 컨소시엄인 C-STAR에서는 여행자 영역의 대규모 다국어 병렬 말뭉치를 공동으로 구축하였고, 현재 각 기관에서는 이를 이용한 대화체 음성 언어 번역 시스템을 개발 중이다. ETRI에서는 핵심어 처리, 통계정보를 이용하는 구 단위 자동 설정, 설정된 구의 자동대응 및 재배치 등을 특징으로 하는 구 기반 직접 번역 방식(PDMT: Phrase-based Direct Machine Translation)의 번역 방법론을 제안하고 관련 연구를 진행하고 있다. 본 논문에서는 ETRI 대화체 음성 언어 번역 시스템의 구성에 대해 알아보고 PDMT 번역 방법론의 등장 배경과 그 구체적인 번역 방법 및 특징에 대해 자세히 논의하기로 한다.

  • PDF

Research Trends on Spontaneous Speech Translation at ETRI (ETRI의 대화체 음성언어번역 연구방향)

  • 양재우
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1994.06c
    • /
    • pp.275-276
    • /
    • 1994
  • 본 발표에서는 한국전자통신연구소의 대화체 음성언어번역 연구방향을 기술한다. 한국전자통신연구소에서는 1979년 공중전화 관련 연구를 필두로, 음성분야의 연구를 시작하여 그간 음성인식, 자동통역 등을 연구하였다. 특히 1991년부터 KT와 공동연구체계를 수립하여 특정분야를 대상으로 음성언어번역 연구를 수행하는 중이다. 이러한 경험을 바탕으로 한국전자통신연구소에서는 국내외 공동연구를 통해 대화체 음성언어 번역 연구를 수행하고자 한다. 앞으로 다중매체통신이 더욱 보편화될 것일므로 다중매체 환경을 고려하여 연구를 수행할 계획이다. 아울러 연구의 부산물을 상용화 하는데에 노력을 경주할 계획이다.

  • PDF

A Study on English-Korean Messenger MT System based on Structured Translation Memory (구조화된 번역 메모리 기반 영한 메신저 자동 번역 시스템에 관한 연구)

  • Choi, Sung-Kwon;Kim, Young-Gil
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.04a
    • /
    • pp.361-364
    • /
    • 2011
  • 본 논문의 목표는 크게 두 가지이다. 하나는 2010년에 개발한 메신저 자동번역 시스템을 소개하는 것이고, 다른 하나는 메신저 대화체 문장을 더욱 고품질로 번역하기 위한 구조화된 번역 메모리(Structured Translation Memory)를 소개하는 것이다. 구조화된 번역 메모리는 기존의 문자열 기반의 번역 메모리와 자동 번역 시스템의 경계를 허무는 개념으로 구조를 표현하는 계층적 번역 메모리들로 구성된다. 구조화된 번역 메모리는 문자열 번역 메모리, 원형 어휘로 구성된 번역 메모리, 고유명사가 청킹된 번역 메모리, 날짜/숫자가 청킹된 번역 메모리, 기본명사구가 청킹된 번역 메모리, 문장 패턴 번역 메모리로 단계적으로 구성된다. 구조화된 번역 메모리를 적용하기 전의 2010년의 영한 메신저 자동 번역 시스템의 번역률이 81.67%였던 반면에, 구조화된 번역 메모리를 적용하려는 2011년의 영한 메신저 자동 번역 시스템의 시물레이션 번역률은 85.25%인 것으로 평가되었다. 따라서 구조화된 번역 메모리를 적용하였을 때는 기존의 번역률보다 3.58% 향상할 것으로 예측된다.

Concept-based Translation System in the Korean Spoken Language Translation System (한국어 대화체 음성언어 번역시스템에서의 개념기반 번역시스템)

  • Choi, Un-Cheon;Han, Nam-Yong;Kim, Jae-Hoon
    • The Transactions of the Korea Information Processing Society
    • /
    • v.4 no.8
    • /
    • pp.2025-2037
    • /
    • 1997
  • The concept-based translation system, which is a part of the Korean spoken language translation system, translates spoken utterances from Korean speech recognizer into one of English, Japanese and Korean in a travel planning task. Our system regulates semantic rather than the syntactic category in order to process the spontaneous speech which tends to be regarded as the one ungrammatical and subject to recognition errors. Utterances are parsed into concept structures, and the generation module produces the sentence of the specified target language. We have developed a token-separator using base-words and an automobile grammar corrector for Korean processing. We have also developed postprocessors for each target language in order to improve the readability of the generation results.

  • PDF