• 제목/요약/키워드: 기계 번역

검색결과 413건 처리시간 0.028초

한국어-몽골어 구 기반 번역시스템에 대한 연구 (A Study of Korean-Mongolian Phrase-based Machine Translation System)

  • 김영미
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.369-371
    • /
    • 2011
  • 한국어-몽골어 구 기반 기계번역시스템은 몽골어와 한국어간의 양방향 기계 번역시스템으로서 개발중인 시스템이다. 두 언어의 구조적 특성이 유사한 점에 기안하여 직접기계번역방식에 구단위 번역과 예제에 기반한 번역방식을 병행하여 문장단위의 번역이 가능하다.

직교 정규화를 이용한 신경망 기계 번역에서의 커버리지 모델링 (Coverage Modeling in Neural Machine Translation using Orthogonal Regularization)

  • 이요한;김영길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.561-566
    • /
    • 2018
  • 최근 신경망 번역 모델에 주의 집중 네트워크가 제안되어 기존의 기계 번역 모델인 규칙 기반 번역 모델, 통계적 번역 모델에 비해 높은 번역 성능을 보이고 있다. 그러나 주의 집중 네트워크가 잘못 모델링되는 경우 과소 번역 현상이 나타난다. 신경망 번역 모델에 커버리지 메커니즘을 추가하여 과소 번역 현상을 완화하는 연구가 진행되었으나 이는 모델의 구조를 변경해야하는 불편함이 있다. 본 논문에서는 신경망 번역 모델의 구조를 변경하지 않고 새로운 손실 함수를 정의하여 과소 번역 현상을 완화하는 방법을 제안한다. 한-영 번역 실험을 통해 제안한 주의 집중 네트워크의 정규화 방법이 커버리지 메커니즘의 목적을 효율적으로 달성함을 보인다.

  • PDF

$\Rightarrow$영 대화체 기계번역 시스템 (A Korean to English Dialogue Machine Translation System)

  • 서정연
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1994년도 제11회 음성통신 및 신호처리 워크샵 논문집 (SCAS 11권 1호)
    • /
    • pp.65-70
    • /
    • 1994
  • 대화체는 문어체와는 달리 생략과 대용현상이 빈번히 발생하고, 문장의 표면적 의미외에 화자가 전달하고자 하는 의도를 내포하고 있다. 그러므로 대화체 번역은 언어적 분석에 의한 단순한 번역이 아닌, 이해에 기반한 번역이어야 한다. 본 논문에서는 대화의 상황을 모델링한 대화모델을 이용하여 이해에 기반한 대화체 기계번역을 시도하였다. 또한 대화체 기계번역이 자동통역 등에 응용된다고 할 때, 실시간 번역과 불완전한 입력과 같은 예외 상황에 대한 적절한 대응이 보장되어야 한다. 이러한 점을 반영하기 위하여 지식기반 모델과 확률 기반 모델을 결합한 해석, 생성 시스템을 구현하여 효율성과 견고성을 갖춘 이해에 기반한 대화체 기계번역 시스템을 연구하고자 한다. 이 연구는 한국통신으로부터 지원을 받아서 수행하고 있는 과제로써 현재 3000단어 수준의 실제 대화를 대상으로 한->영 대화 번역에 대해 실험을 하고 있으며, 시스템의 확장성을 고려한 지식 베이스-사전, 문법 등-를 구축하였다.

  • PDF

기계번역에 있어서 언어학적인 문제점 -주제어와 초점어를 중심으로- (Linguistische Probleme in der maschinellen Ubersetzung - Topik und Fokus -)

  • 오영훈
    • 한국독어학회지:독어학
    • /
    • 제7집
    • /
    • pp.43-60
    • /
    • 2003
  • 오늘날 기계번역 Maschinelle Ubersetzung은 가속적인 발전선상에 놓여있다. 지난 10년 간 컴퓨터로 영어를 타국어로 번역하는 수준은 괄목할 만하다. 본 논문은 기계번역에 있어서 주제어 Topik 및 초점어 Fokus를 중심으로 발생하는 언어학적인 문제점, 특히 의미론적인 문제점을 다루었다 이를 위해 먼저 주제어와 초점어에 대한 언어학적인 개념을 다루어 보았다. 주제어란 한 문장에서 이미 알려진 사항, 즉 이미 주어진 단어이고, 초점어는 한 문장에서 새로운 사항, 즉 지금 전달하고자 하는 내용을 뜻한다 제 3장에서는 주제어와 초점어를 번역하기 위해 생성된 규칙들에 근거한 담화모델 Diskursmodell을 살펴보았다. 제 4장에서는 문장을 번역하는데 있어서 의미론상 발생하는 문제점들을 다루었다 그 문제점들은 다음과 같은 3가지로 요약될 수 있다: 첫째, 문장에서 부정형이 어디에 위치하느냐에 따라 문장의 의미가 달라진다. 둘째, 양화사 Quantor의 형태에 따라 문장의 의미가 달라진다. 셋째, 의문문과 화답문 Antwortsatz에 있어서 어느 내용을 강조하느냐에 따라 문장의 의미가 달라진다. 예를 들어 독일어는 단순히 단어의 위치만 변화시킬 수 있지만 다른 유럽어나 영어는 다른 방법들이 필요한 셈이다. 본 논문에서 제시되고 있는 기계번역의 규칙들은 주제어와 초점어에 관계되는 한 영어와 독일어에 한정되어 제시되었지만, 향후 한국어와 독일어의 기계번역을 위해 밑거름이 되리라 생각한다.

  • PDF

KoCED: 윤리 및 사회적 문제를 초래하는 기계번역 오류 탐지를 위한 학습 데이터셋 (KoCED: English-Korean Critical Error Detection Dataset)

  • 어수경;최수원;구선민;정다현;박찬준;서재형;문현석;박정배;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.225-231
    • /
    • 2022
  • 최근 기계번역 분야는 괄목할만한 발전을 보였으나, 번역 결과의 오류가 불완전한 의미의 왜곡으로 이어지면서 사용자로 하여금 불편한 반응을 야기하거나 사회적 파장을 초래하는 경우가 존재한다. 특히나 오역에 의해 변질된 의미로 인한 경제적 손실 및 위법 가능성, 안전에 대한 잘못된 정보 제공의 위험, 종교나 인종 또는 성차별적 발언에 의한 파장은 실생활과 문제가 직결된다. 이러한 문제를 완화하기 위해, 기계번역 품질 예측 분야에서는 치명적 오류 감지(Critical Error Detection, CED)에 대한 연구가 이루어지고 있다. 그러나 한국어에 관련해서는 연구가 존재하지 않으며, 관련 데이터셋 또한 공개된 바가 없다. AI 기술 수준이 높아지면서 다양한 사회, 윤리적 요소들을 고려하는 것은 필수이며, 한국어에서도 왜곡된 번역의 무분별한 증식을 낮출 수 있도록 CED 기술이 반드시 도입되어야 한다. 이에 본 논문에서는 영어-한국어 기계번역 분야에서의 치명적 오류를 감지하는 KoCED(English-Korean Critical Error Detection) 데이터셋을 구축 및 공개하고자 한다. 또한 구축한 KoCED 데이터셋에 대한 면밀한 통계 분석 및 다국어 언어모델을 활용한 데이터셋의 타당성 실험을 수행함으로써 제안하는 데이터셋의 효용성을 면밀하게 검증한다.

  • PDF

한영 기계번역을 위하 고정표현 지식의 기술 방법 (The Representation Method of Fixed Expression Knowledge for Korean-to-English Machine Translation)

  • 서진원;안동언;정성종;김재훈;서영애;김영길
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.366-368
    • /
    • 2000
  • 규칙기반 기계번역 시스템의 문제점을 보완하고자 제시된 예제기반 기계번역 시스템은 대량의 고품질 대역 코퍼스가 필요하다. 그리고, 빠른 N-best 예제 검색, 유사 예제 계산, 번역결과의 평가 등이 중요한 문제들이다. 또한, 무엇보다도 기본적인 것은 대역 예문들을 표현하고 기술하는 방법이다. 본 논문에서는 자연어 대역 예문들을 수집하여 기계번역 시스템에서 사용하는 고정 표현 지식을 기술하는 방법에 대해서 논의한다. 대역 패턴의 기술 방법을 CFG 형태로 정의하고 실제 용례를 통하여 기술 방법을 설명한다.

  • PDF

영한 기계번역의 자연어 생성 연구 (A Study on the Natural Language Generation by Machine Translation)

  • 홍성룡
    • 디지털콘텐츠학회 논문지
    • /
    • 제6권1호
    • /
    • pp.89-94
    • /
    • 2005
  • 기계번역에서 자연어 생성의 목적은 입력언어의 어구 분석을 이용하여 그 문장의 의미를 변환해주는 목적 언어를 생성하는 것이다. 그것은 언어적 구조 낱말 전사. 대화체 언어, 어휘적 정보 등을 포함해야 한다. 본 연구에서는 대화체 자동 기계번역 시스템 구현계획의 일부인 음성, 음운 분야에서 담당하게 될 음성인식과 음성합성 알고리듬을 확립하기 위한 한국어 특질에 대한 기초조사를 하고자 한다. 또한 기계번역의 단계를 분석하여 형태소 분석 단계와 구문 분석 단계, 의미 분석 단계로 구분한다. 형태소 분석은 입력 문장을 받아 분리된 형태소를 사전 내에서 검색하여·품사 정보를 얻고 이웃하는 단어와의 접속 관계가 문법적으로 올바르게 되었는지를 점검한다. 본 연구의 결과가 대화체 기계번역 시스템 구현계획의 종합적 입장에서는 단순한 기초조사일 수 있지만, 한국어의 교육 및 기계번역 이해의 측면에서는 그 자체로 가치를 지닌다고 할 수 있겠다. 따라서 교육적 측면에서의 직접적 활용을 여러 측면에서 고려할 수 있을 것이다.

  • PDF

문장의 화행을 반영한 한-영 대화체 기계번역 (A Korean to English Dialogue Machine Translation System Using Speech Acts)

  • 이현정;서정연
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.271-276
    • /
    • 1997
  • 대화체는 문어체와는 달리 화자와 청자 사이의 질의/응답으로 이루어진 형태의 문장들을 가지며, 생략과 대용어가 빈번히 발생하는 특징을 갖는다. 이러한 대화 형태에서 어떠한 한 문장에는 화자가 전달하고자 하는 의도를 포함하고 있다. 이러한 대화체 문장들을 번역하는 것은 단순한 언어적 분석에 의한 번역으로서는 많은 번역상의 오류가 발생하게 된다. 따라서 대화체 문장들의 올바른 번역을 위해서는 대화의 상황을 반영하는 문맥 정보가 부가적으로 요구된다. 본 연구에서는 이러한 문맥 정보로서 화행을 사용하여 대화체 기계번역을 수행하고자 한다. 화행(Speech Act)이란 화자에 의해 의도되어 발화 속에 포함된 언어적 행위를 나타내며, 이러한 화행을 분석함으로써 화자의 의도를 파악하고 이를 통해 올바른 번역을 수행할 수 있게 된다. 본 기계번역 시스템에 포함된 화행 분석 과정에서는 대화를 화행으로 모델링한 담화 문법과 유사한 형태의 재귀적 대화 전이망(Recursive Dialog Transition Network)을 사용하게 된다. 본 논문에서는 호텔 예약 영역에서의 기계번역 시스템에 대한 간단한 소개와 화행의 종류 및 분석 방법과 이를 통한 기계번역 방식에 대해 살펴보도록 하겠다.

  • PDF

문장 길이가 한영 통계기반 기계번역에 미치는 영향 분석 (Empirical Impact Analysis of Sentence Length on Statistical Machine Translation)

  • 조희영;서형원;김재훈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 한국컴퓨터종합학술대회논문집 Vol.34 No.1 (C)
    • /
    • pp.199-203
    • /
    • 2007
  • 본 논문에서는 한영 통계기반 기계번역에서 한국어 문장 길이의 변화에 따른 번역 성능의 변화를 분석하고자 한다. 일반적으로 통계기반 기계번역은 정렬기법을 이용하는데 문장의 길이가 길수록 많은 변형(distortion)이 이루어진다. 특히 한국어와 영어처럼 어순이 매우 다를 경우, 문장 길이의 변화에 따라 그 변형이 더욱 심할 수 있다. 본 논문에서는 이러한 성질이 통계기반 기계번역에 어떠한 영향을 주는지를 실험적으로 살펴보고자 한다. 본 논문에서 비교적 잘 정렬된 203,310개의 문장을 학습데이터로 사용하였고, 세종 병렬 말뭉치로부터 89,309개의 문장을 추출하여 실험데이터로 사용하였다. 실험데이터는 한국어 문장의 길이에 따라 5구간($1{\sim}4,\;5{\sim}8,\;9{\sim}13,\;14{\sim}19,\;20{\sim}n$ 개)로 나뉘었다. 각 구간은 가능한 문장의 수가 비슷하도록 하였으며, 17,126, 18,507, 20,336, 17,884, 15,456개의 문장이 포함되었다. 데이터들은 모두 어절단위로 토큰을 나누었다. 본 논문에서는 한영 번역을 중심으로 평가되었다. 첫 번째 구간에서 가장 좋은 성능인 0.0621 BLEU를 보였으며, 마지막 구간에서 가장 좋지 않은 0.0251 BLEU를 보였다. 이는 문장의 길이가 길수록 변역 성능이 좋지 않음을 알 수 있었다. 문장이 길수록 구가 길어지고 구간의 수식이 복잡해지므로 번역의 성능은 점차 떨어진다. 이것을 볼 때, 구번역을 먼저 한 후, 다시 문장 번역을 한다면 좀 더 높은 기계번역의 성능을 기대할 수 있을 것이다.

  • PDF

뉴스 타이틀 번역을 위한 중개 기계 번역 시스템 (Chinese-Korean Machine Translation System for News Title Translation)

  • 황금하;송희정;김지현;송영미;강원석;서충원;채영숙;최기선
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 한글 및 한국어 정보처리
    • /
    • pp.350-357
    • /
    • 2000
  • 본 논문은 근 몇 년간 꾸준히 진행되어진 중한 기계번역시스템에 대한 연구의 기초 위에서, 뉴스 타이틀 번역이라는 특정 도메인에 초점을 맞추어 언어적 특성을 살펴보고, 중한 언어적 유사성에 기반 한 뉴스 타이틀 번역을 위한 중한 기계번역시스템에 대하여 설명한다.

  • PDF