• 제목/요약/키워드: 번역 단계

검색결과 127건 처리시간 0.028초

구조화된 번역 메모리 기반 영한 메신저 자동 번역 시스템에 관한 연구 (A Study on English-Korean Messenger MT System based on Structured Translation Memory)

  • 최승권;김영길
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.361-364
    • /
    • 2011
  • 본 논문의 목표는 크게 두 가지이다. 하나는 2010년에 개발한 메신저 자동번역 시스템을 소개하는 것이고, 다른 하나는 메신저 대화체 문장을 더욱 고품질로 번역하기 위한 구조화된 번역 메모리(Structured Translation Memory)를 소개하는 것이다. 구조화된 번역 메모리는 기존의 문자열 기반의 번역 메모리와 자동 번역 시스템의 경계를 허무는 개념으로 구조를 표현하는 계층적 번역 메모리들로 구성된다. 구조화된 번역 메모리는 문자열 번역 메모리, 원형 어휘로 구성된 번역 메모리, 고유명사가 청킹된 번역 메모리, 날짜/숫자가 청킹된 번역 메모리, 기본명사구가 청킹된 번역 메모리, 문장 패턴 번역 메모리로 단계적으로 구성된다. 구조화된 번역 메모리를 적용하기 전의 2010년의 영한 메신저 자동 번역 시스템의 번역률이 81.67%였던 반면에, 구조화된 번역 메모리를 적용하려는 2011년의 영한 메신저 자동 번역 시스템의 시물레이션 번역률은 85.25%인 것으로 평가되었다. 따라서 구조화된 번역 메모리를 적용하였을 때는 기존의 번역률보다 3.58% 향상할 것으로 예측된다.

제품 설명서에 나타나는 중의적 명사 수식 구문 연구 - 통제 언어의 관점에서- (A study on the ambiguous adnominal constructions in product documentation)

  • 박아름;지은별;홍문표
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.23-28
    • /
    • 2012
  • 번역을 지원하는 도구로 자동 번역 시스템을 효율적으로 활용하기 위해 중요한 것은 자동 번역에 적합하도록 원문을 작성하거나 이미 작성된 원문에 대한 전처리 작업을 하는 것이다. 본 연구의 궁극적인 목표는 제품 설명서 작성자가 통제언어 체커를 통해 통제언어 규칙들을 적용하여 원문을 작성하도록 하는 것이다. 본 논문은 그 중간 단계로써 제품 설명서에 나타나는 문제 사항이 번역 품질에 어떠한 영향을 미치는지 밝혀내는 것을 목적으로 한다. 연구 대상은 제품 설명서에서 자동 번역의 성능을 저해시키는 요소 중 중의적 명사 수식 구문이다. 이러한 명사 수식 구문들은 분석 단계에서 구조적인 모호성을 초래하여 한국어 분석의 정확도를 떨어뜨리기 때문에 결과적으로 번역 품질을 악화시킬 수 있다. 이를 검증하기 위해 우선 제품 설명서 데이터를 분석하여 자동 번역 결과에 부정적인 영향을 미치는 명사 수식 구문을 다음과 같이 4가지로 유형화 하였다. (유형 1) 관형격 명사구 + 명사 병렬 접속, (유형 2) 동사의 관형형이 수식하는 명사구 + 명사 병렬 접속, (유형 3) 관형격 조사 '의' 중복, (유형 4) 병렬 접속어를 잘못 쓴 경우, 각각의 유형에 대해서 한국어 분석 단계에서 발생할 수 있는 문제에 대해 설명하였으며, 문제 사항에 대해 통제언어 규칙을 제시하였다. 통제언어 규칙에 따라 중의적 명사 수식 구문을 수정한 결과, 한국어 원문의 번역결과보다 한국어 수정문의 번역결과가 작성자의 의도를 더 잘 나타낸다는 것을 확인할 수 있었다.

  • PDF

다국어 기계번역시스템에서 부사격 조사의 올바른 대역어 선정을 위한 언어학적 모델링 (Linguistic Modeling for Target Word Selection of Korean Adverbial Postpositions in a Multilingual MT-System)

  • 홍문표;최승권
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.310-316
    • /
    • 2001
  • 이 논문은 '에서', '으로'와 같은 한국어의 부사격 조사들을 다국어 기계번역 시스템에서 다룰 때 올바른 역어 선택을 위한 3단계 변환 방식과 이를 위한 부사격 조사의 언어학적 모델링 방법을 제시한다. 3단계 변환 방식은 부사격 조사의 의미 모호성 해소, 의사 중간언어표상 (Quasi-Interlingua Representation)으로의 변환, 전치사 선택의 3단계로 구성되어 있다. 본 논문에서 중점적으로 다루게 될 세번째 단계, 즉 영어나 독일어에서 한국어의 부사격 조사에 대한 전치사 선택의 단계에서 올바른 대역어 선정 방법론의 핵심이 되는 부사격 조사에 대한 언어학적 모델링을 위해 Pustejovsky (1995)의 생성 어휘부 이론 (Generative Lexicon Theory)을 도입한다. 이 논문에서 제시한 방법론은 그 타당성의 수학적 검증을 위해 통합기반 기계번역 시스템인 CAT2에서 구현되었으나, 방법론 자체는 특정 시스템에 제한됨 없이 범용적으로 적용될 수 있을 것이다.

  • PDF

자연어를 이용한 요구사항 모델의 번역 기법 (Translation Technique of Requirement Model using Natural Language)

  • 오정섭;이혜련;임강빈;최경희;정기현
    • 정보처리학회논문지D
    • /
    • 제15D권5호
    • /
    • pp.647-658
    • /
    • 2008
  • 자연어로 작성된 고객의 요구사항은 개발과정에서 모델링 언어로 재작성 된다. 그러나 개발에 참여하는 다양한 계층의 사람들은 모델링 언어로 작성된 요구사항을 이해하지 못하는 경우가 많이 발생한다. 본 논문에서는 REED(REquirement EDitor)로 작성된 요구사항 모델을 자연어로 번역하여 개발에 참여하는 모든 계층의 사람들이 요구사항 모델을 이해할 수 있도록 도와주는 방안을 제시한다. 제시한 방법은 3단계로 구성되어 있다. 1단계 IORT(Input-Output Relation Tree) 생성, 2단계 RTT(Requirement Translation Tree) 생성, 3단계 자연어로 번역의 단계를 거친다.

영어 구문 분석의 효율 개선을 위한 3단계 구문 분석 (Three-Phase English Syntactic Analysis for Improving the Parsing Efficiency)

  • 김성동
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권1호
    • /
    • pp.21-28
    • /
    • 2016
  • 영어 구문 분석기는 영한 기계번역 시스템의 성능에 가장 큰 영향을 미치는 부분이다. 본 논문에서의 영어 구문 분석기는 규칙 기반 영한 기계번역 시스템의 한 부분으로서, 많은 구문 규칙을 구축하고 차트 파싱 기법으로 구문 분석을 수행한다. 구문 규칙의 수가 많기 때문에 구문 분석 과정에서 많은 구조가 생성되는데, 이로 인해 구문 분석 속도가 저하되고 많은 메모리를 필요로 하여 번역의 실용성이 떨어진다. 또한 쉼표를 포함하는 긴 문장들은 구문 분석 복잡도가 매우 높아 구문 분석 시간/공간 효율이 떨어지고 정확한 번역을 생성하기 매우 어렵다. 본 논문에서는 실제 생활에서 나타나는 긴 문장들을 효율적으로 번역하기 위해 문장 분할 방법을 적용한 3단계 구문 분석 방법을 제안한다. 구문 분석의 각 단계는 독립된 구문 규칙들을 적용하여 구문 분석을 수행함으로써 구문 분석의 복잡도를 줄이려 하였다. 이를 위해 구문 규칙을 3가지 부류로 분류하고 이를 이용한 3단계 구문 분석 알고리즘을 고안하였다. 특히 세 번째 부류의 구문 규칙은 쉼표로 구성되는 문장 구조에 대한 규칙으로 구성되는데, 이들 규칙들을 말뭉치의 분석을 통해 획득하는 방법을 제안하여 구문 분석의 적용률을 지속적으로 개선하고자 하였다. 실험을 통해 제안한 방법이 문장 분할만을 적용한 기존 2단계 구문 분석 방법에 비해 유사한 번역 품질을 유지하면서도 시간/공간 효율 면에서 우수함을 확인하였다.

행위자 관계망 이론을 중심으로 창의ˑ융합형 인재 양성 방안 탐색 (Exploration of Ways to Nurture Creative and Convergence-Type Talents: Focusing on the actor-network theory)

  • 윤옥한
    • 문화기술의 융합
    • /
    • 제9권3호
    • /
    • pp.1-10
    • /
    • 2023
  • 이 연구의 목적은 ANT를 중심으로 창의ˑ융합형 인재 양성 방안을 탐색한 것이다. ANT를 중심으로 창의ˑ융합형 인재를 양성하기 위해서는 첫째, 네트워크 형성단계에서 카오의 법칙을 활용할 필요가 있다. 둘째, 네트워크 형성단계에서 약한 유대의 강한 힘을 활용할 필요가 있다. 셋째, 번역의 4단계 중 문제 제기 단계에서 파문을 일으키기 위해서는 질문하는 능력을 키워야 한다. 넷째, 파문을 던지기 위해서는 다양한 창의적 문제해결 기법 교육이 필요하다. 다섯째, 번역의 4단계 중 2단계인 관심 끌기 단계에서 끼어들기를 성공시키기 위해서는 의사소통 역량과 비판적사고 역량을 교육해야 한다. 후속 연구를 위한 제언은 첫째, ANT에서 제시한 번역의 4단계와 창의적 문제해결 모형단계를 비교 분석해 볼 필요가 있다. 둘째, ANT를 중심으로 구체적인 사례를 적용한 후속 연구들이 있기를 기대한다.

병렬 코퍼스 필터링과 한국어에 최적화된 서브 워드 분절 기법을 이용한 기계번역 (Parallel Corpus Filtering and Korean-Optimized Subword Tokenization for Machine Translation)

  • 박찬준;김경민;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.221-224
    • /
    • 2019
  • 딥러닝을 이용한 Neural Machine Translation(NMT)의 등장으로 기계번역 분야에서 기존의 규칙 기반,통계기반 방식을 압도하는 좋은 성능을 보이고 있다. 본 논문은 기계번역 모델도 중요하지만 무엇보다 중요한 것은 고품질의 학습데이터를 구성하는 일과 전처리라고 판단하여 이에 관련된 다양한 실험을 진행하였다. 인공신경망 기계번역 시스템의 학습데이터 즉 병렬 코퍼스를 구축할 때 양질의 데이터를 확보하는 것이 무엇보다 중요하다. 그러나 양질의 데이터를 구하는 일은 저작권 확보의 문제, 병렬 말뭉치 구축의 어려움, 노이즈 등을 이유로 쉽지 않은 상황이다. 본 논문은 고품질의 학습데이터를 구축하기 위하여 병렬 코퍼스 필터링 기법을 제시한다. 병렬 코퍼스 필터링이란 정제와 다르게 학습 데이터에 부합하지 않다고 판단되며 소스, 타겟 쌍을 함께 삭제 시켜 버린다. 또한 기계번역에서 무엇보다 중요한 단계는 바로 Subword Tokenization 단계이다. 본 논문은 다양한 실험을 통하여 한-영 기계번역에서 가장 높은 성능을 보이는 Subword Tokenization 방법론을 제시한다. 오픈 된 한-영 병렬 말뭉치로 실험을 진행한 결과 병렬 코퍼스 필터링을 진행한 데이터로 만든 모델이 더 좋은 BLEU 점수를 보였으며 본 논문에서 제안하는 형태소 분석 단위 분리를 진행 후 Unigram이 반영된 SentencePiece 모델로 Subword Tokenization를 진행 하였을 시 가장 좋은 성능을 보였다.

  • PDF

LyriKOR: 음절을 맞춘 영한 노래 가사 번역 모델 (LyriKOR: English to Korean Song Translation with Syllabic Alignment)

  • 조혜진;홍은빈;오지민;박정환;이병준
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.510-516
    • /
    • 2023
  • 세계화가 진행됨에 따라 다양한 문화의 음악을 즐기는 사람들이 늘어나고, 해외 팬들이 외국 노래를 이해하고 따라 부를 수 있는 접근성을 확보하는 것이 중요해졌다. 이를 위해 본 논문에서는 노래 가사 데이터에 특화된 영어-한국어 번역 모델 리리코(LyriKOR)를 제시한다. 리리코는 영어 노래를 한국어로 번역하여 그 의미를 담아낼 뿐만 아니라, 번역 결과물이 원곡의 선율과 리듬에 어느 정도 부합하도록 하여 한국어로 바로 따라 부를 수 있도록 하는 것을 목표로 한다. 이를 위해 번역과 음절 조정의 두 단계(two-stage)를 거쳐 제한된 데이터로 음절 정렬된 번역 모델을 훈련하는 새로운 방법을 소개한다. 모델 코드는 여기에서 볼 수 있다.

  • PDF

형태소 분석 기반 전자책 수화 번역 프로그램 (E-book to sign-language translation program based on morpheme analysis)

  • 한솔이;김세아;황경호
    • 한국정보통신학회논문지
    • /
    • 제21권2호
    • /
    • pp.461-467
    • /
    • 2017
  • 인터넷의 발전과 스마트 디바이스의 확산으로 e-book에 대한 수요가 늘고 있다. 그러나 청각 손실로 정확한 언어를 배우기 어려운 청각장애인은 텍스트로만 이루어진 e-book 서비스를 사용하기 어렵다. 본 논문에서는 e-book의 문장을 읽어 수화 동영상으로 제공하는 안드로이드 기반 애플리케이션 프로그램을 설계하고 구현하였다. e-book의 한국어 문장을 수화 언어로 번역하기 위해 형태소 분석에 기반한 알고리즘을 사용하였다. 제안한 알고리즘은 3단계로 구성된다. 1단계는 수화 표현을 위한 문장 요소 제거, 2단계는 수화 표현의 변환 및 시제 표현, 3단계는 수화 높임말 용어 변경 및 위치 이동이다. 또한 수화 번역 품질에 대한 평가 방안을 제시하고 100개의 기준 문장에 대해 제안한 알고리즘을 통한 번역 결과의 우수성을 확인하였다.

에서로-웹/$EK^{TM}$: 영한 웹 문서 번역 시스템 (FromTo-$Web/EK^{TM}$: English-to-Korean Machine Translation System for HTML Documents)

  • 심철민;여상화;정한민;김태완;박동인;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.277-282
    • /
    • 1997
  • 최근 들어 웹 상의 문서를 번역해 주는 번역 시스템이 상용화되고 있다. 일반 문서와 달리 웹 문서는 HTML 태그를 포함하고 있어 번역 시스템에서 문장 단위로 분리하는데 어려움이 있다. 또한 그 대상 영역이 제한되지 않으므로 미등록어 및 구문 분석 실패에 대한 대처 기능이 필요하다. 따라서 웹 문서의 번역 품질이 일반 문서 번역에 비해 현저히 떨어지게 된다. 이 논문에서는 HTML 태그를 보유한 영어 웹 문서를 대상으로 하는 번역 시스템인 "에서로-웹/EK"에 대해 기술한다. 에서로-웹/EK는 HTML 문서의 특성을 고려하여 태그를 분리, 복원하는 태그 관리자를 별도로 가진다. 또한 태그를 유지하면서 영어에서 한국어로 변환되는 과정에서 발생하는 어휘 분리, 어휘 통합, 어순 변환 둥의 다양한 변환 현상을 처리한다. 이 시스템은 변환 방식에 기반한 번역 시스템으로서 영어 해석, 영한 변환, 한국어 생성의 단계를 거친다. 구현된 시스템은 Netscape와 DDE(Dynamic Data Exchange) 방식으로 연동하여 HTML 문서를 번역한다.

  • PDF