• Title/Summary/Keyword: language translation

검색결과 559건 처리시간 0.027초

음성언어 번역 시스템을 위한 새로운 형태소 분석 (A New Morphological Analysis for the Spoken Language Translation System)

  • 양승원;김재훈
    • 한국음향학회지
    • /
    • 제18권4호
    • /
    • pp.17-22
    • /
    • 1999
  • 음성 처리부와 기계번역부를 통합하는 음성언어 번역 시스템에서는 각 모듈들이 다루는 자료나 처리단위 등이 서로 달라 통합이 어렵다. 따라서, 전체 시스템의 효율을 제고하면서 각 모듈에서 공통으로 사용할 수 있는 새로운 입출력 단위가 필요하다. 본 논문에서는 음성언어 번역 시스템에서 음성 처리 모듈들과 언어번역 모듈과의 인터페이스 단위로서 의사 형태소를 제안하고, 입력되는 문장을 의사 형태소 단위로 분석하는 형태소 분석기를 구현하였다. 의사형태소를 이용한 음성인식/합성은 어절이나 형태소단위의 음성인식/합성에서 보다 개선된 결과를 얻을 수 있게 해주며, 전체적인 음성언어 번역시스템의 성능도 높일 수 있다. 본 논문에서 구현한 의사 형태소 분석기의 분석율은 약98.9%로 일반 형태소 분석기와 동일한 수준의 성능을 보였다.

  • PDF

A Survey of Machine Translation and Parts of Speech Tagging for Indian Languages

  • Khedkar, Vijayshri;Shah, Pritesh
    • International Journal of Computer Science & Network Security
    • /
    • 제22권4호
    • /
    • pp.245-253
    • /
    • 2022
  • Commenced in 1954 by IBM, machine translation has expanded immensely, particularly in this period. Machine translation can be broken into seven main steps namely- token generation, analyzing morphology, lexeme, tagging Part of Speech, chunking, parsing, and disambiguation in words. Morphological analysis plays a major role when translating Indian languages to develop accurate parts of speech taggers and word sense. The paper presents various machine translation methods used by different researchers for Indian languages along with their performance and drawbacks. Further, the paper concentrates on parts of speech (POS) tagging in Marathi dialect using various methods such as rule-based tagging, unigram, bigram, and more. After careful study, it is concluded that for machine translation, parts of speech tagging is a major step. Also, for the Marathi language, the Hidden Markov Model gives the best results for parts of speech tagging with an accuracy of 93% which can be further improved according to the dataset.

신경망 기계번역에서 최적화된 데이터 증강기법 고찰 (Optimization of Data Augmentation Techniques in Neural Machine Translation)

  • 박찬준;김규경;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.258-261
    • /
    • 2019
  • 딥러닝을 이용한 Sequence to Sequence 모델의 등장과 Multi head Attention을 이용한 Transformer의 등장으로 기계번역에 많은 발전이 있었다. Transformer와 같은 성능이 좋은 모델들은 대량의 병렬 코퍼스를 가지고 학습을 진행하였는데 대량의 병렬 코퍼스를 구축하는 것은 시간과 비용이 많이 드는 작업이다. 이러한 단점을 극복하기 위하여 합성 코퍼스를 만드는 기법들이 연구되고 있으며 대표적으로 Back Translation 기법이 존재한다. Back Translation을 이용할 시 단일 언어 데이터를 가상 병렬 데이터로 변환하여 학습데이터의 양을 증가 시킨다. 즉 말뭉치 확장기법의 일종이다. 본 논문은 Back Translation 뿐만 아니라 Copied Translation 방식을 통한 다양한 실험을 통하여 데이터 증강기법이 기계번역 성능에 미치는 영향에 대해서 살펴본다. 실험결과 Back Translation과 Copied Translation과 같은 데이터 증강기법이 기계번역 성능향상에 도움을 줌을 확인 할 수 있었으며 Batch를 구성할 때 상대적 가중치를 두는 것이 성능향상에 도움이 됨을 알 수 있었다.

  • PDF

Translation, Creation, and Empowerment in Chaucer's Clerk's Tale

  • Yoo, Inchol
    • 영어영문학
    • /
    • 제57권6호
    • /
    • pp.1173-1198
    • /
    • 2011
  • In this paper, I discuss Chaucer's Clerk's Tale by viewing the relationship between Walter and Griselda as that of a medieval translator and his translation. My major concern is how a medieval translation can serve power, more specifically the consolidation of power under particular historical circumstances. The motive and the process of Walter's creative translation of Griselda are closely examined to show that his translation, which includes a creation of a new Griselda as a pinnacle of wifely virtue of patience, is performed as a form of political propaganda, ultimately aimed at strengthening his governing power over his people and land. My discussion of the Clerk's Tale ends with the comparison of the two translators, Walter and the Clerk, the latter of whom is an example of an unsuccessful translator for his lack of creation in the translation.

인공신경망 기계번역에서 디코딩 전략에 대한 연구 (Study on Decoding Strategies in Neural Machine Translation)

  • 서재형;박찬준;어수경;문현석;임희석
    • 한국융합학회논문지
    • /
    • 제12권11호
    • /
    • pp.69-80
    • /
    • 2021
  • 딥러닝 모델을 활용한 인공신경망 기계번역 (Neural machine translation)이 주류 분야로 떠오르면서 최고의 성능을 위해 모델과 데이터 언어 쌍에 대한 많은 투자와 연구가 활발하게 진행되고 있다. 그러나, 최근 대부분의 인공신경망 기계번역 연구들은 번역 문장의 품질을 극대화하는 자연어 생성을 위한 디코딩 전략 (Decoding strategy)에 대해서는 미래 연구 과제로 남겨둔 채 다양한 실험과 구체적인 분석이 부족한 상황이다. 기계번역에서 디코딩 전략은 번역 문장을 생성하는 과정에서 탐색 경로를 최적화 하고, 모델 변경 및 데이터 확장 없이도 성능 개선이 가능하다. 본 논문은 시퀀스 투 시퀀스 (Sequence to Sequence) 모델을 활용한 신경망 기반의 기계번역에서 고전적인 그리디 디코딩 (Greedy decoding)부터 최신의 방법론인 Dynamic Beam Allocation (DBA)까지 비교 분석하여 디코딩 전략의 효과와 그 의의를 밝힌다.

명리고전(命理古典) 번역(飜譯) 방법론(方法論)에 관한 엄복(嚴腹)의 신(信)·달(達)·아(雅)의 번역 기준 연구(硏究) (A Study on the Translation Criteria of ENFU SIN, DAL, AH on the Translation Methodology of Myeongri Classical)

  • 김현덕;김기승
    • 산업진흥연구
    • /
    • 제5권1호
    • /
    • pp.73-87
    • /
    • 2020
  • 본 논문의 목적은 명리학의 원서 번역에 있어서 직역과 의역에 편중을 두다가 해석의 무리를 범한 예를 찾아서 그에 대해 엄복의 신·달·아(信·達·雅)의 기준에 맞추어 명리학의 원서 번역의 기준을 새롭게 적용하여 보았다. 원서번역은 기본적으로 원 저자의 의도가 충실히 반영되어야 하기 때문에 신(信)에 해당하는 직역과 달(達)에 해당하는 의역 그리고 우아한 해석에 해당하는 아(雅)를 기준으로 그때그때 필요한 해석에 적용되어야 한다. 번역은 원 저자의 의도에 등가성 구현이 가장 큰 목적이므로 표현의 상이성 속에서도 출발언어와 도착언어의 등가성은 지켜져야 한다. 지금까지 명리학 번역에 관한 문제는 주로 언어 구조적 차이를 극복하려는데 치중을 하여 주로 문체론적 번역에 치중을 하였다. 이제는 번역은 문체론적 접근뿐만 아니라 의미적 등가성 구현이 필요하다. 본 연구자는 원서 번역에서 원 저자의 의도와 등가성을 잘 이룰 수 있는 엄복의 번역 기준을 제시함으로써 명리학의 고전 문헌 연구에 대한 새로운 지평을 열고자 한다.

과도한 지식을 요구하지 않는 공통기반축에 의한 용어 번역과 한영 교차정보검색에의 응용 (Knowledge-poor Term Translation using Common Base Axis with application to Korean-English Cross-Language Information Retrieval)

  • 최용석;최기선
    • 인지과학
    • /
    • 제14권1호
    • /
    • pp.29-40
    • /
    • 2003
  • 교차언어 정보검색은 다국어 정보검색의 일부분으로 질의어에서 사용하는 언어와 검색대상인 문서의 언어가 서로 다른 경우의 정보검색을 의미한다. 교차언어 정보검색의 성능 향상을 위해서는 양질의 언어자원이 대량으로 필요한 경우가 많기 때문에 이를 해결하기 쉽지 않다. 본 논문에서는 사전에 기반한 대역어 후보 선정 시, 가중치를 부여해 질의어를 변환하는 방식을 제안한다. 가중치 계산에 이용되는 의미거리는 영어 명사와 한국어 명사를 같은 벡터 공간에 표현하고, 두 벡터간의 관계를 이용해 거리를 계산한다. 서로 다른 두 언어의 명사를 한 공간에 표현하기 위해 "공통 기반축"의 개념을 제시하고, 구축 방법을 제안한다. 고급 자원인 온톨로지를 확보하지 않고, 제안하는 방법으로 우수한 정보검색 결과를 얻을 수 있다는 것을 실험을 통해 보여준다.을 통해 보여준다.

  • PDF

언어 유형론에 기반한 다국어 공용 번역지식의 구축 (A Construction of Multilingual Linguistic Translation Knowledge based on the Language Typology)

  • 최승권;김태완;박동인
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.243-248
    • /
    • 1997
  • 본 논문은 다국어 자동번역시스템에서 다국어의 번역지식(사전,규칙,정보)구축을 위해 언어유형론을 도입하는 방법론을 제안한다. 다국어 번역지식의 구축과 관련하여 기존 다국어 자동번역 시스템들에서 항상 문제가 되고 있는 것은 번역지식의 구축, 관리, 재활용의 문제이다. 번역지식의 구축은 다국어를 위한 번역지식의 크기, 다국어의 수용정도와 관련되며, 번역지식의 관리는 번역지식의 단순화 정도와 관련되며, 번역지식의 재활용은 기존에 구축된 번역지식을 새로운 언어들에 재사용 정도와 관련된다. 이러한 문제점들을 해결하기 위해 본 논문에서는 한국어를 포함한 다국어의 언어 친족성에 따라 번역지식을 공유하도록 하는 언어유형론에 기반한 다국어 공용 번역지식 구축 방법론을 제안하고자 한다.

  • PDF

Using Brackets to Improve Search for Statistical Machine Translation

  • Dekai, W.U.;Cindy, N.G.
    • 한국언어정보학회:학술대회논문집
    • /
    • 한국언어정보학회 1995년도 Language, Information and Computation = Proceedings of the 10th Pacific Asia Conference, Hong Kong
    • /
    • pp.195-204
    • /
    • 1995
  • We propose a method to improve search time and space complexity in statistical machine translation architectures, by employing linguistic bracketing information on the source language sentence. It is one of the advantages of the probabilistic formulation that competing translations may be compared and ranked by a. principled measure, but at the same time, optimizing likelihoods over the translation spa.ce dictates heavy search costs. To make statistical architectures practical, heuristics to reduce search computation must be incorporated. An experiment applying our method to a prototype Chinese-English translation system demonstrates substantial improvement.

  • PDF

어휘기능문법(Lexical-Functional Grammar)에 근거한 한-영 양방향 기계 번역기의 언어학적 구성 (Linguistic design of a bidirectional Korean-English machine translation system based on Lexical-Functional Grammar)

  • 김정렬
    • 한국언어정보학회지:언어와정보
    • /
    • 제3권1호
    • /
    • pp.65-82
    • /
    • 1999
  • The interests in Machine Translation(MT) have gotten revitalized lately with the rapid expansion of internet users. MT technology has gone through several different stages of development, but the longest surviving methods usually maintains the following characteristics: the expand ability and flexibility based on proved linguistic formalism, the transfer method of translation, the continued efforts of systematic updates being made into the system. This paper introduces one such system, L&H Korean-English bidirectional MT system. This system uses Lexical-Functional Grammar as its linguistic framework. It also adopts the transfer method of MT and has been around on the market for over 10 years for other language pairs. Currently, the system covers over 10 different languages including Chinese, Japanese and Arabic, in addition to European languages. This paper will review the system in its core and discuss related tools and resources be ing used to enhance the quality of translation.

  • PDF