• 제목/요약/키워드: language translation

검색결과 559건 처리시간 0.028초

수어 번역을 위한 3차원 컨볼루션 비전 트랜스포머 (Three-Dimensional Convolutional Vision Transformer for Sign Language Translation)

  • 성호렬;조현중
    • 정보처리학회 논문지
    • /
    • 제13권3호
    • /
    • pp.140-147
    • /
    • 2024
  • 한국에서 청각장애인은 지체장애인에 이어 두 번째로 많은 등록 장애인 그룹이다. 하지만 수어 기계 번역은 시장 성장성이 작고, 엄밀하게 주석처리가 된 데이터 세트가 부족해 발전 속도가 더디다. 한편, 최근 컴퓨터 비전과 패턴 인식 분야에서 트랜스포머를 사용한 모델이 많이 제안되고 있는데, 트랜스포머를 이용한 모델은 동작 인식, 비디오 분류 등의 분야에서 높은 성능을 보여오고 있다. 이에 따라 수어 기계 번역 분야에서도 트랜스포머를 도입하여 성능을 개선하려는 시도들이 제안되고 있다. 본 논문에서는 수어 번역을 위한 인식 부분을 트랜스포머와 3D-CNN을 융합한 3D-CvT를 제안한다. 또, PHOENIX-Wether-2014T [1]를 이용한 실험을 통해 제안 모델은 기존 모델보다 적은 연산량으로도 비슷한 번역 성능을 보이는 효율적인 모델임을 실험적으로 증명하였다.

공공 한영 병렬 말뭉치를 이용한 기계번역 성능 향상 연구 (A Study on the Performance Improvement of Machine Translation Using Public Korean-English Parallel Corpus)

  • 박찬준;임희석
    • 디지털융복합연구
    • /
    • 제18권6호
    • /
    • pp.271-277
    • /
    • 2020
  • 기계번역이란 소스언어를 목적언어로 컴퓨터가 번역하는 소프트웨어를 의미하며 규칙기반, 통계기반 기계번역을 거쳐 최근에는 인공신경망 기반 기계번역에 대한 연구가 활발히 이루어지고 있다. 인공신경망 기계번역에서 중요한 요소 중 하나로 고품질의 병렬 말뭉치를 뽑을 수 있는데 이제까지 한국어 관련 언어쌍의 고품질 병렬 코퍼스를 구하기 쉽지 않은 실정이었다. 최근 한국정보화진흥원의 AI HUB에서 고품질의 160만 문장의 한-영 기계번역 병렬 말뭉치를 공개하였다. 이에 본 논문은 AI HUB에서 공개한 데이터 및 현재까지 가장 많이 쓰인 한-영 병렬 데이터인 OpenSubtitles와 성능 비교를 통해 각각의 데이터의 품질을 검증하고자 한다. 테스트 데이터로 한-영 기계번역 관련 공식 테스트셋인 IWSLT에서 공개한 테스트셋을 이용하여 보다 객관성을 확보하였다. 실험결과 동일한 테스트셋으로 실험한 기존의 한-영 기계번역 관련 논문들보다 좋은 성능을 보임을 알 수 있었으며 이를 통해 고품질 데이터의 중요성을 알 수 있었다.

Resolving Multi-Translatable Verbs Japanese-TO-Korean Machine Translation

  • Kim Jung-In;Lee Kang-Hyuk
    • 한국멀티미디어학회논문지
    • /
    • 제8권6호
    • /
    • pp.790-797
    • /
    • 2005
  • It is well-known that there are many similarities between Japanese and Korean language. For example, the order of words and the nature of the grammatical conjugation of both languages are almost the same. Another similarity is the frequent omission of the subject from a sentence. Moreover, both languages have honorific expressions and the identical concept for expressing nouns in terms of Chinese characters. Using these similarities, we have developed a word-to-word translation system which does away with any deep level analysis of syntactic and semantic structures of the two languages. If we use these similarities, the direct translation method is superior to the internal language translation method or transfer-based translation method. Although the MT system based on the direct translation method is more easily developed than the ones based on other methods, it may have a lot of difficulties when it tries to select the appropriate target word from ambiguous source verbs. In this paper, we propose a new algorithm to extract the meaning of substantives and to make use of the order of the extracted meaning. We could select $86.5\%$ appropriate verbs in the sample sentences from IPAL-verb-dictionary. $13.5\%$ indicates the cases in which we could not distinguish the meaning of substantives. We are convinced, however, that the succeeding rate can be increased by getting rid of the meaning of verbs thatare not used so often.

  • PDF

대화처리를 위한 통계기반 한국어 음성언어이해 시스템 (Statistical Korean Spoken Language Understanding System for Dialog Processing)

  • 노윤형;양성일;김영길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.215-218
    • /
    • 2012
  • 본 논문에서는 한국어 대화 처리를 위한 통계기반 음성언어이해 시스템에 대해 기술한다. 음성언어이해시스템은 대화처리에서 음성 인식된 문장으로부터 사용자의 의도를 인식하여 의미표현으로 표현하는 기능을 담당한다. 한국어의 특성을 반영한 실용적인 음성언어이해 시스템을 위해서 강건성과 적용성, 확장성 등이 요구된다. 이를 위해 본 시스템은 음성언어의 특성상 구조분석을 하지 않고, 마이닝 기법을 이용하여 사용자 의도 표현을 생성하는 방식을 취하고 있다. 또한 한국어에서 나타나는 특징들에 대한 처리를 위해 자질 추가 및 점규화 처리 등을 수행하였다. 정보서비스용 대화처리 시스템을 대상으로 개발되고 있고, 차량 정보서비스용 학습 코퍼스를 대상으로 실험을 하여 문장단위 정확률로 약 89%의 성능을 보이고 있다.

  • PDF

Multilingual Automatic Translation Based on UNL: A Case Study for the Vietnamese Language

  • Thuyen, Phan Thi Le;Hung, Vo Trung
    • IEIE Transactions on Smart Processing and Computing
    • /
    • 제5권2호
    • /
    • pp.77-84
    • /
    • 2016
  • In the field of natural language processing, Universal Networking Language (UNL) has been used by various researchers as an inter-lingual approach to automatic machine translation. The UNL system consists of two main components, namely, EnConverter for converting text from a source language to UNL, and DeConverter for converting from UNL to a target language. Currently, many projects are researching how to apply UNL to different languages. In this paper, we introduce the tools that are UNL's applications and discuss how to reuse them to encode a Vietnamese sentence into UNL expressions and decode UNL expressions into a Vietnamese sentence. The testing was done with about 1,000 Vietnamese sentences (a dictionary that includes 4573 entries and 3161 rules). In addition, we compare the proportion of sentences translated based on a direct method (Google Translator) and another one based on UNL.

개념기반 대화체 언어번역시스템의 번역부평가 (Evaluation of the Translation Part of the Concept-based Spoken Language Translation System)

  • 최운천;한남용;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.322-325
    • /
    • 1996
  • 이 논문은 개념기반의 대화체 언어번역시스템의 번역부의 평가에 대해 기술한 것이다. 대상언어는 한국어와 영어로 한국어를 해석하여 영어로 번역하는 시스템이다. 개념기반 시스템은 개념을 기준으로 입력된 문장을 해석하고 그 개념을 이용하여 번역한다. 개념기반 시스템은 개념에 기반을 두기 때문에 자유로운 간투사의 사용, 빈번한 단어 생략 등의 특성을 가지는 대화체 번역에 유리하다. 시스템의 평가는 입력문에 대한 번역문의 결과가 의미적으로 어느 정도 전달되었는지를 평가자의 주관적인 판단에 의해 평가한다. 현재 개발된 시스템은 여행안내 영역(domain)을 대상으로 하고 있다. 개발된 시스템에 대한 평가는 대화체를 전사한 문장과 음성인식의 결과 두 가지의 입력에 대해 하였다.

  • PDF

응구기 와 시옹오의 문화이론과 번역의 의미 (Ngugi wa Thiong'o's Cultural Theory and Its Significance in Translation)

  • 이효석
    • 비교문화연구
    • /
    • 제46권
    • /
    • pp.411-434
    • /
    • 2017
  • 응구기는 최근 기쿠유어로 쓴 자신의 작품을 50여개 이상의 아프리카 지역어로 번역하는 작업에 관여하고 있다. 이는 로컬의 다양한 언어와 문화의 가치를 수호하기 위해 서구의 강한 언어와 문화에 맞서는 구체적인 행동이다. 한편 응구기는 자신의 작품을 영어로도 직접 번역하였는데, 이는 아프리카 문화의 폐쇄성을 막고 외부의 지평으로 열어두는 수평적 운동을 위한 것이다. 요컨대 주변부 언어 간의 대화도 중요하지만, 지배언어와 주변부 언어 간의 대화 역시 중요하다는 것을 강조하고 있는 것이다. 이때 번역이 이러한 역할을 수행하는 가교가 된다고 본다. 한편 사이먼 기칸디와 같은 학자는 응구기의 영어소설은 응구기 자신이 보존하려는 기쿠유어가 아니라 오히려 번역언어인 영어를 더욱 강화시켜 주는 것은 아닌지 의심한다. 강한 언어인 영어로의 번역본이 상대적으로 소수언어인 기쿠유 원본의 존재와 권위를 훼손하는 딜레마에 빠지게 된다는 것이다. 그러나 포스트식민 번역을 다루는 여러 학자들은 '두터운' 번역이 원본의 권위를 훼손하기 보다는 일종의 '새로운' 텍스트로서 문화적 대화와 소통의 메커니즘 속에서 작동한다고 주장한다. 또 응구기는 영어 번역본을 통해 아프리카 외부와 소통하고 아프리카 다양한 지역어로의 번역을 통해 내부와 소통하는 이중적인 전략을 구사한다. 응구기는 번역을 다양한 보편들의 대화와 연대, 나아가 보편적 보편을 탐색하는 가능성의 매체로 본다.

전이학습 기반 기계번역 사후교정 모델 검증 (The Verification of the Transfer Learning-based Automatic Post Editing Model)

  • 문현석;박찬준;어수경;서재형;임희석
    • 한국융합학회논문지
    • /
    • 제12권10호
    • /
    • pp.27-35
    • /
    • 2021
  • 기계번역 사후교정 (Automatic Post Editing, APE)이란 번역 시스템을 통해 생성한 번역문을 교정하는 연구 분야로, 영어-독일어와 같이 학습데이터가 풍부한 언어쌍을 중심으로 연구가 진행되고 있다. 최근 APE 연구는 전이학습 기반 연구가 주로 이루어지는데, 일반적으로 self supervised learning을 통해 생성된 사전학습 언어모델 혹은 번역모델이 주로 활용된다. 기존 연구에서는 번역모델에 전이학습 시킨 APE모델이 뛰어난 성과를 보였으나, 대용량 언어쌍에 대해서만 이루어진 해당 연구를 저 자원 언어쌍에 곧바로 적용하기는 어렵다. 이에 본 연구에서는 언어 혹은 번역모델의 두 가지 전이학습 전략을 대표적인 저 자원 언어쌍인 한국어-영어 APE 연구에 적용하여 심층적인 모델 검증을 진행하였다. 실험결과 저 자원 언어쌍에서도 APE 학습 이전에 번역을 한차례 학습시키는 것이 유의미하게 APE 성능을 향상시킨다는 것을 확인할 수 있었다.

Opinions on the Turks' Turkic Translation Activities in the Period of Taspar Qagan

  • YILDIRIM, KURSAT
    • Acta Via Serica
    • /
    • 제3권2호
    • /
    • pp.151-160
    • /
    • 2018
  • There is a variety of opinions about the first translation activities within the Turkic Empire. It is widely believed that some Buddhist sutras were translated into the Turkic language in the period of Taspar Qagan (572-581). This theory is based on certain arguments: Some Turks practiced Buddhism, Buddhist monks translated sutras in the center of the Turkic Empire, Taspar brought sutras from China and had them translated, and the monarch of Northern Qi had a sutra translated and sent to Taspar. However, in my opinion, these arguments lack credibility. This article, which is based on primary Chinese sources, will question the likelihood of such translation activities having occurred. Some Chinese records for these claims exist: Da Tang Nei Dian Lu (大唐內典錄) and Xu Gao Seng Chuan (續高僧傳) by the Buddhist monk Jinagupta and the records of Hui Lin in Sui Shu (隋書) and Wen Xian Tong Kao (文獻通考). These are known as "primary sources." Secondary sources, namely contemporary history and language studies, such as those in books and articles, must be based on primary sources. It can be seen that claims relating to the first Turkic translation activities at the time of Taspar are mainly derived from secondary sources, and that the arguments in these secondary sources vary. Sometimes researchers make suppositions on the existence of information that is not referred to in primary sources. However, this is not normal practice. If a researcher relies on unknowns for the evidence of information existing, it can cause false information, ideas and anachronisms to be created. It is important that primary sources, such as the Chinese sources mentioned above, be translated correctly in language and history studies. If only a word is mistranslated, very different results may occur. Mistranslating or misinterpreting a primary source allows conclusions to be reached that are not supported by dissemination of information from primary sources. This can mislead experts and result in information that is not correct being considered as being true. As well as helping to prevent such misinterpretations occurring, another aim of this paper is to question the interpretations of the first Turkic translations in contemporary studies on history and language. The origin of such assessments will be explored and the validity of that information will be examined.

최신 기계번역 사후 교정 연구 (Recent Automatic Post Editing Research)

  • 문현석;박찬준;어수경;서재형;임희석
    • 디지털융복합연구
    • /
    • 제19권7호
    • /
    • pp.199-208
    • /
    • 2021
  • 기계번역 사후교정이란, 기계번역 문장에 포함된 오류를 자동으로 교정하기 위해 제안된 연구 분야이다. 이는 번역 시스템과 관계없이 번역문의 품질을 높이는 오류 교정 모델을 생성하는 목적을 가진 연구로, 훈련을 위해 소스문장, 번역문, 그리고 이를 사람이 직접 교정한 문장이 활용된다. 특히, 최신 기계번역 사후교정 연구에서는 사후교정 데이터를 통한 학습을 진행하기 이전에, 사전학습된 다국어 언어모델을 활용하는 방법이 적용되고 있다. 이에 본 논문은 최신 연구들에서 활용되고 있는 다국어 사전학습 언어모델들과 함께, 해당 모델을 도입한 각 연구에서의 구체적인 적용방법을 소개한다. 나아가 이를 기반으로, 번역 모델과 mBART모델을 활용하는 향후 연구 방향을 제안한다.