• Title/Summary/Keyword: 언어 번역

Search Result 582, Processing Time 0.029 seconds

Method Customizing From Web-based English-Korean MT System To English-Korean MT System for Patent Documents (웹 영한 번역기로부터 특허 영한 번역기로의 특화 방법)

  • Choi, Sung-Kwon;Kwon, Oh-Woog;Lee, Ki-Young;Roh, Yoon-Hyung;Park, Sang-Kyu
    • Annual Conference on Human and Language Technology
    • /
    • 2006.10e
    • /
    • pp.57-64
    • /
    • 2006
  • 본 논문에서는 웹과 같은 일반적인 도메인의 영한 자동 번역기를 특허용 영한 자동번역기로 특화하는 방법에 대해 기술한다. 특허용 영한 파동번역기로의 특화는 다음과 같은 절차에 의해 이루어진다: 1) 대용량 특허 문서에 대한 언어학적 특성 분석, 2) 대용량 특허문서 대상 전문용어 추출 및 대역어 구축, 3) 기존 번역사전 대역어의 특화, 4) 특허문서 고유의 번역 패턴 추출 및 구축, 5) 언어학적 특성 분석에 따른 번역 엔진 모듈의 특화 및 개선, 6) 특화된 번역 지식 및 번역 엔진 모듈에 따른 번역률 평가. 이와 같은 절차에 의해 만들어진 특허 영한 자동 번역기는 특허 전문번역가의 평가에 의해 전분야 평균 81.03%의 번역률을 내었으며, 분야별로는 기계분야(80.54%), 전기전자분야(81.58%), 화학일반분야(79.92%), 의료위생분야(80.79%), 컴퓨터분야(82.29%)의 성능을 보였으며 계속 개선 중에 있다. 현재 본 논문에서 기술된 영한 특허 자동번역 시스템은 산업자원부의 특허지원센터에서 변리사 및 특허 심사관이 영어 전기전자분야 특허 문서를 검색할 때 한국어 번역서비스를 제공받도록 이용되고 있으며($\underline{http://www.ipac.or.kr}$), 2007년에는 전분야 특허문서에 대한 영한 자동번역 서비스를 제공할 예정이다.

  • PDF

Research about SMT Performance Improvement Through Automatic Corpus Expansion (말뭉치 자동 확장을 통한 SMT 성능 향상에 대한 연구)

  • Choi, Gyu-Hyun;Shin, Jong-Hun;Kim, Young-Kil
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.296-299
    • /
    • 2016
  • 현재 자동번역에는 통계적 방법에 속하는 통계기반 자동번역 시스템(SMT)이 많이 사용되고 있지만, 학습 데이터로 사용되는 대용량의 병렬 말뭉치를 수동으로 구축하는데 어려움이 있다. 본 연구의 목적은 통계기반 자동번역의 성능을 향상시키기 위해 기존 다른 언어쌍의 말뭉치와 SMT 자동번역 기술을 이용하여 대상이 되는 언어쌍의 SMT 병렬 말뭉치를 자동으로 확장하는 방법을 제안한다. 제안 방법은 서로 다른언어 B와 C의 병렬 말뭉치를 얻기 위해, A와 B의 SMT 자동번역 시스템을 구축하고 기존의 A-C 말뭉치의 A를 SMT를 통해 B로 번역하여 B와 C의 말뭉치를 자동으로 확장한다. 실험을 통해 확장한 병렬 말뭉치가 통계기반 자동번역 시스템의 성능을 향상시킬 수 있음을 확인한다.

  • PDF

Phrase-Pattern-based Korean-to-English Machine Translation System using Two Level Word Selection (두단계 대역어선택 방식을 이용한 구단위 패턴기반 한영 기계번역 시스템)

  • Kim, Jung-Jae;Park, Jun-Sik;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.209-214
    • /
    • 1999
  • 패턴기반기계번역방식은 원시언어패턴과 그에 대한 대역언어패턴들의 쌍을 이용하여 구문분석과 변환을 수행하는 기계번역방식이다. 패턴기반 기계번역방식은 번역할 때 발생하는 애매성을 해소하기 위해 패턴의 길이를 문장단위까지 늘이기 때문에, 패턴의 수가 급증하는 문제점을 가진다. 본 논문에서는 패턴의 단위를 구단위로 한정시킬 때 발생하는 애매성을 해소하는 방법으로 시소러스를 기반으로 한 두단계 대역어 선택 방식을 제안함으로써 효과적으로 애매성을 감소시키면서 패턴의 길이를 줄이는 모델을 제시한다. 두단계 대역어 선택 방식은 원시언어의 한 패턴에 대해 여러 가능한 목적언어의 대역패턴들이 있을 때, 첫 번째 단계에서는 원시언어 내에서의 제약조건에 맞는 몇가지 대역패턴들을 선택하고, 두번째 단계에서는 목적언어 내에서의 제약조건에 가장 적합한 하나의 대역패턴을 선택하는 방식이다. 또한 본 논문에서는 이와 같은 모델에서 패턴의 수가 코퍼스의 증가에 따른 수렴가능성을 논한다.

  • PDF

Character-Level Neural Machine Translation (문자 단위의 Neural Machine Translation)

  • Lee, Changki;Kim, Junseok;Lee, Hyoung-Gyu;Lee, Jaesong
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.115-118
    • /
    • 2015
  • Neural Machine Translation (NMT) 모델은 단일 신경망 구조만을 사용하는 End-to-end 방식의 기계번역 모델로, 기존의 Statistical Machine Translation (SMT) 모델에 비해서 높은 성능을 보이고, Feature Engineering이 필요 없으며, 번역 모델 및 언어 모델의 역할을 단일 신경망에서 수행하여 디코더의 구조가 간단하다는 장점이 있다. 그러나 NMT 모델은 출력 언어 사전(Target Vocabulary)의 크기에 비례해서 학습 및 디코딩의 속도가 느려지기 때문에 출력 언어 사전의 크기에 제한을 갖는다는 단점이 있다. 본 논문에서는 NMT 모델의 출력 언어 사전의 크기 제한 문제를 해결하기 위해서, 입력 언어는 단어 단위로 읽고(Encoding) 출력 언어를 문자(Character) 단위로 생성(Decoding)하는 방법을 제안한다. 출력 언어를 문자 단위로 생성하게 되면 NMT 모델의 출력 언어 사전에 모든 문자를 포함할 수 있게 되어 출력 언어의 Out-of-vocabulary(OOV) 문제가 사라지고 출력 언어의 사전 크기가 줄어들어 학습 및 디코딩 속도가 빨라지게 된다. 실험 결과, 본 논문에서 제안한 방법이 영어-일본어 및 한국어-일본어 기계번역에서 기존의 단어 단위의 NMT 모델보다 우수한 성능을 보였다.

  • PDF

A Study on the Natural Language Generation by Machine Translation (영한 기계번역의 자연어 생성 연구)

  • Hong Sung-Ryong
    • Journal of Digital Contents Society
    • /
    • v.6 no.1
    • /
    • pp.89-94
    • /
    • 2005
  • In machine translation the goal of natural language generation is to produce an target sentence transmitting the meaning of source sentence by using an parsing tree of source sentence and target expressions. It provides generator with linguistic structures, word mapping, part-of-speech, lexical information. The purpose of this study is to research the Korean Characteristics which could be used for the establishment of an algorism in speech recognition and composite sound. This is a part of realization for the plan of automatic machine translation. The stage of MT is divided into the level of morphemic, semantic analysis and syntactic construction.

  • PDF

Ngugi wa Thiong'o's Cultural Theory and Its Significance in Translation (응구기 와 시옹오의 문화이론과 번역의 의미)

  • Lee, Hyoseok
    • Cross-Cultural Studies
    • /
    • v.46
    • /
    • pp.411-434
    • /
    • 2017
  • With emphasis on various local cultures to confront the Western central culture, Ngugi wa Thiong'o proposes them 'to move horizontally' so as not to repeat the oppressive culture of the West. We need not only dialogues between dominant languages and peripheral languages, but also between marginal languages. With respect to this point, Ngugi thinks that translation itself could be very effective. Ngugi wants to stimulate writing and speaking in marginalized languages and promote translation as a means of making these languages visible. He regards translation as a conversational tool among languages and cultures in the multicultural global community. As is already well known, his determination to write his later works only in his native Gikuyu language has a great meaning in his anti-colonial as well as anti-neocolonial movement. Its proof is his recent effort to cooperate with Jalada Africa. Simon Gikandi criticized the English translation of Matigari as a denial of cultural hegemony of Gikuyu language and its subordination to the global cultural market. However, the concept of 'thick translation', helps us move from Gikandi's doubt of the 'epistemology of translation' to a meaningful strategy of postcolonial translation. Facing some of the scholars' doubts related to his over-stressing language problem, Ngugi points out that the world has managed to function well through translation: the possibility of translation between cultures and translation as a mediating tool for communication nationally as well as internationally. Based on this two-sided solution of translation, he believes that we can overcome the opposition between relativity and universality, center and periphery, and the dominant and the subordinate.

IF(interchange format) and IF tagging for the Multilingual Spoken Language Translation System (다국어 대화체 음성언어번역 시스템을 위한 IF(interchange format )와 IF 태깅)

  • 최운천
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.409-412
    • /
    • 1998
  • 미국의 카네기 메론 대학과 일본의 ATR 및 한국의 전자통신연구원 등이 가입한 CSTAR 에서는 99년 국제간 음성언어번역 시스템 데모를 위해 IF를 이용하여 데이터를 주고 받기로 합의하였다. IF는 크게는 인터넷을 통해 다른 나라의 음성언어번역 시스템과 연결하여 데이터를 주고 받는데 사용되고, 작게는 음성언어 번역 시스템 내의 해석 시스템과 생성 시스템 사이에 데이터를 주고 받는데 사용된다. IF는 중간언어 표현의 한 가지 방법으로 간단하면서도 단순한 표현으로 특정 영역 내에 나타나는 이미를 표현할 수 있도록 정의되었다. 대상으로 하는 영역은 여행 안내로 호텔 예약, 비행기 예약, 여행지 안내 및예약 등을 포함하고 있다. IF의 가장 큰 특징은 표현방법의 단순화에 있다. 즉, 의미를 가장 잘 나타낼 수 있는 표현을 골라, IF를 정의하여 언어 종속적인 요소를 가능한 배제하였다. IF 태깅은 발화에 대해 적절한 IF를 붙여 주는 일로 태깅을 수행하는 사람은 IF 태깅 요령에 따라 태깅을 수행하여야 한다. 현재 ETRI에서는 200대화 이상의 한국어 데이터에 대해 IF 태깅을 완료하였으며 해석 시스템과 생성 시스템 개발을 계속하고 있다.

  • PDF

The Composition of Korean-English Transfer Dictionary for Proper Selection of Verb Translation (적절한 동사 대역어 선택을 위한 한영 변환 사전 구성)

  • Song, Jung-Keun
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.294-301
    • /
    • 2001
  • 기계번역이 인간의 언어 능력을 기계로 구현한다는 점에서 전산학적 성격이 강하다면, 변환 사전은 인간의 어휘부(lexicon) 정보를 그대로 기계에 표상한다는 점에서 언어학적 성격이 강하다. 여기서는 다양한 어휘부 정보 중에서 한영 기계번역에서 필요한 언어학적 정보를 추출하고 이러한 정보를 바탕으로 적절한 동사 대역어 선택을 위한 변환 사전의 모형을 만들어 보고자 하였다. 한영 기계번역에서 적절한 동사 대역어 선택의 어려움은 한국어 동형어 처리 문제와 한국어에서는 포착되지 않지만 영어로 번역하는 과정에서 발생하는 영어 표현의 특수성 때문에 기인한 것으로 볼 수 있다. 이 논문에서는 이러한 문제를 논항과 문법 형태소, 선택제약, 개별 어휘 등의 기초적인 언어학적 개념을 이용한 변환사전을 통해 해결한다. 또한 동사 대역어 선택에 영향을 미치는 이러한 개별적인 요인들은 실제 변환사전의 기술에 있어서는 복합적으로 적용됨을 동사 '먹다'의 기술을 통해 확인할 수 있다.

  • PDF

Design of Translator for generating Java Bytecode from Thread code of Multithreaded Models (다중스레드 모델의 스레드 코드를 자바 바이트 코드로 변환하기 위한 번역기 설계)

  • 김기태;이갑래;양창모;유원희
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04a
    • /
    • pp.68-70
    • /
    • 2000
  • 다중스레드 모델은 데이터플로우 모델의 내부적인 병렬성, 비동기적 자료 가용성과 폰 노이만 모델의 실행 지역성을 결합하여 병렬처리 시스템의 성능을 향상 시켰다. 이 모델은 프로그램의 실행을 위하여 컴파일러에 의해 생성된 스레드를 수행하며, 스레드의 생성 방법에 따라 자원 활용 빈도나 동기화 빈도와 같은 스레드의 질이 결정 되는 특징이 있다. 하지만 다중스레드 모델은 실행 모델이 특정 플랫폼에 제한되는 단점을 가지고 있다. 이에 반해 자바는 플랫폼에 독립적인 특징을 가지고 있어 다중스레드 모델의 스레드 코드를 실행 단위인 자바 언어로 변환하면 다중스레드 모델의 특징을 여러 플랫폼에서 수정 없이 사용할 수 있게 된다. 자바는 원시 언어를 중간 언어 형태의 바이트 코드로 변환하여 각 아키텍처에 맞게 설계된 자바 가상 머신이 설치된 시스템에서 자바 언어를 수행한다. 이러한 자바 언어의 바이트 코드는 번역기의 중간 언어와 같은 역할을 수행하고, 자바 가상 머신은 번역기의 후위부와 같은 역할을 한다. 본 논문은 다중스레드 코드가 플랫폼에 독립적인 특성을 갖출 수 있도록 다중스레드 코드를 자바 가상 머신에서 실행 가능하도록 한다. 즉, 다중스레드 모델의 스레드 코드를 자바 바이트 코드로 변환하는 번역기를 설계, 구현하고, 자바 가상 머신의 실행을 분석한다.

  • PDF

Java Bytecode-to-SIL Translator using an Abstract Syntax Tree (구문 트리를 이용한 자바 바이트코드에서 SIL로의 번역기)

  • Kim, Young-Koun;Kwon, Hyeok-Ju;Lee, Yang-Sun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2004.05a
    • /
    • pp.519-522
    • /
    • 2004
  • 자바는 현재 가장 널리 사용되는 범용 프로그래밍 언어중 하나로 컴파일러에 의해 중간언어인 바이트코드로 변환되며 JVM(Java Virtual Machine)에 의해 실행되는 플랫폼 독립적인 언어이다. SIL(Standard Intermediate Language)은 Microsoft사의 .NET 언어와 SUN사의 Java 언어 등을 모두 수용할 수 있는 임베디드 시스템을 위한 중간언어로 가상기계인 EVM(Embedded Virtual Machine)에서 실행된다. 본 논문에서는 자바 프로그램을 컴파일하여 생성된 클래스 파일에서 Oolong 코드를 추출하고 추출된 Oolong 코드를 EVM의 SIL 코드로 변환하여 자바로 구현된 프로그램이 EVM에서 실행되도록 하는 Bytecode-to-SIL 번역기 시스템을 구현하였다. 그리고 본 번역기 시스템을 다른 플랫폼에 용이하게 설치하기 위한 재목적성(retargetability)을 위해 단일패스(one-pass)을 사용하는 기존의 번역기들과 달리 AST를 이용한 컴파일러 기법을 사용하여 AST가 가지고 있는 정보에 대해 최적화 작업을 수행하여 보다 효과적인 코드 변환을 할 수 있도록 설계하였다.

  • PDF