• Title/Summary/Keyword: 영한 기계번역

Search Result 51, Processing Time 0.024 seconds

English-Korean Machine Translation using Transformer (Transformer 를 사용한 영한 기계 번역)

  • Chun, Jin-woo;Koo, Jahwan;Kim, Ung-Mo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.11a
    • /
    • pp.912-915
    • /
    • 2020
  • 최근 자연어 처리 기술은 지속적으로 발전하고 있으며, 많은 분야에서 활용되고 있다. 그 중 번역 기술은 가장 널리 사용되고 있는 자연어 처리 기술 중 하나이다. 본 논문에서는 기존의 seq2seq 모델의 단점을 극복하기 위해 개발된 Transformer 를 통해 영어-한국어 번역기를 만드는 것의 가능성을 제시한다.

A Preprocessor for English-to-Korean Machine Translation of Web Pages (웹용 영한 기계번역을 위한 문서 전처리기의 설계 및 구현)

  • An, Dong-Un;Ryu, Hong-Jin;Seo, Jin-Won;Lee, Young-Woo;Jeong, Sung-Jong;Yuh, Sang-Hwa;Kim, Tae-Wan;Park, Dong-In
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.249-254
    • /
    • 1997
  • 영어 웹 문서를 한국어로 기계번역을 하기 위해서는 HTML 태그를 번역 대상 문장과 분리하는 처리가 필요하다. HTML 태그를 단순히 제거하는 것이 아니라 대상 문장의 기계번역이 종료된 후에 같은 형태의 한국어 웹 문서로 복원하기 위한 방안이 마련 되어야 한다. 또한 문서 전처리기에서는 영어 형태소해석기의 성능을 높이기 위하여 번역 단위가 되는 문장의 인식 및 분리, 타이틀의 처리, 나열된 단어의 처리, 하이픈 처리, 고유명사 인식, 특수 문자 처리, 대소문자 정규화, 날짜 인식 등을 처리하여 문서의 정규화를 수행한다.

  • PDF

LyriKOR: English to Korean Song Translation with Syllabic Alignment (LyriKOR: 음절을 맞춘 영한 노래 가사 번역 모델)

  • Hyejin Jo;Eunbeen Hong;Jimin Oh;Junghwan Park;Byungjun Lee
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.510-516
    • /
    • 2023
  • 세계화가 진행됨에 따라 다양한 문화의 음악을 즐기는 사람들이 늘어나고, 해외 팬들이 외국 노래를 이해하고 따라 부를 수 있는 접근성을 확보하는 것이 중요해졌다. 이를 위해 본 논문에서는 노래 가사 데이터에 특화된 영어-한국어 번역 모델 리리코(LyriKOR)를 제시한다. 리리코는 영어 노래를 한국어로 번역하여 그 의미를 담아낼 뿐만 아니라, 번역 결과물이 원곡의 선율과 리듬에 어느 정도 부합하도록 하여 한국어로 바로 따라 부를 수 있도록 하는 것을 목표로 한다. 이를 위해 번역과 음절 조정의 두 단계(two-stage)를 거쳐 제한된 데이터로 음절 정렬된 번역 모델을 훈련하는 새로운 방법을 소개한다. 모델 코드는 여기에서 볼 수 있다.

  • PDF

A Model of English Part-Of-Speech Determination for English-Korean Machine Translation (영한 기계번역에서의 영어 품사결정 모델)

  • Kim, Sung-Dong;Park, Sung-Hoon
    • Journal of Intelligence and Information Systems
    • /
    • v.15 no.3
    • /
    • pp.53-65
    • /
    • 2009
  • The part-of-speech determination is necessary for resolving the part-of-speech ambiguity in English-Korean machine translation. The part-of-speech ambiguity causes high parsing complexity and makes the accurate translation difficult. In order to solve the problem, the resolution of the part-of-speech ambiguity must be performed after the lexical analysis and before the parsing. This paper proposes the CatAmRes model, which resolves the part-of-speech ambiguity, and compares the performance with that of other part-of-speech tagging methods. CatAmRes model determines the part-of-speech using the probability distribution from Bayesian network training and the statistical information, which are based on the Penn Treebank corpus. The proposed CatAmRes model consists of Calculator and POSDeterminer. Calculator calculates the degree of appropriateness of the partof-speech, and POSDeterminer determines the part-of-speech of the word based on the calculated values. In the experiment, we measure the performance using sentences from WSJ, Brown, IBM corpus.

  • PDF

Complex Phrase Recognition in English-to-Korean Machine Translation : MATES/EK (영한 기계번역에서의 복합어구 인식)

  • Chaag, Du-Seong;Kim, Doek-Bong;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1992.10a
    • /
    • pp.503-510
    • /
    • 1992
  • 복합어는 여러개의 단어가 하나의 의미론 나타내는 단어를 말한다. 이 논문에서는 번역시 구성단어들의 의미의 합이 아닌 다른 또 하나의 의미를 나타내는 단어를 대상으로 한다. 이러한 복합어는 구문해석 단계에서 많은 애매성의 원인이 되며, 유형에 따라 숙어 처럼 새로운 의미로 항상 같이 쓰이는 복합어와 복합어의 형성이 복잡하여 규칙으로서 단어를 이해할 필요가 있는 단어로 구분할 수 있다. 첫번째 유형은 단어의 형성이 단순하여 하나의 사전 엔트리로 등록될 수 있다. 이때 이들 복합어가 가지는 개별 어휘 규칙을 같이 사전에 등록하여 사전을 효과적 이용할 수 있다. 두번째 유형은 규칙에 의한 처리를 하여야 한다. 이러한 복합어에 대한 인식을 구문분석이전에 행함으로서 적은 노력으로 복합어로 인한 전체 문장의 애매성을 감소시키고, 문장내 단어의 수를 감소시킴으로서 전채 번역시스템의 효율을 증대하며, 복합어의 처리는 번역문을 자연스럽게 생성하는 데 큰 효과를 나타낸다.

  • PDF

Development of an MT System on Distributed Environment : about lexicon construction and test environment (분산 환경에서의 번역 시스템의 개발 : 사전 구축과 테스트 환경을 중심으로)

  • Lee, Hyun-Ah;Jang, Byung-Gyu;Kang, In-Ho;Lee, Shin-Mok;Kim, Gil-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.344-349
    • /
    • 2000
  • 본 논문에서는 영한 기계번역 시스템 ALKOL의 개발 과정에서 사용된 분산 환경을 사전구축과 테스트 환경을 중심으로 설명한다. 번역 시스템 개발은 시스템 개발자, 사전 개발자, 검사자(tester)의 세 요소를 중심으로 이루어지는 작업으로, 효율적인 개발을 위해서는 개별 요소의 작업이 독립적으로 진행되면서 유기적으로 연결될 수 있는 환경이 마련되어야 한다. ALKOL에서는 이를 위하여 번역 시스템을 번역 서버, 사전 서버, 사전 편집기, 사용자 인터페이스의 클라이언트/서버 분산 환경으로 구성하고 검사자를 위한 테스트 환경을 제공하여 효율적인 번역 시스템 개발 환경을 구축한다. 번역 시스템을 분산 환경에서 개발하여 시스템 개발자, 사전 개발자, 검사자가 각자의 작업을 병렬적으로 진행할 수 있고 실시간으로 갱신되는 시스템과 사전 정보를 이용하여 작업을 진행할 수 있어 번역 시스템 개발의 효율성을 높일 수 있다.

  • PDF

Optimization of Transitive Verb-Objective Collocation Dictionary based on k-nearest Neighbor Learning (k-최근점 학습에 기반한 타동사-목적어 연어 사전의 최적화)

  • Kim, Yu-Seop;Zhang, Byoung-Tak;Kim, Yung-Taek
    • Journal of KIISE:Software and Applications
    • /
    • v.27 no.3
    • /
    • pp.302-313
    • /
    • 2000
  • In English-Korean machine translation, transitive verb-objective collocation is utilized for accurate translation of an English verbal phrase into Korean. This paper presents an algorithm for correct verb translation based on the k-nearest neighbor learning. The semantic distance is defined on the WordNet for the k-nearest neighbor learning. And we also present algorithms for automatic collocation dictionary optimization. The algorithms extract transitive verb-objective pairs as training examples from large corpora and minimize the examples, considering the tradeoff between translation accuracy and example size. Experiments show that these algorithms optimized collocation dictionary keeping about 90% accuracy for a verb 'build'.

  • PDF

A Preprocessor for Practical English-to-Korean Machine Translation (실용적인 영한 기계번역을 위한 전처리기의 설계 및 구현)

  • Yuh, Sang-Hwa;Jung, Han-Min;Chae, Young-Soog;Kim, Tae-Wan;Park, Dong-In
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.313-321
    • /
    • 1996
  • 본 논문에서는 실용적인 기계번역 시스템을 위하여 다양한 입력 형태에서 나타나는 여러 현상을 전처리하는 기법을 설명한다. 전처리기는 문장 분리, Title 및 나열문 인식, HTML Tag의 처리, 하이픈처리, 숫자 표현 처리, 대소문자의 정규화, 고유명사 인식, 복합단위 인식 등을 수행하여 형태소 분석기의 처리 부담을 줄인다.

  • PDF

Target Word Selection for English-Korean Machine Translation System using Multiple Knowledge (다양한 지식을 사용한 영한 기계번역에서의 대역어 선택)

  • Lee, Ki-Young;Kim, Han-Woo
    • Journal of the Korea Society of Computer and Information
    • /
    • v.11 no.5 s.43
    • /
    • pp.75-86
    • /
    • 2006
  • Target word selection is one of the most important and difficult tasks in English-Korean Machine Translation. It effects on the translation accuracy of machine translation systems. In this paper, we present a new approach to select Korean target word for an English noun with translation ambiguities using multiple knowledge such as verb frame patterns, sense vectors based on collocations, statistical Korean local context information and co-occurring POS information. Verb frame patterns constructed with dictionary and corpus play an important role in resolving the sparseness problem of collocation data. Sense vectors are a set of collocation data when an English word having target selection ambiguities is to be translated to specific Korean target word. Statistical Korean local context Information is an N-gram information generated using Korean corpus. The co-occurring POS information is a statistically significant POS clue which appears with ambiguous word. The experiment showed promising results for diverse sentences from web documents.

  • PDF

A Postprocessing method for Statistical English-Korean Word Alignment Reflecting Alignment Tendency Between Parts-of-Speeches (품사간 정렬 경향을 반영한 통계 기반 영한 단어 정렬 후처리 방법)

  • Lee, Jae-Hee;Lee, Seung-Wook;Hwang, Young-Sook;Kim, Sang-Bum;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.242-246
    • /
    • 2009
  • 병렬 말뭉치 내에서 서로 대응되는 단어를 찾아내는 단어 정렬 작업은 기계 번역에서 가장 기본적으로 수행되는 작업이고 다양한 분야에서 유용하게 사용된다. 본 논문에서는 영한 단어 정렬에서 기존의 통계 기반 정렬 모델의 문제점을 파악하고 이를 해결하기 위해 영한의 품사간 정렬 경향을 단어 정렬에 반영하는 방법을 제안한다. 실험을 통해서 기존 통계 기반 영한 단어 정렬 결과와 비교하여 제안된 방법이 정확률, 재현율, F-measure 측면에서 모두 향상시키는 것을 보였다.

  • PDF