• Title/Summary/Keyword: BLEU

Search Result 71, Processing Time 0.027 seconds

Development of Korean-to-English and English-to-Korean Mobile Translator for Smartphone (스마트폰용 영한, 한영 모바일 번역기 개발)

  • Yuh, Sang-Hwa;Chae, Heung-Seok
    • Journal of the Korea Society of Computer and Information
    • /
    • v.16 no.3
    • /
    • pp.229-236
    • /
    • 2011
  • In this paper we present light weighted English-to-Korean and Korean-to-English mobile translators on smart phones. For natural translation and higher translation quality, translation engines are hybridized with Translation Memory (TM) and Rule-based translation engine. In order to maximize the usability of the system, we combined an Optical Character Recognition (OCR) engine and Text-to-Speech (TTS) engine as a Front-End and Back-end of the mobile translators. With the BLEU and NIST evaluation metrics, the experimental results show our E-K and K-E mobile translation equality reach 72.4% and 77.7% of Google translators, respectively. This shows the quality of our mobile translators almost reaches the that of server-based machine translation to show its commercial usefulness.

Neural Machine translation specialized for Coronavirus Disease-19(COVID-19) (Coronavirus Disease-19(COVID-19)에 특화된 인공신경망 기계번역기)

  • Park, Chan-Jun;Kim, Kyeong-Hee;Park, Ki-Nam;Lim, Heui-Seok
    • Journal of the Korea Convergence Society
    • /
    • v.11 no.9
    • /
    • pp.7-13
    • /
    • 2020
  • With the recent World Health Organization (WHO) Declaration of Pandemic for Coronavirus Disease-19 (COVID-19), COVID-19 is a global concern and many deaths continue. To overcome this, there is an increasing need for sharing information between countries and countermeasures related to COVID-19. However, due to linguistic boundaries, smooth exchange and sharing of information has not been achieved. In this paper, we propose a Neural Machine Translation (NMT) model specialized for the COVID-19 domain. Centering on English, a Transformer based bidirectional model was produced for French, Spanish, German, Italian, Russian, and Chinese. Based on the BLEU score, the experimental results showed significant high performance in all language pairs compared to the commercialization system.

Deep Learning-based Korean Dialect Machine Translation Research Considering Linguistics Features and Service (언어적 특성과 서비스를 고려한 딥러닝 기반 한국어 방언 기계번역 연구)

  • Lim, Sangbeom;Park, Chanjun;Yang, Yeongwook
    • Journal of the Korea Convergence Society
    • /
    • v.13 no.2
    • /
    • pp.21-29
    • /
    • 2022
  • Based on the importance of dialect research, preservation, and communication, this paper conducted a study on machine translation of Korean dialects for dialect users who may be marginalized. For the dialect data used, AIHUB dialect data distributed based on the highest administrative district was used. We propose a many-to-one dialect machine translation that promotes the efficiency of model distribution and modeling research to improve the performance of the dialect machine translation by applying Copy mechanism. This paper evaluates the performance of the one-to-one model and the many-to-one model as a BLEU score, and analyzes the performance of the many-to-one model in the Korean dialect from a linguistic perspective. The performance improvement of the one-to-one machine translation by applying the methodology proposed in this paper and the significant high performance of the many-to-one machine translation were derived.

Generative Chatting Model based on Index-Term Encoding and Syllable Decoding (색인어 인코딩과 음절 디코딩에 기반한 생성 채팅 모델)

  • Kim, JinTae;Kim, Sihyung;Kim, HarkSoo;Lee, Yeonsoo;Choi, Maengsic
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.125-129
    • /
    • 2017
  • 채팅 시스템은 사람이 사용하는 자연어를 이용해 컴퓨터와 대화를 하는 시스템이다. 한국어 특성상 대화체에서 동일한 의미를 가졌지만 다른 형태를 가진 경우가 많다. 본 논문에서는 Attention mechanism Encoder-Decoder Model을 사용해 한국어 특성에 맞는 효과적인 생성 모델을 만들 수 있는 입력, 출력 단위를 제안한다. 실험에서 정성 평가와 ROUSE, BLEU 평가를 진행한 결과 형태소 단위의 입력 보다 본 논문에서 제안한 색인어 입력 단위의 성능이 높고, 의사 형태소 단위 출력 보다 음절 단위 출력을 사용한 시스템이 더 문법적 오류가 적고 적합한 응답을 생성하는 것을 보였다.

  • PDF

A Hybrid Sentence Alignment Method for Building a Korean-English Parallel Corpus (한영 병렬 코퍼스 구축을 위한 하이브리드 기반 문장 자동 정렬 방법)

  • Park, Jung-Yeul;Cha, Jeong-Won
    • MALSORI
    • /
    • v.68
    • /
    • pp.95-114
    • /
    • 2008
  • The recent growing popularity of statistical methods in machine translation requires much more large parallel corpora. A Korean-English parallel corpus, however, is not yet enoughly available, little research on this subject is being conducted. In this paper we present a hybrid method of aligning sentences for Korean-English parallel corpora. We use bilingual news wire web pages, reading comprehension materials for English learners, computer-related technical documents and help files of localized software for building a Korean-English parallel corpus. Our hybrid method combines sentence-length based and word-correspondence based methods. We show the results of experimentation and evaluate them. Alignment results from using a full translation model are very encouraging, especially when we apply alignment results to an SMT system: 0.66% for BLEU score and 9.94% for NIST score improvement compared to the previous method.

  • PDF

Automatic question generation based on image captioning data & visual QA data (Image captioning 데이터와 Visual QA 데이터를 활용한 질문 자동 생성)

  • Lee, Gyoung Ho;Choi, Yong Seok;Lee, Kong Joo
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.176-180
    • /
    • 2016
  • 대화형 시스템이 사람의 경청 기술을 모방할 수 있다면 대화 상대방과 더 효과적으로 상호작용 할 수 있을 것이다. 본 논문에서는 시스템이 경청 기술을 모방할 수 있도록 사용자의 발화를 기반으로 질문을 생성하는 것에 대해 연구하였다. 그리고 이러한 연구를 위해 필요한 데이터를 Image captioning과 Visual QA 데이터를 기반으로 생성하고 활용하는 방안에 대해 제안한다. 또한 이러한 데이터를 Attention 메커니즘을 적용한 Sequence to sequence 모델에 적용하여 질문을 생성하고, 생성된 질문의 질문 유형을 분석하였다. 마지막으로 사람이 작성한 질문과 모델의 질문 생성 결과 비교를 BLEU 점수를 이용하여 수행하였다.

  • PDF

Generative Chatting Model based on Index-Term Encoding and Syllable Decoding (색인어 인코딩과 음절 디코딩에 기반한 생성 채팅 모델)

  • Kim, JinTae;Kim, Sihyung;Kim, HarkSoo;Lee, Yeonsoo;Choi, Maengsic
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.125-129
    • /
    • 2017
  • 채팅 시스템은 사람이 사용하는 자연어를 이용해 컴퓨터와 대화를 하는 시스템이다. 한국어 특성상 대화체에서 동일한 의미를 가졌지만 다른 형태를 가진 경우가 많다. 본 논문에서는 Attention mechanism Encoder-Decoder Model을 사용해 한국어 특성에 맞는 효과적인 생성 모델을 만들 수 있는 입력, 출력 단위를 제안한다. 실험에서 정성 평가와 ROUSE, BLEU 평가를 진행한 결과 형태소 단위의 입력 보다 본 논문에서 제안한 색인어 입력 단위의 성능이 높고, 의사 형태소 단위 출력 보다 음절 단위 출력을 사용한 시스템이 더 문법적 오류가 적고 적합한 응답을 생성하는 것을 보였다.

  • PDF

Expanding Korean/English Parallel Corpora using Back-translation for Neural Machine Translation (신경망 기반 기계 번역을 위한 역-번역을 이용한 한영 병렬 코퍼스 확장)

  • Xu, Guanghao;Ko, Youngjoong;Seo, Jungyun
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.470-473
    • /
    • 2018
  • 최근 제안된 순환 신경망 기반 Encoder-Decoder 모델은 기계번역에서 좋은 성능을 보인다. 하지만 이는 대량의 병렬 코퍼스를 전제로 하며 병렬 코퍼스가 소량일 경우 데이터 희소성 문제가 발생하며 번역의 품질은 다소 제한적이다. 본 논문에서는 기계번역의 이러한 문제를 해결하기 위하여 단일-언어(Monolingual) 데이터를 학습과정에 사용하였다. 즉, 역-번역(Back-translation)을 이용하여 단일-언어 데이터를 가상 병렬(Pseudo Parallel) 데이터로 변환하는 방식으로 기존 병렬 코퍼스를 확장하여 번역 모델을 학습시켰다. 역-번역 방법을 이용하여 영-한 번역 실험을 수행한 결과 +0.48 BLEU 점수의 성능 향상을 보였다.

  • PDF

An Evaluation of Translation Quality by Homograph Disambiguation in Korean-X Neural Machine Translation Systems (한-X 신경기계번역시스템에서 동형이의어 분별에 따른 변역질 평가)

  • Nguyen, Quang-Phuoc;Shin, Joon-Choul;Ock, Cheol-Young
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.504-509
    • /
    • 2018
  • Neural machine translation (NMT) has recently achieved the state-of-the-art performance. However, it is reported failing in the word sense disambiguation (WSD) for several popular language pairs. In this paper, we explore the extent to which NMT systems are able to disambiguate the Korean homographs. Homographs, words with different meanings but the same written form, cause the word choice problems for NMT systems. Consistent with the popular language pairs, we discover that NMT systems fail to translate Korean homographs correctly. We provide a Korean word sense disambiguation tool-UTagger to use for improvement of NMT's translation quality. We conducted translation experiments using Korean-English and Korean-Vietnamese language pairs. The experimental results show that UTagger can significantly improve the translation quality of NMT in terms of the BLEU, TER, and DLRATIO evaluation metrics.

  • PDF

An English-to-Korean Hybrid Mobile Translator for Mobile Devices (단말기 내장형 영한 하이브리드 모바일 번역기)

  • Yuh, Sang-Hwa;Baek, Yeong-Tae;Chae, Heung-Seog
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2011.01a
    • /
    • pp.25-28
    • /
    • 2011
  • 본 논문에서는 스마트폰과 같은 모바일 단말기 자체에서 동작하는 경량화된 영한 하이브리드 모바일 번역 엔진을 설계 및 구현하였다. 번역 엔진은 자연스러운 번역과 높은 번역 품질을 위해 번역 메모리(Translation Memory)와 규칙기반의 번역 엔진으로 이중화를 하였다. PC에 비해 하드웨어 제약이 심한 스마트폰 자체에서 구동이 원활하도록 주메모리의 사용을 줄이고 분석 시간 단축을 위하여 핵심 번역 엔진을 포함한 번역 지식 DB가 외장메모리에서 구동되도록 하였다. 실험결과 번역 품질은 BLEU와 NIST 평가치를 기준으로 서버 기반의 구글번역기 대비 70.0%로 사용자의 의미전달이 가능한 실용적인 수준으로 평가되었다.

  • PDF