• 제목/요약/키워드: Automatic translation

검색결과 152건 처리시간 0.021초

기계번역 사후교정(Automatic Post Editing) 연구 (Automatic Post Editing Research)

  • 박찬준;임희석
    • 한국융합학회논문지
    • /
    • 제11권5호
    • /
    • pp.1-8
    • /
    • 2020
  • 기계번역이란 소스문장(Source Sentence)을 타겟문장(Target Sentence)으로 컴퓨터가 번역하는 시스템을 의미한다. 기계번역에는 다양한 하위분야가 존재하며 APE(Automatic Post Editing)이란 기계번역 시스템의 결과물을 교정하여 더 나은 번역문을 만들어내는 기계번역의 하위분야이다. 즉 기계번역 시스템이 생성한 번역문에 포함되어 있는 오류를 수정하여 교정문을 만드는 과정을 의미한다. 기계번역 모델을 변경하는 것이 아닌 기계번역 시스템의 결과 문장을 교정하여 번역품질을 높이는 연구분야이다. 2015년부터 WMT 공동 캠페인 과제로 선정되었으며 성능 평가는 TER(Translation Error Rate)을 이용한다. 이로 인해 최근 APE에 모델에 대한 다양한 연구들이 발표되고 있으며 이에 본 논문은 APE 분야의 최신 동향에 대해서 다루게 된다.

도메인 특화 방법에 의한 영한 특허 자동 번역 시스템의 구축 (Construction of English-Korean Automatic Translation System for Patent Documents Based on Domain Customizing Method)

  • 최승권;권오욱;이기영;노윤형;박상규
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권2호
    • /
    • pp.95-103
    • /
    • 2007
  • 본 논문은 웹과 같은 일반적인 도메인의 영한 자동 번역기를 특정 도메인으로 특화하는 방법에 의해 구축된 영한 특허 자동번역 시스템을 기술하는 것을 목표로 한다. 특정 도메인으로서의 특허 자동번역기를 위한 특화 방법은 다음과 같은 단계로 이루어진다: 1) 대용량 특허 문서의 수집 및 언어학적 특성 분석, 2) 전문용어 추출 및 대역어 구축, 3) 기보유한 용어의 대역어 특화, 4) 특허 고유의 번역 패턴추출 및 구축, 5) 언어학적 특성 분석에 따른 기보유 번역 엔진 모듈의 특화 및 개선, 6) 특화된 번역 지식 및 번역 엔진 모듈에 따른 번역률 평가. 이와 같은 특화 절차에 따른 특허 영한 자동 번역기는 특허 전문번역가의 평가에 의해 전분야 평균 81.03%의 번역률을 내었으며, 분야별로는 기계(80.54%), 전기전자 (81.58%), 화학일반(79.92%), 의료위생(80.79%), 컴퓨터(82.29%)의 성능을 보였으며 계속 개선 중에 있다.

인터넷 매체 언어의 국어 파괴 현상의 고찰을 통한 표준어 자동 번역 기술에 대한 연구 (Research on Automatic Translation of Standard Language through Contemplation of Korean Destruction Phenomena in Internet Media Language)

  • 박장혁;정재훈;김신령;김영곤
    • 한국인터넷방송통신학회논문지
    • /
    • 제16권1호
    • /
    • pp.273-281
    • /
    • 2016
  • 본 논문에서는 인터넷 매체 언어상에서 나타나고 있는 국어 파괴 현상의 고찰을 고찰하여, 이에 대한 기술적 개선 방법으로서 표준어 자동 번역 기술을 제안한다. 실생활 속에서 국어 파괴 현상과 관련된 경험 및 피해 사례들을 설문 조사 및 FGI(Focussed Group Interview)를 통하여 수집 및 분석한 결과를 제시하고, 분석결과 자료 기반으로, '국어 파괴도(degree of Korean destruction)'의 지표를 정의하였다. 국어 파괴도는 표준어 자동 번역 기술이 갖고 있는 번역 오류가 가진 한계를 최소화하여, 표준어 자동 번역 기술의 효율성을 최대로 활용하기 위한 척도로서 활용될 수 있음을 인터넷 매체 문장 2,480 개의 분석을 통하여 제시하였다. 본 논문에서 제안된 국어 파괴도 측정 및 표준어 자동 번역 기술은 Java 언어를 사용하여 REST API 형태로 구현하였으며, 웹브라우저상에서 동작을 확인하였다.

Linguistic Processing in Automatic Interpretation System between English-Korean Language Pair

  • Choi, K.S.;Lee, S.M.;Lee, Y.J.
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1994년도 FIFTH WESTERN PACIFIC REGIONAL ACOUSTICS CONFERENCE SEOUL KOREA
    • /
    • pp.1076-1081
    • /
    • 1994
  • This paper presents the linguistic processing for the Automatic Interpretation system between English/Korean language pair. We introduce two machine translation systems, each for English-to-Korean and Korean-to-English, describe the system configuration and several characteristics, and discuss the translation evaluation results.

  • PDF

대화처리를 위한 통계기반 한국어 음성언어이해 시스템 (Statistical Korean Spoken Language Understanding System for Dialog Processing)

  • 노윤형;양성일;김영길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.215-218
    • /
    • 2012
  • 본 논문에서는 한국어 대화 처리를 위한 통계기반 음성언어이해 시스템에 대해 기술한다. 음성언어이해시스템은 대화처리에서 음성 인식된 문장으로부터 사용자의 의도를 인식하여 의미표현으로 표현하는 기능을 담당한다. 한국어의 특성을 반영한 실용적인 음성언어이해 시스템을 위해서 강건성과 적용성, 확장성 등이 요구된다. 이를 위해 본 시스템은 음성언어의 특성상 구조분석을 하지 않고, 마이닝 기법을 이용하여 사용자 의도 표현을 생성하는 방식을 취하고 있다. 또한 한국어에서 나타나는 특징들에 대한 처리를 위해 자질 추가 및 점규화 처리 등을 수행하였다. 정보서비스용 대화처리 시스템을 대상으로 개발되고 있고, 차량 정보서비스용 학습 코퍼스를 대상으로 실험을 하여 문장단위 정확률로 약 89%의 성능을 보이고 있다.

  • PDF

도메인 적응 기술을 이용한 한국어 의미역 인식 (Korean Semantic Role Labeling Using Domain Adaptation Technique)

  • 임수종;배용진;김현기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.56-60
    • /
    • 2014
  • 기계학습 방법에 기반한 자연어 분석은 학습 데이터가 필요하다. 학습 데이터가 구축된 소스 도메인이 아닌 다른 도메인에 적용할 경우 한국어 의미역 인식 기술은 15% 정도 성능 하락이 발생한다. 본 논문은 이러한 다른 도메인에 적용시 발생하는 성능 하락 현상을 극복하기 위해서 기존의 소스 도메인 학습 데이터를 활용하여, 소규모의 타겟 도메인 학습 데이터 구축만으로도 성능 하락을 최소화하기 위해 한국어 의미역 인식 기술에 prior 모델을 제안하며 기존의 도메인 적응 알고리즘과 비교 실험하였다. 추가적으로 학습 데이터에 사용되는 자질 중에서, 형태소 태그와 구문 태그의 자질 값을 기존보다 단순하게 적용하여 성능의 변화를 실험하였다.

  • PDF

단어의 자동번역을 위한 의미 네트워크의 통합 지식베이스 (Integrated Knowledge Bases of Semantic Networks for Automatic Translation of Ambiguous Words)

  • Yoo-Jin Moon;Young-Ho Hwang
    • Journal of Information Technology Applications and Management
    • /
    • 제9권2호
    • /
    • pp.71-80
    • /
    • 2002
  • Automatic language translation has greatly advanced due to the increased user needs and Information retrieval in WWW. This paper utilizes the integrated knowledge bases of noun and verb networks for automatic translation of ambiguous words in the Korean sentences, through the selectional restriction relation in the sentences. And this paper presents the method to verify validity of Korean noun semantic networks that are used for the construction of the selectional restriction relation by applying the networks to the syntactic and semantic properties Integration of Korean Noun Networks into the SENKOV system will provide the accurate and efficient knowledge bases for the semantic analysis of Korean NLP.

  • PDF

이진 결합 중심의 한국어 Chart parser (A Chart Parser for Korean by Binary Association)

  • 박성숙;심영섭;한성국;최운천;지민제;이용주
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.15-24
    • /
    • 1993
  • 한국어는 구문요소의 문법기능이 표면구조상에 명시되는 구문특성을 갖고 있다. 이러한 특성은 한국어의 문법체계가 feature중심으로 전개되고 있음을 의미한다. 한국어에서의 feature 특성과 이진 결합 관계를 중심으로 하는 chart parsing 알고리즘을 제시하고 한국어 chart parser을 구현하였다.

  • PDF

전이학습 기반 기계번역 사후교정 모델 검증 (The Verification of the Transfer Learning-based Automatic Post Editing Model)

  • 문현석;박찬준;어수경;서재형;임희석
    • 한국융합학회논문지
    • /
    • 제12권10호
    • /
    • pp.27-35
    • /
    • 2021
  • 기계번역 사후교정 (Automatic Post Editing, APE)이란 번역 시스템을 통해 생성한 번역문을 교정하는 연구 분야로, 영어-독일어와 같이 학습데이터가 풍부한 언어쌍을 중심으로 연구가 진행되고 있다. 최근 APE 연구는 전이학습 기반 연구가 주로 이루어지는데, 일반적으로 self supervised learning을 통해 생성된 사전학습 언어모델 혹은 번역모델이 주로 활용된다. 기존 연구에서는 번역모델에 전이학습 시킨 APE모델이 뛰어난 성과를 보였으나, 대용량 언어쌍에 대해서만 이루어진 해당 연구를 저 자원 언어쌍에 곧바로 적용하기는 어렵다. 이에 본 연구에서는 언어 혹은 번역모델의 두 가지 전이학습 전략을 대표적인 저 자원 언어쌍인 한국어-영어 APE 연구에 적용하여 심층적인 모델 검증을 진행하였다. 실험결과 저 자원 언어쌍에서도 APE 학습 이전에 번역을 한차례 학습시키는 것이 유의미하게 APE 성능을 향상시킨다는 것을 확인할 수 있었다.

모바일 콘텐츠의 자동변환을 위한 GNEX C-to-WIPI Java 변환기의 설계 및 구현 (Design and Implementation of the GNEX C-to-WIPI Java Converter for Automatic Mobile Contents Translation)

  • 이양선;함형범
    • 한국멀티미디어학회논문지
    • /
    • 제13권4호
    • /
    • pp.609-617
    • /
    • 2010
  • 국내 이동통신사들이 서로 다른 모바일 플랫폼을 채택하여 사용함으로 인해 개발자는 하나의 모바일 게임 콘텐츠를 서비스하기 위하여 각각의 플랫폼 특성에 맞추어 변환 작업을 하여야 한다. 하지만, 모바일 게임 콘텐츠를 타 플랫폼으로 이식하기 위한 변환 작업에 많은 시간과 비용이 소모되고 있다. 이는 다양한 콘텐츠가 제공되지 못하고 있는 원인이기도 하다. 본 논문에서는 이런 문제를 해결하기 위해 GNEX 플랫폼의 모바일 C 게임 콘텐츠를 WIPI 플랫폼의 자바 콘텐츠로 자동으로 변환해주는 콘텐츠 자동 변환기 시스템을 구현하였다. GNEX C-to-WIPI Java 콘텐츠 자동 변환기 시스템은 단시간 내에 다른 플랫폼으로 콘텐츠를 이식할 수 있도록 하여 동일 콘텐츠를 다른 이동통신사에 서비스하는데 소모되는 시간과 비용을 최소화해준다. 또한, 기존 콘텐츠를 자동 변환하여 타 플랫폼에 서비스함으로써 콘텐츠의 재사용성을 높이고, 신규 콘텐츠의 생산성을 높여 사용자에게는 다양한 모바일 게임 콘텐츠를 제공할 수 있도록 지원한다.