• 제목/요약/키워드: Translation model

검색결과 471건 처리시간 0.038초

MOSES를 이용한 한/일 양방향 통계기반 자동 번역 시스템 (A Bidirectional Korean-Japanese Statistical Machine Translation System by Using MOSES)

  • 이공주;이성욱;김지은
    • Journal of Advanced Marine Engineering and Technology
    • /
    • 제36권5호
    • /
    • pp.683-693
    • /
    • 2012
  • 통계기반 자동 번역 시스템은 구현과 유지보수의 용이함으로 최근 많은 관심을 받고 있다. 본 연구의 목적은 MOSES[1] 시스템을 이용하여 통계기반의 한/일 양방향 기계번역시스템을 구축하는 것이다. 한/일 문장단위 병렬 코퍼스를 구축하여 번역모델 학습에 이용하였고, 한/일 각각 대량의 원시 코퍼스를 이용하여 언어모델 학습에 이용하였다. 시스템 구축 결과 기존의 규칙기반 번역 시스템의 성능에 근접하는 결과를 얻었으며, 발생하는 오류의 대부분은 각 처리 단계에서 발생하는 노이즈에 기인하였다.

Understanding recurrent neural network for texts using English-Korean corpora

  • Lee, Hagyeong;Song, Jongwoo
    • Communications for Statistical Applications and Methods
    • /
    • 제27권3호
    • /
    • pp.313-326
    • /
    • 2020
  • Deep Learning is the most important key to the development of Artificial Intelligence (AI). There are several distinguishable architectures of neural networks such as MLP, CNN, and RNN. Among them, we try to understand one of the main architectures called Recurrent Neural Network (RNN) that differs from other networks in handling sequential data, including time series and texts. As one of the main tasks recently in Natural Language Processing (NLP), we consider Neural Machine Translation (NMT) using RNNs. We also summarize fundamental structures of the recurrent networks, and some topics of representing natural words to reasonable numeric vectors. We organize topics to understand estimation procedures from representing input source sequences to predict target translated sequences. In addition, we apply multiple translation models with Gated Recurrent Unites (GRUs) in Keras on English-Korean sentences that contain about 26,000 pairwise sequences in total from two different corpora, colloquialism and news. We verified some crucial factors that influence the quality of training. We found that loss decreases with more recurrent dimensions and using bidirectional RNN in the encoder when dealing with short sequences. We also computed BLEU scores which are the main measures of the translation performance, and compared them with the score from Google Translate using the same test sentences. We sum up some difficulties when training a proper translation model as well as dealing with Korean language. The use of Keras in Python for overall tasks from processing raw texts to evaluating the translation model also allows us to include some useful functions and vocabulary libraries as well.

A Defocus Technique based Depth from Lens Translation using Sequential SVD Factorization

  • Kim, Jong-Il;Ahn, Hyun-Sik;Jeong, Gu-Min;Kim, Do-Hyun
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2005년도 ICCAS
    • /
    • pp.383-388
    • /
    • 2005
  • Depth recovery in robot vision is an essential problem to infer the three dimensional geometry of scenes from a sequence of the two dimensional images. In the past, many studies have been proposed for the depth estimation such as stereopsis, motion parallax and blurring phenomena. Among cues for depth estimation, depth from lens translation is based on shape from motion by using feature points. This approach is derived from the correspondence of feature points detected in images and performs the depth estimation that uses information on the motion of feature points. The approaches using motion vectors suffer from the occlusion or missing part problem, and the image blur is ignored in the feature point detection. This paper presents a novel approach to the defocus technique based depth from lens translation using sequential SVD factorization. Solving such the problems requires modeling of mutual relationship between the light and optics until reaching the image plane. For this mutuality, we first discuss the optical properties of a camera system, because the image blur varies according to camera parameter settings. The camera system accounts for the camera model integrating a thin lens based camera model to explain the light and optical properties and a perspective projection camera model to explain the depth from lens translation. Then, depth from lens translation is proposed to use the feature points detected in edges of the image blur. The feature points contain the depth information derived from an amount of blur of width. The shape and motion can be estimated from the motion of feature points. This method uses the sequential SVD factorization to represent the orthogonal matrices that are singular value decomposition. Some experiments have been performed with a sequence of real and synthetic images comparing the presented method with the depth from lens translation. Experimental results have demonstrated the validity and shown the applicability of the proposed method to the depth estimation.

  • PDF

e-비즈니스 협업에 적합한 다중변환 시스템 연구 (A Study on multi-translation system for e-business collaboration)

  • 안경림;정진욱
    • 인터넷정보학회논문지
    • /
    • 제7권6호
    • /
    • pp.123-130
    • /
    • 2006
  • e-비즈니스 초창기의 트랜잭션은 단일 비즈니스 주체 또는 마켓 플레이스 내에서 발생하였으나 점차 복합적인 형태로 발전되고 있다. 특히 비즈니스 주체 또는 마켓 플레이스 간의 비즈니스 협업에 대한 필요성이 핵심 사상으로 대두되었다. 상호 교환되는 전자문서의 형태도 다양해짐에 따라 문서 간 형태 변환이 중요한 요소가 되었다. 본 논문에서는 이러한 객체 지향적인 비즈니스 트랜잭션의 흐름에 따라 상호 교환되는 문서의 기본 형태를 ebXML로 정의하였으며, 다양한 형태의 문서 변환을 지원하기 위해 다중-포맷 변환 기능을 갖는 변환 시스템을 설계하였다. 본 논문에서 제안한 시스템은 model-driven 방식으로 설계되어 시스템 환경에 따라 다양한 형태로 구성될 수 있다. 제안한 변환 시스템은 어떠한 형태의 데이터가 입력되더라도 파싱 모듈만 추가로 개발하면 적용할 수 있도록 설계하였다. 또한 공통 데이터 셋을 정의하여 데이터의 재사용성을 증가시켰다. 본 논문에서는 다양한 형태 변환에 대해 기존 변환 시스템과의 성능을 비교하여 제안한 시스템의 우위성을 증명하였다.

  • PDF

이류모델을 활용한 초단시간 강우예측의 적용성 평가 (The Applicability Assesment of the Short-term Rainfall Forecasting Using Translation Model)

  • 윤성심;배덕효
    • 한국수자원학회논문집
    • /
    • 제43권8호
    • /
    • pp.695-707
    • /
    • 2010
  • 기후변화로 인해 태풍과 집중호우의 빈도 및 규모가 증가하고 있으며, 이로 인한 피해 역시 증가하고 있다. 태풍과 집중호우로 인한 피해를 줄이기 위한 홍수 예 경보 시스템에는 단시간 강우예측모델과 레이더 자료를 이용하여 산정된 예측강우가 필요하다. 이를 위하여 외국의 경우 단시간 강우예측 모델을 개발하여 레이더 자료를 이용한 강우예측을 수행하고 이를 수문모형과 연계하여 그 적용성을 분석하거나 홍수예보의 활용성을 평가하는 연구를 활발히 진행하고 있다. 이에 본 연구에서는 홍수예보를 위한 단시간 예측강우의 활용 측면에서 기상레이더 정보와 결합된 이류모델을 활용한 초단시간 강우예보의 국내 적용성을 평가하고자 한다. 이를 위해 최소자승법(Least-square fitting) 기법으로 레이더 강우를 추정하고, 추정된 강우를 이류모델의 초기장으로 활용하였다. 또한, 레이더 예측강우와 지상관측강우의 비교를 통해 레이더 예측강우의 정확도를 정성적 정량적으로 평가하고, 도시홍수예보의 활용 측면을 고려하여 중랑천 유역을 대상으로 초단시간 예측강우의 유역평균강우량을 산정하여 평가하였다. 연구 결과, 관악산 레이더와 진도 레이더 대부분의 사례에서 선행시간의 증가에 따라 예측강수의 정확도가 감소하지만 정성적 평가 측면에서 예측강우는 0.6 이상의 높은 정확도를 나타내었으며, 정량적 측면에서 예측강우와 관측강우와의 상관계수는 평균적으로 선행시간 1시간 이내에서 대부분 0.5 이상의 비교적 좋은 상관성을 보였다. 예측 유역평균강우의 평가 결과 관측강우에 비해 과소추정하는 경향이 있으나 평균적으로 상관계수 0.5 이상으로 비교적 정확하게 강우를 예측하는 것을 확인할 수 있었다. 이를 통해 레이더 자료와 이류모델을 통해 산정한 초단시간 예측강우의 활용성을 확인할 수 있었다.

원리에 따른 한 / 일 기계번역 시스팀 : NARA (A Principle-based Korean / Japanese Machine Translation System : NARA)

  • 정희성
    • ETRI Journal
    • /
    • 제10권3호
    • /
    • pp.140-156
    • /
    • 1988
  • This paper presents methodological and theoretical principles for constructing a machine thanslation system between Korean and Japanese. We focus our discussion on the real time computing problem of the machine translation system. This problem is characterized in the time and space complexity during the machine translation. The NARA system has the real time computing algorithm which is based on a mathematical model integrating the linguistic competence and the linguistic performance of both languages, with consequence that the system NARA has also the functional characteristic : the two-way translation mechanism.

  • PDF

집단지성 웹기반 번역서비스 (A Web-based Translation Service with Collective Intelligence)

  • 이숭희
    • 한국정보통신학회논문지
    • /
    • 제18권12호
    • /
    • pp.2997-3004
    • /
    • 2014
  • 기존의 온라인 상에서 제공되는 번역서비스의 경우 번역의 진행이 의뢰자와 번역참여자 외에 접근이 한정되어 폐쇄적으로 진행되며, 자동번역서비스의 경우 아직 번역문의 정확도와 완성도가 보장되지 않는 문제점을 안고 있다. 이러한 문제점을 해결하기 위해 본 연구에서는 의뢰자와 번역참여자 뿐만 아니라 불특정 다수의 참여자가 번역의 수정과 평가에 참여할 수 있도록 수익성 모델을 부여하여 결과적으로 집단지성을 갖게 되는 웹기반 번역서비스를 제안한다.

적응형 채도 향상 알고리즘을 이용한 컬러 영상 처리 기법 (The Method of Color Image Processing Using Adaptive Saturation Enhancement Algorithm)

  • 양경옥;윤종호;조화현;최명렬
    • 정보처리학회논문지B
    • /
    • 제14B권3호
    • /
    • pp.145-152
    • /
    • 2007
  • 본 논문에서는 LCD 모니터, LCD TV, PDP TY, OLED TV 등과 같은 평판 디스플레이 장비를 위한 적응형 칼라 영상 향상 알고리즘에 대해서 제안한다. 제안한 알고리즘은 칼라 영상에서 콘트라스트와 채도를 함께 향상 시키는 방법이다. 콘트라스트 향상을 위해서 사용하는 적응형 선형 추정 CDF(Cumulative Density Function) 기법은 콘트라스트 향상 시 밝기에 따른 조정이 가능하여 원 영상의 왜곡을 막아준다. 적응형 채도 향상 알고리즘은 채도 향상의 문제점인 Contour Artifact와 Over-Saturation이 발생하지 않는 범위내에서 제도를 향상시킨다. 또한 원 영상의 색상 분포에 따른 선택적 채도 향상 방법을 사용하여 고품질의 영상을 얻을 수 있다. 제안된 알고리즘에 의한 처리 결과와 원 영상의 화질 평가를 위해서 시각적 검증과 히스토그램 편차를 도입하였다.

질문대답 아카이브에서 어휘 연관성을 이용한 질문 분류 (Question Classification Based on Word Association for Question and Answer Archives)

  • 김설영;이경순
    • 정보처리학회논문지B
    • /
    • 제17B권4호
    • /
    • pp.327-332
    • /
    • 2010
  • 보통 두 세 개의 어휘로 구성된 질문 분류에서 어휘의 다양한 표현으로 인한 어휘 불일치문제는 성능 저하의 주요 원인이다. 따라서 질문 분류에서 어휘 사이의 연관성을 반영하는 것이 필수적이다. 본 논문에서는 같은 범주의 질문-질문 쌍들에 대해 계산한 어휘 번역확률을 번역기반 언어모델에 반영하여 질문을 분류하는 방법을 제안한다. 실험에서 야후!앤써 질문대답 아카이브를 이용해서 전체 질문-대답 쌍들에 대해서 번역확률을 계산하는 것보다 같은 범주에 속하는 질문-질문 쌍들에 대해서 번역확률을 계산하는 것이 질문 분류에서 더 좋은 번역확률인 것을 증명한다.

전이학습 기반 기계번역 사후교정 모델 검증 (The Verification of the Transfer Learning-based Automatic Post Editing Model)

  • 문현석;박찬준;어수경;서재형;임희석
    • 한국융합학회논문지
    • /
    • 제12권10호
    • /
    • pp.27-35
    • /
    • 2021
  • 기계번역 사후교정 (Automatic Post Editing, APE)이란 번역 시스템을 통해 생성한 번역문을 교정하는 연구 분야로, 영어-독일어와 같이 학습데이터가 풍부한 언어쌍을 중심으로 연구가 진행되고 있다. 최근 APE 연구는 전이학습 기반 연구가 주로 이루어지는데, 일반적으로 self supervised learning을 통해 생성된 사전학습 언어모델 혹은 번역모델이 주로 활용된다. 기존 연구에서는 번역모델에 전이학습 시킨 APE모델이 뛰어난 성과를 보였으나, 대용량 언어쌍에 대해서만 이루어진 해당 연구를 저 자원 언어쌍에 곧바로 적용하기는 어렵다. 이에 본 연구에서는 언어 혹은 번역모델의 두 가지 전이학습 전략을 대표적인 저 자원 언어쌍인 한국어-영어 APE 연구에 적용하여 심층적인 모델 검증을 진행하였다. 실험결과 저 자원 언어쌍에서도 APE 학습 이전에 번역을 한차례 학습시키는 것이 유의미하게 APE 성능을 향상시킨다는 것을 확인할 수 있었다.