• 제목/요약/키워드: language translation

검색결과 558건 처리시간 0.033초

어휘의미분석 기반 다국어 어휘대역 서비스 (Multilingual Word Translation Service based on Word Semantic Analysis)

  • 류법모
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권1호
    • /
    • pp.75-83
    • /
    • 2018
  • 다문화 가정 구성원은 언어 차이 때문에 자녀 교육에서 어려움을 겪고 있다. 이와 같은 어려움을 해결하기 위해서는 실생활에 필요한 한국어 용어들을 간편하고 신속하게 접근할 수 있는 스마트 번역 서비스를 이들에게 제공할 필요가 있다. 그러나 현재의 자동 번역 기술은 영어, 중국어, 일본어 등의 주요 국가 언어 중심으로 개발 되고 있으며, 자녀의 교육, 공공기관과의 소통 등 특수 목적의 용어들은 번역하기에는 한계가 있다. 본 연구에서는 초급 수준의 한국어를 이해하고 있는 다문화가정 구성원을 위한 실시간 자동 어휘대역어 서비스를 제안한다. 어휘대역어 서비스는 한국어 문장에 표현된 각 단어들의 의미를 자동으로 분석하여 다국어 대역어를 제공한다. 이를 위하여 한국어 의미분석 연구, 다국어 번역지식 구축 연구, 언어교육 연구의 융합연구를 수행하였다. 어휘대역서비스를 베트남, 일본 출신의 결혼이주여성을 대상으로 평가하여 의미있는 평가결과를 얻었다.

한-베 기계번역에서 한국어 분석기 (UTagger)의 영향 (Effect of Korean Analysis Tool (UTagger) on Korean-Vietnamese Machine Translations)

  • 원광복;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.184-189
    • /
    • 2017
  • With the advent of robust deep learning method, Neural machine translation has recently become a dominant paradigm and achieved adequate results in translation between popular languages such as English, German, and Spanish. However, its results in under-resourced languages Korean and Vietnamese are still limited. This paper reports an attempt at constructing a bidirectional Korean-Vietnamese Neural machine translation system with the supporting of Korean analysis tool - UTagger, which includes morphological analyzing, POS tagging, and WSD. Experiment results demonstrate that UTagger can significantly improve translation quality of Korean-Vietnamese NMT system in both translation direction. Particularly, it improves approximately 15 BLEU scores for the translation from Korean to Vietnamese direction and 3.12 BLEU scores for the reverse direction.

  • PDF

기계번역을 이용한 교차언어 문서 범주화의 분류 성능 분석 (Classification Performance Analysis of Cross-Language Text Categorization using Machine Translation)

  • 이용구
    • 한국문헌정보학회지
    • /
    • 제43권1호
    • /
    • pp.313-332
    • /
    • 2009
  • 교차언어 문서 범주화(CLTC)는 다른 언어로 된 학습집단을 이용하여 문헌을 자동 분류할 수 있다. 이 연구는 KTSET으로부터 CLTC에 적합한 실험문헌집단을 추출하고, 기계 번역기를 이용하여 가능한 여러 CLTC 방법의 분류 성능을 비교하였다. 분류기는 SVM 분류기를 이용하였다. 실험 결과, CLTC 중에 다국어 학습방법이 가장 좋은 분류 성능을 보였으며, 학습집단 번역방법, 검증집단 번역방법 순으로 분류 성능이 낮아졌다. 하지만 학습집단 번역방법이 기계번역 측면에서 효율적이며, 일반적인 환경에 쉽게 적용할 수 있고, 비교적 분류 성능이 좋아 CLTC 방법 중에서 가장 높은 이용 가능성을 보였다. 한편 CLTC에서 기계번역을 이용하였을 때 번역과정에서 발생하는 자질축소나 주제적 특성이 없는 자질로의 번역으로 인해 성능 저하를 가져왔다.

Connectionism을 이용한 부분 구문 인식기의 구현 (An Implementation of Syntactic Constituent Recognizer Using Connectionism)

  • 정한민;여상화;김태완;박동인
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.479-483
    • /
    • 1996
  • 본 논문은 구운 분석의 검색 영역 축소를 통한 구문 분석기의 성능 향상을 목적으로 connectionism을 이용한 부분 구문 인식기의 설계와 구현을 기술한다. 본 부분 구문 인식기는 형태소 분석된 문장으로부터 명사-주어부와 술어부를 인식함으로써 전체 검색 영역을 여러 부분으로 나누어 구문 분석문제를 축소시키는 것을 목적으로 하고 있다. Connectionist 모델은 입력층과 출력층으로 구성된 개선된 퍼셉트론 구조이며, 입/출력층 사이의 노드들을, 입력층 사이의 노드들을 연결하는 연결 강도(weight)가 존재한다. 명사-주어부 및 술어부 구문 태그를 connectionist 모델에 적용하며, 학습 알고리즘으로는 개선된 백프로퍼게이션 학습 알고리즘을 사용한다. 부분 구문 인식 실험은 112개 문장의 학습 코퍼스와 46개 문장의 실험 코퍼스에 대하여 85.7%와 80.4%의 정확한 명사-주어부 및 술어부 인식을, 94.6%와 95.7%의 명사-주어부와 술어부 사이의 올바른 경계 인식을 보여준다.

  • PDF

CNN기반의 청각장애인을 위한 수화번역 프로그램 (CNN-based Sign Language Translation Program for the Deaf)

  • 홍경찬;김형수;한영환
    • 융합신호처리학회논문지
    • /
    • 제22권4호
    • /
    • pp.206-212
    • /
    • 2021
  • 사회가 점점 발전하면서 의사소통 방법이 다양한 형태로 발전하고 있다. 그러나 발전한 의사소통은 비장애인을 위한 방법이며, 청각장애인에게는 아무런 영향을 미치지 않는다. 따라서 본 논문에서는 청각장애인의 의사소통을 돕기 위한 CNN 기반의 수화번역 프로그램을 설계 및 구현한다. 수화번역 프로그램은 웹캠을 통해 입력된 수화 영상 데이터를 기반으로 의미에 맞게 번역한다. 수화번역 프로그램은 직접 제작한 24,000개의 한글 자모음 데이터를 사용하였으며, 효과적인 분류모델의 학습을 위해 U-Net을 통한 Segmentation을 진행한다. 전처리가 적용된 데이터는 19,200개의 Training Data와 4,800개의 Test Data를 통하여 AlexNet을 기반으로 학습을 진행한다. 구현한 수화번역 프로그램은 'ㅋ'이 97%의 정확도와 99%의 F1-Score로 모든 수화데이터 중에서 가장 우수한 성능을 나타내었으며, 모음 데이터에서는 'ㅣ'가 94%의 정확도와 95.5%의 F1-Score로 모음 데이터 중에서 가장 높은 성능을 보였다.

형태소 분석 기반 전자책 수화 번역 프로그램 (E-book to sign-language translation program based on morpheme analysis)

  • 한솔이;김세아;황경호
    • 한국정보통신학회논문지
    • /
    • 제21권2호
    • /
    • pp.461-467
    • /
    • 2017
  • 인터넷의 발전과 스마트 디바이스의 확산으로 e-book에 대한 수요가 늘고 있다. 그러나 청각 손실로 정확한 언어를 배우기 어려운 청각장애인은 텍스트로만 이루어진 e-book 서비스를 사용하기 어렵다. 본 논문에서는 e-book의 문장을 읽어 수화 동영상으로 제공하는 안드로이드 기반 애플리케이션 프로그램을 설계하고 구현하였다. e-book의 한국어 문장을 수화 언어로 번역하기 위해 형태소 분석에 기반한 알고리즘을 사용하였다. 제안한 알고리즘은 3단계로 구성된다. 1단계는 수화 표현을 위한 문장 요소 제거, 2단계는 수화 표현의 변환 및 시제 표현, 3단계는 수화 높임말 용어 변경 및 위치 이동이다. 또한 수화 번역 품질에 대한 평가 방안을 제시하고 100개의 기준 문장에 대해 제안한 알고리즘을 통한 번역 결과의 우수성을 확인하였다.

A Translator of MUSS-80 for CYBER-72l

  • 이용태;이은구
    • 정보과학회지
    • /
    • 제1권1호
    • /
    • pp.23-35
    • /
    • 1983
  • In its global meaning language translation refers to the process whereby a program which is executable in one computer can be executed in another computer directly to obtain the same result. There are four different ways of approaching translation. The first way is translation by a Translator or a Compier, the second way is Interpretation, the third way is Simulation, the last way is Emulation. This paper introduces the M-C Translator which was designed as the first way of translation. The MUSS 80 language (the subsystem of the UNIVAC Solid State 80 S-4 assembly language system) was chosen as the source language which includes forty-three instructions, using the CYBER COMPASS as the object language. The M-C translator is a two pass translator and is a two pas translator and es written in Fortran Extended language. For this M-C Translation, seven COMPASS subroutines and a set of thirty-five macros were prepared. Each executable source instruction corresponds to a macro, so it will be a macro instruction within the object profram. Subroutines are used to retain and handle the source data representation the same way in the object program as in the source system, and are used to convert the decimal source data into the equivalent binary result into the equivalent USS-80digits before and after arithmetic operations. The source instructions can be classified into three categories. First, therd are some instructions which are meaningless in the object system and are therefore unnecessary to translate, and the remaining instructions should be translated. Second, There are some instructions are required to indicate dual address portions. Third, there are Three instructions which have overflow conditions, which are lacking in the remaining instructions. The construction and functions of the M-C Translator, are explained including some of the subroutines, and macros. The problems, difficulties and the method of solving them, and easier features on this translation are analysed. The study of how to save memory and time will be continued.

어휘 번역확률과 질의개념연관도를 반영한 검색 모델 (Retrieval Model Based on Word Translation Probabilities and the Degree of Association of Query Concept)

  • 김준길;이경순
    • 정보처리학회논문지B
    • /
    • 제19B권3호
    • /
    • pp.183-188
    • /
    • 2012
  • 정보 검색에서 성능 저하의 주요 요인은 사용자의 질의와 검색 문서 사이에서의 어휘 불일치 때문이다. 어휘 불일치 문제를 해결하기 위해 본 논문에서는 어휘 번역확률을 이용한 번역기반 언어모델에 질의개념연관도를 반영한 검색 모델을 제안한다. 어휘관계 정보를 획득하기 위하여 문장-다음문장 쌍을 이용하여 어휘 번역확률을 계산하였다. 제안모델의 유효성을 검증하기 위해 TREC AP 컬렉션에 대해 실험하였다. 실험결과에서 제안모델이 언어모델에 비해 아주 우수한 성능향상을 보였고, 번역기반 언어모델에 비해서도 높은 성능을 나타냈다.

의미패턴에 기반한 대화체 한영 기계 번역 (Machine Translation of Korean-to-English spoken language Based on Semantic Patterns)

  • 정천영;서영훈
    • 한국정보처리학회논문지
    • /
    • 제5권9호
    • /
    • pp.2361-2368
    • /
    • 1998
  • 본 논문에서는 한국어대화체를 분석하고 의미패턴에 기반한 대화체 한영 기계번역 시스템에 대하여 기술한다. 한영 기계번역에서 구문정보를 이용한 한국어 모호성은 의미패턴을 이용하여 해결할 수 있다. 따라서 대화체 번역을 위하여 한국어 스케쥴링 도메인으로부터 추출된 의미패턴에 기반한 시스템을 구성한다. 번역의 강건함을 위하여 한국어 문장 분석시 음절을 건너뛰어 분석할 수 있도록 하였으며, 패턴수를 줄이기 위하여 의미패턴에 옵션을 부가하였다. 실험을 위하여 사용된 데이터는 스케쥴링 도메인으로 실험결과 88%의 번역율을 보인다.

  • PDF