• 제목/요약/키워드: 기계 번역

검색결과 413건 처리시간 0.025초

번역 품질 예측을 위한 HTER 분포 평준화 기반 인조 번역 품질 말뭉치 구축 방법 (Construction of an Artificial Training Corpus for The Quality Estimation Task based on HTER Distribution Equalization)

  • 박준수;이원기;신재훈;한효정;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.460-464
    • /
    • 2019
  • 번역 품질 예측은 기계번역 시스템이 생성한 번역문의 품질을 정답 번역문을 참고하지 않고 예측하는 과정으로, 번역문의 사후 교정을 위한 번역 오류 검출의 역할을 담당하는 중요한 연구이다. 본 논문은 문장 수준의 번역 품질 예측 문제를 HTER 구간의 분류 문제로 간주하여, 번역 품질 말뭉치의 HTER 분포 불균형으로 인한 성능 제약을 완화하기 위해 인조 사후 교정 말뭉치를 이용하는 방법을 제안하였다. 결과적으로 HTER 분포를 균등하게 조정한 학습 말뭉치가 그렇지 않은 쪽에 비해 번역 품질 예측에 더 효과적인 것을 보였다.

  • PDF

영한 기계 번역 품사 집합과 펜트리뱅크 코퍼스 품사 집합간의 품사 대응 (Part of Speech Mapping between Tagset of English-Korean Machine Translation and Tagset of Penn Treebank Corpus)

  • 이성욱;이공주;서정연
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (2)
    • /
    • pp.184-186
    • /
    • 1999
  • 펜트리뱅크 코퍼스를 기계 번역에서 품사 태깅의 통계 정보 추출에 이용하기 위해서는 펜트리뱅크 코퍼스의 품사 집합과 기계 번역의 품사 집합의 품사 대응이 필요하다. 본 연구는 기계 번역의 품사 태그 집합과 펜트리뱅크의 48개의 품사 태그를 서로 적절히 대응하여 펜트리뱅크 코퍼스의 통계 정보를 이용하는 품사 태깅 시스템을 구축하는데 발생하는 문제점과 그 해결방안을 제안한다.

  • PDF

관용적 표현의 대응 관계에 기반한 영어-한국어 기계 번역 (English-Korean Machine Translation based-on Bilingual Relation of Idiomatic Expressions)

  • 윤성희;김영택
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.571-580
    • /
    • 1993
  • 영어 문장을 한국어 문장으로 기계 번역하는 과정에는 분석 규칙이나 변환 규칙만으로는 해결하기 어려운 표현의 대응 관계들이 많이 나타난다. 본 논문은 영어-한국어 기계 번역에서 질적으로 향상된 한국어 문장을 얻기 위하여 두 언어 표현들 사이의 관용적 대응 관계에 기반하는 번역 방식을 논한다. 두 언어 표현들 사이의 다양한 직접 대응 관계를 제공하는 번역 사전을 이용하며, 입력 영어 문장으로부터 이와 같은 표현들을 인식하고 한국어 표현으로 직접적으로 대응시키는 번역 방식이다. 이러한 번역 방식은 기존의 변환 규칙 기반의 번역 방식보다 자연스러운 한국어 문장을 생성할 뿐만 아니라, 많은 구조적-의미적 모호성을 해결함으로써 시간적-공간적 처리효율을 크게 높일 수 있다.

  • PDF

사전 정보를 활용한 신경망 기계 번역 (Neural Machine Translation with Dictionary Information)

  • 전현규;김지윤;최승호;김봉수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.86-90
    • /
    • 2023
  • 최근 생성형 언어 모델이 주목받고 있으며, 이와 관련된 과제 또한 주목받고 있다. 언어 생성과 관련하여 많은 연구가 진행된 분야 중 하나가 '번역'이다. 번역과 관련하여, 최근 인공신경망 기반의 신경망 기계 번역(NMT)가 주로 연구되고 있으며, 뛰어난 성능을 보여주고 있다. 하지만 교착어인 한국어에서 언어유형학 상의 다른 분류에 속한 언어로 번역은 매끄럽게 번역되지 않는다는 한계가 여전하다. 따라서, 본 논문에서는 이러한 문제점을 극복하기 위해 한-영 사전을 통한 번역 품질 향상 방법을 제안한다. 또한 출력과 관련하여 소형 언어모델(sLLM)을 통해 CoT데이터셋을 구축하고 이를 기반으로 조정 학습하여 성능을 평가할 것이다.

  • PDF

대화체 문장 번역을 위한 토큰기반 변환중심 한일 기계번역 (A Token Based Transfer Driven Koran -Japanese Machine Translation for Translating the Spoken Sentences)

  • 양승원
    • 한국산업정보학회논문지
    • /
    • 제4권4호
    • /
    • pp.40-46
    • /
    • 1999
  • 본 논문에서는 음성언어 자동 통역시스템의 일부 모듈로 구현한 한일 기계번역 시스템을 소개하였다. 이 번역시스템은 예제중심 기계번역(EBMT)에 기초를 둔 변환중심 기계번역(TDMT) 방법을 기반으로 구현하였다. 본 시스템에서는 토큰(TOKEN)이라는 새로운 번역단위를 정의하여 사용하였다. 토큰단위의 번역방법을 사용함으로써 한국어 문장의 매우 비 정형적인 점을 해결하고 번역의 질을 높일 수 있다. 본 시스템의 구문분석 단계에서는 대역어를 선정하기에 적합한 정도까지의 의존트리를 생성하는 간이파싱만을 함으로써 필요없는 노력을 경감시켰다. 대역어 사전은 한국전자통신 연구원이 수집한 음성 데이터베이스로부터 추출한 말뭉치를 사용해 구성하였다. 구현한 시스템은 여행 계획영역에서 수집된 600 발화 안의 문장을 대상으로 시험하였는데 제한된 환경에서 87%, 아무런 제약이 없는 환경에서는 71%의 성공률을 보였다.

  • PDF

자바 바이트코드를 GVM 코드로 번역하기 위한 언어적 특성 처리 (Han fling the Language Dependent Features for Translating Java Bytecode to GVM Code)

  • 고영관;고석훈;오세만
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.337-339
    • /
    • 2002
  • 휴대용 무선기기의 성능 향상과 동적인 응용프로그램 실행의 필요성에 따라 모바일 응용프로그램은 기존의 네이티브 애플리케이션 제작 방법에서 가상기계(Virtual Machine)를 탑재하여 실행하는 가상기계애플리케이션 제작 방법으로 변환하였다. 가상기계를 이용한 애플리케이션의 실행은 플랫폼 독립적인 실행이 가능하며 또한 효과적인 다운로드 솔루션을 통한 동적인 응용프로그램의 실행이 가능하다. 이러한 배경으로 KVM과 CVM(General Virtual Machine)등의 가상기계가 출현하였다. 그러나 각 플랫폼에서 맞는 애플리케이션은 서로 호환되지 않으므로 가상기계 언어간의 번역을 통해 목적 가상기계에서의 실행이 요구되며 자바 바이트코드를 순수 국내 기술로 개발된 GVM 코드로 번역하는 것이 바람직하다. 본 논문에서는 KVM에서 실행가능한 자바 바이트코드를 CVM에서 실행하기 위해 바이트코드를 GVM코드인 SAL(Sinji Assembly Language)로 번역하는 번역기를 설계하고 구현한다. 이를 위해 자바의 언어 독립적 특성 외에 언어 의존적인 특성을 처리하기 위한 방법을 제안하며 언어 의존적인 특성을 배열과 문자열, 클래스와 객체, 예외, 스레드로 분류하여 처리한다.

  • PDF

최신 기계번역 사후 교정 연구 (Recent Automatic Post Editing Research)

  • 문현석;박찬준;어수경;서재형;임희석
    • 디지털융복합연구
    • /
    • 제19권7호
    • /
    • pp.199-208
    • /
    • 2021
  • 기계번역 사후교정이란, 기계번역 문장에 포함된 오류를 자동으로 교정하기 위해 제안된 연구 분야이다. 이는 번역 시스템과 관계없이 번역문의 품질을 높이는 오류 교정 모델을 생성하는 목적을 가진 연구로, 훈련을 위해 소스문장, 번역문, 그리고 이를 사람이 직접 교정한 문장이 활용된다. 특히, 최신 기계번역 사후교정 연구에서는 사후교정 데이터를 통한 학습을 진행하기 이전에, 사전학습된 다국어 언어모델을 활용하는 방법이 적용되고 있다. 이에 본 논문은 최신 연구들에서 활용되고 있는 다국어 사전학습 언어모델들과 함께, 해당 모델을 도입한 각 연구에서의 구체적인 적용방법을 소개한다. 나아가 이를 기반으로, 번역 모델과 mBART모델을 활용하는 향후 연구 방향을 제안한다.

인접 단어들의 접속정보를 이용한 일한 기계번역 시스템 (Japanese-Korean Machine Translation System Using Connection Forms of Neighboring Words)

  • 김정인
    • 한국멀티미디어학회논문지
    • /
    • 제7권7호
    • /
    • pp.998-1008
    • /
    • 2004
  • 일본어와 한국어는 문법적으로 많은 유사점을 가지고 있다. 이러한 유사점을 잘 이용한다면 일한 기계번역 시스템에서 구문해석이나 의미해석의 상당한 부분을 생략할 수 있다. 몇 년 전부터 우리는 유사성을 이용하여 번역율을 높이는 방법으로 번역테이블을 이용한 일한기계번역 시스템을 연구해 왔다. 그러나 이 시스템은 활용어미의 번역, 다의성 단어의 처리 등 몇 가지 문제점을 가지고 있었다. 본 논문에서는 번역테이블을 이용하는 시스템을 개선하여 이웃 하는 단어들과의 관계 정보를 이용한 일한 기계번역 시스템을 제안한다. 현재 시스템의 문제점들을 해결하기 위하여 우선 조사, 조동사의 접속 정보를 최대한 이용한다. 또한, 번역 테이블을 엔트리테이블과 접속정보 테이블로 나누어 설계하여 번역의 효율을 높인다. 즉, 하나의 역어만 가지는 단어인 경우, 우리는 일한 직접 대응 방법을 이용하여 바로 번역하고 2개 이상의 역어로 번역되어야 할 경우만 접속 정보 값을 평가하여 가장 가능성이 높은 번역어를 선택하도록 한다.

  • PDF

영한 기계번역의 한국어 생성 시스템에서 조동사의 생성 (Generation of Auxiliary Verbs in a Korean Generation System of English-Korean Machine Translation)

  • 안동언;조정미;김길창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.533-544
    • /
    • 1993
  • 기계번역에서 기능어의 번역은 각 언어가 고유의 문법적 특성과 표현방법을 가지고 있기 때문에 기능어가 가지는 의미와 문법적 기능을 자질로 표현하고 이를 통하여 해석과 생성을 한다. 한국어는 첨가어로 기능어가 매우 발달되어 있으며, 특히 조동사가 많은 문법적 기능을 담당하고 화자의 양태적 관계를 나타낸다. 따라서, 기계번역의 한국어 생성에서 조동사가 번역의 질에 상당한 영향을 미친다. 본 논문에서는 중간언어방식을 이용한 기계번역시스템의 한국어 생성에서 문법적 기능이나 양태적 관계를 나타낸 중간언어로부터 어떠한 조동사가 생성이 되어야 하고, 또한 조동사들간의 결합순서는 어떠한지를 살펴본다. 이를 위하여 Corpus를 분석하여 각 조동사 분류에 대한 대표 표층어를 선정하고 조동사간의 결합순서를 밝힌다. 조동사 생성을 위해 필요한 처리 과정과 언어적 지식베이스를 제안하고 시스템을 구현한다.

  • PDF

기계 번역기의 언어별 외래어 인식 정확도 비교 연구 (A Comparative Study on the Machine Translation Accuracy of Loanword by Language)

  • 김규석
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 춘계학술발표대회
    • /
    • pp.319-322
    • /
    • 2021
  • 4차 산업혁명 시대에는 빠른 무선 네트워크와 빅데이터를 기반으로 다양한 기술과 서비스들이 생겨나고 있다. 이런 환경 속에서 우리는 언제 어디서나 스마트폰을 통해 음악을 듣고, 게임을 하며, 웹서핑을 하는 등 PC에 버금가는 다양한 활동을 할 수 있다. 누구든 쉽게 전세계의 웹페이지에 접속하고 SNS를 통해 외국인 친구들과도 쉽게 연락을 할 수 있다. 기계 번역 기술 또한 이렇게 사용자가 늘어나는 만큼 빅데이터를 기반으로 그 정확도가 향상되고 있다. 그러나 일반 명사나 구문과는 다르게 은어, 외래어 등의 사용빈도가 상대적으로 낮은 단어들에 대한 기계 번역 정확도는 여전히 개선이 필요하다. 본 연구에서는 국내에서 가장 많이 사용되는 기계 번역기인 papago 번역기와 Google 번역기의 외래어 인식 정확도에 대한 비교 연구를 진행하였다. 추후, 본 연구 결과를 통해 앞으로의 새로운 연구 방향을 제시한다.