• 제목/요약/키워드: 영한 번역

검색결과 71건 처리시간 0.025초

영한 기계번역에서의 복합어구 인식 (Complex Phrase Recognition in English-to-Korean Machine Translation : MATES/EK)

  • 장두성;김덕봉;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1992년도 제4회 한글 및 한국어정보처리 학술대회
    • /
    • pp.503-510
    • /
    • 1992
  • 복합어는 여러개의 단어가 하나의 의미론 나타내는 단어를 말한다. 이 논문에서는 번역시 구성단어들의 의미의 합이 아닌 다른 또 하나의 의미를 나타내는 단어를 대상으로 한다. 이러한 복합어는 구문해석 단계에서 많은 애매성의 원인이 되며, 유형에 따라 숙어 처럼 새로운 의미로 항상 같이 쓰이는 복합어와 복합어의 형성이 복잡하여 규칙으로서 단어를 이해할 필요가 있는 단어로 구분할 수 있다. 첫번째 유형은 단어의 형성이 단순하여 하나의 사전 엔트리로 등록될 수 있다. 이때 이들 복합어가 가지는 개별 어휘 규칙을 같이 사전에 등록하여 사전을 효과적 이용할 수 있다. 두번째 유형은 규칙에 의한 처리를 하여야 한다. 이러한 복합어에 대한 인식을 구문분석이전에 행함으로서 적은 노력으로 복합어로 인한 전체 문장의 애매성을 감소시키고, 문장내 단어의 수를 감소시킴으로서 전채 번역시스템의 효율을 증대하며, 복합어의 처리는 번역문을 자연스럽게 생성하는 데 큰 효과를 나타낸다.

  • PDF

영한 기계번역에서의 영어 품사결정 모델 (A Model of English Part-Of-Speech Determination for English-Korean Machine Translation)

  • 김성동;박성훈
    • 지능정보연구
    • /
    • 제15권3호
    • /
    • pp.53-65
    • /
    • 2009
  • 영한 기계번역에서 영어 단어의 품사결정은 번역할 문장에 사용된 어휘의 품사 모호성을 해소하기 위해 필요하다. 어휘의 품사 모호성은 구문 분석을 복잡하게 하고 정확한 번역을 생성하는 것을 어렵게 한다. 본 논문에서는 이러한 문제점을 해결하기 위해 어휘 분석 이후 구문 분석 이전에 품사 모호성을 해소하려 하였으며 품사 모호성을 해소하기 위한 CatAmRes 모델을 제안하고 다른 품사태깅 방법과 성능 비교를 하였다. CatAmRes는 Penn Treebank 말뭉치를 이용하여 Bayesian Network를 학습하여 얻은 확률 분포와 말뭉치에서 나타나는 통계 정보를 이용하여 영어 단어의 품사를 결정을 한다. 본 논문에서 제안한 영어 품사결정 모델 CatAmRes는 결정할 품사의 적정도 값을 계산하는 Calculator와 계산된 적정도 값에 근거하여 품사를 결정하는 POSDeterminer로 구성된다. 실험에서는 CatAmRes의 동작과 성능을 테스트 하기 위해 WSJ, Brown, IBM 영역의 말뭉치에서 추출한 테스트 데이터를 이용하여 품사결정의 정확도를 평가하였다.

  • PDF

k-최근점 학습에 기반한 타동사-목적어 연어 사전의 최적화 (Optimization of Transitive Verb-Objective Collocation Dictionary based on k-nearest Neighbor Learning)

  • 김유섭;장병탁;김영택
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권3호
    • /
    • pp.302-313
    • /
    • 2000
  • 영한 기계번역에서 영어 문장의 동사구를 한국어로 정확하게 번역하기 위해서는 일반적으로 타동사와 목적어의 연어 관계를 이용한다. 본 논문에서는 k-최근점(k-nearest neighbor) 학습을 연어 관계에 적용하여 동사 번역을 선택하는 알고리즘을 제시하였는데 k-최근점 학습을 위해서 워드넷에서의 의미거리를 정의하여 사용하였다. 그리고 실시간 번역 시스템에 사용될 사전을 구성하기 위하여, 말뭉치로부터 타동사-목적어 쌍을 추출하여 학습예제를 구축하고, 이 예제의 크기를 번역률과 연관시켜 최적화시키는 알고리즘을 제시한다. 본 논문에서는 위의 알고리즘들을 사용하여 동사 'build'의 번역률을 약 90%로 유지하면서 사전의 크기를 최적화하였다.

  • PDF

품사간 정렬 경향을 반영한 통계 기반 영한 단어 정렬 후처리 방법 (A Postprocessing method for Statistical English-Korean Word Alignment Reflecting Alignment Tendency Between Parts-of-Speeches)

  • 이재희;이승욱;황영숙;김상범;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.242-246
    • /
    • 2009
  • 병렬 말뭉치 내에서 서로 대응되는 단어를 찾아내는 단어 정렬 작업은 기계 번역에서 가장 기본적으로 수행되는 작업이고 다양한 분야에서 유용하게 사용된다. 본 논문에서는 영한 단어 정렬에서 기존의 통계 기반 정렬 모델의 문제점을 파악하고 이를 해결하기 위해 영한의 품사간 정렬 경향을 단어 정렬에 반영하는 방법을 제안한다. 실험을 통해서 기존 통계 기반 영한 단어 정렬 결과와 비교하여 제안된 방법이 정확률, 재현율, F-measure 측면에서 모두 향상시키는 것을 보였다.

  • PDF

웹용 영한 기계번역을 위한 문서 전처리기의 설계 및 구현 (A Preprocessor for English-to-Korean Machine Translation of Web Pages)

  • 안동언;유홍진;서진원;이영우;정성종;여상화;김태완;박동인
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.249-254
    • /
    • 1997
  • 영어 웹 문서를 한국어로 기계번역을 하기 위해서는 HTML 태그를 번역 대상 문장과 분리하는 처리가 필요하다. HTML 태그를 단순히 제거하는 것이 아니라 대상 문장의 기계번역이 종료된 후에 같은 형태의 한국어 웹 문서로 복원하기 위한 방안이 마련 되어야 한다. 또한 문서 전처리기에서는 영어 형태소해석기의 성능을 높이기 위하여 번역 단위가 되는 문장의 인식 및 분리, 타이틀의 처리, 나열된 단어의 처리, 하이픈 처리, 고유명사 인식, 특수 문자 처리, 대소문자 정규화, 날짜 인식 등을 처리하여 문서의 정규화를 수행한다.

  • PDF

영한번역 시스템에서 연어 사용에 의한 실용적인 대역어 선택 (Practical Target Word Selection Using Collocation in English to Korean Machine Translation)

  • 김성묵
    • 한국산업정보학회논문지
    • /
    • 제5권2호
    • /
    • pp.56-61
    • /
    • 2000
  • 기계번역시스템에서 번역의 우수성은 중의성이 심한 동사의 대역어 선택에 좌우된다. 동사의 의미분별은 함께 어울려 사용되는 연어들에 의해 해소될 수 있지만, 이러한 연어들을 획득하기에는 많은 어려움과 비용의 문제가 발생한다. 이에 따라 기존의 많은 연구 중에서 실용성을 검토해 볼 필요가 있다. 본 논문에서는 영한번역시스템의 성능 향상을 위해 기존에 획득된 연어에 최소한의 명사 의미자질을 구축하여 계산한 의미거리(Semantic Distance)에 의한 실용적인 대역어 선택 방법을 기술하고자 한다.

  • PDF

실시간 동시통역 시스템 개발을 위한 통역 분절단위 연구 (A Study on Segmentation Unit for the Real-time Simultaneous Interpretation System)

  • 구영은;김지연;홍정표;홍문표;최승권
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.229-235
    • /
    • 2019
  • 동시통역에서는 번역이 즉각적으로 빠르게 이루어지면서 원천텍스트의 의미가 정확히 전달되는 것이 핵심이다. 따라서 실시간 동시통역 시스템의 개발을 위해서는 번역정확도와 번역속도가 균형적으로 최적을 이루는 지점에서 분절하는 방법론이 필요하다. 이를 위해 본 연구에서는 운율 정보, 문법·통사 규칙, 의미 단위, 담화구조 표지, 분절단위의 길이 등 다양한 언어학적 자질을 제시하였다. 또한 본 논문에서 제안한 방법론을 검증하는 실험을 진행하였으며 그 결과 영한 데이터는 82%, 한영 데이터는 90%의 정확도를 보였다.

  • PDF

다양한 지식을 사용한 영한 기계번역에서의 대역어 선택 (Target Word Selection for English-Korean Machine Translation System using Multiple Knowledge)

  • 이기영;김한우
    • 한국컴퓨터정보학회논문지
    • /
    • 제11권5호
    • /
    • pp.75-86
    • /
    • 2006
  • 일반적으로 영어를 한국어로 번역할 때, 대부분의 영어 명사 어휘들은 해당 어휘가 사용되는 문맥에 따라 다양한 한국어 명사로 번역될 수 있다. 따라서 영어 원문이 갖는 의미를 손실 없이 번역문으로 전달하기 위해서는 문맥에 맞는 올바른 한국어 대역어를 선택할 수 있어야 한다. 본 논문에서는 동사구패턴, 공기 정보에 기반한 의미벡터, 공기 품사 정보 및 한국어 문맥 통계 정보 등의 다양한 지식을 사용하여 영어 명사 어휘의 대역어를 올바로 선택하는 방안을 제공한다. 동사구 패턴은 사전과 코퍼스를 사용하여 구축되었으며, 의미 벡터는 영어 어휘가 특정 한국어 어휘로 번역될 때 공기하는 정보들의 조건부 확률을 나타낸다. 한국어 문맥 통계 정보는 한국어 코퍼스로부터 추출된 N-그램 정보를 나타내며, 품사 공기 정보는 대역어 선택 모호성을 지니는 영어 어휘와 통계적으로 깊은 관련성을 지니는 품사를 나타낸다. 마지막으로 본 논문에서 제안한 대역어 선택 모호성 해소 방안을 평가하기 위한 실험을 수행하였으며, 실험 결과, 제안하는 방법이 기존의 방법보다 성능이 좋다는 것을 확인할 수 있었다.

  • PDF

ChatGPT 기반 한국어 Vision-Language Pre-training을 위한 고품질 멀티모달 데이터셋 구축 방법론 (High-Quality Multimodal Dataset Construction Methodology for ChatGPT-Based Korean Vision-Language Pre-training)

  • 성진;한승헌;신종훈;임수종;권오욱
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.603-608
    • /
    • 2023
  • 본 연구는 한국어 Vision-Language Pre-training 모델 학습을 위한 대규모 시각-언어 멀티모달 데이터셋 구축에 대한 필요성을 연구한다. 현재, 한국어 시각-언어 멀티모달 데이터셋은 부족하며, 양질의 데이터 획득이 어려운 상황이다. 따라서, 본 연구에서는 기계 번역을 활용하여 외국어(영문) 시각-언어 데이터를 한국어로 번역하고 이를 기반으로 생성형 AI를 활용한 데이터셋 구축 방법론을 제안한다. 우리는 다양한 캡션 생성 방법 중, ChatGPT를 활용하여 자연스럽고 고품질의 한국어 캡션을 자동으로 생성하기 위한 새로운 방법을 제안한다. 이를 통해 기존의 기계 번역 방법보다 더 나은 캡션 품질을 보장할 수 있으며, 여러가지 번역 결과를 앙상블하여 멀티모달 데이터셋을 효과적으로 구축하는데 활용한다. 뿐만 아니라, 본 연구에서는 의미론적 유사도 기반 평가 방식인 캡션 투영 일치도(Caption Projection Consistency) 소개하고, 다양한 번역 시스템 간의 영-한 캡션 투영 성능을 비교하며 이를 평가하는 기준을 제시한다. 최종적으로, 본 연구는 ChatGPT를 이용한 한국어 멀티모달 이미지-텍스트 멀티모달 데이터셋 구축을 위한 새로운 방법론을 제시하며, 대표적인 기계 번역기들보다 우수한 영한 캡션 투영 성능을 증명한다. 이를 통해, 우리의 연구는 부족한 High-Quality 한국어 데이터 셋을 자동으로 대량 구축할 수 있는 방향을 보여주며, 이 방법을 통해 딥러닝 기반 한국어 Vision-Language Pre-training 모델의 성능 향상에 기여할 것으로 기대한다.

  • PDF

실용적인 영한 기계번역을 위한 전처리기의 설계 및 구현 (A Preprocessor for Practical English-to-Korean Machine Translation)

  • 여상화;정한민;채영숙;김태완;박동인
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.313-321
    • /
    • 1996
  • 본 논문에서는 실용적인 기계번역 시스템을 위하여 다양한 입력 형태에서 나타나는 여러 현상을 전처리하는 기법을 설명한다. 전처리기는 문장 분리, Title 및 나열문 인식, HTML Tag의 처리, 하이픈처리, 숫자 표현 처리, 대소문자의 정규화, 고유명사 인식, 복합단위 인식 등을 수행하여 형태소 분석기의 처리 부담을 줄인다.

  • PDF