• 제목/요약/키워드: 통계적 번역

검색결과 33건 처리시간 0.028초

중한 이메일 자동번역시스템 (A Chinese-Korean E-Mail Translation System)

  • 김운;권오욱;오영순;김영길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.225-230
    • /
    • 2009
  • 본 논문에서는 중국어의 이메일 특성을 이용한 중한 대화체 자동번역 방법에 대하여 기술한다. 본 논문에서는 중국어와 한국어와 같이 언어 간의 어순이 다르고 이메일과 같이 특정한 도메인의 언어적 자원도 제한적인 특성을 고려하여 중국어 이메일 특성을 이용한 규칙 기반의 번역 방법을 시도하였다. 이를 위해, 본 논문에서는 중국어의 굳어진 표현이 많고, 한글자 단어 많으며, 입력 오류 많고, 청유 및 경어가 많은 이메일 특성 분석을 통해 그에 대응되는 처리 방법을 제안하였다. 그리고, 그 방법의 타당성을 증명하기 위해 규칙기반의 중한 뉴스 자동번역 시스템과 비교 실험을 하였으며, 규칙기반과 통계적 방법의 타당성 실험을 위해 Gmail과도 비교 실험을 하였다. 두 가지 비교 실험 결과, 본 논문에서 접근한 방법이 모두 우수하였으며, 그 타당성을 증명하였다.

  • PDF

길이 정보와 유사도 정보를 이용한 한영 문장 정렬 (Korean-English Sentence Alignment using Length and Similarity Information)

  • 홍진표;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.130-135
    • /
    • 2010
  • 문장 정렬은 두 개의 문서 간의 대응이 되는 문장을 찾는 작업이다. 이 방법은 통계적 기계 번역의 학습 문서인 병렬 말뭉치를 자동으로 구축하는데 필수적인 방법이다. 본 연구에서는 길이 정보에 추가적으로 유사도 정보를 반영하는 한영 문장 정렬 방법을 제안한다. 먼저 한국어로 된 문서를 기계번역 시스템에 적용하여 영어 문서로 변환한다. 그리고 번역된 영어로 된 문서 결과와 영어로 된 대상 문서 간의 정렬 작업을 수행한다. 정렬 완료된 결과와 원시 문서, 대상 문서로부터 최종적인 결과를 생성해낸다. 본 논문에서는 기계 번역을 이용하는 방법과 더불어 기존의 길이 기반 문장 정렬 프로그램에 문장 유사도 정보를 추가하여 단어 정렬의 성능 향상을 꾀하였다. 그 결과 "21세기 세종기획"의 최종 배포본 내에 포함된 한영 병렬 말뭉치에 대해 한영 문장 정렬 F-1 자질의 결과가 89.39%를 보였다. 이 수치는 기존의 길이 기반의 단어 정렬의 성능 평가 결과와 비교했을 때 약 8.5% 가량 성능이 향상되었다.

  • PDF

MOSES를 이용한 한/일 양방향 통계기반 자동 번역 시스템 (A Bidirectional Korean-Japanese Statistical Machine Translation System by Using MOSES)

  • 이공주;이성욱;김지은
    • Journal of Advanced Marine Engineering and Technology
    • /
    • 제36권5호
    • /
    • pp.683-693
    • /
    • 2012
  • 통계기반 자동 번역 시스템은 구현과 유지보수의 용이함으로 최근 많은 관심을 받고 있다. 본 연구의 목적은 MOSES[1] 시스템을 이용하여 통계기반의 한/일 양방향 기계번역시스템을 구축하는 것이다. 한/일 문장단위 병렬 코퍼스를 구축하여 번역모델 학습에 이용하였고, 한/일 각각 대량의 원시 코퍼스를 이용하여 언어모델 학습에 이용하였다. 시스템 구축 결과 기존의 규칙기반 번역 시스템의 성능에 근접하는 결과를 얻었으며, 발생하는 오류의 대부분은 각 처리 단계에서 발생하는 노이즈에 기인하였다.

병렬 코퍼스 구축을 위한 문장 자동 정렬 프로그램의 속도 개선 (Speed Improvement of Sentence Aligner for Parallel Text)

  • 정선이;이공주
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.163-168
    • /
    • 2012
  • 문서 또는 문장 단위의 정렬이 통계적 기계 번역에 활발히 이용되고 있다. 문장 정렬은 통계 기반의 기계 번역에서 가장 중요한 작업으로 정렬의 정확도와 속도는 기계 번역 시스템의 성능을 좌우할 수 있다. 문장 정렬을 수행 할 때 대용량의 문서입력이 있을 경우 처리 속도가 상당히 늦어지는 문제를 지적하고 그 문제를 해결하는 두 가지 방법을 제안한다. 문서의 구조적 특성을 이용하여 문서의 경계정보를 추출하거나 또는 단어 출현 빈도의 따른 경계 추출방법을 이용하여 문제를 해결한다. 상기의 방법이 정렬 속도 저하 개선에 비교적 효과가 있고 그에 따른 성능 저하가 없음을 실험을 통하여 확인하였다.

  • PDF

통계적 수정규칙을 이용한 한국어-중국어 단어정렬 개선방법 (Using Statistical Correction Rule to Improve Word Alignment)

  • 김장호;이금희;나휘동;김동일;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.231-236
    • /
    • 2009
  • 본 논문에서는 통계적으로 추출한 수정규칙을 이용하여 구 기반 한-중 통계기계번역 시스템(PBSMT)의 단어정렬 결과를 개선하는 방법을 제안한다. 논문에서 제안하는 수정규칙은 단어정렬의 결과를 사람이 만든 정답과 비교하여 통계적으로 추출하였다. 본 논문에서는 위에서 추출한 수정규칙을 이용하여 한-중 통계기계번역 시스템의 단어정렬의 결과에서 한국어 기능어(functional word)에 나타나는 오류를 수정함으로써 단어정렬의 결과를 개선하였고 최종적으로 기계번역의 성능을 제고하였다.

  • PDF

중간언어와 단어정렬을 통한 이중언어 사전의 자동 추출에 대한 성능 개선 (Performance Improvement of Bilingual Lexicon Extraction via Pivot Language and Word Alignment Tool)

  • 권홍석;서형원;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2013년도 제25회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.27-32
    • /
    • 2013
  • 본 논문은 잘 알려지지 않은 언어 쌍에 대해서 병렬말뭉치(parallel corpus)로부터 자동으로 이중언어 사전을 추출하는 방법을 제안하였다. 이 방법은 중간언어(pivot language)를 매개로 하고 문맥 벡터를 생성하기 위해 공개된 단어 정렬 도구인 Anymalign을 사용하였다. 그 결과로 초기사전(seed dictionary)을 사용한 문맥벡터의 번역 과정이 필요 없으며 통계적 방법의 약점인 낮은 빈도수를 가지는 어휘에 대한 번역 정확도를 높였다. 또한 문맥벡터의 요소 값으로 특정 임계값 이상을 가지는 양방향 번역 확률 정보를 사용하여 상위 5위 이내의 번역 정확도를 크게 높였다. 본 논문은 두 개의 서로 다른 언어 쌍 한국어-스페인어 그리고 한국어-프랑스어 양방향에 대해서 각각 이중언어 사전을 추출하는 실험을 하였다. 높은 빈도수를 가지는 어휘에 대한 번역 정확도는 이전 연구에서 보인 실험 결과에 비해 최소 3.41% 최대 67.91%의 성능 향상을 보였고 낮은 빈도수를 가지는 어휘에 대한 번역 정확도는 최소 5.06%, 최대 990%의 성능 향상을 보였다.

  • PDF

중한 기계 번역 시스템을 위한 형태소 분석기 (A Morph Analyzer For MATES/CK)

  • 강원석;김지현;송영미;송희정;황금하;채영숙;최기선
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 한글 및 한국어 정보처리
    • /
    • pp.331-336
    • /
    • 2000
  • MATES/CK는 기계번역 시스템에서 전통적으로 사용하고 있는 세 단계(분석/변환/생성)에 의해서 중한 번역을 수행하는 시스템이다. MATES/CK는 시스템 성능을 높히기 위해 패턴 기반과 통계적 정보를 이용한다. 태거(Tagger)는 중국어 단어 분리를 최장일치법으로 수행하기 때문에 일부 단어에 대해 오류를 범하게 되고 품사(POS : Part Of Speech) 태킹 시 확률적 정보만 이용하여 특정 단어가 다 품사인 경우 그 단어에 대해 특정 품사만 태깅되는 문제점이 발생한다. 또한 중국어 및 외국어 인명 및 지명에 대한 미등록들에 대해서도 올바른 결과를 도출하지 못한다. 사전에 있어서 텍스트 기반으로 존재하여 이를 관리하기에 힘이 든다. 본 논문에서는 단어 분리 오류 및 품사 태깅 오류를 해결하기 위해 중국어 태킹 제약 규칙을 적용하는 방법을 제시하고 중국어 및 외국어 인명/지명에 대한 미등록어 처리방법을 제시한다. 또한 중국어 사전 관리에 대해 알아본다.

  • PDF

웹 문서로부터 한-영 병렬 말뭉치 자동 구축과 문장 단위 정렬 (Mining the Web for Korean-English Parallel Corpora and Sentence Alignment)

  • 양주일;김선호;송만석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.150-155
    • /
    • 1999
  • 다국어를 이용한 통계적 자연어 처리의 연구가 진행됨에 따라 병렬 말뭉치의 중요성이 대두되고 있다. 그러나 여러 가지 제약점으로 인하여 현재 이용 가능한 한국어 병렬 말뭉치가 드문 상황이다. 월드 와이드 웹 상에는 다양한 언어로 번역된 문서들이 있으며 이를 병렬 말뭉치로 구축, 활용한다면 말뭉치의 희소성으로 인한 문제를 해결할 수 있다. 본 논문에서는 웹 상에서 번역문서 후보를 추출한 다음 HTML 문서 구조를 비교하여 번역문서인지를 판별하고 문장 단위 정렬을 이용하여 병렬 말뭉치로 구축하는 방법을 제시한다.

  • PDF

MATES/CK 중한기계번역시스템의 구문분석규칙 (Parsing Rules for MATES/CK)

  • 송영미;강원석;김지현;송희정;황금하;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.337-343
    • /
    • 2000
  • 중한기계번역시스템(MATES/CK)의 구문분석은 1120개의 구문분석규칙과 통계적 정보에 의한 확률기반에 따라 그 문장에 가장 적합한 구문트리를 찾아져 적용되는 방식으로 이루어지고 있다. 기존 구문분석 규칙은 자체에 오류가 많고, 새로운 규칙의 생성도 필요하다. 규칙에 대한 제약조건에도 좀 더 구체적이고 정확성을 높일 수 있는 상태로의 전환이 필요하다. 본 논문에서는 중한기계번역시스템(MATES/CK)의 구문분석의 정확도를 높이기 위하여 구문분석규칙을 수정하는 방법에 관하여 알아보고 그 연구과정을 살펴본다.

  • PDF

중한 기계 번역 시스템을 위한 형태소 분석기 (A Morph Analyzer For MATES/CK)

  • 강원석;김지현;송영미;송희정;황금하;채영숙;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.331-336
    • /
    • 2000
  • MATES/CK는 기계번역 시스템에서 전통적으로 사용하고 있는 세 단계(분석/변환/생성)에 의해서 중한 번역을 수행하는 시스템이다. MATES/CK는 시스템 성능을 높이기 위해 패턴 기반과 통계적 정보를 이용한다. 태거(Tagger)는 중국어 단어 분리를 최장일치법으로 수행하기 때문에 일부 단어에 대해 오류를 범하게 되고 품사(POS : Part Of Speech) 태깅 시 확률적 정보만 이용하여 특정 단어가 다 품사인 경우 그 단어에 대해 특정 품사만 태깅되는 문제점이 발생한다. 또한 중국어 및 외국어 인명 및 지명에 대한 미등록들에 대해서도 올바른 결과를 도출하지 못한다. 사전에 있어서 텍스트 기반으로 존재하여 이를 관리하기에 힘이 든다. 본 논문에서는 단어 분리 오류 및 품사 태깅 오류를 해결하기 위해 중국어 태깅 제약 규칙을 적용하는 방법을 제시하고 중국어 및 외국어 인명/지명에 대한 미등록어 처리방법을 제시한다. 또한 중국어 사전 관리에 대해 알아본다.

  • PDF