• 제목/요약/키워드: 영한 기계번역

검색결과 51건 처리시간 0.036초

제한된 도메인에 특화된 기계번역 기술 개발 - 특허 전문 영한 번역기를 중심으로 - (Development of Machine Translation Technology Customized at Restricted Domain - Focusing on English-Korean Patent Translator -)

  • 최승권;박은진;김영길
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 춘계학술발표대회
    • /
    • pp.687-689
    • /
    • 2007
  • 본 논문은 2005 년부터 2006 년도까지 정보통신부의 지원 하에 한국전자통신연구원 언어처리연구팀에서 성공적으로 개발하여 현재 산업자원부 특허지원센터에서 대용량의 영어 특허문서를 대상으로 한국어 자동번역 서비스를 제공하고 있는 특허 전문 영한 번역기에 대해 기술한다. 특히 본 논문에서는 일반 도메인을 대상으로 한 기존의 영한 번역기를 제한된 도메인을 대상으로 한 영한번역기로 개량하고자 할 때, 개량하는 방법으로써 제한된 도메인에 대한 특화 절차에 대해서 기술한다. 이와 같이 특화 절차에 따라 구축된 특허 전문 영한 번역기 번역률을 특허 분야 중에 주요 5개 분야(기계, 전기전자, 화학일반, 의료위생, 컴퓨터)에 대해 특허전문번역가가 평가한 결과, 평균 82.43%가 나왔다. 또한 전기전자 분야 특허문서를 대상으로 특허 전문 영한 번역기와 일반 도메인을 대상으로 한 영한 번역기와의 번역률을 평가한 결과, 특허 전문 영한 번역기는 82.20%, 일반 도메인 대상 영한 번역기는 54.25%의 번역률을 내어, 특허에 특화된 특허 전문 영한 번역기가 특화되지 않은 일반 도메인의 영한 번역기에 비해 27.95%나 더 높은 결과를 알 수 있었다.

  • PDF

영한 자동번역에서의 한국어 분류사의 반자동 구축 방법 (Semi-Automatic Building of Korean Classifiers in English-Korean MT)

  • 이기영;최승권;김영길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.135-139
    • /
    • 2008
  • 본 논문은 영한 기계번역에서 영어 수사가 포함된 영어 명사구를 한국어로 번역할 때, 영어 명사에 대응되는 한국어 명사의 적절한 분류사를 반자동으로 구축하는 방법에 대해 기술한다. 영한 번역의 측면에서, 분류사는 목표언어인 한국어에서만 나타나는 현상이다. 따라서 영어를 한국어로 번역할 때, 적절한 분류사를 생성하지 않으면 한국어 어법에 맞지 않는 부자연스러운 번역 결과를 생성한다. 본 논문에서는 한국어 태그드 코퍼스와 한국어 의미코드 체계에 따라 한국어 분류사를 반자동으로 구축하는 방법을 제안한다. 제안하는 방법에 따라 한국어 명사에 대해서 한국어 분류사가 구축되었으며, 이렇게 구축된 분류사는 영한 기계번역시스템의 번역 사전에 'KCOUNT'라는 자질을 할당하여 부가하였다. 제안하는 방법의 검증을 위해 수동평가와 자동평가를 수행하였으며, 그 결과, 영한 기계번역의 문장 생성에 있어서 자연스러움(fluency)의 측면에서 번역률 향상이 있었다.

  • PDF

영한 기계번역 시스템의 개선을 지원하는 영어 구문 규칙 관리 도구 (English Syntactic Rule Management Tool for Improving English-Korean Machine Translation System)

  • 김성동;김창희;김태완
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2013년도 제25회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.99-101
    • /
    • 2013
  • 규칙 기반의 영한 기계번역을 위해서는 많은 영어 구문 규칙을 구축하고 관리해야 하는데, 이는 매우 많은 노력과 시간을 요구한다. 이 문제에 대한 해결방안으로 본 논문에서는 영어 구문 규칙의 효율적인 관리를 도와주는 도구를 제안한다. 영한 기계번역 시스템의 성능 개선 과정에서 영어 구문 규칙의 검색과 수정이 빈번하게 이루어지는데, 이러한 작업을 쉽게 할 수 있도록 제안하는 도구는 다양한 키를 이용한 규칙 검색과 규칙 수정 기능을 제공한다. 제안하는 도구는 영어 구문 규칙을 관리하는데 필요한 사람의 노력을 줄여 지속적인 영한 기계번역 시스템의 성능 개선 과정을 보다 손쉽게 할 수 있게 할 것이다.

  • PDF

영한 기계번역 시스템의 영한 변환사전 확장 도구 (English-Korean Transfer Dictionary Extension Tool in English-Korean Machine Translation System)

  • 김성동
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권1호
    • /
    • pp.35-42
    • /
    • 2013
  • 영한 기계번역 시스템을 개발하기 위해서는 언어에 대한 다양한 정보를 필요로 하며, 특히 영어 단어에 대한 의미 정보를 포함하는 영한 변환사전의 풍부한 정보량은 번역품질에 중요한 요소이다. 지속적으로 생성되는 새로운 단어들은 사전에 등록되어 있지 않아 번역문에 영어 단어가 그대로 출력되어 번역품질을 저하시킨다. 또한 복합명사는 어휘분석, 구문분석을 복잡하게 하고 사전에 의미가 등록되지 않은 경우가 많아 올바르게 번역하기 어렵다. 따라서 영한 기계번역의 번역품질 향상을 위해서는 사전에 등록되어 있지 않은 단어들과 자주 사용되는 복합명사들을 수집하고 의미 정보를 추가하여 영한 변환사전을 지속적으로 확장하는 것이 필요하다. 본 논문에서는 인터넷 신문기사로부터 말뭉치를 추출하고, 사전 미등록 단어와 자주 나타나는 복합명사를 찾은 후, 이들에 대해 의미를 부착하여 영한 변환사전에 추가하는 일련의 과정으로 구성되는 영한 변환사전의 확장 방안을 제안하고 이를 지원하는 도구를 개발하였다. 사전 정보의 확대는 많은 사람의 노력을 필요로 하는 일이지만, 영한 기계번역 시스템의 개선을 위해서는 필수적이다. 본 논문에서 개발한 도구는 사람의 노력을 최소화 하면서, 영한 변환사전의 정보량 지속적인 확대를 위해 유용하게 활용되어 영한 기계번역 시스템의 번역품질 개선에 기여할 것으로 기대된다.

영한 기계번역을 위한 영어 복합명사 자동 수집 (Automatic Collection of English Composition Nouns for English-Korean Machine Translation)

  • 조재호;김성동
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 추계학술발표대회
    • /
    • pp.407-410
    • /
    • 2011
  • 영한 기계번역에서 복합명사는 어휘분석, 구문분석을 복잡하게 하고 사전에 의미가 등록되어 있지 않을 경우에는 올바르게 번역하기 어렵다. 또한 복합명사는 계속하여 새로 나타나고 있어, 정확하고 자연스러운 번역을 위해서는 복합명사를 독립적으로 처리하는 모듈이 필요하다. 본 논문에서는 복합명사를 구성하지 못하는 불용어를 파악하고 빈도수를 이용하여 복합명사를 자동으로 수집하는 방법을 제안한다. 문서를 번역하기 전에 복합명사를 파악하면, 복합명사에 대한 정보를 활용하여 어휘분석과 구문분석의 복잡도를 줄이고 복합명사를 포함한 문장을 보다 자연스럽게 번역할 수 있어 영한 기계번역 시스템의 성능 개선에 기여할 것이다.

영한 번역기의 상용화를 위한 도메인 특화 방법의 진화 (Evolution of Customization Method for Commercialization of an English-Korean MT System)

  • 최승권;이기영;노윤형;권오욱;김영길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2011년도 제23회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.72-76
    • /
    • 2011
  • 본 논문은 한국전자통신연구원 언어처리연구팀에서 2004년까지 개발하였던 웹문서 자동번역 시스템을 2006년부터 매년 도메인별로 상용화에 성공한 사례를 기술한 것이다. 상용화가 가능하였던 주요 요인 중 하나인 도메인 특화 방법을 소개하며 이 도메인 특화 방법이 시기별로 개선되어 진화되는 모습을 기술한다. 즉 2004년의 웹문서 영한 자동번역기를 2006년에 특허문서 영한 자동번역기로 특화할 때 사용한 도메인 특화 방법이 '초기 도메인 특화 방법'이라 할 수 있는데, 이 초기의 도메인 특화 방법에 번역지식 및 번역엔진 모듈의 반자동 튜닝 방법과 자동화된 평가 방법을 추가하여 2007년에 '개선된 도메인 특화 방법'을 개발하였다. 이 '개선된 도메인 특화 방법'은 2007년에 특허문서 영한 자동번역기를 기술논문 영한 자동번역기로, 2008년에 기술논문 영한 자동번역기를 IT웹신문 영한 자동번역기로, 2009년에 IT 웹신문 영한 자동번역기를 전자우편 및 기업문서 영한 자동번역기로, 그리고 2010년에 전자우편 영한 자동번역기를 메신저 영한 자동번역기로 구현할 때 사용하였으며 그 효과는 신규 도메인용 영한 번역기를 개발하는 기간을 점차적으로 줄이게 하였으며 구현 프로세스에 일관성을 제공하였다.

  • PDF

영어 말뭉치 구축을 위한 인터넷 영어 신문기사 추출 도구 (Internet English Newspaper Article Extraction Tool for English Corpus Construction)

  • 김성동;엄재영;송철민
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.154-156
    • /
    • 2012
  • 영한 기계번역 시스템의 개발을 위해서는 여러 가지 사전이 필요하고, 다앙한 모호성 해소를 위한 연구를 위한 데이터가 필요하며, 번역 시스템의 테스트를 위해 많은 영어 문장이 필요하다. 따라서 영어 말뭉치를 구축하여 이로부터 사전에 필요한 정보, 모호성 해소 연구에 필요한 데이터, 번역 테스트를 위한 문장 등을 추출할 필요가 있다. 본 논문에서는 영어 말뭉치를 구축하기 위해 인터넷 영어 신문 사이트로부터 영어로 작성된 신문기사를 추출하는 도구를 개발하였다. 이를 통해 자동적으로 영어 신문기사를 추출하여 말뭉치를 구축할 수 있으며, 이를 통해 영한 기계번역 시스템의 성능 향상을 지원할 수 있다.

  • PDF

영한 번역의 언어학적 평가 모델 연구 - 기계번역을 중심으로 - (A Linguistic Evaluation of English-to-Korean Translation - Centered on Machine Translation -)

  • 김덕봉;조병은;김명철;권용현
    • 인지과학
    • /
    • 제12권4호
    • /
    • pp.11-27
    • /
    • 2001
  • 기계번역 품질 평가는 중대한 문제이다. 기계번역의 품질이 사용자 요구와 거리가 상당히 있는 현재의 상황에서 기계번역 시스템의 객관적 평가는 기계번역 소프트웨어 사용자와 판매자 간의 신뢰를 구축하고 개발자들 간에 생산적인 경쟁관계를 조성하게 하여 결과적으로 기계번역 품질의 고급화를 지속적으로 유도하는 역할을 할 것이다. 이를 위해서는 특히 언어학적 측면과 자료처리 측면에서 개선이 계속되고 있는지를 확인할 수 있도록 기계번역 시스템의 품질을 평가할 수 있는 연구가 있어야 한다. 본 논문에서는 이런 정들을 고려해 넣은 영한 기계번역의 언어학적 평가 방법을 제시하고 이를 몇 개의 상용 기계번역 시스템을 대상으로 실험하여 실험결과를 보고한다. 이 방법은 기본적으로 언어현상과 학습수준으로 분류된 3.373 영어 문장으로 구성된 평가자료에 기반하고 있다.

  • PDF

한국어와 영어의 명사구 기계 번역 (Korea-English Noun Phrase Machine Translation)

  • 조희영;서형원;김재훈;양성일
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2006년도 제18회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.273-278
    • /
    • 2006
  • 이 논문에서 통계기반의 정렬기법을 이용한 한영/영한 양방향 명사구 기계번역 시스템을 설계하고 구현한다. 정렬기법을 이용한 기계번역 시스템을 구축하기 위해서는 않은 양의 병렬말뭉치(Corpus)가 필요하다. 이 논문에서는 병렬 말뭉치를 구축하기 위해서 웹으로부터 한영 대역쌍을 수집하였으며 수집된 병렬 말뭉치와 단어 정렬 도구인 GIZA++ 그리고 번역기(decoder)인 PARAOH(Koehn, 2004), RAMSES(Patry et al., 2002), MARIE(Crego et at., 2005)를 사용하여 한영/영한 양방향 명사구 번역 시스템을 구현하였다. 약 4만 개의 명사구 병렬 말뭉치를 학습 말뭉치와 평가 말뭉치로 분리하여 구현된 시스템을 평가하였다. 그 결과 한영/영한 모두 약 37% BLEU를 보였으나, 영한 번역의 성공도가 좀더 높았다. 앞으로 좀더 많은 양의 병렬 말뭉치를 구축하여 시스템의 성능을 향상시켜야 할 것이며, 지속적으로 병렬 말뭉치를 구축할 수 있는 텍스트 마이닝 기법이 개발되어야 할 것이다. 무엇보다도 한국어 특성에 적합한 단어 정렬 모델이 연구되어야 할 것이다. 또한 개발된 시스템을 다국어 정보검색 시스템에 직접 적용해서 그 효용성을 평가해보아야 할 것이다.

  • PDF

규칙 기반 영한 기계번역에서의 구문 규칙 컴파일러 (Syntactic Rule Compiler in Rule-based English-Korean Machine Translation)

  • 김성동
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1315-1317
    • /
    • 2013
  • 규칙 기반의 영한 기계번역 시스템의 구문 분석 시스템은 영어의 구문 구조를 기술하는 규칙 부분과 규칙을 적용하여 차트 파싱을 수행하는 실행 부분으로 구성된다. 구문 규칙은 문맥 자유 문법의 형식으로 기술되는데, 기술된 구문 규칙을 적용하여 파싱을 실행하는 실행 부분은 C 언어 함수로 표현되므로, 구문 규칙을 C 언어 함수로 변환해야 한다. 본 논문에서는 문맥 자유 문법 형식으로 기술된 구문 규칙을 C 언어 함수로 변환하는 도구인 구문 규칙 컴파일러를 개발하였다. 구문 규칙 컴파일러는 자동적으로 구문 규칙을 C 언어 함수로 변환함으로써 영한 기계번역 시스템의 성능 개선 과정에서 빈번하게 발생하는 구문 규칙의 생성과 수정을 용이하게 하여 번역 성능을 개선하는 작업을 지원한다.