• Title/Summary/Keyword: Patent Machine Translation

Search Result 9, Processing Time 0.027 seconds

Customizing an English-Korean Machine Translation System for Patent Translation

  • Choi, Sung-Kwon;Kim, Young-Gil
    • Proceedings of the Korean Society for Language and Information Conference
    • /
    • 2007.11a
    • /
    • pp.105-114
    • /
    • 2007
  • This paper addresses a method for customizing an English-to-Korean machine translation system from general domain to patent domain. The customizing method consists of following steps: 1) linguistically studying about characteristics of patent documents, 2) extracting unknown words from large patent documents and constructing large bilingual terminology, 3) extracting and constructing the patent-specific translation patterns 4) customizing the translation engine modules of the existing general MT system according to linguistic study about characteristics of patent documents, and 5) evaluating the accuracy of translation modules and the translation quality. This research was performed under the auspices of the MIC (Ministry of Information and Communication) of Korean government during 2005-2006. The translation accuracy of the customized English-Korean patent translation system is 82.43% on the average in 5 patent fields (machinery, electronics, chemistry, medicine and computer) according to the evaluation of 7 professional human translators. In 2006, the patent MT system started an on-line patent MT service in IPAC (International Patent Assistance Center) under MOCIE (Ministry of Commerce, Industry and Energy) in Korea. In 2007, KIPO (Korean Intellectual Property Office) tries to launch an English-Korean patent MT service.

  • PDF

Construction of English-Korean Automatic Translation System for Patent Documents Based on Domain Customizing Method (도메인 특화 방법에 의한 영한 특허 자동 번역 시스템의 구축)

  • Choi, Sung-Kwon;Kwon, Oh-Woog;Lee, Ki-Young;Roh, Yoon-Hyung;Park, Sang-Kyu
    • Journal of KIISE:Software and Applications
    • /
    • v.34 no.2
    • /
    • pp.95-103
    • /
    • 2007
  • This paper describes an English-to-Korean automatic translation system for patent documents which is constructed by a method customizing from a general domain to a specific domain. The customizing method consists of following steps: 1) linguistically studying about characteristics of patent documents, 2) extracting unknown words from large patent documents and terminologically constructing, 3) customizing the target language words of existing terms, 4) extracting and constructing patent translation patterns peculiar to patent documents, 5) customizing existing translation engine modules according to linguistic study about characteristics of patent documents, 6) evaluation of automatic translation results. The English-to-Korean patent machine translation system implemented by these customization steps shows a translation accuracy of 81.03% and is improving.

KoRIBES : A Study on the Problems of RIBES in Automatic Evaluation English-Korean Patent Machine Translation (특허 기계 번역에 대한 RIBES 한국어 자동평가 문제에 대한 고찰)

  • Jang, Hyeon-Jin;Jang, Moon-Seok;Noh, Han-Sung
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.543-547
    • /
    • 2020
  • 자연어 처리에서 기계번역은 가장 많이 사용되고 빠르게 발전하고 있다. 기계번역에 있어서 사람의 평가가 가장 정확하고 중요하지만 많은 시간과 비용이 발생된다. 이에 기계번역을 자동 평가하는 방법들이 많이 제안되어 사용되고 있지만, 한국어 특성을 잘 반영한 자동평가 방법은 연구되지 않고 있다. BLEU와 같은 자동평가 방법을 많이 사용하고 있지만 언어의 특성 차이로 인해 원하는 평가결과를 얻지 못하는 경우가 발생하며, 특히 특허나 논문과 같은 기술문서의 번역에서는 더 많이 발생한다. 이에 본 논문에서는 단어의 정밀도와 어순이 평가에 영향이 있는 RIBES를 가지고 특허 기계 번역에서 영어→한국어로 기계 번역된 결과물의 자동평가에 대해 사람의 평가와 유사한 결과를 얻기 위해 tokenization 과정에서 복합 형태소 분리를 통한 평가방법을 제안하고자 한다.

  • PDF

Clustering-based Statistical Machine Translation Using Syntactic Structure and Word Similarity (문장구조 유사도와 단어 유사도를 이용한 클러스터링 기반의 통계기계번역)

  • Kim, Han-Kyong;Na, Hwi-Dong;Li, Jin-Ji;Lee, Jong-Hyeok
    • Journal of KIISE:Software and Applications
    • /
    • v.37 no.4
    • /
    • pp.297-304
    • /
    • 2010
  • Clustering method which based on sentence type or document genre is a technique used to improve translation quality of SMT(statistical machine translation) by domain-specific translation. But there is no previous research using sentence type and document genre information simultaneously. In this paper, we suggest an integrated clustering method that classifying sentence type by syntactic structure similarity and document genre by word similarity information. We interpolated domain-specific models from clusters with general models to improve translation quality of SMT system. Kernel function and cosine measures are applied to calculate structural similarity and word similarity. With these similarities, we used machine learning algorithms similar to K-means to clustering. In Japanese-English patent translation corpus, we got 2.5% point relative improvements of translation quality at optimal case.

Patent Tokenizer: a research on the optimization of tokenize for the Patent sentence using the Morphemes and SentencePiece (Patent Tokenizer: 형태소와 SentencePiece를 활용한 특허문장 토크나이즈 최적화 연구)

  • Park, Jinwoo;Min, Jae-Ok;Sim, Woo-Chul;Noh, Han-Sung
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.441-445
    • /
    • 2020
  • 토큰화(Tokenization)는 사람이 작성한 자연어 문장을 기계가 잘 이해할 수 있도록 최소 단위인 토큰으로 분리하는 작업을 말하여, 이러한 토큰화는 자연어처리 전반적인 태스크들의 전처리에 필수적으로 사용되고 있다. 최근 자연어처리 분야에서 높은 성능을 보이며, 다양한 딥러닝 모델에 많이 활용되고 있는 SentencePiece 토큰화는 여러 단어에서 공통적으로 출현하는 부분단어들을 기준으로, BPE 알고리즘을 이용하여 문장을 압축 표현하는 토큰화 방법이다. 본 논문에서는 한국어 기반 특허 문헌의 초록 자연어 데이터를 기반으로 SentencePiece를 비롯한 여러 토큰화 방법에 대하여 소개하며, 해당 방법을 응용한 기계번역 (Neural Machine Translation) 태스크를 수행하고, 토큰화 방법별 비교 평가를 통해 특허 분야 자연어 데이터에 최적화된 토큰화 방법을 제안한다. 그리고 본 논문에서 제안한 방법을 사용하여 특허 초록 한-영 기계번역 태스크에서 성능이 향상됨을 보였다.

  • PDF

A Study on the Performance Analysis of Entity Name Recognition Techniques Using Korean Patent Literature

  • Gim, Jangwon
    • Journal of Advanced Information Technology and Convergence
    • /
    • v.10 no.2
    • /
    • pp.139-151
    • /
    • 2020
  • Entity name recognition is a part of information extraction that extracts entity names from documents and classifies the types of extracted entity names. Entity name recognition technologies are widely used in natural language processing, such as information retrieval, machine translation, and query response systems. Various deep learning-based models exist to improve entity name recognition performance, but studies that compared and analyzed these models on Korean data are insufficient. In this paper, we compare and analyze the performance of CRF, LSTM-CRF, BiLSTM-CRF, and BERT, which are actively used to identify entity names using Korean data. Also, we compare and evaluate whether embedding models, which are variously used in recent natural language processing tasks, can affect the entity name recognition model's performance improvement. As a result of experiments on patent data and Korean corpus, it was confirmed that the BiLSTM-CRF using FastText method showed the highest performance.

Processing '~n.ket.un' in Machine Translation: A Case Study of Patent Documents (한영자동번역에서의 '~ㄴ것은'의 처리: 특허문서를 중심으로)

  • Lee, Yong-Hun;Lee, Suk-Eui;Ryu, Byong-Rae
    • Annual Conference on Human and Language Technology
    • /
    • 2005.10a
    • /
    • pp.77-88
    • /
    • 2005
  • 한영자동번역에서 '~ㄴ것은'을 포함하는 문장들은 영어로 번역하기가 용이하지 않을 뿐만 아니라 번역할 때에 많은 오류들을 야기시킨다. 이것은 이러한 문장들이 한국어 원문에 '것'과 같은 의존명사를 포함하고 있기 때문인데, 이러한 의존명사들이 한영자동번역을 어렵게 만들고 있다. 본 논문에서는 '~ㄴ것은'을 포함하는 문장들을 한영자동번역에서 처리할 수 있는 방법을 제시하고자 한다. 자동번역에는 여러 방식이 있지만, 본 논문에서는 패턴기반 자동번역의 방식을 취한다. 따라서 본 논문에서는 '${\sim}$ㄴ것은'에 대한 한영대역패턴을 어떠한 방식으로 구축하며, 또 구축된 패턴들이 어떻게 한영자동번역에 활용되는 지를 살펴볼 것이다.

  • PDF

Domain Adaptation Method for LHMM-based English Part-of-Speech Tagger (LHMM기반 영어 형태소 품사 태거의 도메인 적응 방법)

  • Kwon, Oh-Woog;Kim, Young-Gil
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.16 no.10
    • /
    • pp.1000-1004
    • /
    • 2010
  • A large number of current language processing systems use a part-of-speech tagger for preprocessing. Most language processing systems required a tagger with the highest possible accuracy. Specially, the use of domain-specific advantages has become a hot issue in machine translation community to improve the translation quality. This paper addresses a method for customizing an HMM or LHMM based English tagger from general domain to specific domain. The proposed method is to semi-automatically customize the output and transition probabilities of HMM or LHMM using domain-specific raw corpus. Through the experiments customizing to Patent domain, our LHMM tagger adapted by the proposed method shows the word tagging accuracy of 98.87% and the sentence tagging accuracy of 78.5%. Also, compared with the general tagger, our tagger improved the word tagging accuracy of 2.24% (ERR: 66.4%) and the sentence tagging accuracy of 41.0% (ERR: 65.6%).

Development of Machine Translation Technology Customized at Restricted Domain - Focusing on English-Korean Patent Translator - (제한된 도메인에 특화된 기계번역 기술 개발 - 특허 전문 영한 번역기를 중심으로 -)

  • Choi, Sung-Kwon;Park, Eun-Jin;Kim, Young-Kil
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.05a
    • /
    • pp.687-689
    • /
    • 2007
  • 본 논문은 2005 년부터 2006 년도까지 정보통신부의 지원 하에 한국전자통신연구원 언어처리연구팀에서 성공적으로 개발하여 현재 산업자원부 특허지원센터에서 대용량의 영어 특허문서를 대상으로 한국어 자동번역 서비스를 제공하고 있는 특허 전문 영한 번역기에 대해 기술한다. 특히 본 논문에서는 일반 도메인을 대상으로 한 기존의 영한 번역기를 제한된 도메인을 대상으로 한 영한번역기로 개량하고자 할 때, 개량하는 방법으로써 제한된 도메인에 대한 특화 절차에 대해서 기술한다. 이와 같이 특화 절차에 따라 구축된 특허 전문 영한 번역기 번역률을 특허 분야 중에 주요 5개 분야(기계, 전기전자, 화학일반, 의료위생, 컴퓨터)에 대해 특허전문번역가가 평가한 결과, 평균 82.43%가 나왔다. 또한 전기전자 분야 특허문서를 대상으로 특허 전문 영한 번역기와 일반 도메인을 대상으로 한 영한 번역기와의 번역률을 평가한 결과, 특허 전문 영한 번역기는 82.20%, 일반 도메인 대상 영한 번역기는 54.25%의 번역률을 내어, 특허에 특화된 특허 전문 영한 번역기가 특화되지 않은 일반 도메인의 영한 번역기에 비해 27.95%나 더 높은 결과를 알 수 있었다.

  • PDF