• Title/Summary/Keyword: 대역어

Search Result 103, Processing Time 0.034 seconds

A Processing of Progressive Aspect "te-iru" in Japanese-Korean Machine Translation (일한기계번역에서 진행형 "ている"의 번역처리)

  • Kim, Jeong-In;Mun, Gyeong-Hui;Lee, Jong-Hyeok
    • The KIPS Transactions:PartB
    • /
    • v.8B no.6
    • /
    • pp.685-692
    • /
    • 2001
  • This paper describes how to disambiguate the aspectual meaning of Japanese expression "-te iru" in Japanese-Korean machine translation Due to grammatical similarities of both languages, almost all Japanese- Korean MT systems have been developed under the direct MT strategy, in which the lexical disambiguation is essential to high-quality translation. Japanese has a progressive aspectual marker “-te iru" which is difficult to translate into Korean equivalents because in Korean there are two different progressive aspectual markers: "-ko issta" for "action progressive" and "-e issta" for "state progressive". Moreover, the aspectual system of both languages does not quite coincide with each other, so the Korean progressive aspect could not be determined by Japanese meaning of " te iru" alone. The progressive aspectural meaning may be parially determined by the meaning of predicates and also the semantic meaning of predicates may be partially reshicted by adverbials, so all Japanese predicates are classified into five classes : the 1nd verb is used only for "action progrssive",2nd verb generally for "action progressive" but occasionally for "state progressive", the 3rd verb only for "state progressive", the 4th verb generally for "state progressive", but occasIonally for "action progressive", and the 5th verb for the others. Some heuristic rules are defined for disambiguation of the 2nd and 4th verbs on the basis of adverbs and abverbial phrases. In an experimental evaluation using more than 15,000 sentances from "Asahi newspapers", the proposed method improved the translation quality by about 5%, which proves that it is effective in disambiguating "-te iru" for Japanese-Korean machine translation.translation quality by about 5%, which proves that it is effective in disambiguating "-te iru" for Japanese-Korean machine translation.anslation.

  • PDF

A Study of Automatic Extraction of Domain Specified Dictionary (병렬 말뭉치를 이용한 도메인 특화 사전 자동 추출 연구)

  • Park, Eun-Jin;Hwang, Kum-Ha;Kim, Young-Gil
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.237-241
    • /
    • 2009
  • 본 논문에서는 도메인별 병렬 말뭉치를 이용하여 해당 도메인에 특화된 한영 대역쌍을 Moses Toolkit을 이용하여 자동 추출하였다. 이렇게 추출된 대역쌍은 도메인 특화 자동 번역 시스템의 번역 사전으로 사용하기에는 많은 오류가 포함되어 있기 때문에, 본 논문에서는 이를 효율적으로 제거할 수 있는 식을 제안하였다. 본 논문에서 제안한 식으로 오류를 제거한 결과, 임계값 0.5를 기준으로 추출된 한영 대역쌍이 1,098개였고, 이는 실험에 사용한 기업 분야 병렬 말뭉치 42,200문장 중에서 29,292문장(69.4%)에 영향을 주었다. 자동으로 추출한 도메인 특화 번역 지식을 기존 자동 번역 시스템의 번역 지식에 적용한 결과 BLEU가 0.0054 향상되었다.

  • PDF

An Algorithm for extracting English-Korean Transliteration pairs using Automatic I-K Transliteration (자동 음차표기를 이용한 영-한 음차표기 대역쌍의 자동 추출)

  • 오종훈;배선미;최기선
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.928-930
    • /
    • 2004
  • 지금까지 기계번역과 교차언어 정보검색 등과 같은 자연언어응용에서 사용되는 번역지식을 자동으로 구축하는 연구가 활발히 진행되어 왔다. 번역지식을 자동으로 구축하는 연구는 대역사전에 등재되어 있지 않은 미등록어에 대한 대역정보를 문서에서 자동으로 획득하는 것을 목표로 한다. 최근에는 이러한 미등록어 중 음차표기 번역지식에 대한 연구가 활발히 진행되고 있다. 음차표기는 주로 영어 단어를 발음에 기반하여 비영어권의 언어로 표기하는 것을 의미한다. 음차표기된 단어들은 새로운 개념을 나타내는 신조어가 많기 때문에 사전에 등재되어 있지 않온 경우가 많다. 따라서 효과적인 번역지식 구축을 위해서는 이러한 음차표기 번역지식을 자동으로 획득하는 것은 매우 중요하다. 본 논문에서는 영-한 음차표기 대역쌍을 문서에서 자동으로 추출하는 알고리즘을 제안한다. 본 논문의 기법은 한국어 음차표기의 인식, 영-한 자동음차표기, 한국어 음차표기와 자동음차표기된 영어단어간의 음성적 유사도 비교를 통하여 음차표기 대역쌍을 추출한다. 본 논문의 기법은 약 93%의 정확률과 68%의 재현율을 나타내었다.

  • PDF

Use Patterns of Archival Terms and Directions for their Standardization (기록관리 용어 사용 실태 분석과 표준화 방안 연구)

  • Seol, Moon-Won
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.37 no.4
    • /
    • pp.241-268
    • /
    • 2003
  • The purpose of this study is to analyze use patterns of archival terms and suggests the directions for their standardization. This present paper begins with analyzing translation patterns of fundamental terminology in the area of records and archives management and compares with corresponding Chinese and Japanese words. And some problems of essential terms are discussed in the light of standardization criteria which are adjusted to archival terms. Based on these analyses, it suggests directions for standardizing archival terms.

Word Alignment Using Chinese-Korean Linguistic Contrastive Information (중-한 대조분석정보를 이용한 단어정렬)

  • Li, Jin-Ji;Kim, Dong-Il;Lee, Jong-Hyeok
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.40-46
    • /
    • 2002
  • 본 논문에서는 범용 병렬코퍼스에서도 적용할 수 있는 단어정렬의 방법을 제안한다. 단어 단위로 정렬된 병렬코퍼스는 자연언어처리의 다양한 분야에 도움을 준다. 예를 들면 변환기반의 기계번역에서 변환패턴의 구축, MWTU(Multi Word Translation Unit)의 자동추출, 사전 구축, 의미 중의성 해소 등 분야에 적용된다. 중한 병렬 코퍼스의 단어정렬은 서로 다른 어족간의 관계의 규명을 포함하고 있기 때문에 본 논문에서는 통계적인 모델보다 중한 대역어 사전, 단일어 시소러스, 품사정보 및 언어학적 대조분석 정보 등 기존에 있는 리소스를 이용하여 재현율과 정확률을 높이는 방법에 대해 제시한다. 성능 평가를 위해 중앙일보에서 임의로 추출한 500개 대응문장을 이용하여 실험한 결과 82.2%의 정확률과 64.8%의 재현율을 보였다.

  • PDF

Query Expansion Using Thesaurus for Korean to Chinese Cross- Language Text Retrieval (한.중 교차언어 검색에서 시소러스를 이용한 질의 확장)

  • Jin, Feng;Kang, In-Su;Lee, Jong-Hyeok
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10a
    • /
    • pp.538-540
    • /
    • 2003
  • 본 논문은 한.중 교차언어 검색을 위한 효과적인 질의 확장에 대해 기술하고 있다. 한.중 교차언어 검색은 한국어 질의로 중국어 문서를 검색하는 것이고 본 논문에서는 대역어 사전을 이용하여 한국어 질의를 중국어 질의로 변환하는 방식을 사용한다. 질의 확장을 위한 방법으로 중국어 시소러스인“동의사사림”을 사용하였다. 그리고 동의어들과 주변 단어간의 상호 정보를 비교함으로서 재현률과 정확률을 높였다. 실험을 통하여 검증한 결과 사전만 사용하여 변환하는 방법에 비하여 검색 성능이 향상되었다.

  • PDF

FKT-DynaDic of Translation Assistance FK-Tranassis (번역 도우미 FK-Tranassis의 FKT-DynaDic 사전)

  • Choi, Min-Ok;Seo, Lai-Won
    • Annual Conference of KIPS
    • /
    • 2003.05a
    • /
    • pp.509-512
    • /
    • 2003
  • 본 논문은 다국어 번역기술의 일환으로 Nlip의 불어 형태소 분석기를 기반으로 한 불-한 번역 도우미 FK-Tranassis의 구성에 대하여 설명하고 불-한 번역 도우미 FK- Tranassis 에서 제공되는 FKT_DynaDic 사전의 논리적 구조에 대하여 설명하여 FKT_DynaDic 사전에서 번역가의 성향에 맞는 대역어를 제공해주는 방법에 대하여 설명하고자 한다.

  • PDF

Knowledge-poor Term Translation using Common Base Axis with application to Korean-English Cross-Language Information Retrieval (과도한 지식을 요구하지 않는 공통기반축에 의한 용어 번역과 한영 교차정보검색에의 응용)

  • 최용석;최기선
    • Korean Journal of Cognitive Science
    • /
    • v.14 no.1
    • /
    • pp.29-40
    • /
    • 2003
  • Cross-Language Information Retrieval (CLIR) deals with the documents in various languages by one language query. A user who uses one language can retrieve the documents in another language through CLIR system. In CLIR, query translation method is known to be more efficient. For the better performance of query translation, we need more resources like dictionary, ontology, and parallel/comparable corpus but usually not available. This paper proposes a new concept called the Common Base Axis which is adapted to Korean-English Query translation ann a new weighting method in dictionary based query translation. The essential idea is that we can express Korean and English word in one vector space by Common Base Axis and use it in calculating sense distance for query weighting. The experiments show that Common Base Axis gives us good performance without ontology and is especially good for one word query translation.

  • PDF

Construction of English-Korean Automatic Translation System for Patent Documents Based on Domain Customizing Method (도메인 특화 방법에 의한 영한 특허 자동 번역 시스템의 구축)

  • Choi, Sung-Kwon;Kwon, Oh-Woog;Lee, Ki-Young;Roh, Yoon-Hyung;Park, Sang-Kyu
    • Journal of KIISE:Software and Applications
    • /
    • v.34 no.2
    • /
    • pp.95-103
    • /
    • 2007
  • This paper describes an English-to-Korean automatic translation system for patent documents which is constructed by a method customizing from a general domain to a specific domain. The customizing method consists of following steps: 1) linguistically studying about characteristics of patent documents, 2) extracting unknown words from large patent documents and terminologically constructing, 3) customizing the target language words of existing terms, 4) extracting and constructing patent translation patterns peculiar to patent documents, 5) customizing existing translation engine modules according to linguistic study about characteristics of patent documents, 6) evaluation of automatic translation results. The English-to-Korean patent machine translation system implemented by these customization steps shows a translation accuracy of 81.03% and is improving.

Method Customizing From Web-based English-Korean MT System To English-Korean MT System for Patent Documents (웹 영한 번역기로부터 특허 영한 번역기로의 특화 방법)

  • Choi, Sung-Kwon;Kwon, Oh-Woog;Lee, Ki-Young;Roh, Yoon-Hyung;Park, Sang-Kyu
    • Annual Conference on Human and Language Technology
    • /
    • 2006.10e
    • /
    • pp.57-64
    • /
    • 2006
  • 본 논문에서는 웹과 같은 일반적인 도메인의 영한 자동 번역기를 특허용 영한 자동번역기로 특화하는 방법에 대해 기술한다. 특허용 영한 파동번역기로의 특화는 다음과 같은 절차에 의해 이루어진다: 1) 대용량 특허 문서에 대한 언어학적 특성 분석, 2) 대용량 특허문서 대상 전문용어 추출 및 대역어 구축, 3) 기존 번역사전 대역어의 특화, 4) 특허문서 고유의 번역 패턴 추출 및 구축, 5) 언어학적 특성 분석에 따른 번역 엔진 모듈의 특화 및 개선, 6) 특화된 번역 지식 및 번역 엔진 모듈에 따른 번역률 평가. 이와 같은 절차에 의해 만들어진 특허 영한 자동 번역기는 특허 전문번역가의 평가에 의해 전분야 평균 81.03%의 번역률을 내었으며, 분야별로는 기계분야(80.54%), 전기전자분야(81.58%), 화학일반분야(79.92%), 의료위생분야(80.79%), 컴퓨터분야(82.29%)의 성능을 보였으며 계속 개선 중에 있다. 현재 본 논문에서 기술된 영한 특허 자동번역 시스템은 산업자원부의 특허지원센터에서 변리사 및 특허 심사관이 영어 전기전자분야 특허 문서를 검색할 때 한국어 번역서비스를 제공받도록 이용되고 있으며($\underline{http://www.ipac.or.kr}$), 2007년에는 전분야 특허문서에 대한 영한 자동번역 서비스를 제공할 예정이다.

  • PDF