DOI QR코드

DOI QR Code

An Automatic Extraction of English-Korean Bilingual Terms by Using Word-level Presumptive Alignment

단어 단위의 추정 정렬을 통한 영-한 대역어의 자동 추출

  • 이공주 (충남대학교 정보통신공학과)
  • Received : 2012.12.05
  • Accepted : 2013.03.05
  • Published : 2013.06.30

Abstract

A set of bilingual terms is one of the most important factors in building language-related applications such as a machine translation system and a cross-lingual information system. In this paper, we introduce a new approach that automatically extracts candidates of English-Korean bilingual terms by using a bilingual parallel corpus and a basic English-Korean lexicon. This approach can be useful even though the size of the parallel corpus is small. A sentence alignment is achieved first for the document-level parallel corpus. We can align words between a pair of aligned sentences by referencing a basic bilingual lexicon. For unaligned words between a pair of aligned sentences, several assumptions are applied in order to align bilingual term candidates of two languages. A location of a sentence, a relation between words, and linguistic information between two languages are examples of the assumptions. An experimental result shows approximately 71.7% accuracy for the English-Korean bilingual term candidates which are automatically extracted from 1,000 bilingual parallel corpus.

기계번역 시스템 구축에 가장 필수적인 요소는 번역하고자 하는 언어간의 단어쌍을 담고 있는 대역어 사전이다. 대역어 사전은 기계번역뿐만 아니라 서로 다른 언어간의 정보를 교환하는 모든 응용프로그램의 필수적인 지식원(knowledge source)이다. 본 연구에서는 문서 단위로 정렬된 병렬 코퍼스와 기본적인 대역어 사전을 이용하여 영-한 대역어를 자동으로 추출하는 방법에 대해 소개한다. 이 방법은 수집된 병렬 코퍼스의 크기에 영향을 받지 않는 방법이다. 문서 단위로 정렬된 병렬 코퍼스로부터 문장 단위의 정렬을 수행하고 다시 단어 단위의 정렬을 수행한 후, 정렬이 채 되지 않은 부분에 대해 추정 정렬을 수행한다. 추정 정렬에는 문장에서의 위치, 다른 단어와의 관계, 두 언어간의 언어적 정보등 다양한 정보가 사용된다. 이렇게 추정 정렬된 단어쌍으로부터 영-한 대역어를 추출할 수 있다. 약 1,000개로 구성된 병렬 코퍼스로부터 추출한 영-한 대역어는 71.7%의 정확도를 얻을 수 있었다.

Keywords

References

  1. Elena Irimia "Experimenting with Extracting Lexical Dictionaries from Comparable Corpora for English-Romanian language pair", in LREC2012 Workshop, 2012.
  2. Arul Menezes and Stephen D. Richardson, "A best-first alignment algorithm for automatic extraction of transfer mappings from bilingual corpora," in DDMR Workshop, ACL, 2003.
  3. Marion Weller, Anita Gojun, Ulrich Heid, Beatrice Daille, Rima Harastani, "Simple methods for dealing with term variation and term alignment," in Proceedings of the 9th International Conference on Terminology and Artificial Intelligence, 2011.
  4. P. Koehn, "Statistical Machine Translation," Cambridge University Press, 2010.
  5. Beatrice Daille "Building bilingual terminologies from comparable corpora: The TTC TermSuite." in LREC 2012 Workshop, 29-32, 2012.
  6. Pascale Fung and Percy Cheung, Mining "Very-Non-Parallel Corpora: Parallel Sentence and Lexicon Extraction via Bootstrapping and EM," in Proceedings of EMNLP, 2004.
  7. Paola Carrion Gonzalez and E. Cartier, "Technological tools for dictionary and corpora building for minority languages: example of the French-based Creoles," in Proceedings of Workshop on Language Technology for Normalisation of Less-Resourced Languages, 2012.
  8. X. Ma, "Champollion: A Robust Parallel Text Sentence Aligner," in Proceedings of LREC, 2006.
  9. Sejoong Project 21, http://www.sejong.or.kr/

Cited by

  1. An Automatic Maximum Word Alignment of Parallel Corpus for ESL Learners vol.106, 2013, https://doi.org/10.1016/j.sbspro.2013.12.043