An Alignment Model for Extracting English-Korean Translations of Term Constituents

영-한 조어단위 대역쌍 추출을 위한 조어단위 정렬 모델

  • 오종훈 (한국과학기술원 전산학과) ;
  • 황금하 (한국과학기술원 전산학과) ;
  • 최기선 (한국과학기술원 전산학과)
  • Published : 2005.04.01

Abstract

Terms are linguistic realization of technical concepts. Term constituents are important elements used for representing the concept. Since many new terms are created from the modification or combination of existing constituents, it is important to analyze term constituents for understanding the concept of the term. It means that term constituents offer clues for understanding the concept of terms. However, there are a couple of difficulties in matching concept unit and term constituents such as mismatching between a term constituent and a concept unit, homonym of term constituents and synonym of term constituents. To solve them, it is necessary to recognize concept units of term constituents. In this paper, we define an English term constituent as the concept unit and use an alignment algorithm between English-Korean term constituents in order to recognize concept units of term constituents. By our alignment algorithm we recognize Korean term constituents corresponding to an English term constituent with about $93\%$ precision.

전문용어는 전문분야의 개념을 표현하는 언어적 표현이다. 전문용어의 조어단위는 전문용어를 구성하는 최소의 형태적 단위이다. 따라서 조어단위는 전문용어의 의미를 파악하는데 중요한 요소이다. 하지만 조어단위를 이용한 전문용어의 의미파악은 ‘조어단위와 개념단위의 불일치 문제’, 조어 단위의 ‘동형이의어’, ‘동의어’문제 둥으로 인한 어려움이 있다. 이러한 문제를 해결하기 위해서는 하나의 개념을 나타내는 조어단위의 덩어리인 개념단위를 파악하는 작업이 선행되어야 한다. 본 논문에서는 영어의 조어단위를 하나의 개념단위로 정의하고 개념단위에 대응되는 한국어 조어단위의 집합을 개념단위로 인식한다. 개념단위의 파악과정은 영한 대역 전문용어사전에 대한 영어-한국어 조어단위 정렬문제로 해결하고자 한다. 본 논문의 기법은 물리, 화학, 생물 분야에 대한 조어정렬 실험을 수행하였으며, 평균 약 $93\%$의 정확률로 조어단위 간의 정렬을 수행하였다

Keywords

References

  1. Sager, J.C. 'Section 1.2.1 Term formation,' in Handbook of terminology management Vol.1, John Benjamins publishing company, 1997
  2. 조은경, 서상규, '전문용어연구를 위한 복합용어 분석의 단위', 제 3회 전문용어언어공학심포지움, 2000
  3. 조은경, 서상규, '전문용어의 조어 분석을 통한 개념 분석', 제4회 전문용어언어공학심포지엄, 2001
  4. 서충원, 배선미, 최기선, '조어법 정보를 이용한 전문용어의 영/한 번역 시스템 개발', 제31회 정보과학회 춘계학술대회, 2004
  5. 금성출판사, '금성판 뉴에이스 영-한 사전 제2판', 금성출판사, 1990
  6. Brown P.F., V.S.A. Della Petra, V.J. Della Pietra and R.L. Mercer, 'The mathematics of statistical machine translation: parameter estimation,' Computational Linguistics, Vol. 19 No 2, pp 263-311, 1993
  7. Dagan, I., K. Church and W. Gale, 'Robust bilingual word alignment for machine aided translation,' In Proceedings of the workshop on Very Large Corpora. pp. 1-8, 1993
  8. Melamed I. Dan, Models of translational equivalence among words, Computational Linguistics, 26(2): 221-249, 2000 https://doi.org/10.1162/089120100561683
  9. Cherry Colin and Dekang Lin, 'A Probability Model to Improve Word Alignment,' In Proceedings of 41st Annual Meeting of the Association for Computational Linguistics, 2003 https://doi.org/10.3115/1075096.1075108
  10. Och, F.J and Ney, H., 'Statistical Machine Translation: From Single Word Models to Alignment Templates,' PhD thesis, RWTH Aachen, Germany, 1999
  11. Marcu, D. and Wong, W., 'A phrase-based, joint probability model for statistical machine translation,' In Proceedings of the Conference on Empirical Methods in Natural Language Processing, 2002 https://doi.org/10.3115/1118693.1118711
  12. Koehn, P. and Knight, K, 'Empirical methods for compound splitting,' In proceedings of the Meeting of the European Chapter of the Association of Computational Linguistics, 2003 https://doi.org/10.3115/1067807.1067833
  13. Tilimann, C., 'a projection extension algorithm for statistical machine translation,' In Proceedings of Conference on Empirical Methods in Natural language Processing (EMNLP) , 2003 https://doi.org/10.3115/1119355.1119356
  14. Venugopal, A., Vogel, S., and Waibel, A., 'Effective phrase translation extraction from alignment models,' In proceedings of the 41st Annual Meeting of the Association of Computational Linguistics, 2003
  15. 문화부, '전문용어 표준화를 위한 기반 조성', http:// www.korterm.cr.kr/중 자료, 2000
  16. 이주호, 최기선, 이재성, '자동정렬을 통한 영한 복합어의 역어 추출', 제12회 한글 및 한국어 정보처리 학술발표 논문집, pp. 309-314., 2000
  17. Demster, A.P., Laird, N.M., and Rubin, D.B., Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society, Series B, 39(1) 1-38., 1977
  18. Manning, C.D. and H. Schutze, Foundations of statistical natural language processing, MIT Press, 1999
  19. Ney, H. Language Models, In Gibbon, D., Moore, R. & Winski, R. (eds) Handbook of Standards and Resources for Spoken Language Systems. Mouton de Gruyter., 1997