Knowledge-poor Term Translation using Common Base Axis with application to Korean-English Cross-Language Information Retrieval

과도한 지식을 요구하지 않는 공통기반축에 의한 용어 번역과 한영 교차정보검색에의 응용

  • 최용석 (한국과학기술원 전산학과 전문용어언어공학 연구센터) ;
  • 최기선 (한국과학기술원 전산학과 전문용어언어공학 연구센터)
  • Published : 2003.03.01

Abstract

Cross-Language Information Retrieval (CLIR) deals with the documents in various languages by one language query. A user who uses one language can retrieve the documents in another language through CLIR system. In CLIR, query translation method is known to be more efficient. For the better performance of query translation, we need more resources like dictionary, ontology, and parallel/comparable corpus but usually not available. This paper proposes a new concept called the Common Base Axis which is adapted to Korean-English Query translation ann a new weighting method in dictionary based query translation. The essential idea is that we can express Korean and English word in one vector space by Common Base Axis and use it in calculating sense distance for query weighting. The experiments show that Common Base Axis gives us good performance without ontology and is especially good for one word query translation.

교차언어 정보검색은 다국어 정보검색의 일부분으로 질의어에서 사용하는 언어와 검색대상인 문서의 언어가 서로 다른 경우의 정보검색을 의미한다. 교차언어 정보검색의 성능 향상을 위해서는 양질의 언어자원이 대량으로 필요한 경우가 많기 때문에 이를 해결하기 쉽지 않다. 본 논문에서는 사전에 기반한 대역어 후보 선정 시, 가중치를 부여해 질의어를 변환하는 방식을 제안한다. 가중치 계산에 이용되는 의미거리는 영어 명사와 한국어 명사를 같은 벡터 공간에 표현하고, 두 벡터간의 관계를 이용해 거리를 계산한다. 서로 다른 두 언어의 명사를 한 공간에 표현하기 위해 "공통 기반축"의 개념을 제시하고, 구축 방법을 제안한다. 고급 자원인 온톨로지를 확보하지 않고, 제안하는 방법으로 우수한 정보검색 결과를 얻을 수 있다는 것을 실험을 통해 보여준다.을 통해 보여준다.

Keywords

References

  1. 한글 및 한국어 정보처리 학술대회-형태소 분석기 및 품사태거 평가 워크숍 모듈화된 형태소 분석기의 구현 이운재;김선배;김길연;최기선
  2. 한국과학기술원 전산학과 석사논문 자동 정렬을 통한 영한 복합어의 역어 추출 이주호
  3. 한글 및 한국어 정보처리 학술대회 교차언어 문서검색에서 다국어 온톨로지에 기반한 한영 질의어 변환 천정훈;최기선
  4. 한글 및 한국어 정보처리 학술발표 논문집 말모둠에서 동사분포 연구 최용석;이운재;최기선
  5. Meaning and Grammar: An Introduction to Semantics Chierchia, Gennaro;Sally McConnell-Genet
  6. The 3rd International Conference of Asian Digital Library A Study on Dynamic Threshold for Korean English Query Translation Choi, Yong-Seok;Junghoon Chun;Key-Sun Choi
  7. 4th Annual Conference on Evolutionary Programming Query translation using evolutionary programming for multilingual information retrieval Davis, M.;T. Dunning
  8. 1997 AAAI Symposium on Cross-Language Text and Speech Retrieval Automatic cross-language retrieval using latent semantic indexing Dumais, S.T.;T.A. Letsche;M.L. Littman;Landauer T.K.
  9. Cross-Language Information Retrieval with the UMLS Metathesaurus, SIGIR '98 Eichmann, David;Miguel E. Ruiz;Padmini Srinivasan
  10. Computer Methods for Mathematical Computations Least squares and the singular value decomposition Forsythe, G.E.;Malcolm, M.A.;Moler, C.B.
  11. Cognitive Psychology v.13 Verb Semantic Structures in Memory for Sentences: Evidence for Componential Representation Genter, Dedre
  12. AAAI Spring Symposium on Cross-Language Text and Speech Retrieval An Approach to Conceptual Text Retrieval Using the EuroWordNet Multilingual Semantic Database Gilarranz, Julio;Julio Gonzalo;Felisa Verdejo
  13. Entropy and Information Theory Gray, R.M.
  14. SIGIR 97 Tutorial on Cross-Language Text Retrieval Cross-Language Text Retrieval Oard, Douglas W.
  15. Proceedings of the Second Annual Meeting of The Association for Natural Language Processing Building bilingual word dictionary based on statistical information Ohmori, K.;J. Tsutsumi;M. Nakanishi
  16. Proceedings of Supercomputing '92. Dimensions of Meaning Schutze, Hinrich
  17. Proceeding of the Tenth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval A Statistical Similarity Measure Wong, S.K.M.;Y.Y. Yao