The Contruction of the Comparable Corpus Based on SGML

SGML 기반 비교 가능 코퍼스 구축

  • Published : 1998.12.01

Abstract

The large scale documents of the data repository are utilized to the diverse applications. In the cross-language information retrieval, if the words of a query contain polymorphic meanings, the system needs multilingual corpus to exactly translate to the target words. We constructed the financial comparable corpus, called KFCM(Korean Financial Corpus corresponding to MLCC Corpus), comparing to the MLCC Polylingual Documents which consisted with the 6 European languages. It is independently constructed under the DTD of MLCC comparable corpus, and can be utilized to the cross-language information retrieval. In this paper, we discussed about the application and construction procedures of KFCM which is public domain data.

대규모 문헌 자료는 정보원으로써 다양한 목적에 사용될 수 있다. 언어간 정보검색에서 한 언어의 단어가 다의미적(polymorphic)일 경우 대상 언어로 정확한 번역을 위하여 언어간 대응 구조를 제공하는 다국어 코퍼스가 필요하다. 본 논문에서는 언어간 정보검색에서 대응 구조로 사용될 수 있는 비교 가능한 코퍼스를 구축하였다. 구축된 코퍼스(KFCM)는 유럽 6개 국어로 구축된 금융 관련 기사 자료인 MLCC 코퍼스에 대응되는 코퍼스로 다양한 목적에 사용되며, MLCC 코퍼스로부터 독립적으로 구축한 SGML 기반 코퍼스이다. 본 논문에서는 KFCM의 응용과 코퍼스 구축 과정에서 발생하는 기술적 사항을 기술하였으며, 구축된 자료를 웹에 공개하였다.

Keywords