Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))
- 1999.10e
- /
- Pages.150-155
- /
- 1999
- /
- 2005-3053(pISSN)
Mining the Web for Korean-English Parallel Corpora and Sentence Alignment
웹 문서로부터 한-영 병렬 말뭉치 자동 구축과 문장 단위 정렬
- Yang, Zoo-Il (Department of Computer Science, Yonsei University) ;
- Kim, Seon-Ho (Department of Computer Science, Yonsei University) ;
- Song, Man-Suk (Department of Computer Science, Yonsei University)
- Published : 1999.10.08
Abstract
다국어를 이용한 통계적 자연어 처리의 연구가 진행됨에 따라 병렬 말뭉치의 중요성이 대두되고 있다. 그러나 여러 가지 제약점으로 인하여 현재 이용 가능한 한국어 병렬 말뭉치가 드문 상황이다. 월드 와이드 웹 상에는 다양한 언어로 번역된 문서들이 있으며 이를 병렬 말뭉치로 구축, 활용한다면 말뭉치의 희소성으로 인한 문제를 해결할 수 있다. 본 논문에서는 웹 상에서 번역문서 후보를 추출한 다음 HTML 문서 구조를 비교하여 번역문서인지를 판별하고 문장 단위 정렬을 이용하여 병렬 말뭉치로 구축하는 방법을 제시한다.
Keywords