Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))
- 2009.10a
- /
- Pages.44-49
- /
- 2009
- /
- 2005-3053(pISSN)
Integrated Clustering Method based on Syntactic Structure and Word Similarity for Statistical Machine Translation
문장구조 유사도와 단어 유사도를 이용한 클러스터링 기반의 통계기계번역
- Kim, Hankyong (Dept. of Graduate School for Information Technology, POSTECH) ;
- Na, Hwi-Dong (Department of Computer Science and Engineering POSTECH) ;
- Li, Jin-Ji (Department of Computer Science and Engineering POSTECH) ;
- Lee, Jong-Hyeok (Department of Computer Science and Engineering POSTECH)
- Published : 2009.10.09
Abstract
통계기계번역에서 도메인에 특화된 번역을 시도하여 성능향상을 얻는 방법이 있다. 이를 위하여 문장의 유형이나 장르에 따라 클러스터링을 수행한다. 그러나 기존의 연구 중 문장의 유형 정보와 장르에 따른 정보를 동시에 사용한 경우는 없었다. 본 논문에서는 문장 사이의 문법적 구조 유사성으로 문장을 유형별로 분류하는 새로운 기법을 제시하였고, 단어 유사도 정보로 문서의 장르를 구분하여 기존의 두 기법을 통합하였다. 이렇게 분류된 말뭉치에서 추출한 모델과 전체 말뭉치에서 추출된 모델에서 보간법(interpolation)을 사용하여 통계기계번역의 성능을 향상하였다. 문장구조의 유사성과 단어 유사도 계산을 위하여 각각 커널과 코사인 유사도를 적용하였으며, 두 유사도를 적용하여 말뭉치를 분류하는 과정은 K-Means 알고리즘과 유사한 기계학습 기법을 사용하였다. 이를 일본어-영어의 특허문서에서 실험한 결과 최선의 경우 약 2.5%의 상대적인 성능 향상을 얻었다.