Integrated Clustering Method based on Syntactic Structure and Word Similarity for Statistical Machine Translation

Kim, Hankyong;Na, Hwi-Dong;Li, Jin-Ji;Lee, Jong-Hyeok;

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

2009.10a
/
Pages.44-49
/
2009
/
2005-3053(pISSN)

Human and Language Technology (한국정보과학회 언어공학연구회)

Integrated Clustering Method based on Syntactic Structure and Word Similarity for Statistical Machine Translation

문장구조 유사도와 단어 유사도를 이용한 클러스터링 기반의 통계기계번역

Kim, Hankyong (Dept. of Graduate School for Information Technology, POSTECH) ;
Na, Hwi-Dong (Department of Computer Science and Engineering POSTECH) ;
Li, Jin-Ji (Department of Computer Science and Engineering POSTECH) ;
Lee, Jong-Hyeok (Department of Computer Science and Engineering POSTECH)

김한경 (포항공과대학교 정보통신대학원 정보처리학과) ;
나휘동 (포항공과대학교 컴퓨터공학과) ;
이금희 (포항공과대학교 컴퓨터공학과) ;
이종혁 (포항공과대학교 컴퓨터공학과)

Published : 2009.10.09

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

통계기계번역에서 도메인에 특화된 번역을 시도하여 성능향상을 얻는 방법이 있다. 이를 위하여 문장의 유형이나 장르에 따라 클러스터링을 수행한다. 그러나 기존의 연구 중 문장의 유형 정보와 장르에 따른 정보를 동시에 사용한 경우는 없었다. 본 논문에서는 문장 사이의 문법적 구조 유사성으로 문장을 유형별로 분류하는 새로운 기법을 제시하였고, 단어 유사도 정보로 문서의 장르를 구분하여 기존의 두 기법을 통합하였다. 이렇게 분류된 말뭉치에서 추출한 모델과 전체 말뭉치에서 추출된 모델에서 보간법(interpolation)을 사용하여 통계기계번역의 성능을 향상하였다. 문장구조의 유사성과 단어 유사도 계산을 위하여 각각 커널과 코사인 유사도를 적용하였으며, 두 유사도를 적용하여 말뭉치를 분류하는 과정은 K-Means 알고리즘과 유사한 기계학습 기법을 사용하였다. 이를 일본어-영어의 특허문서에서 실험한 결과 최선의 경우 약 2.5%의 상대적인 성능 향상을 얻었다.

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

Integrated Clustering Method based on Syntactic Structure and Word Similarity for Statistical Machine Translation

문장구조 유사도와 단어 유사도를 이용한 클러스터링 기반의 통계기계번역

Abstract

Keywords

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)