Verb concept clustering using Independent Component Analysis and Box-Cox transformation

독립성분분석과 Box-Cox 변환을 이용한 동사 개념 클러스터링

  • Chagnaa, Altangerel (School of computer engineering and information technology, University of Ulsan) ;
  • Lee, Chang-Beom (School of computer engineering and information technology, University of Ulsan) ;
  • Ock, Cheol-Young (School of computer engineering and information technology, University of Ulsan)
  • ;
  • 이창범 (울산대학교 컴퓨터정보통신공학부) ;
  • 옥철영 (울산대학교 컴퓨터정보통신공학부)
  • Published : 2006.10.13

Abstract

본 논문에서는 한국어 동사의 개념적 클러스터링 방법을 제안하다. 사용되는 기법은 독립성분분석, Box-Cox 변환, 상관분석 등이다. 독립성분분석은 잠재적인 성분을 통계적 독립(statistical independence)에 기반하여 추출하는 분석 방법이다. 그런데, 독립성분분석에서는 mixture(동사)의 분포는 정규 분포(가우시안 분포)에 따른다고 가정한다. 따라서 동사의 분포를 보다 정규 분포화 할 필요가 있다. 이에 본 논문에서는 Box-Cox 변환을 이용하여 동사의 분포를 정규 분포에 근사한다. 또한, 독립성분분석에서는 추출할 적당한 성분의 개수를 결정할 수가 없다. 이에 본 논문에서는 주성분분석의 결과로 획득되는 고유치의 누적 기여율을 이용하여 독립성분의 수를 결정한다. 그리고, 추출된 독립성분 벡터와 동사 벡터간의 상관계수에 이용하여 독립성분(개념)에 밀접하게 관련 있는 동사들을 하나의 클러스터로 구성한다. 한국어 동사를 대상으로 클러스터링한 결과, Box-Cox 변환을 적용한 경우가 더 좋은 성능을 보였다.

Keywords