Abstract
This paper proposes a Korean document. categorization algorithm using Back Propagation Neural Network(BPNN) with Singular Value Decomposition(SVD). BPNN makes a network through its learning process and classifies documents using the network. The main difficulty in the application of BPNN to document categorization is high dimensionality of the feature space of the input documents. SVD projects the original high dimensional vector into low dimensional vector, makes the important associative relationship between terms and constructs the semantic vector space. The categorization algorithm is tested and compared on HKIB-20000/HKIB-40075 Korean Text Categorization Test Collections. Experimental results show that BPNN algorithm with SVD achieves high effectiveness for Korean document categorization.
본 논문에서는 역전파 신경망 알고리즘(BPNN: Back Propagation Neural Network)과 Singular Value Decomposition(SVD)를 이용하는 한글 문서 분류 시스템을 제안한다. BPNN은 학습을 통하여 만들어진 네트워크를 이용하여 문서분류를 수행한다. 이 방법의 어려움은 분류기에 입력되는 특징 공간이 너무 크다는 것이다. SVD를 이용하면 고차원의 벡터를 저차원으로 줄일 수 있고, 또한 의미있는 벡터 공간을 만들어 단어 사이의 중요한 관계성을 구축할 수 있다. 본 논문에서 제안한 BPNN의 성능 평가를 위하여 한국일보-2000/한국일보-40075 문서범주화 실험문서집합의 데이터 셋을 이용하였다. 실험결과를 통하여 BPNN과 SVD를 사용한 시스템이 한글 문서 분류에 탁월한 성능을 가지는 것을 보여준다.