주성분 보유수에 따른 중요 용어 추출의 비교

Comparison of Significant Term Extraction Based on the Number of Selected Principal Components

  • 이창범 (울산대학교 컴퓨터정보통신공학부) ;
  • 옥철영 (울산대학교 컴퓨터정보통신공학부) ;
  • 박혁로 (전남대학교 전자컴퓨터정보통신공학부)
  • 발행 : 2006.06.01


문서를 구성하는 단어들은 서로 연관이 있다는 정보를 충분히 이용할 수 있는 다변량 분석 방법 중, 주성분분석(Principal Component Analysis)을 이용하여 중요 용어를 추출하고자 한다. 본 논문에서는 주성분분석의 분석 대상을 용어 사이의 공분산행렬이 아닌 상관행렬을 이용한다. 그리고, 중요 용어를 추출하기 위해서, 보유해야 할 주성분 개수와 주성분과 용어 사이의 상관계수에 대한 최적의 임계치를 찾고자 한다. 283건의 신문기사를 대상으로, 추출된 용어에 기반한 문장 추출 실험 결과, 첫 6개까지의 주성분과 상관계수 |0.4|라는 조건에서 가장 좋은 성능을 보였다.

In this paper, we propose a method of significant term extraction within a document. The technique used is Principal Component Analysis(PCA) which is one of the multivariate analysis methods. PCA can sufficiently use term-term relationships within a document by term-term correlations. We use a correlation matrix instead of a covariance matrix between terms for performing PCA. We also try to find out thresholds of both the number of components to be selected and correlation coefficients between selected components and terms. The experimental results on 283 Korean newspaper articles show that the condition of the first six components with correlation coefficients of |0.4| is the best for extracting sentence based on the significant selected terms.



  1. D. C. Manning and H. Schutze, 'Foundations of Statistical Natural Language Processing,' Cambridge, MA : The MIT Press, 1999
  2. I. Mani, 'Automatic Summarization,' Amsterdam : John Benjamins Publishing Company, 2001
  3. W. H. Press et al., 'Numerical Recipes in C++,' Second Ed., New York : Cambridge University Press, 2002
  4. 강병서, '의사결정을 위한 현대통계학', 무역경영사, 2004
  5. 김재훈, '정보 추출의 기술 현황', 한국정보과학회 학회지, 제22권, 제4호, pp.35-46, 2004
  6. 김기영, 전명식, '다변량 통계자료분석', 자유아카데미, 1999
  7. 노형진, '다변량분석 이론과 실제', 형설출판사, 2005
  8. 손영숙, '주성분분석',
  9. 이창범, 김민수, 백장선, 박혁로, '주성분 분석과 비정칙치 분해를 이용한 문서 요약', 정보처리학회논문지, 제10-B권, 제7호, pp.725-734, 2003
  10. 한학용, '패턴인식개론-MATLAB 실습을 통한 입체적 학습', 한빛미디어, 2005