Browse > Article
http://dx.doi.org/10.3745/KIPSTB.2003.10B.7.725

Text Summarization using PCA and SVD  

Lee, Chang-Beom (전남대학교 대학원 전산학과)
Kim, Min-Soo (한국과학기술원)
Baek, Jang-Sun (전남대학교 통계학과)
Park, Hyuk-Ro (전남대학교 전산학과)
Abstract
In this paper, we propose the text summarization method using PCA (Principal Component Analysis) and SVD (Singular Value Decomposition). The proposed method presents a summary by extracting significant sentences based on the distances between thematic words and sentences. To extract thematic words, we use both word frequency and co-occurence information that result from performing PCA. To extract significant sentences, we exploit Euclidean distances between thematic word vectors and sentence vectors that result from carrying out SVD. Experimental results using newspaper articles show that the proposed method is superior to the method using either word frequency or only PCA.
Keywords
Principal Component Analysis; Singular Value Decomposition; Text Summarization;
Citations & Related Records
Times Cited By KSCI : 5  (Citation Analysis)
연도 인용수 순위
1 J. Kupiec, J. Pedersen, F. Chen, 'A Trainable Document Summarizer,' Proc. 18th ACM-SIGIR Conf., 1995   DOI
2 강상배, 조혁규, 권혁철, 박재득, 박동인, '한국어 문서의 통계적 정보를 이용한 문서요약 시스템 구현', 제9회 한글 및 한국어정보처리학술대회, pp.28-36, 1997
3 류동원, 이종혁, '단어공기정보를 이용한 자동화 문서 요약', 제27회 정보과학회 봄 학술발표논문집(B), 제27권, 제1호, pp.339-341, 2000
4 박혁로, 신중호, 이강혁, '기계 번역을 위한 정렬 코퍼스 작성 및 한글 어절 분석기 개발에 관한 연구', 연구개발정보센터 연구보고서, 1996
5 H. P. Edmundson, 'New Methods in Automatic Extracting,' Journal of the Association for Computing Machinery, Vol. 16, No.2   DOI
6 이창범, 박혁로, '시소러스를 이용한 문서 자동요약,' 정보과학회 춘계학술발표논문집(B), 2001
7 William H. Press, Saul A. Teukolsky, et al., 'Numerical Recipes in C++,' Cambridge University Press, 2002
8 Regina Barzilay, Michael Elhadad, 'Using Lexical chains for Text Summarization,' proc. Association for Computational Linguistics, pp.10-17, 1997
9 이창범, 김민수, 이기호, 이귀상, 박혁로, '주성분분석을 이용한 문서 주제어 추출,' 정보과학회논문지 : 소프트웨어 및 응용, 29(9), pp747-754, 2002
10 김기영, 전명식, '다변량 통계자료분석', 자유아카데미, 1994
11 우선미, 유춘식, 김용성, '용어 연관성 분석을 이용한 사용자 위주의 문서순위결정 기법', 정보과학회논문지 : 소프트웨어 및 응용, 제28권 제2호, pp.149-156, 2001   과학기술학회마을
12 Richard A. Johnson, Dean W. Wichem, 'Applied Multivariate Statistical Analysis,' Prentice Hall, 1992
13 최용석, '행렬도의 이해와 응용', 자유아카데미, 1999
14 Scott Deerwester, Susan T. Dumais, Richard Harshman, 'Indexing by Latent Semantic Analysis,' Journal of the American Society for Information Science, 41(6), pp.381-407, 1990   DOI
15 김동현, 이승우, 이근배, '중요 문장추출 휴리스틱과 MMR를 이용한 질의기반 문서요약', 제14회 한글 및 한국어 정보처리학술발표논문집, pp.285-291, 2002   과학기술학회마을
16 Anastasios Tombros and M. Sanderson, 'Reflecting user information needs through query baised summaries,' SIG IR'98, 1998
17 Jose Abracos, Gabriel Pereira Lopes, 'Statistical methods for retrieving most significant paragraphs in newspaper articles,' Proc. Association for Computational Linguistics, pp.51-57, 1997
18 김영택 외, '자연언어처리', 생능출판사, 2001
19 장동현, 맹성현, '자동 요약 시스템', 정보과학회지, 제15권 제10호, pp.42-49, 1997   과학기술학회마을
20 Eduard Hovy and Chin Yew Lin, 'Automated Text Summarization in SUMMARIST,' Proc. Association for Computational Linguistics, pp.18-24, 1997