An Improved Automatic Text Summarization Based on Lexical Chaining Using Semantical Word Relatedness

단어 간 의미적 연관성을 고려한 어휘 체인 기반의 개선된 자동 문서요약 방법

  • 차준석 (조선대학교 소프트웨어융합공학과, 조선대학교 컴퓨터공학과) ;
  • 김정인 (조선대학교 소프트웨어융합공학과, 조선대학교 컴퓨터공학과) ;
  • 김판구 (조선대학교 컴퓨터공학과)
  • Received : 2017.03.09
  • Accepted : 2017.03.29
  • Published : 2017.03.31

Abstract

Due to the rapid advancement and distribution of smart devices of late, document data on the Internet is on the sharp increase. The increment of information on the Web including a massive amount of documents makes it increasingly difficult for users to understand corresponding data. In order to efficiently summarize documents in the field of automated summary programs, various researches are under way. This study uses TextRank algorithm to efficiently summarize documents. TextRank algorithm expresses sentences or keywords in the form of a graph and understands the importance of sentences by using its vertices and edges to understand semantic relations between vocabulary and sentence. It extracts high-ranking keywords and based on keywords, it extracts important sentences. To extract important sentences, the algorithm first groups vocabulary. Grouping vocabulary is done using a scale of specific weight. The program sorts out sentences with higher scores on the weight scale, and based on selected sentences, it extracts important sentences to summarize the document. This study proved that this process confirmed an improved performance than summary methods shown in previous researches and that the algorithm can more efficiently summarize documents.

최근 스마트 디바이스의 급속한 발달과 보급으로 인하여 인터넷 웹상에서 등장하는 문서의 데이터는 하루가 다르게 증가 하고 있다. 이러한 정보의 증가로 인터넷 웹상에서는 대량의 문서가 증가하여 사용자가 해당 문서의 데이터를 이해하는데, 어려움을 겪고 있다. 그렇기 때문에 자동 문서 요약 분야에서 문서를 효율적으로 요악하기 위해 다양한 연구가 진행 되고 있다. 효율적으로 문서를 요약하기 위해 본 논문에서는 텍스트랭크 알고리즘을 이용한다. 텍스트랭크 알고리즘은 문장 또는 키워드를 그래프로 표현하며, 단어와 문장 간의 의미적 연관성을 파악하기 위해 그래프의 정점과 간선을 이용하여 문장의 중요도를 파악한다. 문장의 상위 키워드를 추출 하고 상위 키워드를 기반으로 중요 문장 추출 과정을 거친다. 중요 문장 추출 과정을 거치기 위해 단어 그룹화 과정을 거친다. 단어그룹화는 특정 가중치 척도를 이용하여 가중치 점수가 높은 문장을 선별하여 선별된 문장들을 기반으로 중요 문장을 중요 문장을 추출하여, 문서를 요약을 하게 된다. 이를 통해 기존에 연구 되었던 문서요약 방법보다 향상된 성능을 보였으며, 더욱 효율적으로 문서를 요약할 수 있음을 증명하였다.

Keywords

References

  1. Ohm Sornil, Kornnika Gree-ut, "An Automatic T ext Summarization Approach using Content-Base d and Graph-Based Characteristics", In Proceedi ngs of IEEE Conference on Cybernetics and Inte lligent Systems, pp. 1-6, 2006.
  2. 이창범, 김민수, 이기호, 이귀상, 박혁로, "주성분 분석을 이용한 문서 주제어 추출", 정보과학회논문지 : 소프트웨어 및 응용, pp. 747-754, 2002.
  3. D.D. Lewis, S.K. Jones, "Natural language proces sing for information retrieval," Communications o f the ACM, Vol. 39, No.1, pp. 92-101, 1996.
  4. E.D. Liddy, S.H. Myaeng, "DR-LINK's: linguistic-comceptual approach to document and detection, " The First Text REtreival Conference, pp. 113-129, 1993,
  5. Mihalcea, Rada, Paul Tarau. "TextRank: Bringing order into texts." Association for Computational Linguistics, 2004.
  6. J. Kupiec, J. Pedersen, and F. Chen, "A Trainabl e Document Summarizer." Proceedings of 18th A CM-SIGIR Conference, pp.68-73, 1995.
  7. Chanback Jeong, Taehwan Kim, Hochul Jeon, Joongmin Choi Department of Computer Science & Engineering Hangyang University, A News Recommendation System based on Document Clustering Using WordNet, 2008.
  8. I. Mani, Automatic Summarization, John Benjami ns Publishing Company, pp.114-125, 2001.
  9. Henning, Leonhard, "Topic-based Multi-Documen t Summarization with Probabilistic Latent Seman tic Analysis", Proceedings of the International Co nference RANLP'09, 2009
  10. Xiaojun Wan, Jianwu Yang, "Multi-Document S ummarization Using Cluster-based Link Analysis ",Proceedings of the International Conference(SIG IR'08), 2008.
  11. K.S. Thakkar, R. V. Dharaskar, and M. B. Ch andak, "Graph-based algorithms for text summar ization",In 2010 3rd International Conference on Emerging Trends in Engineering and Technology, pp. 516-519, 2010.
  12. 조형락, 김성진, 이동호. "의미기반 텍스트 랭크 알고리즘을 이용한 다중문서 요약. 한국정보과학회 2015년도 동계학술발표회 논문집: 756-758 2015.
  13. S. Harabagiu, L. Finley "Topic Themes for Mult i Document Summarization," In proceeding of A CM SIGIR, pp. 202-209, 2005.
  14. C.Y.Lin, E.H.Hovy, "Automatic evaluation of su mmaries using n-gram co-occurrence statistics", In Proceedings of Human Language Technology Conference (HLT-NAACL 2003), Edmonton, Can ada, May, 2004.
  15. P. McNamee, J. Mayfield, "Character N-Gram T okenization for European Language Text Retriev al",Information Retrieval, Vol 7, No. 1-2, pp. 73-97, 2004. https://doi.org/10.1023/B:INRT.0000009441.78971.be
  16. J. Heu, Y. Joo, D. Lee, Multi-Document Summarization Technique using Semantic Analysis bet ween Tags, 2012.