DOI QR코드

DOI QR Code

문서 요약 및 비교분석을 위한 주제어 네트워크 가시화

Keyword Network Visualization for Text Summarization and Comparative Analysis

  • 김경림 (부산대학교 전자전기컴퓨터공학과) ;
  • 이다영 (부산대학교 전자전기컴퓨터공학과) ;
  • 조환규 (부산대학교 전자전기컴퓨터공학과)
  • 투고 : 2016.09.09
  • 심사 : 2016.11.22
  • 발행 : 2017.02.15

초록

문자 정보는 인터넷 공간에 통용되는 정보의 대다수를 차지하고 있다. 따라서 대용량의 문서의 의미를 빠르게 특히 자동적으로 파악하는 일은 빅 데이터 시대의 중요한 연구 주제중 하나이다. 이 분야의 대표적인 연구 중 하나는 문서의 의미를 요약해주는 주요 주제어의 자동 추출 및 분석이다. 그러나 단순히 추출된 개별 주제어들의 집합만으로 문서의 의미구조를 나타내기에는 부족함이 있다. 본 논문에서는 추출된 주제어들의 연관관계를 그래프로 표현하여 대상 문서의 의미구조를 보다 다양하게 표시하고 추상화할 수 있는 주제어 가시화 방법을 개발하였다. 먼저 각 주제어들 간의 연관관계를 추출하기 위해 주제어별 지배구간 모델과 단어거리 모델을 제안하였다. 이렇게 추출한 주제어 연결성과 그를 형상화한 그래프는 문서의 의미구조를 보다 함축적으로 담고 있으므로 문서의 빠른 내용파악과 요약이 가능하며 이 가시화 그래프를 비교함으로서 문서의 의미적 유사도 비교도 가능하다. 실험을 통하여 문서의 의미파악과 비교에 본 주제어 가시화 그래프는 일반적인 요약문이나 단순 주제어 리스트보다 더 유용함을 보였다.

Most of the information prevailing in the Internet space consists of textual information. So one of the main topics regarding the huge document analyses that are required in the "big data" era is the development of an automated understanding system for textual data; accordingly, the automation of the keyword extraction for text summarization and abstraction is a typical research problem. But the simple listing of a few keywords is insufficient to reveal the complex semantic structures of the general texts. In this paper, a text-visualization method that constructs a graph by computing the related degrees from the selected keywords of the target text is developed; therefore, two construction models that provide the edge relation are proposed for the computing of the relation degree among keywords, as follows: influence-interval model and word- distance model. The finally visualized graph from the keyword-derived edge relation is more flexible and useful for the display of the meaning structure of the target text; furthermore, this abstract graph enables a fast and easy understanding of the target text. The authors' experiment showed that the proposed abstract-graph model is superior to the keyword list for the attainment of a semantic and comparitive understanding of text.

키워드

과제정보

연구 과제 주관 기관 : 한국연구재단

참고문헌

  1. M. Kyu Song, I. Ju Bae, S. Hong Lee, J. Hyung Park, "A Study on Keywords Extraction based on Semantic Analysis of Document," Proc. of the KIISS Fall Conference, pp. 586-591, 2007. (in Korean)
  2. M. Jin Lee, D. Young Lee, K. Rim Kim, Y. Ju Shin, C. Joo Chae and H. Gue Cho, "Graph-Based Index Structure for Smart Text Searching With Text Social Network," Int. Conf. on Convergence Technology, Vol. 5, No. 1, pp. 442-443, 2015.
  3. M. Litvak and M. Last, "Graph-Based Keyword Extraction for Single-Document Summarization," Proc. of the workshop MMIES, pp. 17-24, 2008.
  4. X. Han, L. Sun and J. Zhao, "Collective entity linking in web text: a graph-based method," Proc. SIGIR '11, pp. 765-774, 2011.
  5. K. Andrews, M. Wohlfahrt and G. Wurzinger, "Visual Graph Comparison," Proc. of 13th International Conference Information Visualisation, pp. 62-67, 2009.
  6. J. Kyu Seo, H. Sung Tak, H. Gue Cho, "Multi-Level Sequence Alignment : An Adaptive Control Method Between Speed and Accuracy for Document Comparison," Journal of KIISE, Vol. 41, No. 9, pp. 728-743, 2014. (in Korean) https://doi.org/10.5626/JOK.2014.41.9.728
  7. H. He and A. K. Singh, "Closure-Tree: An Index Structure for Graph Queries," Proc. of ICDE 2006, pp. 38, 2006.