XML Document Keyword Weight Analysis based Paragraph Extraction Model

XML 문서 키워드 가중치 분석 기반 문단 추출 모델

  • Received : 2017.10.22
  • Accepted : 2017.11.04
  • Published : 2017.11.30


The analysis of existing XML documents and other documents was centered on words. It can be implemented using a morpheme analyzer, but it can classify many words in the document and cannot grasp the core contents of the document. In order for a user to efficiently understand a document, a paragraph containing a main word must be extracted and presented to the user. The proposed system retrieves keyword in the normalized XML document. Then, the user extracts the paragraphs containing the keyword inputted for searching and displays them to the user. In addition, the frequency and weight of the keyword used in the search are informed to the user, and the order of the extracted paragraphs and the redundancy elimination function are minimized so that the user can understand the document. The proposed system can minimize the time and effort required to understand the document by allowing the user to understand the document without reading the whole document.

기존의 XML 문서나 다른 문서는 단어를 중심으로 분석이 진행되었다. 이는 형태소 분석기를 활용하여 구현이 가능하나 문서 내에 기재되어 있는 많은 단어를 분류할 뿐 문서의 핵심 내용을 파악하기에는 어려움이 있다. 사용자가 문서를 효율적으로 이해하기 위해서는 주요 단어가 포함되어 있는 문단을 추출하여 사용자에게 보여주어야 한다. 본 논문에서 제안하는 시스템은 정규화 된 XML 문서 내에 키워드를 검색하고 사용자가 입력한 키워드들이 포함되어 있는 문단을 추출하여 사용자에게 보여준다. 그리고 검색에 사용된 키워드들의 빈도수와 가중치를 사용자에게 알려주고 추출한 문단의 순서와 중복 제거 기능을 통해 사용자가 문서를 이해하는데 발생할 수 있는 오류를 최소화하였다. 제안하는 시스템은 사용자가 문서 전체를 읽지 않고 문서를 이해할 수 있게 하여 문서를 이해하는데 필요한 시간과 노력을 최소화할 수 있을 것으로 사료된다.



Supported by : Pai Chai University


  1. B. J. Noh, Z. S. Xu, J. G. Lee, D. H. Park, Y. H. Chung, "Keyword Network Based Repercussion Effect Analysis of Foot-and-Mouth Disease Using Online News," Korean Institute of Information Technology, vol. 14, no. 9, pp. 143-152, Sep. 2016.
  2. S. J. Choi, J. W. Lee, "A Morphological Analysis Method of Prediction place-Event Performance by Online News Titles," Korea Association of Community Welfare Studies, vol. 21, no. 1, pp. 15-32, Feb. 2016.
  3. H. S. Ha, B. Y. Hwang, "Keyword Filtering about Disaster and the Method of Detecting Area in Detecting Real-Time Event Using Twitter," Korea Information Processing Society, vol. 5, no. 7, pp. 345-350, Jul. 2016.
  4. J. C. Shin, C. Y. Ock, "A Korean Morphological Analyzer using a Pre-analyzed Partial Word-phrase Dictionary," Korean Institute of Information Scientists and Engineering, vol. 39, no. 5, pp. 415-424, May 2012.
  5. S. H. Na, J. I. Kim, E. J. Lee, P. K. Kim, "A Study on the Short Text Categorization using SNS Feature Informations," Korean Institute of Information Technology, vol. 14, no. 6, pp. 159-165, Jun. 2016.
  6. H. Y. Lee, J. S. Lee, B. D. Kang, S. W. Yang, "Functional Expansion of Morphological Analyzer Based on Longest Phrase Matching For Efficient Korean Parsing," Digital Contents Society, vol. 17, no. 3, pp. 203-210, Jun. 2016.
  7. J. Y. Lee, J. H. Lee, Y. H. Park, "A design and implementation of the management system for number of keyword searching results using Google searching engine," The Korea Institute of Information and Communication Engineering, vol. 20, no. 5, pp. 880-886, May 2016.