• Title/Summary/Keyword: sentence summarization

Search Result 69, Processing Time 0.047 seconds

Meeting Minutes Summarization using Two-step Sentence Extraction (2단계 문장 추출 방법을 이용한 회의록 요약)

  • Lee, Jae-Kul;Park, Seong-Bae;Lee, Sang-Jo
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.20 no.6
    • /
    • pp.741-747
    • /
    • 2010
  • These days many meeting minutes of various organizations are publicly available and the interest in these documents by people is increasing. However, it is time-consuming and tedious to read and understand whole documents even if the documents can be accessed easily. In addition, what most people want from meeting minutes is to catch the main issues of the meeting and understand its contexts rather than to know whole discussions of the meetings. This paper proposes a novel method for summarizing documents considering the characteristics of the meeting minutes. It first extracts the sentences which are addressing the main issues. For each issues expressed in the extracted sentences, the sentences related with the issue are then extracted in the next step. Then, by transforming the extracted sentences into a tree-structure form, the results of the proposed method can be understood better than existing methods. In the experiments, the proposed method shows remarkable improvement in performance and this result implies that the proposed method is plausible for summarizing meeting minutes.

Text Summarization using PCA and SVD (주성분 분석과 비정칙치 분해를 이용한 문서 요약)

  • Lee, Chang-Beom;Kim, Min-Soo;Baek, Jang-Sun;Park, Hyuk-Ro
    • The KIPS Transactions:PartB
    • /
    • v.10B no.7
    • /
    • pp.725-734
    • /
    • 2003
  • In this paper, we propose the text summarization method using PCA (Principal Component Analysis) and SVD (Singular Value Decomposition). The proposed method presents a summary by extracting significant sentences based on the distances between thematic words and sentences. To extract thematic words, we use both word frequency and co-occurence information that result from performing PCA. To extract significant sentences, we exploit Euclidean distances between thematic word vectors and sentence vectors that result from carrying out SVD. Experimental results using newspaper articles show that the proposed method is superior to the method using either word frequency or only PCA.

Document Summarization using Pseudo Relevance Feedback and Term Weighting (의사연관피드백과 용어 가중치에 의한 문서요약)

  • Kim, Chul-Won;Park, Sun
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.16 no.3
    • /
    • pp.533-540
    • /
    • 2012
  • In this paper, we propose a document summarization method using the pseudo relevance feedback and the term weighting based on semantic features. The proposed method can minimize the user intervention to use the pseudo relevance feedback. It also can improve the quality of document summaries because the inherent semantic of the sentence set are well reflected by term weighting derived from semantic feature. In addition, it uses the semantic feature of term weighting and the expanded query to reduce the semantic gap between the user's requirement and the result of proposed method. The experimental results demonstrate that the proposed method achieves better performant than other methods without term weighting.

End-to-end Document Summarization using Copy Mechanism and Input Feeding (Copy Mechanism과 Input Feeding을 이용한 End-to-End 한국어 문서요약)

  • Choi, Kyoungho;Lee, Changki
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.56-61
    • /
    • 2016
  • 본 논문에서는 Sequence-to-sequence 모델을 생성요약의 방법으로 한국어 문서요약에 적용하였으며, copy mechanism과 input feeding을 적용한 RNN search 모델을 사용하여 시스템의 성능을 높였다. 인터넷 신문기사를 수집하여 구축한 한국어 문서요약 데이터 셋(train set 30291 문서, development set 3786 문서, test set 3705문서)으로 실험한 결과, input feeding과 copy mechanism을 포함한 모델이 형태소 기준으로 ROUGE-1 35.92, ROUGE-2 15.37, ROUGE-L 29.45로 가장 높은 성능을 보였다.

  • PDF

Intelligent Korean Sentence Summarization Technique Combining KoBART and GSG (KoBART와 GSG를 결합한 지능형 한국어 문장 요약 기법)

  • Hyeonsol Sim;Hyeonbin Park;Jeeyoung Park;Jaewon Sin;Youngjong Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.698-700
    • /
    • 2023
  • 본 논문에서는 한국어 데이터와 모델링, 추가 평가 지표를 통해 Text Summarization 분야에서 한국어로 좋은 성능을 내기 위한 방식을 제안한다. KoBART의 크기를 키우고 PEGASUS의 GSG를 사용하는 KoBART-GSG 모델을 제안한다. 이때 ASR 모델을 사용하여 한국어 데이터를 구축하고 추가 학습을 진행한다. 또한, 생성된 요약문과 원문에서 Attention 기법으로 키워드와 핵심 문장을 추출하여 지능형 텍스트를 구성하는 새로운 방식을 제안한다. ASR Open API와 제안한 방식을 사용하여 오디오 파일을 텍스트로 변환하고 요약하는 강의나 회의 등 학계와 산업에서 사용할 수 있는 서비스를 제공한다.

Sentence Abstraction: A Sentence Revision Methodology for Text Summarization (문장추상화: 문서요약을 위한 문장교열 방법론)

  • Kim, Gon;Bae, Jae-Hak J.
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2002.05a
    • /
    • pp.51-56
    • /
    • 2002
  • 본 논문에서는 문서요약을 위한 문장교열 방법론으로 문장추상화를 생각하였다. 이에 문장추상화의 판단기준이 되는 요소들을 구문분석기를 통해 얻은 정보와, 문장의 구성성분들이 가지는 온톨로지 정보를 바탕으로 선정하였다. 문장추상화에는 Roget 시소러스에 기반한 온톨로지 OfN, 구문분석기 LGPI+ 그리고 이를 활용하는 문장추상기 SABOT를 이용하였다. 본 논문을 통하여 문장추상화가 문서요약을 위한 문장교열 방법의 하나로 가능함을 보였다.

  • PDF

Sentence Abstraction for Text Summarization (문서요약을 위한 문장추상화)

  • Kim, Gon;Bae, Jae-Hak
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.04a
    • /
    • pp.531-534
    • /
    • 2002
  • 본 논문에서는 문서요약의 한 방법으로 문장추상화를 생각하였다. 이에 문장추상화의 판단기준이 되의 한 방법으로 문장추상화를 생각하였다 이에 문장추상화의 판단기준이 되는 요소들을 구문분석기를 통해 얻은 정보와, 문장의 구성성분들이 가지는 온톨로지 정보를 바탕으로 선정하였다. 문장추상화에는 Roget 시소러스에 기반한 온톨로지 OfN, 구문분석기 LGPI+, 그리고 이를 활용하는 문장추상기 SABOT를 이용하였다. 본 논문을 통하여 문장추상화가 문서 과정에 동원할 수 있는 유용한 도구임을 보였다.

  • PDF

A Design of Important Sentence Extraction Method for Automatic Text Summarization System (자동 문서요약을 위한 중요문 추출 방법 설계)

  • Shin, Sung-Hyuk;Kim, Tae-Wan
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.10a
    • /
    • pp.543-546
    • /
    • 2001
  • 본 논문에서는 빠른 속도로 증가하고 있는 인터넷상의 정보와 서비스를 검색함에 있어서 기본적인 내용은 유지하면서 정보의 과부하(information overload)문제를 해결하기 위한 문서요약의 방법으로 통계적 접근 방법에서 Kupiec의 요약문이 가지는 특성을 이용하여 문서의 방법을 설계하였다. 요약문의 각 문장에 대하여 중요도에 따라 가중치를 부여 한 후, 주어진 임계값에 따라 가중치가 낮은 문장들을 제외한다. 제외 후 가중치 점수를 부여해서 요약문 문장의 개수를 조절하면서 중요문을 추출할 수 있다.

  • PDF

Measuring Improvement of Sentence-Redundancy in Multi-Document Summarization (다중 문서요약에서 문장의 중복도 측정방법 개선)

  • 임정민;강인수;배재학;이종혁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10a
    • /
    • pp.493-495
    • /
    • 2003
  • 다중문서요약에서는 단일문서요약과 달리 문장간의 중복도를 측정하는 방법이 요구된다. 기존에는 중복된 단어의 빈도수를 이용하거나, 구문트리 구조를 이용한 방법이 있으나, 중복도를 측정하는데 도움이 되지 못하는 단어와, 구문분석기 성능에 따라서 중복도 측정에 오류를 발생시킨다. 본 논문은 주절 종속절의 구분, 문장성분, 주절 용언의 의미를 이용하는 문장간 중복도 측정방법을 제안한다. 위의 방법으로 구현된 시스템은 기존의 중복된 단어 빈도수 방식에 비해 정확율에서 56%의 성능 향상이 있었다.

  • PDF

Automatic Text Summarization with Two Step Sentence Extraction (2단계 문장 추출방법을 이용한 자동 문서 요약)

  • 정운철;고영중;서정연
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.910-912
    • /
    • 2004
  • 자동 문서 요약 시스템은 문서내에 담겨있는 정보를 최대한 표현하면서 문서의 크기를 줄이는 시스템이다. 본 논문에서는 문서 요약을 크게 2단계로 나누어서 수행한다. 문장내 요약본으로써의 불필요한 문장을 미리 제거하고 이에 더해 다양한 통계적 방법의 여러 장점들을 수용함으로써 보다 나은 성능 향상을 얻을 수 있었다. 비교시스템으로는 제목, 위치, 빈도, 도합유사도, 어휘 클러스터링을 이용한 시스템을 구축하여 사용하였으며 30%, 10% 문장요약에서 제안한 시스템은 모두 우수한 성능을 보였다.

  • PDF