• 제목/요약/키워드: Content-based summarization

검색결과 31건 처리시간 0.029초

Citation-based Article Summarization using a Combination of Lexical Text Similarities: Evaluation with Computational Linguistics Literature Summarization Datasets

  • Kang, In-Su
    • 한국컴퓨터정보학회논문지
    • /
    • 제24권7호
    • /
    • pp.31-37
    • /
    • 2019
  • Citation-based article summarization is to create a shortened text for an academic article, reflecting the content of citing sentences which contain other's thoughts about the target article to be summarized. To deal with the problem, this study introduces an extractive summarization method based on calculating a linear combination of various sentence salience scores, which represent the degrees to which a candidate sentence reflects the content of author's abstract text, reader's citing text, and the target article to be summarized. In the current study, salience scores are obtained by computing surface-level textual similarities. Experiments using CL-SciSumm datasets show that the proposed method parallels or outperforms the previous approaches in ROUGE evaluations against SciSumm-2017 human summaries and SciSumm-2016/2017 community summaries.

다중레벨 벡터양자화 기반의 유사도를 이용한 자동 음악요약 (Automatic Music Summarization Using Similarity Measure Based on Multi-Level Vector Quantization)

  • 김성탁;김상호;김회린
    • The Journal of the Acoustical Society of Korea
    • /
    • 제26권2E호
    • /
    • pp.39-43
    • /
    • 2007
  • Music summarization refers to a technique which automatically extracts the most important and representative segments in music content. In this paper, we propose and evaluate a technique which provides the repeated part in music content as music summary. For extracting a repeated segment in music content, the proposed algorithm uses the weighted sum of similarity measures based on multi-level vector quantization for fixed-length summary or optimal-length summary. For similarity measures, count-based similarity measure and distance-based similarity measure are proposed. The number of the same codeword and the Mahalanobis distance of features which have same codeword at the same position in segments are used for count-based and distance-based similarity measure, respectively. Fixed-length music summary is evaluated by measuring the overlapping ratio between hand-made repeated parts and automatically generated ones. Optimal-length music summary is evaluated by calculating how much automatically generated music summary includes repeated parts of the music content. From experiments we observed that optimal-length summary could capture the repeated parts in music content more effectively in terms of summary length than fixed-length summary.

An Efficient Machine Learning-based Text Summarization in the Malayalam Language

  • P Haroon, Rosna;Gafur M, Abdul;Nisha U, Barakkath
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권6호
    • /
    • pp.1778-1799
    • /
    • 2022
  • Automatic text summarization is a procedure that packs enormous content into a more limited book that incorporates significant data. Malayalam is one of the toughest languages utilized in certain areas of India, most normally in Kerala and in Lakshadweep. Natural language processing in the Malayalam language is relatively low due to the complexity of the language as well as the scarcity of available resources. In this paper, a way is proposed to deal with the text summarization process in Malayalam documents by training a model based on the Support Vector Machine classification algorithm. Different features of the text are taken into account for training the machine so that the system can output the most important data from the input text. The classifier can classify the most important, important, average, and least significant sentences into separate classes and based on this, the machine will be able to create a summary of the input document. The user can select a compression ratio so that the system will output that much fraction of the summary. The model performance is measured by using different genres of Malayalam documents as well as documents from the same domain. The model is evaluated by considering content evaluation measures precision, recall, F score, and relative utility. Obtained precision and recall value shows that the model is trustable and found to be more relevant compared to the other summarizers.

효율적인 비디오 브라우징을 위한 동적 요약 및 요약 기술구조 (Dynamic Summarization and Summary Description Scheme for Efficient Video Browsing)

  • 김재곤;장현성;김문철;김진웅;김형명
    • 방송공학회논문지
    • /
    • 제5권1호
    • /
    • pp.82-93
    • /
    • 2000
  • 최근 디지털 비디오 데이터가 급격히 증가하고 대중화됨에 따라 이를 활용하기 위한 효율적인 접근 기법이 절실히 요구되고 있다. 비디오 요약(video summarization) 기법은 의미적으로 중요한 요점만으로 전체 비디오를 표현하는 것으로 비디오 내용에 대한 전반적인 개관(overview)을 제공할 뿐만 아니라 브라우징(browsing) 등의 유용한 접근 기능을 제공한다. 본 논문에서는 의미적으로 중요한 내용을 포함하는 비디오 주요구간(highlight segment) 검출을 통한 새로운 동적 요약(dynamic summarization) 기법과 생성된 요약 정보 표현을 위하여 MPEG-7에 제안한 요약 기술구조(DS : Description Scheme)에 대하여 기술한다. 본 논문의 기술구조는 다중 계층의 하이라이트(highlight), 계층적 브라우징, 사용자 주문형 요약 등의 기능을 통하여 비디오의 개관 및 효율적인 브라우징, 네비게이션(navigation)을 가능하게 한다. 또한, 제안하는 비디오 요약 기법 및 요약 기술구조의 실현 가능성 및 기능 구현을 확인하기 위하여 축구 비디오에 대한 적용 실례를 제시한다.

  • PDF

스코어 정보를 이용한 농구 비디오의 자동요약 (Automatic Summarization of Basketball Video Using the Score Information)

  • 정철곤;김의진;이광국;김회율
    • 한국통신학회논문지
    • /
    • 제32권9C호
    • /
    • pp.881-887
    • /
    • 2007
  • 본 논문에서는 농구 비디오의 내용기반 자동 요약 방법을 제안하였다. 의미 있는 요약을 위해, 농구 비디오에 포함되어 있는 스코어 정보를 이용하였다. 스코어 정보는 비디오에 포함된 스코어 자막의 숫자들을 인식한 후, 인식된 스코어의 변화를 분석함에 의해 획득된다. 일반적으로 농구경기의 중요한 이벤트는 3점 슛, 일방적 리드, 역전 등이다. 제안된 요약방법은 스코어 정보를 활용해 이러한 이벤트들을 검출하였으며, 이를 기반으로 농구 비디오의 요약 및 하이라이트를 생성하였다.

스코어 정보를 이용한 농구 비디오의 자동요약 (Automatic Summarization of Basketball Video Using the Score Information)

  • 정철곤;김의진;이광국;김회율
    • 한국통신학회논문지
    • /
    • 제32권8C호
    • /
    • pp.738-744
    • /
    • 2007
  • 본 논문에서는 농구 비디오의 내용기반 자동 요약 방법을 제안하였다. 의미 있는 요약을 위해, 농구 비디오에 포함되어 있는 스코어 정보를 이용하였다. 스코어 정보는 비디오에 포함된 스코어 자막의 숫자들을 인식한 후, 인식된 스코어의 변화를 분석함에 의해 획득된다. 일반적으로 농구경기의 중요한 이벤트는 3점 슛, 일방적 리드, 역전 등이다. 제안된 방법은 스코어 정보를 활용해 이러한 이벤트들을 검출하였으며, 이를 기반으로 농구 비디오의 요약 및 하이라이트를 생성하였다.

화자 인식을 통한 등장인물 기반의 비디오 요약 (Character-Based Video Summarization Using Speaker Identification)

  • 이순탁;김종성;강찬미;백중환
    • 융합신호처리학회논문지
    • /
    • 제6권4호
    • /
    • pp.163-168
    • /
    • 2005
  • 본 논문에서는 인물 기반의 비디오 요약 방법으로써 비디오 내 음성정보를 이용하여 화자 인식 기법을 통한 등장인물 중심의 요약 기법을 제안한다. 먼저, 얼굴 영역을 포함하는 장면을 중심으로 비디오로부터 배우의 대사에 해당하는 음성 정보를 분리하고, 화자 인식 기법을 수행하여 등장인물 별로 분류하였다. 화자인식 기법은 각 화자별로 MFCC(Mel Frequency Cepstrum Coefficient) 값을 추출하고 GMM(Gaussian Mixture Model)을 이용하여 분류한다. 본 논문에서는 4명의 등장인물에 대해 GMM을 학습시키고 4명 중 1명을 검출하는 실험을 통해 학습된 GMM 분류기가 실험 비디오에 대해 0.138 정도의 오분류율을 보임을 확인하였다.

  • PDF

이동 단말을 위한 웹 기반 텍스트 요약 시스템의 설계 및 구현 (Design and Implementation of Web-based Text Summarization System for Mobile Device)

  • 차지은;천승만;박종태
    • 정보처리학회논문지C
    • /
    • 제16C권6호
    • /
    • pp.725-730
    • /
    • 2009
  • 최근에 스마트폰과 같은 소형 이동 단말기의 보급이 확산됨에 따라 이동 단말을 통한 인터넷 웹 접속이 크게 증가하고 있다. 하지만 이동 단말의 작은 화면은 한 번에 웹페이지의 전체 내용을 브라우징 하기에는 어려움이 있다. 본 논문에서 이러한 이동단말의 문제점을 해결하기 위한 웹 기반 텍스트 요약 시스템을 설계 및 구현하였다. 제안된 텍스트 요약 시스템의 특징은 문서의 구문적 특징을 크게 변화시키지 않고 다량의 텍스트가 단락 안에 존재하는 경우에 문서를 요약하여 텍스트 용량을 줄임으로써 웹 브라우징에 있어 데이터 전송량을 줄이고 빠른 접근과 불필요한 데이터의 출력을 최소화할 수 있다. 제안된 시스템의 특징을 구현을 통하여 확인하였다.

오류 유형에 따른 생성요약 모델의 본문-요약문 간 요약 성능평가 비교 (Empirical Study for Automatic Evaluation of Abstractive Summarization by Error-Types)

  • 이승수;강상우
    • 인지과학
    • /
    • 제34권3호
    • /
    • pp.197-226
    • /
    • 2023
  • 텍스트 생성요약은 자연어처리의 과업 중 하나로 긴 텍스트의 내용을 보존하면서 짧게 축약된 요약문을 생성한다. 생성요약 과업의 특성 상 본문의 핵심내용을 요약문에서 보존하는 것은 매우 중요하다. 기존의 생성요약 방법론은 정답요약과의 어휘 중첩도(Lexical-Overlap)를 기반으로 본문의 내용과 유창성을 측정했다. ROUGE는 생성요약 요약모델의 평가지표로 많이 사용하는 어휘 중첩도 기반의 평가지표이다. 생성요약 벤치마크에서 ROUGE가 49점대로 매우 높은 성능을 보임에도 불구하고, 생성한 요약문과 본문의 내용이 불일치하는 경우가 30% 가량 존재한다. 본 연구에서는 정답요약의 도움 없이 본문만을 활용해 생성요약 모델의 성능을 평가하는 방법론을 제안한다. 본 연구에서 제안한 평가점수를 AggreFACT의 라벨과 상관도 분석결과, 다음의 두 가지 경우 가장 높은 상관관계를 보였다. 첫 번째는 Transformer 구조의 인코더-디코더 구조에 대규모 사전학습을 진행한 BART와 PEGASUS 등을 생성요약 모델의 베이스라인으로 사용한 경우이고, 두 번째는 요약문 전체에 걸쳐 오류가 발생한 경우이다.

완전성과 간결성을 고려한 텍스트 요약 품질의 자동 평가 기법 (Automatic Quality Evaluation with Completeness and Succinctness for Text Summarization)

  • 고은정;김남규
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.125-148
    • /
    • 2018
  • 다양한 스마트 기기 및 관련 서비스의 증가에 따라 텍스트 데이터가 폭발적으로 증가하고 있으며, 이로 인해 방대한 문서로부터 필요한 정보만을 추려내는 작업은 더욱 어려워졌다. 따라서 텍스트 데이터로부터 핵심 내용을 자동으로 요약하여 제공할 수 있는 텍스트 자동 요약 기술이 최근 더욱 주목을 받고 있다. 텍스트 요약 기술은 뉴스 요약 서비스, 개인정보 약관 요약 서비스 등을 통해 현업에서도 이미 활발하게 적용되고 있으며, 학계에서도 문서의 주요 요소를 선별하여 제공하는 추출(Extraction) 접근법과 문서의 요소를 발췌한 뒤 이를 조합하여 새로운 문장을 구성하는 생성(Abstraction) 접근법에 따라 많은 연구가 이루어지고 있다. 하지만 문서의 자동 요약 기술에 비해, 자동으로 요약된 문서의 품질을 평가하는 기술은 상대적으로 많은 진전을 이루지 못하였다. 요약문의 품질 평가를 다룬 기존의 대부분의 연구들은 사람이 수작업으로 요약문을 작성하여 이를 기준 문서(Reference Document)로 삼고, 자동 요약문과 기준 문서와의 유사도를 측정하는 방식으로 수행되었다. 하지만 이러한 방식은 기준 문서의 작성 과정에 막대한 시간과 비용이 소요될 뿐 아니라 요약자의 주관에 의해 평가 결과가 다르게 나타날 수 있다는 한계를 갖는다. 한편 이러한 한계를 극복하기 위한 연구도 일부 수행되었는데, 대표적으로 전문에 대해 차원 축소를 수행하고 이렇게 축소된 전문과 자동 요약문의 유사도를 측정하는 기법이 최근 고안된 바 있다. 이 방식은 원문에서 출현 빈도가 높은 어휘가 요약문에 많이 나타날수록 해당 요약문의 품질이 우수한 것으로 평가하게 된다. 하지만 요약이란 본질적으로 많은 내용을 줄여서 표현하면서도 내용의 누락을 최소화하는 것을 의미하므로, 단순히 빈도수에 기반한 "좋은 요약"이 항상 본질적 의미에서의 "좋은 요약"을 의미한다고 보는 것은 무리가 있다. 요약문 품질 평가의 이러한 기존 연구의 한계를 극복하기 위해, 본 연구에서는 요약의 본질에 기반한 자동 품질 평가 방안을 제안한다. 구체적으로 요약문의 문장 중 서로 중복되는 내용이 얼마나 적은지를 나타내는 요소로 간결성(Succinctness) 개념을 정의하고, 원문의 내용 중 요약문에 포함되지 않은 내용이 얼마나 적은지를 나타내는 요소로 완전성(Completeness)을 정의한다. 본 연구에서는 간결성과 완전성의 개념을 적용한 요약문 품질 자동 평가 방법론을 제안하고, 이를 TripAdvisor 사이트 호텔 리뷰의 요약 및 평가에 적용한 실험 결과를 소개한다.