• 제목/요약/키워드: Automatic Summarization

검색결과 95건 처리시간 0.022초

Automatic Summarization of French Scientific Articles by a Discourse Annotation Method using the EXCOM System

  • Antoine, Blais
    • 한국언어정보학회지:언어와정보
    • /
    • 제13권1호
    • /
    • pp.1-20
    • /
    • 2009
  • Summarization is a complex cognitive task and its simulation is very difficult for machines. This paper presents an automatic summarization strategy that is based on a discourse categorization of the textual information. This categorization is carried out by the automatic identification of discourse markers in texts. We defend here the use of discourse methods in automatic summarization. Two evaluations of the summarization strategy are presented. The summaries produced by our strategy are evaluated with summaries produced by humans and other applications. These two evaluations display well the capacity of our application, based on EXCOM, to produce summaries comparable to the summaries of other applications.

  • PDF

Summarization and Evaluation; Where are we today?!

  • Shamsfard, Mehrnoush;Saffarian, Amir;Ghodratnama, Samaneh
    • 한국언어정보학회:학술대회논문집
    • /
    • 한국언어정보학회 2007년도 정기학술대회
    • /
    • pp.422-429
    • /
    • 2007
  • The rapid growth of the online information services causes the problem of information explosion. Automatic text summarization techniques are essential for dealing with this problem. There are different approaches to text summarization and different systems have used one or a combination of them. Considering the wide variety of summarization techniques there should be an evaluation mechanism to assess the process of summarization. The evaluation of automatic summarization is important and challenging, since in general it is difficult to agree on an ideal summary of a text. Currently evaluating summaries is a laborious task that could not be done simply by human so automatic evaluation techniques are appearing to help this matter. In this paper, we will take a look at summarization approaches and examine summarizers' general architecture. The importance of evaluation methods is discussed and the need to find better automatic systems to evaluate summaries is studied.

  • PDF

A Survey on Automatic Twitter Event Summarization

  • Rudrapal, Dwijen;Das, Amitava;Bhattacharya, Baby
    • Journal of Information Processing Systems
    • /
    • 제14권1호
    • /
    • pp.79-100
    • /
    • 2018
  • Twitter is one of the most popular social platforms for online users to share trendy information and views on any event. Twitter reports an event faster than any other medium and contains enormous information and views regarding an event. Consequently, Twitter topic summarization is one of the most convenient ways to get instant gist of any event. However, the information shared on Twitter is often full of nonstandard abbreviations, acronyms, out of vocabulary (OOV) words and with grammatical mistakes which create challenges to find reliable and useful information related to any event. Undoubtedly, Twitter event summarization is a challenging task where traditional text summarization methods do not work well. In last decade, various research works introduced different approaches for automatic Twitter topic summarization. The main aim of this survey work is to make a broad overview of promising summarization approaches on a Twitter topic. We also focus on automatic evaluation of summarization techniques by surveying recent evaluation methodologies. At the end of the survey, we emphasize on both current and future research challenges in this domain through a level of depth analysis of the most recent summarization approaches.

Automatic Single Document Text Summarization Using Key Concepts in Documents

  • Sarkar, Kamal
    • Journal of Information Processing Systems
    • /
    • 제9권4호
    • /
    • pp.602-620
    • /
    • 2013
  • Many previous research studies on extractive text summarization consider a subset of words in a document as keywords and use a sentence ranking function that ranks sentences based on their similarities with the list of extracted keywords. But the use of key concepts in automatic text summarization task has received less attention in literature on summarization. The proposed work uses key concepts identified from a document for creating a summary of the document. We view single-word or multi-word keyphrases of a document as the important concepts that a document elaborates on. Our work is based on the hypothesis that an extract is an elaboration of the important concepts to some permissible extent and it is controlled by the given summary length restriction. In other words, our method of text summarization chooses a subset of sentences from a document that maximizes the important concepts in the final summary. To allow diverse information in the summary, for each important concept, we select one sentence that is the best possible elaboration of the concept. Accordingly, the most important concept will contribute first to the summary, then to the second best concept, and so on. To prove the effectiveness of our proposed summarization method, we have compared it to some state-of-the art summarization systems and the results show that the proposed method outperforms the existing systems to which it is compared.

자막 정보를 이용한 야구경기 비디오의 자동요약 시스템 (An Automatic Summarization System of Baseball Game Video Using the Caption Information)

  • 유기원;허영식
    • 방송공학회논문지
    • /
    • 제7권2호
    • /
    • pp.107-113
    • /
    • 2002
  • 본 논문에서는 자동으로 야구 비디오를 요약하는 방법과 이를 구현한 소프트웨어 시스템을 제안한다. 제안된 시스템은 빠른 수행 속도와 정확성 높은 요약 결과를 추구한다. 이를 위해 압축비디오상의 특징 값에 기반 한 빠른 비디오 분할과 간단한 자막 인식을 수행하여 야구 경기에서 중요한 이벤트들을 검출한다. 또한, 본 시스템은 여러 레벨의 비디오 요약을 지원하기 위해 계층적 구조의 내용 기술을 지원한다.

감성공학 문서 데이터의 지표 자동화를 위한 코퍼스 분석 기반 특성정보 추출 (Extraction of Informative Features for Automatic Indexation of Human Sensibility Ergonomic Documents)

  • 배희숙;곽현민;채균식;이상태
    • 감성과학
    • /
    • 제7권2호
    • /
    • pp.133-140
    • /
    • 2004
  • 최근 대량으로 쏟아지는 감성공학 연구 결과와 논문들을 가치 있는 자료로 만들기 위해서는 감성 데이터가 산업 전반에 활용될 수 있도록 지표로 정리해야 한다. 본 논문에서는 "웹기반 감성 데이터 베이스 구축 및 보급에 관한 연구" 과제를 통해 작성된 감성 데이터 지표에 입각해서 앞으로 대량으로 출현할 감성공학 데이터의 지속적인 지표화를 위한 과정의 자동화를 제안한다. 문서 데이터의 지표화 작업이 자동요약과 유사하다는 점에 착안하여 자동지표화 시스템을 위한 기술들의 기초가 되는 정보유형 및 주요어 추출, 특성표현을 통한 정보문 추출에 대해 감성공학 코퍼스 분석을 통해 연구하고자 한다. 이는 감성공학 분야에서의 지식관리 시스템이나 자동요약 시스템에 활용될 수 있다. 활용될 수 있다.

  • PDF

Viewer's Affective Feedback for Video Summarization

  • Dammak, Majdi;Wali, Ali;Alimi, Adel M.
    • Journal of Information Processing Systems
    • /
    • 제11권1호
    • /
    • pp.76-94
    • /
    • 2015
  • For different reasons, many viewers like to watch a summary of films without having to waste their time. Traditionally, video film was analyzed manually to provide a summary of it, but this costs an important amount of work time. Therefore, it has become urgent to propose a tool for the automatic video summarization job. The automatic video summarization aims at extracting all of the important moments in which viewers might be interested. All summarization criteria can differ from one video to another. This paper presents how the emotional dimensions issued from real viewers can be used as an important input for computing which part is the most interesting in the total time of a film. Our results, which are based on lab experiments that were carried out, are significant and promising.

완전성과 간결성을 고려한 텍스트 요약 품질의 자동 평가 기법 (Automatic Quality Evaluation with Completeness and Succinctness for Text Summarization)

  • 고은정;김남규
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.125-148
    • /
    • 2018
  • 다양한 스마트 기기 및 관련 서비스의 증가에 따라 텍스트 데이터가 폭발적으로 증가하고 있으며, 이로 인해 방대한 문서로부터 필요한 정보만을 추려내는 작업은 더욱 어려워졌다. 따라서 텍스트 데이터로부터 핵심 내용을 자동으로 요약하여 제공할 수 있는 텍스트 자동 요약 기술이 최근 더욱 주목을 받고 있다. 텍스트 요약 기술은 뉴스 요약 서비스, 개인정보 약관 요약 서비스 등을 통해 현업에서도 이미 활발하게 적용되고 있으며, 학계에서도 문서의 주요 요소를 선별하여 제공하는 추출(Extraction) 접근법과 문서의 요소를 발췌한 뒤 이를 조합하여 새로운 문장을 구성하는 생성(Abstraction) 접근법에 따라 많은 연구가 이루어지고 있다. 하지만 문서의 자동 요약 기술에 비해, 자동으로 요약된 문서의 품질을 평가하는 기술은 상대적으로 많은 진전을 이루지 못하였다. 요약문의 품질 평가를 다룬 기존의 대부분의 연구들은 사람이 수작업으로 요약문을 작성하여 이를 기준 문서(Reference Document)로 삼고, 자동 요약문과 기준 문서와의 유사도를 측정하는 방식으로 수행되었다. 하지만 이러한 방식은 기준 문서의 작성 과정에 막대한 시간과 비용이 소요될 뿐 아니라 요약자의 주관에 의해 평가 결과가 다르게 나타날 수 있다는 한계를 갖는다. 한편 이러한 한계를 극복하기 위한 연구도 일부 수행되었는데, 대표적으로 전문에 대해 차원 축소를 수행하고 이렇게 축소된 전문과 자동 요약문의 유사도를 측정하는 기법이 최근 고안된 바 있다. 이 방식은 원문에서 출현 빈도가 높은 어휘가 요약문에 많이 나타날수록 해당 요약문의 품질이 우수한 것으로 평가하게 된다. 하지만 요약이란 본질적으로 많은 내용을 줄여서 표현하면서도 내용의 누락을 최소화하는 것을 의미하므로, 단순히 빈도수에 기반한 "좋은 요약"이 항상 본질적 의미에서의 "좋은 요약"을 의미한다고 보는 것은 무리가 있다. 요약문 품질 평가의 이러한 기존 연구의 한계를 극복하기 위해, 본 연구에서는 요약의 본질에 기반한 자동 품질 평가 방안을 제안한다. 구체적으로 요약문의 문장 중 서로 중복되는 내용이 얼마나 적은지를 나타내는 요소로 간결성(Succinctness) 개념을 정의하고, 원문의 내용 중 요약문에 포함되지 않은 내용이 얼마나 적은지를 나타내는 요소로 완전성(Completeness)을 정의한다. 본 연구에서는 간결성과 완전성의 개념을 적용한 요약문 품질 자동 평가 방법론을 제안하고, 이를 TripAdvisor 사이트 호텔 리뷰의 요약 및 평가에 적용한 실험 결과를 소개한다.

스코어 정보를 이용한 농구 비디오의 자동요약 (Automatic Summarization of Basketball Video Using the Score Information)

  • 정철곤;김의진;이광국;김회율
    • 한국통신학회논문지
    • /
    • 제32권9C호
    • /
    • pp.881-887
    • /
    • 2007
  • 본 논문에서는 농구 비디오의 내용기반 자동 요약 방법을 제안하였다. 의미 있는 요약을 위해, 농구 비디오에 포함되어 있는 스코어 정보를 이용하였다. 스코어 정보는 비디오에 포함된 스코어 자막의 숫자들을 인식한 후, 인식된 스코어의 변화를 분석함에 의해 획득된다. 일반적으로 농구경기의 중요한 이벤트는 3점 슛, 일방적 리드, 역전 등이다. 제안된 요약방법은 스코어 정보를 활용해 이러한 이벤트들을 검출하였으며, 이를 기반으로 농구 비디오의 요약 및 하이라이트를 생성하였다.

스코어 정보를 이용한 농구 비디오의 자동요약 (Automatic Summarization of Basketball Video Using the Score Information)

  • 정철곤;김의진;이광국;김회율
    • 한국통신학회논문지
    • /
    • 제32권8C호
    • /
    • pp.738-744
    • /
    • 2007
  • 본 논문에서는 농구 비디오의 내용기반 자동 요약 방법을 제안하였다. 의미 있는 요약을 위해, 농구 비디오에 포함되어 있는 스코어 정보를 이용하였다. 스코어 정보는 비디오에 포함된 스코어 자막의 숫자들을 인식한 후, 인식된 스코어의 변화를 분석함에 의해 획득된다. 일반적으로 농구경기의 중요한 이벤트는 3점 슛, 일방적 리드, 역전 등이다. 제안된 방법은 스코어 정보를 활용해 이러한 이벤트들을 검출하였으며, 이를 기반으로 농구 비디오의 요약 및 하이라이트를 생성하였다.