• Title/Summary/Keyword: 자동요약

Search Result 282, Processing Time 0.024 seconds

Automatic Text Summarization Using Thesaurus (시소러스를 이용한 문서 자동 요약)

  • 이창범;박혁로
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.352-354
    • /
    • 2001
  • 문서 자동요약은 입력된 문서에 대해 컴퓨터가 자동으로 요약을 생성하는 과정을 의미한다. 즉, 컴퓨터가 문서의 기본적인 내용을 유지하면서 문서의 복잡도 즉 문서의 길이를 줄이는 작업이다. 효율적인 정보 접근을 제공함과 동시에 정보 과적재를 해결하기 하기 위한 하나의 방법으로 문서 자동요약에 관한 연구가 활발히 진행되고 있다. 본 논문에서는 의미기반 정보검색용 시소러스(thesaurus)를 이용한 문서 자동요약을 제안한다. 제안한 방법에서는 단어간의 연관 관계 즉, 동의어, 유의어, 상위어, 하위어 관계를 문서 요약에 이용한다. 크게 연관 사슬 형성 단계, 중심 문장 추출 단계, 요약 생성 단계의 새단계로 나누어 요약을 생성한다. 수동 요약된 신문기사를 대상으로 평가한 결과 평균 66%가 일치하였다.

  • PDF

Method to improve the Quality of Training Data for Automatic Summarization of Judgments (판결문 자동요약을 위한 학습 데이터의 품질 개선방안)

  • Sang-Young Go
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.461-464
    • /
    • 2022
  • 법원도서관이 발간하는 판례공보를 기반으로 판결문 자동요약을 위한 학습 데이터들이 구축되고 있다. 그런데 판결문 요약에서는 뉴스 요약과는 달리 추출요약과 생성요약 방식이 함께 사용되는 특수성이 있고, 이러한 특수성 때문에 현재 판결문 요약 데이터셋이 요약 프로그램의 성능 향상을 이끌지 못하고 있다고 생각된다. 따라서 법률가들이 판결문을 요약하는 방식을 반영하여, 추출요약 방식으로 작성된 판결요지와 생성요약 방식으로 작성된 판결요지를 분리해서 요약 데이터셋을 만들 필요가 있다. 추출요약과 생성요약에 관한 데이터셋을 따로 구축하기 위해서는 판례공보의 판결요지를 추출요약과 생성요약으로 분류하는 작업이 필요한데, 감성 분석에 사용되는 알고리즘이 판결요지의 분류 작업에 응용될 수 있다는 것을 실험 결과로 알 수 있었다.

  • PDF

Analysis on Automatic Summarization Functions of the Single Document and the Multi Documents (단일문서와 복수문서 자동요약의 특성에 따른 기능 분석)

  • 최상희
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2003.08a
    • /
    • pp.303-312
    • /
    • 2003
  • 요약은 원문의 주제를 파악하여 원문의 축약판을 만들어 이용자에게 제공하는 중요한 정보 생산 과정이다. 최근 이용자에게 제공되는 정보량이 급증하면서 자동 요약에 대한 필요성이 더욱 증가하고 있으며 단일문서의 내용을 파악하는 도구로써 활용되던 요약이 문서집합의 내용을 파악하는 도구 및 새로운 정보생성 수단으로 그 기능을 넓혀가고 있다. 본 논고에서는 자동요약의 기본 개념과 요약대상의 문서 수에 따른 요약 특성 및 기능을 고찰하였다.

  • PDF

An Experimental Study on Automatic Summarization of Multiple News Articles (복수의 신문기사 자동요약에 관한 실험적 연구)

  • Kim, Yong-Kwang;Chung, Young-Mee
    • Journal of the Korean Society for information Management
    • /
    • v.23 no.1 s.59
    • /
    • pp.83-98
    • /
    • 2006
  • This study proposes a template-based method of automatic summarization of multiple news articles using the semantic categories of sentences. First, the semantic categories for core information to be included in a summary are identified from training set of documents and their summaries. Then, cue words for each slot of the template are selected for later classification of news sentences into relevant slots. When a news article is input, its event/accident category is identified, and key sentences are extracted from the news article and filled in the relevant slots. The template filled with simple sentences rather than original long sentences is used to generate a summary for an event/accident. In the user evaluation of the generated summaries, the results showed the 54.l% recall ratio and the 58.l% precision ratio in essential information extraction and 11.6% redundancy ratio.

A Text Summarization Model Based on Sentence Clustering (문장 클러스터링에 기반한 자동요약 모형)

  • 정영미;최상희
    • Journal of the Korean Society for information Management
    • /
    • v.18 no.3
    • /
    • pp.159-178
    • /
    • 2001
  • This paper presents an automatic text summarization model which selects representative sentences from sentence clusters to create a summary. Summary generation experiments were performed on two sets of test documents after learning the optimum environment from a training set. Centroid clustering method turned out to be the most effective in clustering sentences, and sentence weight was found more effective than the similarity value between sentence and cluster centroid vectors in selecting a representative sentence from each cluster. The result of experiments also proves that inverse sentence weight as well as title word weight for terms and location weight for sentences are effective in improving the performance of summarization.

  • PDF

Korean Pre-trained Model KE-T5-based Automatic Paper Summarization (한국어 사전학습 모델 KE-T5 기반 자동 논문 요약)

  • Seo, Hyeon-Tae;Shin, Saim;Kim, San
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.505-506
    • /
    • 2021
  • 최근 인터넷에서 기하급수적으로 증가하는 방대한 양의 텍스트를 자동으로 요약하려는 연구가 활발하게 이루어지고 있다. 자동 텍스트 요약 작업은 다양한 사전학습 모델의 등장으로 인해 많은 발전을 이루었다. 특히 T5(Text-to-Text Transfer Transformer) 기반의 모델은 자동 텍스트 요약 작업에서 매우 우수한 성능을 보이며, 해당 분야의 SOTA(State of the Art)를 달성하고 있다. 본 논문에서는 방대한 양의 한국어를 학습시킨 사전학습 모델 KE-T5를 활용하여 자동 논문 요약을 수행하고 평가한다.

  • PDF

Automatic Text Summarization using Noun-Verb Cooccurrence Pattern (명사-동사 공기패턴을 이용한 문서 자동 요약)

  • Nam, Ki-Jong;Lee, Chang-Beom;Kang, Dae-Wook;Park, Hyuk-Ro
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11a
    • /
    • pp.611-614
    • /
    • 2002
  • 문서 자동 요약은 입력된 문서에 대해 컴퓨터가 자동으로 요약을 생성하는 과정을 의미한다. 즉, 컴퓨터가 문서의 기본적인 내용을 유지하면서 문서의 복잡도 즉 문서의 길이를 줄이는 작업이다. 효율적인 정보 접근을 제공함과 동시에 정보 과적재를 해결하기 위한 하나의 방법으로 문서 자동요약에 관한 연구가 활발히 진행되고 있다. 본 논문의 목적은 어휘 연관성 정보를 이용하여 한국어 문서를 자동으로 요약하는 효율적이며 효과적인 모형을 개발하는 것이다. 제안한 방법에서는 신문기사와 같은 특정 부류에 국한되는 단어간의 어휘연관성을 이용하여 명사-명사 공기패턴과 명사-동사 공기패턴을 구축하여 문서요약에 이용한다. 크게 불용어 처리 단계, 공기패턴 구축 단계, 문장 중요도 계산 단계, 요약 생성단계의 네 단계로 나누어 요약을 생성한다. 30% 중요문장 추출된 신문기사를 대상으로 평가한 결과 명사-명사 공기패턴과 빈도만을 이용한 방법보다 명사-동사 공기패턴을 이용한 방법이 좋은 결과를 가져 왔다.

  • PDF

Automatic Text Summarization Using Query Expansion (질의확장을 이용한 자동 문서요약)

  • 한경수;백대호;임해창
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.339-341
    • /
    • 2000
  • 문서요약이란 문서의 기본적인 내용을 유지하면서 문서의 복잡도를 줄이는 작업이다. 인터넷과 같은 정보기술의 발달로 정보의 양이 급증함에 따라, 정보 과적재(information over load) 문제의 해결을 위해 자동 문서요약시스템의 필요성이 대두되었다. 본 논문에서는 의사 적합성 피드백(pseudo relevance feedback)에 의한 질의확장(query expansion) 기법을 적용한 자동 문서요약 모델을 제안한다. 제안하는 모델의 특징은 질의를 분해함으로써, 적합성 피드백 과정에서 질의가 편향(bias)되어 요약이 잘못되는 문제를 방지할 수 있다는 것이다. 신문기사를 대상으로 평가한 결과 제안한 모델이 질의확장을 적용하지 않은 방법이나 하나의 질의만을 유지하는 일반적인 적합성 피드백 모델보다 더 좋은 성능을 보였다.

  • PDF

Automatic Text Summarization with Lexical Clustering (어휘 클러스터링을 이용한 자동 문서 요약)

  • 김건오;고영중;서정연
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.463-465
    • /
    • 2002
  • 자동 문서 요약 시스템은 문서내 담겨있는 정보를 최대만 표현하면서 문서의 크기를 줄이는 시스템이다. 본 논문에서는 어휘를 자동으로 클러스터링하여 문서 대표어를 찾고, 이를 제목과 조합하여 요약을 수행하는 시스템을 제안한다. 특히 이 시스템은 제목이 없는 문서도 요약을 수행할 수 있는 장점이 있다. 비교시스템으로는 제목, 위치, 빈도를 이용만 시스템을 구축하여 사용하였으며 30%, 10%, 그리고 4문장 요약에서 제안한 시스템은 모두 우수한 성능을 보였다.

  • PDF

Text Summarisation with Rhetorical Structure (수사구조를 이용한 텍스트 자동요약)

  • Lee, Yu-Ri;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.97-102
    • /
    • 1999
  • 텍스트 요약이란 중요정보만을 추출하여 본래 텍스트의 의미를 전달하는 축약 과정이다. 인터넷을 통한 온라인 정보가 급증함에 따라 정보에 대한 처리와 신속한 내용 파악을 위한 효율적인 자동 텍스트 방법이 필요하다. 기존의 통계적 방법으로는 전체 텍스트의 구조적인 특징을 고려할 수가 없기 때문에, 생성된 요약문의 의미적 흐름이 부자연스럽고, 문장간 응집도가 떨어지게 된다. 수사학적 방법은 요약문을 생성하기 위해서 문장간의 접속관계를 이용한다. 수사 구조란 텍스트를 이루는 문장들간의 논리적인 결합관계로, 수사학적 방법은 이러한 결합관계를 파악하여 요약문을 생성하는 방법이다. 본 논문에서는 표지들이 나타내는 접속 관계정보를 사용하여, 텍스트의 수사구조를 분석한 후 요약문을 생성하는 시스템을 구현한다. 수사구조 파싱 과정은 문장간의 수사구조 파싱과 문단간의 수사구조 파싱, 두 단계로 이루어진다. 파싱은 차트파싱 방법을 사용하여 상향식으로 진행된다. 입력된 문장들로부터 두 단계 파싱에 의해 전체 텍스트의 수사구조 트리를 생성하며, 생성된 트리에서 가중치를 계산하여 중요 문장들을 요약문으로 추출한다.

  • PDF