• Title/Summary/Keyword: summarization

Search Result 374, Processing Time 0.026 seconds

A Study on Automatic Analysis System of National Defense Articles (국방 기사 자동 분석 시스템 구축 방안 연구)

  • Kim, Hyunjung;Kim, Wooju
    • Journal of the Korea Institute of Military Science and Technology
    • /
    • v.21 no.1
    • /
    • pp.86-93
    • /
    • 2018
  • Since media articles, which have a great influence on public opinion, are transmitted to the public through various media, it is very difficult to analyze them manually. There are many discussions on methods that can collect, process, and analyze documents in the academia, but this is mostly done in the areas related to politics and stocks, and national-defense articles are poorly researched. In this study, we will explain how to build an automatic analysis system of national defense articles that can collect information on defense articles automatically, and can process information quickly by using topic modeling with LDA, emotional analysis, and extraction-based text summarization.

End-to-end Document Summarization using Copy Mechanism and Input Feeding (Copy Mechanism과 Input Feeding을 이용한 End-to-End 한국어 문서요약)

  • Choi, Kyoungho;Lee, Changki
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.56-61
    • /
    • 2016
  • 본 논문에서는 Sequence-to-sequence 모델을 생성요약의 방법으로 한국어 문서요약에 적용하였으며, copy mechanism과 input feeding을 적용한 RNN search 모델을 사용하여 시스템의 성능을 높였다. 인터넷 신문기사를 수집하여 구축한 한국어 문서요약 데이터 셋(train set 30291 문서, development set 3786 문서, test set 3705문서)으로 실험한 결과, input feeding과 copy mechanism을 포함한 모델이 형태소 기준으로 ROUGE-1 35.92, ROUGE-2 15.37, ROUGE-L 29.45로 가장 높은 성능을 보였다.

  • PDF

Classifying Biomedical Literature Providing Protein Function Evidence

  • Lim, Joon-Ho;Lee, Kyu-Chul
    • ETRI Journal
    • /
    • v.37 no.4
    • /
    • pp.813-823
    • /
    • 2015
  • Because protein is a primary element responsible for biological or biochemical roles in living bodies, protein function is the core and basis information for biomedical studies. However, recent advances in bio technologies have created an explosive increase in the amount of published literature; therefore, biomedical researchers have a hard time finding needed protein function information. In this paper, a classification system for biomedical literature providing protein function evidence is proposed. Note that, despite our best efforts, we have been unable to find previous studies on the proposed issue. To classify papers based on protein function evidence, we should consider whether the main claim of a paper is to assert a protein function. We, therefore, propose two novel features - protein and assertion. Our experimental results show a classification performance with 71.89% precision, 90.0% recall, and a 79.94% F-measure. In addition, to verify the usefulness of the proposed classification system, two case study applications are investigated - information retrieval for protein function and automatic summarization for protein function text. It is shown that the proposed classification system can be successfully applied to these applications.

Information Retrieval System : Condor (콘도르 정보 검색 시스템)

  • 박순철;안동언
    • Journal of Korea Society of Industrial Information Systems
    • /
    • v.8 no.4
    • /
    • pp.31-37
    • /
    • 2003
  • This paper is a review of the large-scale information retrieval system, CONDOR. This system was developed by the consortium that consists of Chonbuk National University, Searchline Co. and Carnegie Mellon University. This system is based on the probabilistic model of information retrieval systems. The multi-language query processing, online document summarization based on query and dynamic hierarchy clustering of this system make difference of other systems. We test this system with 30 million web documents successfully.

  • PDF

Comparison of KoBART and KoBERT models for Korean paper summarization (한국어 논문 요약을 위한 KoBART와 KoBERT 모델 비교*)

  • Jaesung Jun;Suan Lee
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.562-564
    • /
    • 2022
  • 통신 기술의 발전으로 일반인들도 다양한 자료들을 인터넷에서 손쉽게 찾아볼 수 있는 시대가 도래하였다. 개인이 접근할 수 있는 정보량이 기하급수적으로 많아 짐에 따라, 이를 효율적으로 요약, 정리하여 보여주는 서비스들의 필요성이 높아지기 시작했다. 본 논문에서는, 자연어 처리 모델인 BART를 40GB 이상의 한국어 텍스트로 미리 학습된 한국어 언어 모델 KoBART를 사용한 한국어 논문 요약 모델을 제안하고, KoBART와 KoBERT 모델의 한국어 논문 요약 성능을 비교한다.

  • PDF

Corpus Construction of National Assembly Minutes Summarization for Korean Abstractive Meeting Minutes Summarization (한국어 회의록 생성 요약을 위한 국회 회의록 요약 말뭉치 구축 연구)

  • Younggyun Hahm;Yejee Kang;Seoyoon Park;Yongbin Jeong;Hyunbin Seo;Yiseul Lee;Hyejin Seo;Saetbyol Seo;Hansam Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.192-197
    • /
    • 2022
  • 요약 연구의 주류는 아직 문서를 대상으로 하지만, 최근에는 회의 요약 연구에 대한 관심이 크게 높아지고 있다. 본 연구는 국립국어원 국어 빅데이터 구축 사업의 일환으로 국내에서 아직 연구되지 않은 국회 회의록 생성 요약에 대해 연구를 진행하였으며, 국회 회의록에 대한 생성 요약 데이터세트를 구축하였다. 또한 생성 요약 모델을 통해 구축된 데이터세트에 대한 정량 및 정성적 평가를 진행함으로써 국회 회의록 요약 데이터세트에 대한 평가 및 향후 생성 요약과 회의록 요약의 연구 방향을 모색하였다.

  • PDF

EyeBERT: Eye tracking based Human Reading for Extractive Text Summarization (EyeBERT: 아이트래킹 기반의 휴먼 리딩을 반영한 추출 요약 기법)

  • Lee, Seolhwa;Hur, Yuna;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.522-526
    • /
    • 2019
  • 추출 요약(Extractive summarization)은 문서내에 주요한 요약정보가 되는 문장 또는 단어를 추출하여 요약을 생성하는 기법이다. 딥러닝 기법들이 많이 발전하면서 요약 기법에도 sequence-to-sequence와 같은 많은 시도들이 있었지만 대부분의 방법론들은 딥러닝의 모델 구조관점으로 접근하거나 요약에 있어서 단순히 입력 텍스트를 넣고 알고리즘이 처리하는 머신 리딩(Machine reading)관점으로 접근한다. 텍스트 요약 태스크 자체는 사람이 텍스트에 대한 정보 파악을 요약문을 통해 빠르게 하고 싶은 궁극적인 목표가 있으므로, 사람이 텍스트 요약에 필요한 인지처리과정을 반영할 필요가 있다. 결국, 기존의 머신 리딩보다는 휴먼 리딩(Human reading)에 관한 이해와 구조적 접근이 필요하다. 따라서 본 연구는 휴먼 리딩을 위한 인지처리과정을 위해 아이트래킹 데이터 기반의 새로운 추출 요약 모델을 제안한다.

  • PDF

Korean Text Summarization using MASS with Copying Mechanism (MASS와 복사 메커니즘을 이용한 한국어 문서 요약)

  • Jung, Young-Jun;Lee, Chang-Ki;Go, Woo-Young;Yoon, Han-Jun
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.157-161
    • /
    • 2020
  • 문서 요약(text summarization)은 주어진 문서로부터 중요하고 핵심적인 정보를 포함하는 요약문을 만들어 내는 작업으로, 기계 번역 작업에서 주로 사용되는 Sequence-to-Sequence 모델을 사용한 end-to-end 방식의 생성(abstractive) 요약 모델 연구가 활발히 진행되고 있다. 최근에는 BERT와 MASS 같은 대용량 단일 언어 데이터 기반 사전학습(pre-training) 모델을 이용하여 미세조정(fine-tuning)하는 전이 학습(transfer learning) 방법이 자연어 처리 분야에서 주로 연구되고 있다. 본 논문에서는 MASS 모델에 복사 메커니즘(copying mechanism) 방법을 적용하고, 한국어 언어 생성(language generation)을 위한 사전학습을 수행한 후, 이를 한국어 문서 요약에 적용하였다. 실험 결과, MASS 모델에 복사 메커니즘 방법을 적용한 한국어 문서 요약 모델이 기존 모델들보다 높은 성능을 보였다.

  • PDF

MAS: Real-time Meeting Scripting and Summarization Service using BART and WebRTC library (MAS: BART 와 WebRTC 라이브러리를 이용한 실시간 회의 스크립트화 및 요약 서비스)

  • Kwon, Ki-Jun;Ko, Geon-Jun;Joo, Yeong-Hwan;Chi, Jeong-hee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.11a
    • /
    • pp.619-621
    • /
    • 2022
  • COVID-19 사태의 지속화로 재택근무 및 화상 수업의 수요가 증가함에 따라, 화상 회의 서비스에 대한 수요 또한 증가하고 있다. 본 논문은 회의 내용의 텍스트화 및 요약 회의록 생성에 관한 연구를 통해 보다 효율적인 화상 회의 서비스를 제공하고자 한다. WebRTC를 기반으로 화상 회의 서비스를 제공하며, WebSpeech API 를 활용하여 회의 내용을 스크립트화 한다. 회의 스크립트는 BART를 통해 요약본으로 재생성되며, 회의 스크립트와 요약본은 언제든지 열람 및 다운로드가 가능하다. 본 논문은 회의 요약 기능을 제공하는 화상 회의 서비스 MAS (Meeting Auto Summarization)를 제안하며, MAS 의 설계 및 구현 방법을 소개한다.

A Method Name Suggestion Model based on Abstractive Text Summarization (추상적 텍스트 요약 기반의 메소드 이름 제안 모델)

  • Ju, Hansae;Lee, Scott Uk-Jin
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2022.07a
    • /
    • pp.137-138
    • /
    • 2022
  • 소스 코드 식별자의 이름을 잘 정하는 것은 소프트웨어 엔지니어링에서 중요한 문제로 다루어지고 있다. 프로그램 엔티티의 의미있고 간결한 이름은 코드 이해도에 중요한 역할을 하며, 소프트웨어 유지보수 관리 비용을 줄이는 데에 큰 효과가 있다. 이러한 코드 식별자 중 평균적으로 가장 복잡한 식별자는 '메소드 이름'으로 알려져 있다. 본 논문에서는 메소드 내용과 일관성 있는 적절한 메소드 이름 생성을 자연어 처리 태스크 중 하나인 '추상적 텍스트 요약'으로 치환하여 수행하는 트랜스포머 기반의 인코더-디코더 모델을 제안한다. 제안하는 모델은 Github 오픈소스를 크롤링한 Java 데이터셋에서 기존 최신 메소드 이름 생성 모델보다 약 50% 이상의 성능향상을 보였다. 이를 통해 적절한 메소드 작명에 필요한 비용 절감 달성 및 다양한 소스 코드 관련 태스크를 언어 모델의 성능을 활용하여 해결하는 데 도움이 될 것으로 기대된다.

  • PDF