• Title/Summary/Keyword: Text summarization

Search Result 126, Processing Time 0.022 seconds

Query_Based Automatic Text Summarization (질의기반 자동문서 요약)

  • Kim, Gum-Young;Kang, In-Ho;An, Dong-Un;Chung, Sung-Jong;Pak, Sun-Cheol
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.04a
    • /
    • pp.593-596
    • /
    • 2002
  • 웹에 대한 이용이 폭발적으로 증가하면서, 정보검색의 중요성도 증가하고 있다. 이에 따라 정보검색을 효율적이고 신속하게 수행할 수 있도록 다양한 기법이 개발되고 있다. 문서요약은 주어진 문서의 양을 효과적으로 줄이는 기법으로 최근 정보검색 분야에서 활용되고 있다. 본 논문에서는 주어진 질의에 대하여 문서를 요약할 수 있는 자동문서 요약 시스템을 제안한다. 제안하는 시스템은 사용자의 질의에 관련있는 내용만을 포함하는 사용자 주도 요약 (user-driven summary) 결과를 산출한다.

  • PDF

Text Summarization with Abductive Rules and Sentence Abstraction (개연성 규칙과 문장추상화를 활용한 문서요약)

  • Kim, Gon;Bae, Jae-Hak
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11a
    • /
    • pp.359-362
    • /
    • 2002
  • 본 논문에서는 문장추상화와 문장간 개연적 연결상황을 활용한 문단 기준의 문서요약을 생각하였다. 구상한 문단기준 문서요약 방법론은 다음과 같은 절차로 구성되어 있다: (1) 문단의 문장들을 추상화시킨다, (2) 문장구성성분들의 문장간 개연적 연결상황을 확인한다, (3) 연결집중도가 상대적으로 높은 문장을 문단의 화제를 담고 있는 것으로 인정한다. 본 논문에서는 이 과정에서 문장추상화에 필요한 구문분석기와 온톨로지를 구체화하였고, 문장추상기로 설화문장 추상화를 하였다. 그 후 개연성 규칙을 적용하여 문단의 주제문을 선별하였다.

  • PDF

Query-Based Automatic Text Summarization Using MMR (MMR을 이용한 질의기반 자동 문서요약)

  • Kim, Gum-Young;An, Dong-Un;Chung, Sung-Jong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11a
    • /
    • pp.615-618
    • /
    • 2002
  • 정보검색 엔진들은 주어진 질의에 대해 방대한 양의 문서들을 검색해주며, 이 문서들은 질의와의 관련성에 따라 랭킹(Ranting)된다. 질색된 문서들중에 어떤것들은 그 내용이 서로 유사하여 사용자에게 필요 이상의 정보를 제공한다. 이는 질의와의 관련성(Relevance)만을 적용하고, 검색된 정보들간의 차별성을 고려하지 않은데서 비롯된다. MMR(Maximal Marginal Relevance)은 유사한 문서를 검색결과에서 배제할 수 있게 해주는 기법이다. MMR을 자동에 적용하면, 유사한 문장을 배제하여 상이한 정보들을 전달하는 질 높은 요약문을 생성할 수 있다. 본 논문에서는 MMR을 이용한 질의기반 자동 문서요약 시스템을 구현한다. 또한, MMR과 가중치 수식에 다양한 수치를 적용하고, 최적의 결과를 산출하는 수식을 제안한다.

  • PDF

PrefixLM for Korean text summarization (PrefixLM에 기반한 한국어 텍스트 요약)

  • Lee, Kun-Hui;Na, Seung-Hoon;Lim, Joon-Ho;Kim, Tae-Hyeong;Choi, Yun-Su;Chang, Du-Seong
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.22-27
    • /
    • 2021
  • 언어 모델은 많은 데이터와 많은 파라미터로 오래 사전학습을 수행할수록 그 성능이 높아지지만, 그 크기가 큰 만큼 거대 언어 모델은 너무 큰 크기로 인해서 실사용에 많은 하드웨어 리소스를 필요로 한다. 본 논문에서는 거대 언어 모델 중 하나인 T5의 인코더-디코더 구조 대비 절반의 크기를 가지는 PrefixLM 구조에 기반한 한국어 모델을 학습하여 자연어 처리에서 중요한 태스크 중 하나인 텍스트 생성 요약 태스크에서의 성능평가를 하여 BART, T5와 비교하여 각각 0.02, 0.0859의 성능 향상을 보였다.

  • PDF

PALM for Improving Korean T5: Application to Machine Reading Comprehension & Text Summarization (PALM 기반 한국어 T5 개선: 기계독해 및 텍스트 요약으로의 응용)

  • Park, Eunhwan;Na, Seung-Hoon;Lim, Joon-Ho;Kim, Tae-Hyeong;Choi, Yun-Su;Chang, Du-Seong
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.501-504
    • /
    • 2021
  • 최근 언어 모델은 분류, 기계 독해, 생성 등의 태스크에서 성공적인 결과를 보여주고 있다. 본 논문에서는 최근 많은 관심을 받고 있는 인코더-디코더 구조의 언어 모델인 BART, T5 그리고 PALM을 위키피디아 한국어 데이터 집합으로 사전 학습한 후 기계 독해와 문서 생성 요약 태스크에 대하여 미세 조정을 하고 성능 비교를 한다.

  • PDF

A Comparative Study on the Korean Text Extractive Summarization using Pre-trained Language Model (사전 학습 언어 모델을 이용한 한국어 문서 추출 요약 비교 분석)

  • Young-Rae Cho;Kwang-Hyun Baek;Min-Ji Park;Byung Hoon Park;Sooyeon Shin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.518-521
    • /
    • 2023
  • 오늘날 과도한 정보의 양 속에서 디지털 문서 내 중요한 정보를 효율적으로 획득하는 것은 비용 효율의 측면에서 중요한 요구사항이 되었다. 문서 요약은 자연어 처리의 한 분야로서 원본 문서의 핵심적인 정보를 유지하는 동시에 중요 문장을 추출 또는 생성하는 작업이다. 이 중 추출요약은 정보의 손실 및 잘못된 정보 생성의 가능성을 줄이고 요약 가능하다. 그러나 여러 토크나이저와 임베딩 모델 중 적절한 활용을 위한 비교가 미진한 상황이다. 본 논문에서는 한국어 사전학습된 추출 요약 언어 모델들을 선정하고 추가 데이터셋으로 학습하고 성능 평가를 실시하여 그 결과를 비교 분석하였다.

Study on Designing and Implementing Online Customer Analysis System based on Relational and Multi-dimensional Model (관계형 다차원모델에 기반한 온라인 고객리뷰 분석시스템의 설계 및 구현)

  • Kim, Keun-Hyung;Song, Wang-Chul
    • The Journal of the Korea Contents Association
    • /
    • v.12 no.4
    • /
    • pp.76-85
    • /
    • 2012
  • Through opinion mining, we can analyze the degree of positive or negative sentiments that customers feel about important entities or attributes in online customer reviews. But, the limit of the opinion mining techniques is to provide only simple functions in analyzing the reviews. In this paper, we proposed novel techniques that can analyze the online customer reviews multi-dimensionally. The novel technique is to modify the existing OLAP techniques so that they can be applied to text data. The novel technique, that is, multi-dimensional analytic model consists of noun, adjective and document axes which are converted into four relational tables in relational database. The multi-dimensional analysis model would be new framework which can converge the existing opinion mining, information summarization and clustering algorithms. In this paper, we implemented the multi-dimensional analysis model and algorithms. we recognized that the system would enable us to analyze the online customer reviews more complexly.

A Study on Automated Fake News Detection Using Verification Articles (검증 자료를 활용한 가짜뉴스 탐지 자동화 연구)

  • Han, Yoon-Jin;Kim, Geun-Hyung
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.10 no.12
    • /
    • pp.569-578
    • /
    • 2021
  • Thanks to web development today, we can easily access online news via various media. As much as it is easy to access online news, we often face fake news pretending to be true. As fake news items have become a global problem, fact-checking services are provided domestically, too. However, these are based on expert-based manual detection, and research to provide technologies that automate the detection of fake news is being actively conducted. As for the existing research, detection is made available based on contextual characteristics of an article and the comparison of a title and the main article. However, there is a limit to such an attempt making detection difficult when manipulation precision has become high. Therefore, this study suggests using a verifying article to decide whether a news item is genuine or not to be affected by article manipulation. Also, to improve the precision of fake news detection, the study added a process to summarize a subject article and a verifying article through the summarization model. In order to verify the suggested algorithm, this study conducted verification for summarization method of documents, verification for search method of verification articles, and verification for the precision of fake news detection in the finally suggested algorithm. The algorithm suggested in this study can be helpful to identify the truth of an article before it is applied to media sources and made available online via various media sources.

A Rule-based Approach to Identifying Citation Text from Korean Academic Literature (한국어 학술 문헌의 본문 인용문 인식을 위한 규칙 기반 방법)

  • Kang, In-Su
    • Journal of the Korean Society for information Management
    • /
    • v.29 no.4
    • /
    • pp.43-60
    • /
    • 2012
  • Identifying citing sentences from article full-text is a prerequisite for creating a variety of future academic information services such as citation-based automatic summarization, automatic generation of review articles, sentiment analysis of citing statements, information retrieval based on citation contexts, etc. However, finding citing sentences is not easy due to the existence of implicit citing sentences which do not have explicit citation markers. While several methods have been proposed to attack this problem for English, it is difficult to find such automatic methods for Korean academic literature. This article presents a rule-based approach to identifying Korean citing sentences. Experiments show that the proposed method could find 30% of implicit citing sentences in our test data in nearly 70% precision.

Method of Extracting the Topic Sentence Considering Sentence Importance based on ELMo Embedding (ELMo 임베딩 기반 문장 중요도를 고려한 중심 문장 추출 방법)

  • Kim, Eun Hee;Lim, Myung Jin;Shin, Ju Hyun
    • Smart Media Journal
    • /
    • v.10 no.1
    • /
    • pp.39-46
    • /
    • 2021
  • This study is about a method of extracting a summary from a news article in consideration of the importance of each sentence constituting the article. We propose a method of calculating sentence importance by extracting the probabilities of topic sentence, similarity with article title and other sentences, and sentence position as characteristics that affect sentence importance. At this time, a hypothesis is established that the Topic Sentence will have a characteristic distinct from the general sentence, and a deep learning-based classification model is trained to obtain a topic sentence probability value for the input sentence. Also, using the pre-learned ELMo language model, the similarity between sentences is calculated based on the sentence vector value reflecting the context information and extracted as sentence characteristics. The topic sentence classification performance of the LSTM and BERT models was 93% accurate, 96.22% recall, and 89.5% precision, resulting in high analysis results. As a result of calculating the importance of each sentence by combining the extracted sentence characteristics, it was confirmed that the performance of extracting the topic sentence was improved by about 10% compared to the existing TextRank algorithm.