• Title/Summary/Keyword: 텍스트 모델 학습

Search Result 339, Processing Time 0.025 seconds

Semantic Pre-training Methodology for Improving Text Summarization Quality (텍스트 요약 품질 향상을 위한 의미적 사전학습 방법론)

  • Mingyu Jeon;Namgyu Kim
    • Smart Media Journal
    • /
    • v.12 no.5
    • /
    • pp.17-27
    • /
    • 2023
  • Recently, automatic text summarization, which automatically summarizes only meaningful information for users, is being studied steadily. Especially, research on text summarization using Transformer, an artificial neural network model, has been mainly conducted. Among various studies, the GSG method, which trains a model through sentence-by-sentence masking, has received the most attention. However, the traditional GSG has limitations in selecting a sentence to be masked based on the degree of overlap of tokens, not the meaning of a sentence. Therefore, in this study, in order to improve the quality of text summarization, we propose SbGSG (Semantic-based GSG) methodology that selects sentences to be masked by GSG considering the meaning of sentences. As a result of conducting an experiment using 370,000 news articles and 21,600 summaries and reports, it was confirmed that the proposed methodology, SbGSG, showed superior performance compared to the traditional GSG in terms of ROUGE and BERT Score.

Analysis of Sentential Paraphrase Patterns and Errors through Predicate-Argument Tuple-based Approximate Alignment (술어-논항 튜플 기반 근사 정렬을 이용한 문장 단위 바꿔쓰기표현 유형 및 오류 분석)

  • Choi, Sung-Pil;Song, Sa-Kwang;Myaeng, Sung-Hyon
    • The KIPS Transactions:PartB
    • /
    • v.19B no.2
    • /
    • pp.135-148
    • /
    • 2012
  • This paper proposes a model for recognizing sentential paraphrases through Predicate-Argument Tuple (PAT)-based approximate alignment between two texts. We cast the paraphrase recognition problem as a binary classification by defining and applying various alignment features which could effectively express the semantic relatedness between two sentences. Experiment confirmed the potential of our approach and error analysis revealed various paraphrase patterns not being solved by our system, which can help us devise methods for further performance improvement.

FastText and BERT for Automatic Term Extraction (FastText 와 BERT 를 이용한 자동 용어 추출)

  • Choi, Kyu-Hyun;Na, Seung-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.612-616
    • /
    • 2021
  • 자연어 처리의 다양한 task 들을 잘 수행하기 위해서 텍스트 내에서 적절한 용어를 골라내는 것은 중요하다. 텍스트에서 적절한 용어들을 자동으로 추출하기 위해 다양한 모델들을 학습시켜 용어의 특성을 잘 반영하는 n 그램을 추출할 수 있다. 본 연구에서는 기존에 존재하는 신경망 모델들을 조합하여 자동 용어 추출 성능을 개선할 수 있는 방법들을 제시하고 각각의 결과들을 비교한다.

  • PDF

Global Text & Local Text Integration Method for Aspect-Based Sentiment Analysis (개체단위 감정분석을 위한 글로벌 텍스트&로컬 텍스트 통합 방법)

  • Lin, Te;Joe, Inwhee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.11a
    • /
    • pp.414-416
    • /
    • 2022
  • 개체단위 감정분석(Aspect-Based Sentiment Analysis)는 자연어 처리에서 중요한 연구분야이다. 이는 입력 문장중에 존재하는 aspect term 의 감정 극성을 분석하는 것이 목적이다. 이 분야에서 현재 많이 사용되는 모델은 대부분 로컬 텍스트 또는 로컬 덱스트와 aspect term 사이의 관계에 주목하고 있다. 로켈 텍스트에 비해 글로벌 텍스트는 로컬 텍스트 뒤에 aspect term 내용을 추가해서 문장중에 있는 aspect term 내용을 더 깊게 학습할 수 있다고 생각한다. 본 논문에서는 새로운 masked attention 메커니즘을 사용하고 attention 메커니즘의 입력으로 글로벌 텍스트중에 있는 로컬 텍스트를 가로채어 전체 글로벌 텍스트의 내용과 융합한다. 이 방법은 semeval2014 데이터 셋에서 매우 좋은 결과를 얻었다.

Generation of Natural Referring Expressions by Syntactic Information and Cost-based Centering Model (구문 정보와 비용기반 중심화 이론에 기반한 자연스러운 지시어 생성)

  • Roh Ji-Eun;Lee Jong-Hyeok
    • Journal of KIISE:Software and Applications
    • /
    • v.31 no.12
    • /
    • pp.1649-1659
    • /
    • 2004
  • Text Generation is a process of generating comprehensible texts in human languages from some underlying non-linguistic representation of information. Among several sub-processes for text generation to generate coherent texts, this paper concerns referring expression generation which produces different types of expressions to refer to previously-mentioned things in a discourse. Specifically, we focus on pronominalization by zero pronouns which frequently occur in Korean. To build a generation model of referring expressions for Korean, several features are identified based on grammatical information and cost-based centering model, which are applied to various machine learning techniques. We demonstrate that our proposed features are well defined to explain pronominalization, especially pronominalization by zero pronouns in Korean, through 95 texts from three genres - Descriptive texts, News, and Short Aesop's Fables. We also show that our model significantly outperforms previous ones with a 99.9% confidence level by a T-test.

Korean Restaurant Reservation System Model Using Hybrid Code Network (Hybrid Code Network를 이용한 한국어 식당 예약 시스템 모델)

  • Lee, Dong-Yub;Hur, Yun-A;Lim, Heui-Seok
    • Proceedings of The KACE
    • /
    • 2017.08a
    • /
    • pp.57-59
    • /
    • 2017
  • 대화 시스템(dialogue system)은 텍스트나 음성을 통해 다양한 분야에서 특정한 목적을 수행할 수 있는 시스템이다. 대화 시스템을 구현하기 위한 방법으로 인공 신경망(neural network)을 기반으로한 end-to-end learning 방식이 제안되었다. End-to-end learning 방식을 이용한 식당 예약 시스템 모델의 학습을 위해 페이스북은 영어로 이루어진 식당 예약에 관련된 학습 대화 데이터셋(The 6 dialog bAbI tasks)을 구축하였다. 하지만 end-to-end learning 방식의 학습은 많은 학습 데이터가 필요하다는 단점이 존재하는데, 액션 템플릿(action template)의 정의를 통해 도메인 지식을 표현함으로써 일반적인 end-to-end learning 방식보다 적은 학습량으로 좋은 성능의 모델을 학습할 수 있는 Hybrid Code Network 구조를 제안한 연구가 있다. 본 논문에서는 Hybrid Code Network 구조를 이용하여 한국어 식당 예약 시스템을 구축할 수 있는 방법을 제안하고, 한국어로 이루어진 식당 예약에 관련한 학습 대화 데이터를 구축하는 방법을 제안한다.

  • PDF

OSMU Video UCC Learning Content Authoring Tool Design Using Content Sources Created by Others (외부 콘텐츠 소스를 활용한 OSMU 동영상 UCC 학습 콘텐츠 에디터 설계)

  • Oh, Jung-Min;Kim, Kyung-Ah;Moon, Nam-Mee
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2009.11a
    • /
    • pp.349-352
    • /
    • 2009
  • 최근 정보의 형태는 텍스트나 이미지 기반에서 벗어나 복합 멀티미디어, 즉 동영상 위주로 빠르게 이동하고 있다. 특히 사용자에 의해 제작되고 유통되는 동영상 UCC의 급격한 부상은 사용자의 정보 생산력과 정보 공유, 소비 형태를 능동적으로 변화시키고 있다. PC 뿐 아니라 IPTV에서도 주요 서비스 모델로 관심을 받는 동영상 UCC는 향후 지식 결부형 학습 콘텐츠로 옮아갈 것이라 예상되고 있으며 여기에는 수익 모델의 개발과 저작권 보호 이슈가 해결해야 할 선결 과제로 인식된다. 이에 본 논문은 방송 콘텐츠 제공 표준 기술인 TV-Anytime, 학습객체메타데이터인 LOM(Learning Object Metadata)을 기반으로 OSMU 동영상 UCC 학습 콘텐츠 서비스 모델을 위한 에디터를 설계하고 외부 콘텐츠 소스를 활용할 수 있는 콘텐츠 저작 시나리오에 기반한 메타데이터를 설계하였다. 이를 통해 사용자의 다양한 지식을 활용할 수 있는 UCC 학습 콘텐츠 서비스 모델 발굴과 콘텐츠의 확대 재생산에 있어서 적극적인 저작권 보호가 이루어질 것을 기대한다.

  • PDF

Long-KE-T5: Korean-English Language model for Long Sequences (Long-KE-T5: 긴 맥락 파악이 가능한 한국어-영어 언어 모델 구축)

  • San Kim;Jinyea Jang;Minyoung Jeung;Saim Shin
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.168-170
    • /
    • 2023
  • 이 논문에서는 7,400만개의 한국어, 영어 문서를 활용하여 최대 4,096개의 토큰을 입력으로하고 최대 1,024개의 토큰을 생성할 수 있도록 학습한 언어모델인 Long-KE-T5를 소개한다. Long-KE-T5는 문서에서 대표성이 높은 문장을 생성하도록 학습되었으며, 학습에 사용한 문서의 길이가 길기 때문에 긴 문맥이 필요한 태스크에 활용할 수 있다. Long-KE-T5는 다양한 한국어 벤치마크에서 높은 성능을 보였으며, 사전학습 모델링 방법이 텍스트 요약과 유사하기 때문에 문서 요약 태스크에서 기존 모델 대비 높은 성능을 보였다.

  • PDF

Deep Learning-based Target Masking Scheme for Understanding Meaning of Newly Coined Words

  • Nam, Gun-Min;Kim, Namgyu
    • Journal of the Korea Society of Computer and Information
    • /
    • v.26 no.10
    • /
    • pp.157-165
    • /
    • 2021
  • Recently, studies using deep learning to analyze a large amount of text are being actively conducted. In particular, a pre-trained language model that applies the learning results of a large amount of text to the analysis of a specific domain text is attracting attention. Among various pre-trained language models, BERT(Bidirectional Encoder Representations from Transformers)-based model is the most widely used. Recently, research to improve the performance of analysis is being conducted through further pre-training using BERT's MLM(Masked Language Model). However, the traditional MLM has difficulties in clearly understands the meaning of sentences containing new words such as newly coined words. Therefore, in this study, we newly propose NTM(Newly coined words Target Masking), which performs masking only on new words. As a result of analyzing about 700,000 movie reviews of portal 'N' by applying the proposed methodology, it was confirmed that the proposed NTM showed superior performance in terms of accuracy of sensitivity analysis compared to the existing random masking.

EyeBERT: Eye tracking based Human Reading for Extractive Text Summarization (EyeBERT: 아이트래킹 기반의 휴먼 리딩을 반영한 추출 요약 기법)

  • Lee, Seolhwa;Hur, Yuna;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.522-526
    • /
    • 2019
  • 추출 요약(Extractive summarization)은 문서내에 주요한 요약정보가 되는 문장 또는 단어를 추출하여 요약을 생성하는 기법이다. 딥러닝 기법들이 많이 발전하면서 요약 기법에도 sequence-to-sequence와 같은 많은 시도들이 있었지만 대부분의 방법론들은 딥러닝의 모델 구조관점으로 접근하거나 요약에 있어서 단순히 입력 텍스트를 넣고 알고리즘이 처리하는 머신 리딩(Machine reading)관점으로 접근한다. 텍스트 요약 태스크 자체는 사람이 텍스트에 대한 정보 파악을 요약문을 통해 빠르게 하고 싶은 궁극적인 목표가 있으므로, 사람이 텍스트 요약에 필요한 인지처리과정을 반영할 필요가 있다. 결국, 기존의 머신 리딩보다는 휴먼 리딩(Human reading)에 관한 이해와 구조적 접근이 필요하다. 따라서 본 연구는 휴먼 리딩을 위한 인지처리과정을 위해 아이트래킹 데이터 기반의 새로운 추출 요약 모델을 제안한다.

  • PDF