• 제목/요약/키워드: 기계 요약

검색결과 401건 처리시간 0.031초

기계 요약의 개체명 사실 수정을 위한 다중 작업 학습 방법 제안 (Multi-task learning for entity-centric fact correction on machine summaries)

  • 신정완;노윤석;박상헌;오영선;박세영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.124-130
    • /
    • 2021
  • 기계요약의 사실 불일치는 생성된 요약이 원문과 다른 사실 정보를 전달하는 현상이며, 특히 개체명이 잘못 사용되었을 때 기계요약의 신뢰성을 크게 훼손한다. 개체명의 수정을 위해서는 두 가지 작업을 수행해야한다. 먼저 요약 내 각 개체명이 올바르게 쓰였는지 판별을 해야하며, 이후 잘못된 개체명을 맞게 고치는 작업이 필요하다. 본 논문에서는 두 가지 작업 모두 각 개체명을 문맥적으로 이해함으로써 해결할 수 있다고 가정하고, 이에 따라 두 작업에 대한 다중 작업 학습 방법을 제안한다. 제안한 방법을 통해 학습한 모델은 생성된 기계요약에 대한 후처리 교정을 수행할 수 있다. 제안 모델을 평가하기 위해 강제적으로 개체명을 훼손시킨 요약데이터와 기계 요약 데이터에 대해서 성능을 평가 하였으며, 다른 개체명 수정 모델과 비교하였다. 제안모델은 개체명 수준에서 92.9%의 교정 정확도를 달성했으며, KoBART 요약모델이 만든 기계요약의 사실 정확도 4.88% 포인트 향상시켰다.

  • PDF

개체명 문맥의미표현 학습을 통한 기계 요약의 사실 불일치 교정 (Learning Contextual Meaning Representations of Named Entities for Correcting Factual Inconsistent Summary)

  • 박준모;노윤석;박세영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.54-59
    • /
    • 2020
  • 사실 불일치 교정은 기계 요약 시스템이 요약한 결과를 실제 사실과 일치하도록 만드는 작업이다. 실제 요약 생성연구에서 가장 공통적인 문제점은 요약을 생성할 때 잘못된 사실을 생성하는 것이다. 이는 요약 모델이 실제 서비스로 상용화 하는데 큰 걸림돌이 되는 부분 중 하나이다. 본 논문에서는 원문으로부터 개체명을 가져와 사실과 일치하는 문장으로 고치는 방법을 제안한다. 이를 위해서 언어 모델이 개체명에 대한 문맥적 표현을 잘 생성할 수 있도록 학습시킨다. 그리고 학습된 모델을 이용하여 원문과 요약문에 등장한 개체명들의 문맥적 표현 비교를 통해 적절한 단어로 교체함으로써 요약문의 사실 불일치를 해소한다. 제안 모델을 평가하기 위해 추상 요약 데이터를 이용해 학습데이터를 만들어 학습하고, 실제 시나리오에서 적용가능성을 검증하기 위해 모델이 요약한 요약문을 이용해 실험을 수행했다. 실험 결과, 자동 평가와 사람 평가에서 제안 모델이 비교 모델보다 높은 성능을 보여주었다.

  • PDF

개체명 기반 질문-답변 검사를 통한 요약문 사실관계 확인 (Factual consistency checker through a question-answer test based on the named entity)

  • 정지수;류휘정;장두성;정이우;정상근
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.112-117
    • /
    • 2021
  • 기계 학습을 활용하여 요약문을 생성했을 경우, 해당 요약문의 정확도를 측정할 수 있는 도구는 필수적이다. 원문에 대한 요약문의 사실관계 일관성의 파악을 위해 개체명 유사도, 기계 독해를 이용한 질문-답변 생성을 활용한 방법이 시도되었으나, 충분한 데이터 확보가 필요하거나 정확도가 부족하였다. 본 논문은 딥러닝 모델을 기반한 개체명 인식기와 질문-답변쌍 정확도 측정기를 활용하여 생성, 필터링한 질문-답변 쌍에 대해 일치도를 점수화하는 방법을 제안하였다. 이러한 기계적 사실관계 확인 점수와 사람의 평가 점수의 분포를 비교하여 방법의 타당성을 입증하였다.

  • PDF

어휘 사전에 없는 단어를 포함한 문서의 요약문 생성 방법 (Summary Generation of a Document with Out-of-vocabulary Words)

  • 이태석;강승식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.530-531
    • /
    • 2018
  • 문서 자동 요약은 주요 단어 또는 문장을 추출하거나 문장을 생성하는 방식으로 요약한다. 최근 연구에서는 대량의 문서를 딥러닝하여 요약문 자체를 생성하는 방식으로 발전하고 있다. 추출 요약이나 생성 요약 모두 핵심 단어를 인식하는 것이 매우 중요하다. 학습할 때 각 단어가 문장에서 출현한 패턴으로부터 의미를 인식하고 단어를 선별하여 요약한다. 결국 기계학습에서는 학습 문서에 출현한 어휘만으로 요약을 한다. 따라서 학습 문서에 출현하지 않았던 어휘가 포함된 새로운 문서의 요약에서 기존 모델이 잘 작동하기 어려운 문제가 있다. 본 논문에서는 학습단계에서 출현하지 않은 단어까지도 중요성을 인식하고 요약문을 생성할 수 있는 신경망 모델을 제안하였다.

  • PDF

수치해석을 이용한 대류열전달의 국내 연구동향

  • 이택식;이재헌;최영기;유재석
    • 기계저널
    • /
    • 제29권4호
    • /
    • pp.394-402
    • /
    • 1989
  • 열전달 분야 중에서도 대류열전달에 관련된 수치해석적 연구가 현재 국제적으로 많은 연구의 대상이 되고 있으므로 이번 기회에 국내에서 수치적 방법을 이용한 대류열전달 분야의 연구동 향을 간략히 기술하고자 한다. 대류열전달 분야를 소분류하는 방법에는 여러 가지가 있겠으나 이번 조사에서는 "자연대류 열전달", "강제대류 열전달" 그리고 "상변화 열전달"의 세 가지로 분 류하였으며 위의 분류에 명확히 속하지 않는 것이라고 유사성을 참고하여 분류하였다. 상기 각 분야에서의 기술 순서는 대략적으로 발표년도 순서를 따랐다. 본 연구동향의 조사에서는 국내 학술 문헌중 "대한기계학회논문집"을 중심으로 하여 이외에 관련된 학술지로서 "공기조화. 냉동 공학", "태양에너지"등에 수록된 논문을 발췌 요약하였다.uot;공기조화. 냉동 공학", "태양에너지"등에 수록된 논문을 발췌 요약하였다.된 논문을 발췌 요약하였다.

  • PDF

PALM 기반 한국어 T5 개선: 기계독해 및 텍스트 요약으로의 응용 (PALM for Improving Korean T5: Application to Machine Reading Comprehension & Text Summarization)

  • 박은환;나승훈;임준호;김태형;최윤수;장두성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.501-504
    • /
    • 2021
  • 최근 언어 모델은 분류, 기계 독해, 생성 등의 태스크에서 성공적인 결과를 보여주고 있다. 본 논문에서는 최근 많은 관심을 받고 있는 인코더-디코더 구조의 언어 모델인 BART, T5 그리고 PALM을 위키피디아 한국어 데이터 집합으로 사전 학습한 후 기계 독해와 문서 생성 요약 태스크에 대하여 미세 조정을 하고 성능 비교를 한다.

  • PDF

자연어 처리 태스크에 대한 기계와 인간의 성능 상관관계 연구 (Exploring the Relationship Between Machine and Human Performance in Natural Language Processing Tasks)

  • 박서윤;김희재;이성우;강예지;장연지;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.485-490
    • /
    • 2023
  • 언어 모델 발전에 따라 사람과 유사하게 글을 생성하고 태스크를 수행하는 LLM들이 등장하고 있다. 하지만 아직까지도 기계와 사람의 수행 과정에 초점을 맞추어 차이점을 드러내는 연구는 활성화되지 않았다. 본 연구는 자연어 이해 및 생성 태스크 수행 시 기계와 인간의 수행 과정 차이를 밝히고자 하였다. 이에 이해 태스크로는 문법성 판단, 생성 태스크로는 요약 태스크를 대상 태스크로 선정하였고, 기존 주류 사전학습 모델이었던 transformer 계열 모델과 LLM인 ChatGPT 3.5를 사용하여 실험을 진행하였다. 실험 결과 문법성 판단 시 기계들이 인간의 언어적 직관을 반영하지 못하는 양상을 발견하였고, 요약 태스크에서는 인간과 기계의 성능 판단 기준이 다름을 확인하였다.

  • PDF

복사-메커니즘과 추론 단계의 페널티를 이용한 Copy-Transformer 기반 문서 생성 요약 (Copy-Transformer model using Copy-Mechanism and Inference Penalty for Document Abstractive Summarization)

  • 전동현;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.301-306
    • /
    • 2019
  • 문서 생성 요약은 최근 딥러닝을 이용한 end-to-end 시스템을 통해 유망한 결과들을 보여주고 있어 연구가 활발히 진행되고 있는 자연어 처리 분야 중 하나이다. 하지만 문서 생성 요약 모델을 구성하기 위해서는 대량의 본문과 요약문 쌍의 데이터 셋이 필요한데, 이를 구축하기가 쉽지 않다. 따라서 본 논문에서는 정교한 뉴스 기사 요약 데이터 셋을 기계적으로 구축하는 방법을 제안한다. 또한 딥러닝 기반의 생성 요약은 입력 문서와 다른 정보를 생성하거나, 또는 같은 단어를 반복하여 생성하는 문제점들이 존재한다. 이를 해결하기 위해 요약문을 생성할 때 입력 문서의 내용을 인용하는 복사-메커니즘과, 추론 단계에서 단어 반복을 직접적으로 제어하는 페널티를 사용하면 상대적으로 안정적인 문장이 생성될 수 있다. 그리고 Transformer 모델은 순환 신경망 모델보다 요약문 생성 과정에서 시퀀스 길이가 긴 본문의 정보를 적절히 인코딩하여 줄 수 있는 모델이다. 따라서 본 논문에서는 복사-메커니즘과 추론 단계의 페널티를 이용한 Copy-Transformer 모델을 한국어 문서 생성 요약 데이터에 적용하였다. 네이버 지식iN 질문 요약 데이터 셋과 뉴스 기사 요약 데이터 셋 상에서 실험한 결과, 제안한 모델을 이용한 생성 요약이 비교 모델들 대비 가장 좋은 성능을 보이고 양질의 요약을 생성하는 것을 확인하였다.

  • PDF