DOI QR코드

DOI QR Code

Sentence Compression based on Sentence Scoring Reflecting Linguistic Information

언어 정보를 반영한 문장 점수 측정 기반의 문장 압축

  • Lee, Jun-Beom (Dept. of Computer Science and Engineering, Kyung Hee University) ;
  • Kim, So-Eon (Dept. of Computer Science and Engineering, Kyung Hee University) ;
  • Park, Seong-Bae (Dept. of Computer Science and Engineering, Kyung Hee University)
  • 이준범 (경희대학교 컴퓨터공학과) ;
  • 김소언 (경희대학교 컴퓨터공학과) ;
  • 박성배 (경희대학교 컴퓨터공학과)
  • Published : 2021.05.12

Abstract

문장 압축은 원본 문장의 중요한 의미를 보존하는 짧은 길이의 압축 문장을 생성하는 자연어처리 태스크이다. 문장 압축은 사용자가 텍스트로부터 필요한 정보를 빠르게 획득할 수 있도록 도울 수 있어 활발히 연구되고 있지만, 기존 연구들은 사람이 직접 정의한 압축 규칙이 필요하거나, 모델 학습을 위해 대량의 데이터셋이 필요하다는 문제점이 존재한다. 사전 학습된 언어 모델을 통한 perplexity 기반의 문장 점수 측정을 통해 문장을 압축하여 압축 규칙과 모델 학습을 위한 데이터셋이 필요하지 않은 연구 또한 존재하지만, 문장 점수 측정에 문장에 속한 단어들의 의미적 중요도를 반영하지 못하여 중요한 단어가 삭제되는 문제점이 존재한다. 본 논문은 언어 정보 중 품사 정보, 의존관계 정보, 개체명 정보의 중요도를 수치화하여 perplexity 기반의 문장 점수 측정에 반영하는 방법을 제안한다. 또한 제안한 문장 점수 측정 방법을 활용하였을 때 문장 점수 측정 기반 문장 압축 모델의 문장 압축 성능이 향상됨을 확인하였으며, 이를 통해 문장에 속한 단어의 언어 정보를 문장 점수 측정에 반영하는 것이 의미적으로 적절한 압축 문장을 생성하는 데 도움이 될 수 있음을 보였다.

Keywords

Acknowledgement

이 논문은 2021년도 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원(No. 2020R1A4A1018607)과 정보통신기획평가원의 지원 (No.2013-0-00109,WiseKB: 빅데이터 이해 기반 자가학습형 지식베이스 및 추론 기술 개발)을 받아 수행된 연구임