• 제목/요약/키워드: 요약

검색결과 10,885건 처리시간 0.035초

연산자 요약을 이용한 k그램 소프트웨어 버스마크 (Software Birthmark Based on k-gram Using Operator Abstraction)

  • 이기화;우균
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 춘계학술발표대회
    • /
    • pp.687-690
    • /
    • 2013
  • 소프트웨어 버스마크 기법은 도용이 의심되는 소프트웨어의 소스 코드를 얻을 수 없을 때 사용할 수 있는 소프트웨어 도용 탐지 기법이다. 이 기법은 프로그램의 바이너리나 자바 클래스 파일에서 프로그램 고유의 특징인 버스마크를 추출한 다음 프로그램간 버스마크 유사도 측정을 통해 도용을 탐지한다. 이 논문에서는 선행 연구된 k그램 버스마크 기법에 연산자 요약이라는 아이디어를 접목한 연산자 요약 k그램 버스마크 기법을 제안한다. 연산자 요약이란 연산자 우선순위가 같은 연산자의 JVM 명령어를 묶어 요약번호로 나타내는 것이다. 연산자 요약 k그램 버스마크 기법은 연산자 요약과 제어 흐름을 고려하여 생성한 연속된 k개의 요약번호 시퀀스 집합을 버스마크로 정의한다. 버스마크를 평가하기 위해 선택 정렬 메소드와 버블 정렬 메소드를 대상으로 신뢰도 실험과 강인도 실험을 하였다. 실험 결과 연산자 요약 k그램 버스마크 기법이 선행 연구된 Tamada 버스마크 기법과 k그램 버스마크 기법보다 높은 신뢰도와 강인도를 보였다.

무작위 문장 삽입 노이징을 적용한 BART 기반의 한국어 문서 추상 요약 (BART with Random Sentence Insertion Noise for Korean Abstractive Summarization)

  • 박주홍;권홍석;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.455-458
    • /
    • 2020
  • 문서 요약은 입력 문서의 핵심 내용을 파악하여 짧고 간결한 문장으로 나타내는 과정이다. 최근에는 문서 요약을 위해 사전 학습된 언어 모델을 이용하는 방식이 여럿 제안되고 있지만, 이러한 언어 모델들은 문서 요약의 특성을 고려하지 않고 설계된 입력 노이즈 방식을 사용하는 한계점이 있다. 본 논문에서는 한국어 문서 추상 요약에 사전 학습 언어 모델인 BART를 도입하고, 입력 문서에 무작위 문장을 삽입하는 노이징 방식을 추가하여 문서 추상 요약 모델의 언어 이해 능력을 향상시키는 방법론을 제안한다. 실험 결과, BART를 도입한 문서 요약 모델의 결과는 다른 요약 모델들의 결과에 비해 전반적으로 품질 향상을 보였으며, BART와 함께 무작위 문장을 삽입하는 노이징 방법은 적은 비율로 삽입하는 경우 추가적인 성능 향상을 보였다.

  • PDF

단어 생성 이력을 이용한 시퀀스-투-시퀀스 요약의 어휘 반복 문제 해결 (Reduce Redundant Repetition Using Decoding History for Sequence-to-Sequence Summarization)

  • 류재현;노윤석;최수정;박세영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.120-125
    • /
    • 2018
  • 문서 요약 문제는 최근 심층 신경망을 활용하여 활발히 연구되고 있는 문제 중 하나이다. 많은 기존 연구들이 주로 시퀀스-투-시퀀스 모델을 활용하여 요약을 수행하고 있으나, 아직 양질의 요약을 생성하기에는 많은 문제점이 있다. 시퀀스-투-시퀀스 모델을 활용한 요약에서 가장 빈번히 나타나는 문제 중 하나는 요약문의 생성과정에서 단어나 구, 문장이 불필요하게 반복적으로 생성되는 것이다. 이를 해결하기 위해 다양한 연구가 이루어지고 있으며, 이들 대부분은 요약문의 생성 과정에서 정확한 정보를 주기 위해 모델에 여러 모듈을 추가하였다. 하지만 기존 연구들은 생성 단어가 정답 단어로 나올 확률을 최대화 하도록 학습되기 때문에, 생성하지 말아야 하는 단어에 대한 학습이 부족하여 반복 생성 문제를 해결하는 것에는 한계가 있다. 따라서 본 논문에서는 기존 요약 모델의 복잡도를 높이지 않고, 단어 생성 이력을 직접적으로 이용하여 반복 생성을 제어하는 모델을 제안한다. 제안한 모델은 학습할 때 생성 단계에서 이전에 생성한 단어가 이후에 다시 생성될 확률을 최소화하여 실제 모델이 생성한 단어가 반복 생성될 확률을 직접적으로 제어한다. 한국어 데이터를 이용하여 제안한 방법을 통해 요약문을 생성한 결과, 비교모델보다 단어 반복이 크게 줄어들어 양질의 요약을 생성하는 것을 확인할 수 있었다.

  • PDF

완전그래프를 이용한 문서요약 연구 (Document Summarization Method using Complete Graph)

  • 유준현;박순철
    • 한국산업정보학회논문지
    • /
    • 제10권2호
    • /
    • pp.26-31
    • /
    • 2005
  • 본 논문에서는 웹 검색엔진에서 일반적으로 사용하는 문서요약에 대한 연구로써 문서 내에 있는 문장들의 꼭짓점을 연결하는 완전그래프기법을 도입하여 요약내용을 좀 더 간결하고 함축하게 하는 통계요약기법을 제안했다. 이 요약기술을 지금까지 통계 문서요약기술에서 우수하다고 판단된 클러스터링 기법과 MMR 기법 등과 비교하였다. 특히, 요약 성능을 평가하기 위하여 인위적으로 요약된 요약문을 기준으로 한 각 요약기법들의 FScore값들과 비교하였다. 이 기술들 중에서 완전그래프기법이 약 $30\%$정도 성능향상을 보였다.

  • PDF

기계 요약의 개체명 사실 수정을 위한 다중 작업 학습 방법 제안 (Multi-task learning for entity-centric fact correction on machine summaries)

  • 신정완;노윤석;박상헌;오영선;박세영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.124-130
    • /
    • 2021
  • 기계요약의 사실 불일치는 생성된 요약이 원문과 다른 사실 정보를 전달하는 현상이며, 특히 개체명이 잘못 사용되었을 때 기계요약의 신뢰성을 크게 훼손한다. 개체명의 수정을 위해서는 두 가지 작업을 수행해야한다. 먼저 요약 내 각 개체명이 올바르게 쓰였는지 판별을 해야하며, 이후 잘못된 개체명을 맞게 고치는 작업이 필요하다. 본 논문에서는 두 가지 작업 모두 각 개체명을 문맥적으로 이해함으로써 해결할 수 있다고 가정하고, 이에 따라 두 작업에 대한 다중 작업 학습 방법을 제안한다. 제안한 방법을 통해 학습한 모델은 생성된 기계요약에 대한 후처리 교정을 수행할 수 있다. 제안 모델을 평가하기 위해 강제적으로 개체명을 훼손시킨 요약데이터와 기계 요약 데이터에 대해서 성능을 평가 하였으며, 다른 개체명 수정 모델과 비교하였다. 제안모델은 개체명 수준에서 92.9%의 교정 정확도를 달성했으며, KoBART 요약모델이 만든 기계요약의 사실 정확도 4.88% 포인트 향상시켰다.

  • PDF

요점만 남긴 신문 기사: 한국어 표제 형식 문서 요약 데이터셋 (News in a Nutshell: A Korean Headline-Style Summarization Dataset)

  • 권홍석;고병현;박주홍;이명지;오재영;허담;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.47-53
    • /
    • 2020
  • 문서 요약은 주어진 문서에서 핵심 내용만을 남긴 간결한 요약문을 생성하는 일로 자연어처리의 주요 분야 중 하나이다. 최근 방대한 데이터로부터 심층 신경망 표상을 학습하는 기술의 발전으로 문서 요약 기술이 급진적으로 진화했다. 이러한 데이터 기반 접근 방식에는 모델의 학습을 위한 양질의 데이터가 필요하다. 그러나 한국어와 같이 잘 알려지지 않은 언어에 대해서는 데이터의 획득이 쉽지 않고, 이를 구축하는 것은 많은 시간과 비용을 필요로 한다. 본 논문에서는 한국어 문서 요약을 위한 대용량 데이터셋을 소개한다. 데이터셋은 206,822개의 기사-요약 쌍으로 구성되며, 요약은 표제 형식의 여러 문장으로 되어 있다. 우리는 구축한 학습 데이터의 적합성을 검증하기 위해 수동 평가 및 여러 주요 속성에 대해 분석하고, 기존 여러 문서 요약 시스템에 학습 및 평가하여 향후 문서 요약 벤치마크 데이터셋으로써 기준선을 제시한다. 데이터셋은 https://github.com/hong8e/KHS.git의 스크립트를 통해 내려받을 수 있다.

  • PDF

요약 차이를 이용한 요약화일 동적 분산 기법 (A Dynamic Signature Declustering Method using Signature Difference)

  • 강형일;강승헌;유재수;임병모
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제27권1호
    • /
    • pp.79-89
    • /
    • 2000
  • 요약화일을 병렬로 처리하기 위해서는 효과적인 요약화일 분산 기법이 요구된다. Hamming Filter에서 분산 기법으로 이용되는 선형코드분산기법(LCDM)은 대부분의 경우 우수한 분산 성능을 갖지만 정적 특성 때문에 요약이 편중될 경우 요약화일을 균등하게 분산하기 어렵다. 또한 제한된 확장성과 비결정성(non-determinism)과 같은 문제점을 가지고 있다. 본 논문에서는 LCDM의 문제점을 해결하는 새로운 요약화일 분산 기법인 내적 기법(inner- product method)을 제안한다. 내적 기법은 요약의 내적에 의해 계산되는 요약 차이(signature difference)를 기반으로 하여 요약화일을 동적으로 분산한다. 다양한 데이타 작업부하에서 모의 실험을 통해 내적 기법이 LCDM보다 우수함을 보인다.

  • PDF

질의응답을 위한 복수문서 요약에 관한 실험적 연구 (An Experimental Study on Multi-Document Summarization for Question Answering)

  • 최상희;정영미
    • 정보관리학회지
    • /
    • 제21권3호
    • /
    • pp.289-303
    • /
    • 2004
  • 이 연구에서는 이용자가 여러 곳에 분산되어 있는 문서들을 일일이 보지 않고 하나의 요약문에서 쉽게 질의에 맞는 답을 찾을 수 있는 가장 효율적인 방안을 제시하고자 하였다. 이를 위해, 클러스터링 기법, 단락확장 기법, 두 기법의 특성을 반영한 혼합 기법 등 세 가지 복수문서 요약 기법의 성능을 평가하는 실험을 수행하였다. 요약기법 평가 기준으로는 요약 정확률과 요약문내 정보 중복도를 적용하였다. 실험결과 이용자 질의에 따라 여러 문서를 요약하는 최적 기법으로 문장검색을 기반으로 한 순차적 단락확장 기법을 제안하였다. 순차적 단락확장은 특히, 용약의 대상이 되는 문서가 대용량인 환경에서 정확한 정보를 찾아 요약문을 생성하는 성능이 가장 우수한 것으로 나타났다.

사전학습 언어 모델을 활용한 트랜스포머 기반 텍스트 요약 (Transformer-based Text Summarization Using Pre-trained Language Model)

  • 송의석;김무성;이유린;안현철;김남규
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.395-398
    • /
    • 2021
  • 최근 방대한 양의 텍스트 정보가 인터넷에 유통되면서 정보의 핵심 내용을 파악하기가 더욱 어려워졌으며, 이로 인해 자동으로 텍스트를 요약하려는 연구가 활발하게 이루어지고 있다. 텍스트 자동 요약을 위한 다양한 기법 중 특히 트랜스포머(Transformer) 기반의 모델은 추상 요약(Abstractive Summarization) 과제에서 매우 우수한 성능을 보이며, 해당 분야의 SOTA(State of the Art)를 달성하고 있다. 하지만 트랜스포머 모델은 매우 많은 수의 매개변수들(Parameters)로 구성되어 있어서, 충분한 양의 데이터가 확보되지 않으면 이들 매개변수에 대한 충분한 학습이 이루어지지 않아서 양질의 요약문을 생성하기 어렵다는 한계를 갖는다. 이러한 한계를 극복하기 위해 본 연구는 소량의 데이터가 주어진 환경에서도 양질의 요약문을 생성할 수 있는 문서 요약 방법론을 제안한다. 구체적으로 제안 방법론은 한국어 사전학습 언어 모델인 KoBERT의 임베딩 행렬을 트랜스포머 모델에 적용하는 방식으로 문서 요약을 수행하며, 제안 방법론의 우수성은 Dacon 한국어 문서 생성 요약 데이터셋에 대한 실험을 통해 ROUGE 지표를 기준으로 평가하였다.

  • PDF

질의응답서비스를 위한 복수 응답 요약에 관한 연구 (A Study on Summarizing Multi-Answers for Question Answering Service)

  • 최상희
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2006년도 제13회 학술대회 논문집
    • /
    • pp.175-180
    • /
    • 2006
  • 이 연구에서는 질의응답을 기반으로 한 검색 서비스를 이용할 때 이용자가 효율적으로 응답정보를 이용할 수 있도록 검색되는 복수 응답을 요약하는 방안을 제시하였다. 복수 응답을 요약하기 위해서는 질의중심방식과 응답중심방식이 비교되었다. 생성된 요약문을 평가한 결과 응답내용을 중심으로 요약하는 방식이 질의중심으로 요약하는 방식보다 질의에 적합한 문장을 효과적으로 추출하고 중복되는 정보도 줄여주는 것으로 나타났다.

  • PDF