• 제목/요약/키워드: 다중 문서 요약

검색결과 24건 처리시간 0.038초

문서의 의미특징을 이용한 주제 기반의 다중문서 요약 (Topic-Based Multi-Document Summarization using Semantic Features of Documents)

  • 박선;안동언;김철원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 추계학술발표대회
    • /
    • pp.715-716
    • /
    • 2009
  • 인터넷의 발전은 대량의 정보를 양산하였고, 이러한 대량의 정보 집합 내에서는 비슷한 정보가 재활용 되거나 반복되는 정보중복문제를 가지고 있다. 중복되는 정보들로부터 사용자에게 원하는 정보를 신속히 검색할 수 있도록 하는 정보 요약에 대한 필요성은 점차 증가하고 있다. 본 논문은 비음수 행렬 인수분해(NMF, non-negative matrix factorization)에 의한 문서의 의미특징을 이용하여 주제기반의 다중문서를 요약하는 새로운 방법을 제안한다. 본 논문에서는 다중문서가 포함하고 있는 문서들 간의 고유구조를 문서요약에 이용하여서 요약의 질을 높일 수 있고, 주제와 문장 간의 유사성과 다양성 고려하여서 쉽게 과잉정보를 제거하여 문장을 요약할 수 있는 장점을 갖는다.

태그 클러스터를 이용한 다중문서요약 기법 (Multi-Document Summarization Using Tag Cluster)

  • 허지욱;정진우;홍현기;이동호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(A)
    • /
    • pp.45-48
    • /
    • 2011
  • 오늘날 인터넷의 빠른 보급으로 인하여 웹 상에 생성되는 문서의 양은 하루가 다르게 늘어나고 있다. 이러한 엄청난 양의 문서들 중 사용자는 자신이 원하는 정보가 담긴 문서를 얻기 위해서는 직접 문서를 검토해야 하며, 많은 시간이 투자 된다는 어려움이 있다. 이러한 사용자들의 어려움을 줄이기 위하여 문서의 핵심을 유지하며 양을 줄이는 다중문서요약기업에 대한 연구가 활발히 진행되어왔다. 본 논문에서는 효율적이고 빠른 문서 요약을 위하여 폭소노미 시스템인 플리커를 통하여 문서 내에 존재하는 각 단어들의 클러스터를 획득하고, 이를 기반으로 단어들의 중요도를 분석하여 중요문장을 추려내는 다중문서요약 기법을 제안한다.

다중문서 요약에서 적응 기법을 이용한 문장 추출 (Sentence Extraction Using Adapting Method in Multi-Document Summarization)

  • 임정민;강인수;배재학;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.12-19
    • /
    • 2004
  • 기존의 다중 문서요약은 전체 대상문서에 대해서 한번에 요약문을 생산하지만, 본 논문은 요약 대상문서 집합에서 핵심내용을 갖는 문서를 기본 문서로 선택, 임시 요약문장을 추출하고 대상문서 집합에서 순차적으로 문서를 입력받아 중요문장을 추출, 이전에 구축된 요약문장과 현재 추출된 문장을 비교하면서 요약에 필요한 문장을 선택하는 적응 기법을 제안한다. 제안한 방법으로 구현한 시스템은 NTCIR TSC 3에서 사용된 29개의 다중 문서집합을 통해서 성능을 평가하였다. 적응 기법 시스템은 TSC3의 baseline시스템인 Lead 방법보다는 높은 성능을 나타냈지만, TSC 3에 참가한 시스템들과의 비교에서는 월등한 성능 우위를 나타내지 못했다.

  • PDF

단어 관련성 추정과 바이트 페어 인코딩(Byte Pair Encoding)을 이용한 요약 기반 다중 뉴스 기사 제목 추출 (Summarization Based Multi-news Title Extraction Using Term Relevance Estimation and Byte Pair Encoding)

  • 유홍연;이승우;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.115-119
    • /
    • 2018
  • 다중 문서 제목 추출은 하나의 주제를 가지는 다중 문서에 대한 제목을 추출하는 것을 말한다. 일반적으로 다중 문서 제목 추출에서는 다중 문서 집합을 단일 문서로 본 다음 키워드를 제목 후보군으로 추출하고, 추출된 후보를 나열하는 형식의 연구가 많이 진행되어져 왔다. 하지만 이러한 방법은 크게 두 가지의 한계점을 가지고 있다. 먼저, 다중 문서를 단순히 하나의 문서로 보는 방법은 전체적인 주제를 반영한 제목을 추출하기 어렵다는 문제점이 있다. 다음으로, 키워드를 조합하는 형식의 방법은 키워드의 단위를 찾는 방법에 따라 추출된 제목이 자연스럽지 못하다는 한계점이 있다. 따라서 본 논문에서는 이 한계점들을 보완하기 위하여 단어 관련성 추정과 Byte Pair Encoding을 이용한 요약 기반의 다중 뉴스 기사 제목 추출 방법을 제안한다. 평가를 위해서는 자동으로 군집된 총 12개의 주제에 대한 다중 뉴스 기사 집합을 사용하였으며 전문 교육을 받은 연구원들이 정성평가를 진행하여 5점 만점 기준 평균 3.68점을 얻었다.

  • PDF

VAE를 이용한 의미적 연결 관계 기반 다중 문서 요약 기법 (Multi-Document Summarization Method Based on Semantic Relationship using VAE)

  • 백수진
    • 디지털융복합연구
    • /
    • 제15권12호
    • /
    • pp.341-347
    • /
    • 2017
  • 많은 양의 문서 데이터가 증가됨에 따라 사용자는 해당 문서를 이해하기 위한 요약된 정보를 필요로 한다. 그러나, 기존 문서 요약 연구 방법들은 지나치게 단순한 통계에 의존함으로써 문장의 모호성 및 의미 있는 문장 생성을 위한 다중 문서 요약 연구가 미흡한 실정이다. 본 논문에서는 의미적 연결 관계에 대한 파악 및 불필요한 정보를 처리하기 위한 전처리 과정을 거치며, 어휘 의미 패턴 정보를 기반으로 VAE를 이용하여 문장 간의 의미적 연결성을 높인 다중 문서 요약 기법을 제안하였다. 문장을 이루고 있는 단어 벡터들을 이용하여, 잠재된 변수로 생성된 압축된 정보와 속성 판별기로부터 학습을 한 후 문장을 재구성함으로써 의미적 연결 처리가 자연스러운 요약문을 생성하였다. 제안된 방법과 다른 문서 요약 방법을 비교했을 시 미세하지만 더 향상된 성능을 나타냈으며, 이는 의미적 문장 생성 및 연결성을 높일 수 있음을 증명하였다. 앞으로, 다양한 속성 설정 값을 가지고 실험하여 의미적 연결 관계를 확장할 수 있는 방법을 연구하고자 한다.

단어 분별도에 기반한 뉴스 검색 문서 요약 (Search Resulted News Summarization using Word Discriminability)

  • 이상건;이혜민;김기령;서덕호;이현아
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.175-178
    • /
    • 2014
  • 다양한 언론사로부터 기사를 제공받아 서비스하는 인터넷 포털의 뉴스에서는 수많은 중복 기사가 실시간으로 등록된다. 이로 인하여 인터넷 포털에서 관심 있는 주제의 기사를 검색하여 찾아보려는 경우 검색키워드를 포함한 기사의 수가 지나치게 많아 원하는 정보를 적절하게 얻기 어렵다. 본 논문에서는 이러한 문제점을 해결하기 위해서 검색 기사 중 유사한 문서를 군집화하고 군집에 대한 다중문서요약을 사용자에게 제시하여 검색된 기사를 효율적으로 활용할 수 있는 방법을 제시한다. 다중문서 요약에서는 뉴스 기사에 적합한 단어 가중치인 분별도(discriminability)를 제안하여 사용하여 군집화된 기사로부터 유사 문장을 군집한다. 시스템에서는 군집된 기사의 대표 문장 군집에서 대표 문장, 즉 키워드에 대한 주제별 기사의 요약문을 결과로 제시하여, 효율적인 뉴스 검색을 지원한다.

  • PDF

시간자질을 이용한 다중 문서요약 (Multi-Document Summarization using Time Feature)

  • 임정민;강인수;배재학;이종혁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.898-900
    • /
    • 2004
  • 시간에 중속적인 문서집합에서 사람이 만든 요약문은 시간에 따른 중요 내용의 분포를 보여준다. 본 논문은 다중 문서에 시간 자질을 이용한 문서의 분류와 시간별 문서집합에서 핵심문장과 부가문장을 선별하고, 문장간의 계층적인 클러스터링을 통해서 중요 문장을 선별하는 방법을 제안한다. 동일한 주제를 갖는 문서집합에서 사랑이 선택한 중요 문장에 대해서 제안한 방법은 50% 정확률을 나타냈다.

  • PDF

단어의 공기정보를 이용한 클러스터 기반 다중문서 요약 (Multi-document Summarization Based on Cluster using Term Co-occurrence)

  • 이일주;김민구
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권2호
    • /
    • pp.243-251
    • /
    • 2006
  • 대표문장 추출에 의한 다중문서 요약에서는 비슷한 정보가 여러 문서에서 반복적으로 나타나는 정보의 중복문제에 대해 문장의 유사성과 차이점을 고려하여 이를 해결할 수 있는 효율적인 방법이 필요하다. 본 논문에서는 단어의 공기정보에 의한 관련단어 클러스터링 기법을 이용하여 문장의 중복성을 제거하고 중요문장을 추출하는 다중문서 요약을 제안한다. 관련단어 클러스터링 기법에서는 각 단어들은 서로 독립적으로 존재하는 것이 아니라 서로 간에 의미적으로 연관되어 있다고 보며 주제별 문장클러스터단위의 단어 연관성(cohesion)을 이용한다. 평가용 실험문서인 DUC(Document Understanding Conferences) 데이타를 이용하여 실험한 결과 본 논문에서 제안한 문장클러스터단위의 단어 공기정보를 이용한 방법이 단순 통계정보와 문서단위 단어 공기정보, 문장단위 단어 공기정보에 의한 다중문서 요약에 비해 좋은 결과를 보였다.

어휘의 동시 발생 빈도와 분포를 이용한 다중 주제 회의록 요약 (Multi-Topic Meeting Summarization using Lexical Co-occurrence Frequency and Distribution)

  • 이병수;이지형
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2015년도 제52차 하계학술대회논문집 23권2호
    • /
    • pp.13-16
    • /
    • 2015
  • 본 논문에서는 어휘의 동시 발생 (co-occurrence) 빈도와 분포를 이용한 회의록 요약방법을 제안한다. 회의록은 일반 문서와 달리 문서에 여러 세부적인 주제들이 나타나며, 잘못된 형식의 문장, 불필요한 잡담들을 포함하고 있기 때문에 이러한 특징들이 문서요약 과정에서 고려되어야 한다. 기존의 일반적인 문서요약 방법은 하나의 주제를 기반으로 문서 전체에서 가장 중요한 문장으로 요약하기 때문에 다중 주제 회의록 요약에는 적합하지 않다. 제안한 방법은 먼저 어휘의 동시 발생 (co-occurrence) 빈도를 이용하여 회의록 분할 (segmentation) 과정을 수행한다. 다음으로 주제의 구분에 따라 분할된 각 영역 (block)의 중요 단어 집합 생성, 중요 문장 추출 과정을 통해 회의록의 중요 문장들을 선별한다. 마지막으로 추출된 중요 문장들의 위치, 종속 관계를 고려하여 최종적으로 회의록을 요약한다. AMI meeting corpus를 대상으로 실험한 결과, 제안한 방법이 baseline 요약 방법들보다 요약 비율에 따른 평가 및 요약문의 세부 주제별 평가에서 우수한 요약 성능을 보임을 확인하였다.

  • PDF

다중 문서요약에서 문장의 중복도 측정방법 개선 (Measuring Improvement of Sentence-Redundancy in Multi-Document Summarization)

  • 임정민;강인수;배재학;이종혁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.493-495
    • /
    • 2003
  • 다중문서요약에서는 단일문서요약과 달리 문장간의 중복도를 측정하는 방법이 요구된다. 기존에는 중복된 단어의 빈도수를 이용하거나, 구문트리 구조를 이용한 방법이 있으나, 중복도를 측정하는데 도움이 되지 못하는 단어와, 구문분석기 성능에 따라서 중복도 측정에 오류를 발생시킨다. 본 논문은 주절 종속절의 구분, 문장성분, 주절 용언의 의미를 이용하는 문장간 중복도 측정방법을 제안한다. 위의 방법으로 구현된 시스템은 기존의 중복된 단어 빈도수 방식에 비해 정확율에서 56%의 성능 향상이 있었다.

  • PDF