• 제목/요약/키워드: user-based document summarization

검색결과 14건 처리시간 0.023초

비음수행렬분해와 위키피디아를 이용한 사용자기반의 문서요약 (User-based Document Summarization using Non-negative Matrix Factorization and Wikipedia)

  • 박선;정민아;이성로
    • 대한전자공학회논문지SP
    • /
    • 제49권2호
    • /
    • pp.53-60
    • /
    • 2012
  • 본 논문은 위키피디아의 외부지식을 이용하여 사용자의 질의를 확장하고, 확장된 질의와 문서집합의 내부구조를 표현하는 의미특징을 이용하여 문서를 요약하는 새로운 방법을 제안한다. 제안된 방법은 사용자의 초기 질의에 위키피디아 기반의 연관 피드백을 적용하여 사용자가 요구하는 요약문장을 추출할 수 있도록 질의를 확장하며, 비음수 분해된 문서의 의미특징을 이용함으로써 문서의 내부 구조를 잘 표현 할 수 있다. 확장된 질의와 의미특징을 이용하여 의미 있는 문장을 추출함으로써 사용자의 요구사항과 제안방법의 요약결과 사이의 의미적 차이를 감소시킨다. 실험결과 제안방법이 기존방법에 비해서 문서요약에 대해 더 좋은 성능을 보인다.

Latent Semantic Analysis Approach for Document Summarization Based on Word Embeddings

  • Al-Sabahi, Kamal;Zuping, Zhang;Kang, Yang
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제13권1호
    • /
    • pp.254-276
    • /
    • 2019
  • Since the amount of information on the internet is growing rapidly, it is not easy for a user to find relevant information for his/her query. To tackle this issue, the researchers are paying much attention to Document Summarization. The key point in any successful document summarizer is a good document representation. The traditional approaches based on word overlapping mostly fail to produce that kind of representation. Word embedding has shown good performance allowing words to match on a semantic level. Naively concatenating word embeddings makes common words dominant which in turn diminish the representation quality. In this paper, we employ word embeddings to improve the weighting schemes for calculating the Latent Semantic Analysis input matrix. Two embedding-based weighting schemes are proposed and then combined to calculate the values of this matrix. They are modified versions of the augment weight and the entropy frequency that combine the strength of traditional weighting schemes and word embedding. The proposed approach is evaluated on three English datasets, DUC 2002, DUC 2004 and Multilingual 2015 Single-document Summarization. Experimental results on the three datasets show that the proposed model achieved competitive performance compared to the state-of-the-art leading to a conclusion that it provides a better document representation and a better document summary as a result.

클라우드 기반의 가중치에 의한 문서요약 (Document Summarization using Weighting based on Cloud)

  • 박선;김철원
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2013년도 추계학술대회
    • /
    • pp.305-306
    • /
    • 2013
  • 본 논문은 클라우드 기반의 가중치에 의한 문서요약 방법을 제안한다. 제안된 방법은 연관피드백을 이용하여 사용자의 간섭을 최소화 시키며, 클라우드 기반의 비음수 행렬분해를 이용한 의미특징으로부터 유도된 용어의 가중치는 문장집합의 내부 특징을 잘 나타나기 때문에 문서요약의 질을 향상할 수 있다.

  • PDF

클라우드 기반의 가중치에 의한 문서요약 (Document Summarization using Weighting based on Cloud)

  • 박선;김철원
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2013년도 추계학술대회
    • /
    • pp.968-969
    • /
    • 2013
  • 본 논문은 클라우드 기반의 가중치에 의한 문서요약 방법을 제안한다. 제안된 방법은 연관피드백을 이용하여 사용자의 간섭을 최소화 시키며, 클라우드 기반의 비음수 행렬분해를 이용한 의미특징으로부터 유도된 용어의 가중치는 문장집합의 내부 특징을 잘 나타나기 때문에 문서요약의 질을 향상할 수 있다.

  • PDF

의미특징과 워드넷 기반의 의사 연관 피드백을 사용한 질의기반 문서요약 (Query-based Document Summarization using Pseudo Relevance Feedback based on Semantic Features and WordNet)

  • 김철원;박선
    • 한국정보통신학회논문지
    • /
    • 제15권7호
    • /
    • pp.1517-1524
    • /
    • 2011
  • 본 논문은 의미특징과 워드넷 기반의 의사연관피드백을 이용하여 사용자의 질의에 관련 있는 의미 있는 문장을 추출하여 문서요약을 하는 새로운 방법을 제안한다. 제안된 방법은 비음수 행렬 분해로부터 유도된 의미특정이 문서의 잠재의미를 잘 나타나기 때문에 문서요약의 질을 향상할 수 있다. 또한 의미특정과 워드넷기반의 의사연관피드백을 이용하여서 사용자의 요구사항과 제안방법의 요약결과 사이의 의미적 차이를 감소시킨다. 실험결과 제안방법이 유사도, 비음수행렬분해를 이용한 방법들에 비하여 좋은 성능을 보인다.

문서 길이 정규화를 이용한 문서 요약 자동화 시스템 구현 (Implementation of Text Summarize Automation Using Document Length Normalization)

  • 이재훈;김영천;이성주
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2001년도 추계학술대회 학술발표 논문집
    • /
    • pp.51-55
    • /
    • 2001
  • With the rapid growth of the World Wide Web and electronic information services, information is becoming available on-Line at an incredible rate. One result is the oft-decried information overload. No one has time to read everything, yet we often have to make critical decisions based on what we are able to assimilate. The technology of automatic text summarization is becoming indispensable for dealing with this problem. Text summarization is the process of distilling the most important information from a source to produce an abridged version for a particular user or task. Information retrieval(IR) is the task of searching a set of documents for some query-relevant documents. On the other hand, text summarization is considered to be the task of searching a document, a set of sentences, for some topic-relevant sentences. In this paper, we show that document information, that is more reliable and suitable for query, using document length normalization of which is gained through information retrieval . Experimental results of this system in newspaper articles show that document length normalization method superior to other methods use query itself.

  • PDF

워드 임베딩을 이용한 질의 기반 한국어 문서 요약 분석 및 비교 (Analysis and Comparison of Query focused Korean Document Summarization using Word Embedding)

  • 허지욱
    • 한국인터넷방송통신학회논문지
    • /
    • 제19권6호
    • /
    • pp.161-167
    • /
    • 2019
  • 현재 ICT 기반의 웹 서비스 발달과 빠른 최신 기술의 보급으로 인하여 생성되는 정보의 양이 기하급수적으로 증가하고 있다. 이와 더불어 사용자들은 자신이 원하는 정보를 얻기 위해서는 많은 시간과 노력을 필요로 한다. 문서요약기법은 사용자에게 주어진 문서의 문장과 핵심 단어들을 분석하여 효과적으로 요약문을 생성해주는 기술이다. 특히 한국어로 이루어진 문서는 언어의 특성상 기존 언어 분석 기법들을 적용하기 어렵다는 문제점이 있다. 따라서 한국어의 특성을 고려한 문서요약기법에 대한 연구가 필수적이다. 본 논문은 워드 임베딩 기법인 Word2Vec과 FastText를 활용하여 질의 기반의 한국어 문서요약 기법을 제안하고 그 결과를 비교 분석한다.

의사연관피드백과 용어 가중치에 의한 문서요약 (Document Summarization using Pseudo Relevance Feedback and Term Weighting)

  • 김철원;박선
    • 한국정보통신학회논문지
    • /
    • 제16권3호
    • /
    • pp.533-540
    • /
    • 2012
  • 본 논문은 의사연관피드백과 의미특징기반의 용어 가중치에 의한 문서요약 방법을 제안한다. 제안된 방법은 의사연관피드백을 이용하여 사용자의 간섭을 최소화 시키며, 의미특징으로부터 유도된 용어의 가중치는 문장집합의 내부 특징을 잘 나타나기 때문에 문서요약의 질을 향상할 수 있다. 또한 가중치가 부여된 의미특징과 확장된 질의를 이용하여서 사용자의 요구사항과 제안방법의 요약결과 사이의 의미적 차이를 감소시킨다. 실험결과 제안방법이 용어의 가중치를 부여하지 않은 방법에 비해서 좋은 성능을 보인다.

VAE를 이용한 의미적 연결 관계 기반 다중 문서 요약 기법 (Multi-Document Summarization Method Based on Semantic Relationship using VAE)

  • 백수진
    • 디지털융복합연구
    • /
    • 제15권12호
    • /
    • pp.341-347
    • /
    • 2017
  • 많은 양의 문서 데이터가 증가됨에 따라 사용자는 해당 문서를 이해하기 위한 요약된 정보를 필요로 한다. 그러나, 기존 문서 요약 연구 방법들은 지나치게 단순한 통계에 의존함으로써 문장의 모호성 및 의미 있는 문장 생성을 위한 다중 문서 요약 연구가 미흡한 실정이다. 본 논문에서는 의미적 연결 관계에 대한 파악 및 불필요한 정보를 처리하기 위한 전처리 과정을 거치며, 어휘 의미 패턴 정보를 기반으로 VAE를 이용하여 문장 간의 의미적 연결성을 높인 다중 문서 요약 기법을 제안하였다. 문장을 이루고 있는 단어 벡터들을 이용하여, 잠재된 변수로 생성된 압축된 정보와 속성 판별기로부터 학습을 한 후 문장을 재구성함으로써 의미적 연결 처리가 자연스러운 요약문을 생성하였다. 제안된 방법과 다른 문서 요약 방법을 비교했을 시 미세하지만 더 향상된 성능을 나타냈으며, 이는 의미적 문장 생성 및 연결성을 높일 수 있음을 증명하였다. 앞으로, 다양한 속성 설정 값을 가지고 실험하여 의미적 연결 관계를 확장할 수 있는 방법을 연구하고자 한다.

딥러닝 기반의 문서요약기법을 활용한 뉴스 추천 (News Recommendation Exploiting Document Summarization based on Deep Learning)

  • 허지욱
    • 한국인터넷방송통신학회논문지
    • /
    • 제22권4호
    • /
    • pp.23-28
    • /
    • 2022
  • 최근 스마트폰 또는 타블렛 PC와 같은 스마트기기가 정보의 창구 역할을 하게 되면서 다수의 사용자가 웹포털을 통해 웹 뉴스를 소비하는 것이 더욱 중요해졌다. 하지만 인터넷 상에 생성되는 뉴스의 양을 사용자들이 따라가기 힘들며 중복되고 반복되는 폭발하는 뉴스 기사에 오히려 혼란을 야기 시킬 수도 있다. 본 논문에서는 뉴스 포털에서 사용자의 질의로부터 검색된 뉴스후보들 중 KoBART 기반의 문서요약 기술을 활용한 뉴스 추천 시스템을 제안한다. 실험을 통해서 새롭게 수집된 뉴스 데이터를 기반으로 학습한 KoBART의 성능이 사전훈련보다 더욱 우수한 결과를 보여주었으며 KoBART로부터 생성된 요약문을 환용하여 사용자에게 효과적으로 뉴스를 추천하였다.