• Title/Summary/Keyword: 중요문장 추출

Search Result 152, Processing Time 0.034 seconds

Hybrid Document Summarization using a TextRank Algorithm and an Attentive Recurrent Neural Networks (TextRank 알고리즘과 주의 집중 순환 신경망을 이용한 하이브리드 문서 요약)

  • Jeong, Seok-won;Lee, Hyeon-gu;Kim, Harksoo
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.47-50
    • /
    • 2017
  • 문서 요약은 입력 문서가 가진 주제를 유지하면서 크기가 축약된 새로운 문서를 생성하는 것이다. 문서 요약의 방법론은 크게 추출 요약과 추상 요약으로 구분된다. 추출 요약의 경우 결과가 문서 전체를 충분히 대표하지 못하거나 문장들 간의 호응이 떨어지는 문제점이 있다. 최근에는 순환 신경망 구조의 모델을 이용한 추상 요약이 활발히 연구되고 있으나, 이러한 방법은 입력이 길어지는 경우 정보가 누락된다는 문제점을 가지고 있다. 본 논문에서는 이러한 단점들을 해소하기 위해 추출 요약으로 입력 문서의 중요한 일부 문장들을 선별하고 이를 추상 요약의 입력으로 사용했을 때의 성능 변화를 관찰한다. 추출 요약을 통해 원문 대비 30%까지 문서를 요약한 후 요약을 생성했을 때, ROUGE-1 0.2802, ROUGE-2 0.1294, ROUGE-L 0.3254의 성능을 보였다.

  • PDF

An automatic extraction of newspaper articles using activation degree of 5W1H (육하원칙 활성화도를 이용한 신문기사 자동요약)

  • Yoon, Jae-Min;Kang, In-Su;Kwon, Oh-Woog;Bae, Jae-Hak;Lee, Jong-Hyeok
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.277-284
    • /
    • 2002
  • 본 논문은 신문기사에서 중요한 문장을 추출(Extract)하는데 있어서, 기존에 기장 우수한 방법인 전문기반 방법(Lead-based method)과 제목을 이용한 유사도 측정방법(Title-based method)의 문제점을 해결하기 위해서, 육하원칙 활성화도를 이용하여 신문기사를 효과적으로 요약할 수 있는 방법과 알고리즘을 제안하였다. 본 연구에서는 먼저, 제목(Title)과 전문(Lead)에서 중복출현하지 않는 육하원칙 구성성분을 결합하고, 본문은 각 문장에서 육하원칙 구성성분의 재사용성과 육하원칙 구성성분의 범주 증감을 파악하여 육하원칙 활성화도를 구하고, 전문기반 방법을 응용하여 각 문장의 상대적인 중요도에 따라 최종적인 가중치를 부여함으로써, 신문기사에서 중요한 문장을 효과적으로 추출할 수 있는 가중치 계산식을 제안하였다. 실험문서는 조선일보 웹사이트에서 제공하는 신문기사 100건을 대상으로 하였으며, 요약율이 30%일 경우 제안한 방법의 정확률은 74.7%로 기존의 전문기반(Lead-based method)방법보다 6.7% 향상되었다.

  • PDF

Evidence Extraction Method for Machine Reading Comprehension Model using Recursive Neural Network Decoder (디코더를 활용한 기계독해 모델의 근거 추출 방법)

  • Kyubeen Han;Youngjin Jang;Harksoo Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.609-614
    • /
    • 2023
  • 최근 인공지능 시스템이 발전함에 따라 사람보다 높은 성능을 보이고 있다. 또한 전문 지식에 특화된 분야(질병 진단, 법률, 교육 등)에도 적용되고 있지만 이러한 전문 지식 분야는 정확한 판단이 중요하다. 이로 인해 인공지능 모델의 결정에 대한 근거나 해석의 중요성이 대두되었다. 이를 위해 설명 가능한 인공지능 연구인 XAI가 발전하게 되었다. 이에 착안해 본 논문에서는 기계독해 프레임워크에 순환 신경망 디코더를 활용하여 정답 뿐만 아니라 예측에 대한 근거를 추출하고자 한다. 실험 결과, 모델의 예측 답변이 근거 문장 내 등장하는지에 대한 실험과 분석을 수행하였다. 이를 통해 모델이 추론 과정에서 예측 근거 문장을 기반으로 정답을 추론한다는 것을 확인할 수 있었다.

  • PDF

An Extensible Text Mining Technique for the Extraction of Protein-Protein Interaction (단백질 상호작용 추출을 위한 확장성을 가진 텍스트 마이닝 기법)

  • 이현철;여은주;강희영;조완섭;김학용;유재수
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.256-258
    • /
    • 2004
  • 단백질간의 상호작용에 대한 연구는 생물학적 프로세스를 이해하기 위해 중요한 부분이다. 이러한 단백질간의 상호작용에 대한 정보는 주로 생명과학 관련 연구논문에 존재하지만 컴퓨터로 자동으로 처리하여 상호작용에 관안 정보를 추출할 수 있기 위해서는 텍스트 마이닝 기술이 적용되어야 한다 바이오 텍스트 마이닝에서 대두되고 있는 중요한 쟁점은 대용량의 연구논문에서 필요한 정보를 어떻게 효율적으로 정확하게 추출할 것인가에 대한 내용이다. 또한, 관심이 있는 단백질의 종류나 관련성을 표시하는 문장내 패턴의 다양성을 수용하기 위하여 개발하는 시스템의 확장성을 높이는 것도 소프트웨어 공학적인 측면에서 중요한 이슈이다 이 논문의 목적은 생물학적 내용을 담고 있는 연구논문으로부터 단백질간의 상호작용을 추출하는 확장성을 가진 텍스트 마이닝 기법을 제안하는데 있다.

  • PDF

A Comparative Study on the Korean Text Extractive Summarization using Pre-trained Language Model (사전 학습 언어 모델을 이용한 한국어 문서 추출 요약 비교 분석)

  • Young-Rae Cho;Kwang-Hyun Baek;Min-Ji Park;Byung Hoon Park;Sooyeon Shin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.518-521
    • /
    • 2023
  • 오늘날 과도한 정보의 양 속에서 디지털 문서 내 중요한 정보를 효율적으로 획득하는 것은 비용 효율의 측면에서 중요한 요구사항이 되었다. 문서 요약은 자연어 처리의 한 분야로서 원본 문서의 핵심적인 정보를 유지하는 동시에 중요 문장을 추출 또는 생성하는 작업이다. 이 중 추출요약은 정보의 손실 및 잘못된 정보 생성의 가능성을 줄이고 요약 가능하다. 그러나 여러 토크나이저와 임베딩 모델 중 적절한 활용을 위한 비교가 미진한 상황이다. 본 논문에서는 한국어 사전학습된 추출 요약 언어 모델들을 선정하고 추가 데이터셋으로 학습하고 성능 평가를 실시하여 그 결과를 비교 분석하였다.

Question Answering System that Combines Deep Learning and Information Retrieval (딥러닝과 정보검색을 결합한 질의응답 시스템)

  • Lee, Hyeon-gu;Kim, Harksoo
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.134-138
    • /
    • 2016
  • 정보의 양이 빠르게 증가함으로 인해 필요한 정보만을 효율적으로 얻기 위한 질의응답 시스템의 중요도가 늘어나고 있다. 그 중에서도 질의 문장에서 주어와 관계를 추출하여 정답을 찾는 지식베이스 기반 질의응답 시스템이 활발히 연구되고 있다. 그러나 기존 지식베이스 기반 질의응답 시스템은 하나의 질의 문장만을 사용하므로 정보가 부족한 단점이 있다. 본 논문에서는 이러한 단점을 해결하고자 정보검색을 통해 질의와 유사한 문장을 찾고 Recurrent Neural Encoder-Decoder에 검색된 문장과 질의를 함께 활용하여 주어와 관계를 찾는 모델을 제안한다. bAbI SimpleQuestions v2 데이터를 이용한 실험에서 제안 모델은 질의만 사용하여 주어와 관계를 찾는 모델보다 좋은 성능(정확도 주어:33.2%, 관계:56.4%)을 보였다.

  • PDF

Question Answering System that Combines Deep Learning and Information Retrieval (딥러닝과 정보검색을 결합한 질의응답 시스템)

  • Lee, Hyeon-gu;Kim, Harksoo
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.134-138
    • /
    • 2016
  • 정보의 양이 빠르게 증가함으로 인해 필요한 정보만을 효율적으로 얻기 위한 질의응답 시스템의 중요도가 늘어나고 있다. 그 중에서도 질의 문장에서 주어와 관계를 추출하여 정답을 찾는 지식베이스 기반 질의응답 시스템이 활발히 연구되고 있다. 그러나 기존 지식베이스 기반 질의응답 시스템은 하나의 질의 문장만을 사용하므로 정보가 부족한 단점이 있다. 본 논문에서는 이러한 단점을 해결하고자 정보검색을 통해 질의와 유사한 문장을 찾고 Recurrent Neural Encoder-Decoder에 검색된 문장과 질의를 함께 활용하여 주어와 관계를 찾는 모델을 제안한다. bAbI SimpleQuestions v2 데이터를 이용한 실험에서 제안 모델은 질의만 사용하여 주어와 관계를 찾는 모델보다 좋은 성능(정확도 주어:33.2%, 관계:56.4%)을 보였다.

  • PDF

The Method of Deriving Japanese Keyword Using Dependence (의존관계에 기초한 일본어 키워드 추출방법)

  • Lee, Tae-Hun;Jung, Kyu-Cheol;Park, Ki-Hong
    • The KIPS Transactions:PartB
    • /
    • v.10B no.1
    • /
    • pp.41-46
    • /
    • 2003
  • This thesis composes separated words in text for extracting keywords from Japanese, proposes extracting indexing keywords which consist of a compound noun using words and sentences information with the rules in the sentences. It constructs generative rules of compound nouns to be based In dependence as a result of analysing character of keywords in the text not the same way as before. To hold other extracting keywords and the content of sentence, and suggest how to decide importance concerned some restriction and repetition of words about generative rules. To verify the validity of keywords extracting, we have used titles and abstracts from Japanese thesis 65 files about natural language and/or voice processing, and obtain 63% in outputting one in the top rank.

A Document Summarization System Using Dynamic Connection Graph (동적 연결 그래프를 이용한 자동 문서 요약 시스템)

  • Song, Won-Moon;Kim, Young-Jin;Kim, Eun-Ju;Kim, Myung-Won
    • Journal of KIISE:Software and Applications
    • /
    • v.36 no.1
    • /
    • pp.62-69
    • /
    • 2009
  • The purpose of document summarization is to provide easy and quick understanding of documents by extracting summarized information from the documents produced by various application programs. In this paper, we propose a document summarization method that creates and analyzes a connection graph representing the similarity of keyword lists of sentences in a document taking into account the mean length(the number of keywords) of sentences of the document. We implemented a system that automatically generate a summary from a document using the proposed method. To evaluate the performance of the method, we used a set of 20 documents associated with their correct summaries and measured the precision, the recall and the F-measure. The experiment results show that the proposed method is more efficient compared with the existing methods.

A Study of Indexing Methods with weight-value of Web document (가중치를 가지는 웹문서 색인기법에 관한 연구)

  • Kim, Jong-Young;Kim, Cheol-Su
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11c
    • /
    • pp.2459-2462
    • /
    • 2002
  • 검색된 문헌들에 대한 항해 시간을 줄이기 위해서 검색된 문헌들의 문헌 순위화가 필수적이다. 문헌 순위화를 위해서는 문헌 순위화를 위한 순위화 정보가 필요하다. 본 논문에서는 검색된 문헌들에 대한 순위화를 보다 효율적으로 수행하기 위한 정보를 제공하기 위하여 HTML 문서에 대한 색인 과정에서 다양한 가중치를 가지는 색이어 추출 방법에 관하여 연구하였다. 웹문서들은 태그로 이루어지며 중요한 색인어들은 특정 태그 속에 포함되어 있다는 것에 착안하여 색인어의 중요도에 영향을 줄 수 있는 태그를 선별하고, 선별된 태그들에 대해 휴리스틱 정보를 이용하여 중요도를 부여한 후 선별된 태그에 영향을 받는 문장들에서 추출된 색인어에 대하여 가중치를 부여하는 방법을 이용하였다. 색인어 추출을 형태소 분석기를 이용하였다. 색인어들이 다양한 가중치를 가지므로 검색 과정에서 검색된 문헌들에 대하여 효율적인 순위화가 가능하여 관련 문헌을 보다 빠르게 찾을 수 있는 환경을 제공할 수 있다.

  • PDF