• 제목/요약/키워드: text summarization

검색결과 128건 처리시간 0.025초

한국어 학술 문헌의 본문 인용문 인식을 위한 규칙 기반 방법 (A Rule-based Approach to Identifying Citation Text from Korean Academic Literature)

  • 강인수
    • 정보관리학회지
    • /
    • 제29권4호
    • /
    • pp.43-60
    • /
    • 2012
  • 학술 문헌 원문에서 발견되는 인용문은 인용에 기초한 학술문헌 자동 요약, 리뷰 논문 자동 생성, 인용문 감성 분석, 인용문 기반 문헌 검색 등 다양한 학술 정보 서비스의 창출을 가능케 한다. 이러한 서비스가 가능하기 위해서는 원문 텍스트로부터 인용문의 자동 인식이 선행되어야 한다. 그러나 인용문의 인식은 인용 표지가 부착되지 않은 암묵 인용문의 존재로 인해 그 처리가 용이하지 않다. 영어의 경우 최근 이에 대한 연구가 집중되고 있으나 한국어 학술 문헌 내 인용문의 자동 인식 연구는 찾기 힘들다. 이 논문은 한국어 인용문을 자동 인식하는 규칙 기반의 방법을 제시하고 다양한 베이스라인 기법들과 인용문 인식 성능을 비교하였다. 제안된 방법은 테스트 셋 내 전체 암묵 인용문의 30%를 약 70%의 정확률로 인식할 수 있었다.

ELMo 임베딩 기반 문장 중요도를 고려한 중심 문장 추출 방법 (Method of Extracting the Topic Sentence Considering Sentence Importance based on ELMo Embedding)

  • 김은희;임명진;신주현
    • 스마트미디어저널
    • /
    • 제10권1호
    • /
    • pp.39-46
    • /
    • 2021
  • 본 연구는 뉴스 기사에서 기사문을 구성하는 문장별 중요도를 고려하여 요약문을 추출하는 방법에 관한 것으로 문장 중요도에 영향을 주는 특성으로 중심 문장(Topic Sentence)일 확률, 기사 제목 및 다른 문장과의 유사도, 문장 위치에 따른 가중치를 추출하여 문장 중요도를 계산하는 방법을 제안한다. 이때, 중심 문장(Topic Sentence)은 일반 문장과는 구별되는 특징을 가질 것이라는 가설을 세우고, 딥러닝 기반 분류 모델을 학습시켜 입력 문장에 대한 중심 문장 확률값을 구한다. 또한 사전학습된 ELMo 언어 모델을 활용하여 문맥 정보를 반영한 문장 벡터값을 기준으로 문장간 유사도를 계산하여 문장 특성으로 추출한다. LSTM 및 BERT 모델의 중심 문장 분류성능은 정확도 93%, 재현율 96.22%, 정밀도 89.5%로 높은 분석 결과가 나왔으며, 이렇게 추출된 문장 특성을 결합하여 문장별 중요도를 계산한 결과, 기존 TextRank 알고리즘과 비교하여 중심 문장 추출 성능이 10% 정도 개선된 것을 확인할 수 있었다.

Developing and Pre-Processing a Dataset using a Rhetorical Relation to Build a Question-Answering System based on an Unsupervised Learning Approach

  • Dutta, Ashit Kumar;Wahab sait, Abdul Rahaman;Keshta, Ismail Mohamed;Elhalles, Abheer
    • International Journal of Computer Science & Network Security
    • /
    • 제21권11호
    • /
    • pp.199-206
    • /
    • 2021
  • Rhetorical relations between two text fragments are essential information and support natural language processing applications such as Question - Answering (QA) system and automatic text summarization to produce an effective outcome. Question - Answering (QA) system facilitates users to retrieve a meaningful response. There is a demand for rhetorical relation based datasets to develop such a system to interpret and respond to user requests. There are a limited number of datasets for developing an Arabic QA system. Thus, there is a lack of an effective QA system in the Arabic language. Recent research works reveal that unsupervised learning can support the QA system to reply to users queries. In this study, researchers intend to develop a rhetorical relation based dataset for implementing unsupervised learning applications. A web crawler is developed to crawl Arabic content from the web. A discourse-annotated corpus is generated using the rhetorical structural theory. A Naïve Bayes based QA system is developed to evaluate the performance of datasets. The outcome shows that the performance of the QA system is improved with proposed dataset and able to answer user queries with an appropriate response. In addition, the results on fine-grained and coarse-grained relations reveal that the dataset is highly reliable.

학술대회 및 저널별 기술 핵심구 추출 모델 (A Keyphrase Extraction Model for Each Conference or Journal)

  • 정현지;장광선;김태현;신동구
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 추계학술대회
    • /
    • pp.81-83
    • /
    • 2022
  • 연구 동향을 파악하는 것은 연구 수행 시 필수적인 요소이다. 대부분의 연구자들은 관심분야의 학술대회 및 저널을 대표하는 기술 핵심구나 관심 분야를 검색함으로써 연구 동향을 파악한다. 하지만, 최근 인공지능과 같은 특정 분야의 경우 한 개의 학술대회에 한 해당 수백~수천 개의 논문이 출간되기 때문에 전체 분야의 경향성을 파악하는 데 어려움이 존재한다. 본 논문에서는 학술대회 또는 저널 제목을 활용하여 기술 핵심구를 자동으로 추출함으로써 연도별 학술대회 및 저널의 연구 동향 파악을 지원하고자 한다. 핵심구 추출은 문장 또는 문서를 대표하는 주요 구문을 추출하는 작업으로서 검색, 요약, 내용 파악 등을 위해 근간이 되는 기술이다. 기존 사전학습 언어모델 기반의 핵심구 추출 모델은 문서 단위의 긴 텍스트를 기준으로 모델링 하였기 때문에 제목 단위의 짧은 텍스트에서는 성능이 낮아진다는 단점이 존재한다. 본 논문에서는 짧은 텍스트에 강인하면서 단어 자체의 중요도를 고려한 학술대회 및 저널의 기술 핵심구 추출 모델을 제안하고자 한다.

  • PDF

한국어 문서 요약 기법을 활용한 휘발유 재고량에 대한 미디어 분석 (Media-based Analysis of Gasoline Inventory with Korean Text Summarization)

  • 윤성연;박민서
    • 문화기술의 융합
    • /
    • 제9권5호
    • /
    • pp.509-515
    • /
    • 2023
  • 국가 차원의 지속적인 대체 에너지 개발에도 석유 제품의 사용량은 지속적으로 증가하고 있다. 특히, 대표적인 석유 제품인 휘발유는 국제유가의 변동에 그 가격이 크게 변동한다. 주유소에서는 휘발유의 가격 변화에 대응하기 위해 휘발유 재고량을 조절한다. 따라서, 휘발유 재고량의 주요 변화 요인을 분석하여 전반적인 휘발유 소비 행태를 분석할 필요가 있다. 본 연구에서는 주유소의 휘발유 재고량 변화에 영향을 미치는 요인을 파악하기 위해 뉴스 기사를 활용한다. 첫째, 웹 크롤링을 통해 자동으로 휘발유와 관련한 기사를 수집한다. 둘째, 수집한 뉴스 기사를 KoBART(Korean Bidirectional and Auto-Regressive Transformers) 텍스트 요약 모델을 활용하여 요약한다. 셋째, 추출한 요약문을 전처리하고, N-Gram 언어 모델과 TF-IDF(Term Frequency Inverse Document Frequency)를 통해 단어 및 구 단위의 주요 요인을 도출한다. 본 연구를 통해 휘발유 소비 형태의 파악 및 예측이 가능하다.

Multimodal Approach for Summarizing and Indexing News Video

  • Kim, Jae-Gon;Chang, Hyun-Sung;Kim, Young-Tae;Kang, Kyeong-Ok;Kim, Mun-Churl;Kim, Jin-Woong;Kim, Hyung-Myung
    • ETRI Journal
    • /
    • 제24권1호
    • /
    • pp.1-11
    • /
    • 2002
  • A video summary abstracts the gist from an entire video and also enables efficient access to the desired content. In this paper, we propose a novel method for summarizing news video based on multimodal analysis of the content. The proposed method exploits the closed caption data to locate semantically meaningful highlights in a news video and speech signals in an audio stream to align the closed caption data with the video in a time-line. Then, the detected highlights are described using MPEG-7 Summarization Description Scheme, which allows efficient browsing of the content through such functionalities as multi-level abstracts and navigation guidance. Multimodal search and retrieval are also within the proposed framework. By indexing synchronized closed caption data, the video clips are searchable by inputting a text query. Intensive experiments with prototypical systems are presented to demonstrate the validity and reliability of the proposed method in real applications.

  • PDF

NMF 와 코사인유사도를 이용한 질의 기반 문서요약 (Query-Based Text Summarization Using Cosine Similarity and NMF)

  • 박선;이주홍;안찬민;박태수;송재원;김덕환
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2006년도 춘계학술발표대회
    • /
    • pp.473-476
    • /
    • 2006
  • 인터넷의 발달로 인하여 정보의 양은 시간이 지날수록 폭발적으로 증가하고 있다. 이러한 방대한 정보로부터 정보검색시스템은 사용자에게 너무 많은 검색결과를 제시하여 사용자가 원하는 정보를 찾기 위해 너무 많은 시간을 소요하게 하는 정보의 과적재 문제가 있다. 질의 기반의 문서요약은 정보의 사용자가 원하는 정보의 검색시간을 줄임으로써 정보의 과적재 문제를 해결하는 방법으로서 점차 중요성이 증가하고 있다. 본 논문은 비음수 행렬 인수분해 (NMF, Non-negative Matrix Factorization)과 코사인 유사도를 이용하여 질의 기반의 문서를 요약하는 새로운 방법을 제안하였다. 제안된 방법은 질의와 문서 간에 사전학습이 필요 없다. 또한 문서를 그래프로 변형시키는 복잡한 처리 없이 NMF 에 의해 얻어진 의미 특징(semantic feature)과 의미 변수(semantic variable)로 문서의 고유 구조를 반영하여 요약의 정확도를 높일 수 있다. 마지막으로 단순한 방법으로 문장을 쉽게 요약할 수 있다.

  • PDF

정렬된 성경 코퍼스로부터 바꿔쓰기표현(paraphrase)의 자동 추출 (Automatic Extraction of Paraphrases from a Parallel Bible Corpus)

  • 이공주;윤보현
    • 인지과학
    • /
    • 제17권4호
    • /
    • pp.323-336
    • /
    • 2006
  • 바꿔쓰기(paraphrasing)는 동일한 내용을 다르게 표현하는 방식을 의미한다. 이러한 바꿔쓰기표현들(paraphrues)은 기계번역, 질의 응답 시스템, 문서 요약과 같은 다양한 분야에 매우 유용하게 사용될 수 있다. 그러나 이와 같은 바꿔쓰기표현의 유용성에도 불구하고 바꿔쓰기표현을 자동으로 추출할 수 있는 방법이 매우 어렵다. 우선 바꿔쓰기표현을 자동으로 추출할 수 있는 데이터를 구하는 것부터가 어려운 문제이다. 본 연구에서는 여러 버전의 한글 성경 코퍼스로부터 바꿔쓰기표현을 자동으로 추출해 보고자 한다. 성경은 각 문장이 절과 구로 나누어져 있어 문장과 문장을 정렬시키는 것이 매우 용이하다. 정렬된 여러 버전의 성경 코퍼스로부터 자율학습(unsupervised learning)을 통해서 자동으로 바꿔쓰기표현을 추출한다. 이와 같은 방법은 어휘수준의 바꿔쓰기표현 뿐만 아니라 구문수준의 바꿔쓰기표현도 추출할 수 있음을 보여준다.

  • PDF

유사 적합성 피드백 기반의 문서 요약 기법을 이용한 효과적인 스니펫 생성 (An Effective Snippet Generation Method using Text Summarization Techniques based on Pseudo Relevance Feedback)

  • 안홍국;고영중;서정연
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2007년도 학술대회 1부
    • /
    • pp.174-181
    • /
    • 2007
  • 정보 검색의 결과로 나타나는 요약문을 스니펫(snippet)이라 한다. 사용자는 자신이 원하는 정보를 얻기 위해 문서를 검색하는데, 이 때 스니펫은 사용자가 원하는 문서를 찾는데 중요한 역할을 한다. 본 논문에서는 정보검색 분야에서 높은 성능을 보이는 유사 적합성 피드백을 자동 문서 요약에 맞게 적용하여 높은 성능의 스니펫 생성 시스템을 구현한다. 우선, 사용자의 질의가 포함된 문장들을 일차적으로 요약 문장 후보로 추출한다. 그리고 추출된 문장 후보로부터 명사들을 질의 후보로 고려한다. 각 문장이 질의의 포함 여부에 따라 문장의 적합성을 판단하게 되고, 유사 적합성 피드백 확률 모델에 적용한 후 질의 후보들의 가중치를 추정하여 가중치 순위를 통해 확장할 질의들을 결정한다. 확장된 질의들과 기존의 질의들의 가중치를 합산하여 각 문장의 순위를 매기게 되고 가장 높은 순위의 문장들이 스니펫으로 제시된다. 논문에서 제안한 기법은 추가적인 핵심 질의들을 자동으로 확장하여 중요한 문장을 추출할 수 있다. 이 연구를 위해서 일반 상용 정보 검색 서비스에서 제공하는 스니펫을 수집하였고 이들의 정확도와 시스템의 정확도를 비교하였다. 실험 결과를 통해 살펴본 제안된 시스템의 성능은 상용 정보 검색기에서 제공되고 잇는 스니펫의 정확도 보다 우수한 성능을 보였다.

  • PDF

과학과 수업 방법의 요인분석 연구 (A Study on Factor Analysis of Science Teaching Methods)

  • 홍성일;우종옥;정진우
    • 한국과학교육학회지
    • /
    • 제15권4호
    • /
    • pp.394-403
    • /
    • 1995
  • The purpose of this study was to find out and analyze the science teacher's teaching methods. A total of 35 teaching methods were abstracted from the previous studies and the relating literatures. An instrument to measure the frequencies of using methods was developed and then tested to middle school science teachers. The Results of two factor analysis methods were compared. The results are as follows: The instruments's reliablity coefficient(Cronbach ${\alpha}$) was 0.7707. The teaching methods which middle school science teachers have used frequently were represented as the proposing of the learning objectives, the deductive teaching, the experimental activities by teacher's guide, the summarization after explanation, the reading text etc. Also, it was revealed that they have not use the diagnostic evaluation, the formative evaluation, the experimental activities by student's design, the instructional medium. By confirmatory factor analysis, the 1st factor included 13 teaching methods and 2nd and 3rd factor included 9 and 7 methods respectedly. The meaning of 1st factor was interpreted to stimulate student's learning motives. And the other's were about the development of instruction. In exploratory factor analysis factors were overlapped or more fined. These were due to the structure of factors.

  • PDF