• 제목/요약/키워드: 자동 논문 요약

검색결과 184건 처리시간 0.022초

문서 구조 정보를 이용한 확률 모델 기반 자동요약 시스템 (An Automatic Summarization System Based On a Probabilistic Model Using Document Structure Information)

  • 장동현;맹성현
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.15-22
    • /
    • 1997
  • 인터넷과 정보 서비스 기술의 발달로 일반 대중에게 제공되는 정보의 양은 기하급수적으로 증가하고 있는 추세지만 사용자가 원하는 정보를 얻기는 더욱 어려워지고 있으며, 필요한 정보를 찾은 경우에도 그 양이 많기 때문에 전체적인 내용을 파악하는 데 많은 시간을 소비하게 된다. 이러한 문제를 해결하고자 본 연구에서는 통계적 모델을 사용하여 문서로부터 문장을 추출한 후 요약문을 작성하여 사용자에게 제시하는 시스템을 개발하였다. 문서 요약 시스템의 구축을 위하여 사용된 방법은 문서 집합으로부터 중요 문장을 추출한 후 이로부터 요약문에 나타날 수 있는 특성(feature)과 중요 단어를 학습하여 학습된 내용을 이용하여 요약문을 하는 방법이다. 시스템 개발 및 평가를 위해 사용된 문서는 정보 과학 분야의 논문 모음이며 이를 학습 데이터와 실험 데이터로 구분한 후 학습 데이터로부터 필요한 정보를 얻고 실험 데이터로 평가하였다.

  • PDF

단어 간 의미적 연관성을 고려한 어휘 체인 기반의 개선된 자동 문서요약 방법 (An Improved Automatic Text Summarization Based on Lexical Chaining Using Semantical Word Relatedness)

  • 차준석;김정인;김판구
    • 스마트미디어저널
    • /
    • 제6권1호
    • /
    • pp.22-29
    • /
    • 2017
  • 최근 스마트 디바이스의 급속한 발달과 보급으로 인하여 인터넷 웹상에서 등장하는 문서의 데이터는 하루가 다르게 증가 하고 있다. 이러한 정보의 증가로 인터넷 웹상에서는 대량의 문서가 증가하여 사용자가 해당 문서의 데이터를 이해하는데, 어려움을 겪고 있다. 그렇기 때문에 자동 문서 요약 분야에서 문서를 효율적으로 요악하기 위해 다양한 연구가 진행 되고 있다. 효율적으로 문서를 요약하기 위해 본 논문에서는 텍스트랭크 알고리즘을 이용한다. 텍스트랭크 알고리즘은 문장 또는 키워드를 그래프로 표현하며, 단어와 문장 간의 의미적 연관성을 파악하기 위해 그래프의 정점과 간선을 이용하여 문장의 중요도를 파악한다. 문장의 상위 키워드를 추출 하고 상위 키워드를 기반으로 중요 문장 추출 과정을 거친다. 중요 문장 추출 과정을 거치기 위해 단어 그룹화 과정을 거친다. 단어그룹화는 특정 가중치 척도를 이용하여 가중치 점수가 높은 문장을 선별하여 선별된 문장들을 기반으로 중요 문장을 중요 문장을 추출하여, 문서를 요약을 하게 된다. 이를 통해 기존에 연구 되었던 문서요약 방법보다 향상된 성능을 보였으며, 더욱 효율적으로 문서를 요약할 수 있음을 증명하였다.

과학 논문 초록 말뭉치 구축 및 선학습 트랜스포머 기반 초록 자동구조화 방법 (Scientific Paper Abstract Corpus and Automatic Abstract Structure Parsing using Pretrained Transformer)

  • 김서경;조윤희;허세훈;정상근
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.280-283
    • /
    • 2020
  • 논문 초록은 논문의 내용을 요약해 제시함으로써 독자들의 연구결과물에 대한 빠른 검색과 이해를 도모한다. 초록의 구성은 대부분 전형적인 경우가 많기 때문에, 초록의 구조를 자동 분석하여 색인해두면 유사구조 초록을 검색하거나 생성하는 등의 연구효율화에 기여할 수 있다. 허세훈 외 (2019)는 초록 자동구조화를 위한 말뭉치 SPA2019 및 기계학습기반의 자동구조화 방법을 제시하였다. 본 연구는, 기존 SPA2019 의 구조화 오류를 바로잡고, SPA2019 에서 추출한 1,346 개의 초록데이터와 2,385 개의 초록데이터를 추가한 SPA2020 말뭉치를 새로이 소개한다. 또한, 다양한 선학습 기반 트랜스포머들을 활용하여 초록 자동구조화를 수행하였으며, 그 결과 BERT-0.86%, RoBERTa-0.86%, ALBERT-0.84%, XLNet-0.86%, DistilBERT-0.85% 등의 자동구조화 성능을 보임을 확인하였다.

  • PDF

학술논문 내에서 참고문헌 정보가 포함된 서지 메타데이터 자동 생성 연구 (Automatic Generation of Bibliographic Metadata with Reference Information for Academic Journals)

  • 정선기;신현호;지선영;최성필
    • 한국문헌정보학회지
    • /
    • 제56권3호
    • /
    • pp.241-264
    • /
    • 2022
  • 서지정보는 연구 주제의 최신 동향의 인지와 유용성을 검증하는 데에 참고할 수 있다. 즉, 각자 연구자들이 필요로 하는 문헌에 신속하게 접근하기 위해서는 학술논문에서 저자 정보, 요약, 초록, 참고문헌 등을 쉬운 방법으로 파악해야 한다. 그러나, 현재 출판되는 PDF 형식의 전자 학술논문은 출판 주체별로 고유한 양식을 띄고 있어서, 몇몇 특징에 의한 규칙 기반 추출법으로는 수많은 문헌에서 목표 정보를 추출하여 요약된 서지사항으로 자동 생성하기 어렵다. 이에 본 연구는 학술논문 서지사항 자동 생성에 있어서 양식의 다양성으로 인한 메타데이터 자동 추출의 난점을 극복할 방법을 제안한다. 제안하는 모델은 서지사항이 주로 기술되는 학술논문의 첫 페이지에서 목표 영역과 본문의 시작점을 구분할 수 있는 심층신경망 기반 모델과 앞의 모델로 추출된 서지사항을 상세한 메타데이터로 분류하고 재생성하는 규칙 기반 모델로 구성된다. 제안하는 모델은 참고문헌 요약정보를 생성하는 모델도 포함하는데, 본문의 말미와 참고문헌 시작점의 분리, 그리고 개별 참고문헌 추출을 규칙 기반 방법으로 진행하고, 추출한 각개 참고문헌의 서지정보를 분류하는 데에 심층신경망을 이용하도록 구성하였다. 추가로, 논문 자체의 서지정보를 전후처리 없이 추출/생성하는 모델의 가능성을 확인하기 위하여 참고문헌 영역까지 아우르는 모델을 구축하여 비교 실험을 진행하였다. 실험 결과 본 논문에서 제안하는 방식이 서지정보를 전후처리 하지 않고 진행한 비교 실험에 비하여 더 높은 성능을 보였다.

스마트폰에서의 시공간적 중요도기반 비디오 요약 (Spatiotemporal Saliency-Based Video Abstract on a Smartphone)

  • 이원범;박인규
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2012년도 하계학술대회
    • /
    • pp.388-389
    • /
    • 2012
  • 본 논문에서는 동영상을 시공간적 중요도 기반으로 요약하는 기법을 제안한다. 동영상 내에서 각 프레임의 중요도를 평가하여 높은 우선순위를 가지는 구간들의 집합으로 요약을 수행한다. 화면내의 얼굴면적의 비율, 영상의 복잡도를 통하여 각 프레임이 가지는 공간적 중요도를 분석하고 인접한 프레임간의 비교를 통해 밝기 히스토그램과 움직임(motion)의 양을 추정함으로써 시간적 중요도를 구한다. 에지 보존 스무딩 필터를 밝기 히스토그램에 적용하여 장면 전환을 검출한다. 분리된 장면들로 과분할 구조를 가지는 계층적 트리를 생성하여 사용자가 요구한 재생길이를 가지는 동영상을 자동으로 저작한다. 본 논문에서는 동영상 분석 및 저작을 제한적인 환경인 스마트폰에서 효과적으로 작동하도록 구현 및 최적화를 수행하였다.

  • PDF

대용량 오피니언 문서에 대한 특성 기반 요약 기법 (Feature-Based Summarization Method for a Large Opinion Documents Collection)

  • 장재영
    • 한국인터넷방송통신학회논문지
    • /
    • 제16권1호
    • /
    • pp.33-42
    • /
    • 2016
  • 최근 SNS나 포털을 중심으로 다양한 분야 대해 대중들의 의견이 표현될 수 있는 환경이 확대되고 있고, 이로 인해 오피니언 문서들은 빠르게 대량화 되고 있다. 이러한 환경에서 대용량의 오피니언 문서들의 내용을 파악하기 위해서는 자동 요약 기술의 적용이 필수적이다. 하지만 오피니언 문서 내에는 대상 객체가 갖는 특성들과 주관적 표현들이 내재되어 있어 일반적인 요약 기법으로는 효율적인 요약이 불가능하다. 본 논문에서는 대용량의 오피니언 문서를 대상으로 주요 문장들을 추출하여 요약하는 기법을 제안한다. 제안된 기법에서는 사전에 정의된 오피니언 문서의 특성들에 대해서, 특성들에 대한 오피니언이 표현된 대표적인 문장들이 추출되도록 설계되었다. 또한 실험을 통하여 제안된 방법의 유용성을 증명하였다.

요약 문서 기반 문서 클러스터링 (Document clustering based on summarized document using K-means algorithm)

  • 오형진;고지현;안동언;정성종
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 춘계학술발표논문집 (상)
    • /
    • pp.589-592
    • /
    • 2002
  • 정보검색 시스템에서 문서 클러스터링 기법은 사용자 질의에 대하여 검색된 문서를 문서간의 관련도에 따라 클러스터로 구성하고 사용자에게 검색 결과로 보여주는 것이다. 본 논문에서는 사용자의 질의에 대하여 검색된 문서를 자동 문서 요약기를 통해 얻은 요약 문서와 문서 전문을 문서들간의 유사도를 기반으로 동적으로 클러스터링 한다. 구현한 시스템의 클러스터링 효과를 검증한 결과 검색된 문서 전문을 클러스터링 한 방식에 비해 요약 문서를 클러스터링 한 방식이 정확률 측면에서 더 나은 성능을 보였다.

  • PDF

한국어 의학 문서에 대한 영문 MeSH 키워드의 자동 부여 - 띄어쓰기 변이 처리 효과를 중심으로 (Automatic English MeSH keywords assignment to Korean medical documents - spacing variant effect)

  • 이재성;김미숙;이영성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.82-89
    • /
    • 2004
  • 본 논문에서는 한국어 의학 논문의 요약문으로부터 자동 영문 MeSH 키워드 제안 시스템을 소개하고, 띄어쓰기 변이(spacing variant) 문제를 해결할 수 있는 방법을 제안한다. 띄어쓰기 변이란 표준 한글 맞춤법에 비해 다르게 띄어쓰기된 것을 말한다. 이를 위해 시소러스에는 생성 가능한 모든 띄어쓰기 변이 대신에 최대 띄어쓰기 어구만을 저장하고, 문서에서 K-MeSH 용어를 찾기 위해 음절단위 부분문자열 검색을 사용한다. 이 방법으로 한국어 의학 논문의 요약문에서 K-MeSH 용어를 추출한 후, TF-IDF 순위 함수를 이용하여 상위 10위내의 키워드를 저자가 선정한 영문 키워드와 비교한 결과 58%가 일치하였다. 이는 기존 방법에 비해 42%정도의 시소러스 크기가 축소되었고, 상위 10위내에서 영문 MeSH 키워드 추천 재현률이 약 7.8% 증가한 것으로 효과적인 방법임을 보여주었다.

  • PDF

MPEG-7 기술자를 이용한 TV 골프 프로그램의 이벤트검출 및 요약 (Semantic Event Detection and Summary for TV Golf Program Using MPEG-7 Descriptors)

  • 김천석;이희경;남제호;강경옥;노용만
    • 방송공학회논문지
    • /
    • 제7권2호
    • /
    • pp.96-106
    • /
    • 2002
  • 본 논문에서는 최근 증가하는 TV 골프 경기의 하이라이트 부분을 요약하기 위해 시청자가 관심을 갖는 주요 이벤트를 시각 특징정보들을 이용하여 자동 추출할 수 있는 알고리즘을 제시하였다. 본 알고리즘은 4단계로 구성된다. 첫 번째 단계에서는 입력된 비디오의 샷 (Shot) 및 키 프레임 (Key Frame)을 구하여 데이터베이스화하는 구조를 분석하고, 두 번째 단계에서는 이들 정보를 이용하여 하위 레벨의 특징정보를 추출한다. 세 번째 단계에서는 특징 전보들을 통합하여 샷의 의미를 부여하여, 이벤트 구성 요소들과 정합시킨다. 네 번째 단계에서는 사전에 정의된 추론 규칙과 시간 정보를 이용하여 구성 요소들을 통합하여 이벤트를 결정한다. 본 연구에서는 하위 레벨의 특징 정보를 상호 호환성과 재사용성이 가능하도록 MPEG-7 비주얼 특징 정보를 사용하였다 TV-Anytime의 하이라이트/이벤트 스키마(schema)를 이용하여 검출된 이벤트들로 구성된 요약문을 XML 문서로 작성하였다. 제안 알고리즘의 성능을 검사하기 위해 비디오 자동 요약 시스템과 브라우징을 제작하여 실험하였으며 평균 80%의 검색 율과 정확도를 얻었다.

KP AGENT를 이용한 기술정보공간의 구축 (ICPIS Construction using KP Agent)

  • 박경우;배상현
    • 한국컴퓨터정보학회논문지
    • /
    • 제5권2호
    • /
    • pp.14-21
    • /
    • 2000
  • 이용자의 학술정보 데이터베이스의 기능을 보충하는 새로운 지식표현 패러다임으로 기술정보공간(ICPIS: Information Communication Papers Intelligent Surveyor)을 제안한다. 이것은 기술정보로부터 자동적으로 구축되어 그 중에서 이용자가 자유롭게 탐방 할 수 있는 정보 공간이다. 구축방법과 탐방기능을 명확히 하여 실 시스템을 구축, 평가하는 것이 연구의 목적이다. 이를 위해 ICPIS는 Keyword로 기술된 논문군을 입력하여 논문내용의 항목별 요약, 유사논문의 시각적 표시와 비교, 인과관계의 추출을 시작으로 논문의 요약정보, Survey정보를 사용자에게 제공한다. ICPIS에서 중심적 역할을 나타내는 것은 KP(Knowledge Piece)로 불리고, 이는 기술정보의 추출법과 구조화법을 일체화한 Domain지식의 패키지이다. ICPIS는 KP별로 기술된 Keyword에서 자연언어처리에 해당되는 기술정보를 논문 중에서 추출하여 KP에서 규정된 요약구조로 생성한다.

  • PDF