• 제목/요약/키워드: 자동문서 요약 기술

검색결과 30건 처리시간 0.021초

구술문서 자료분석을 위한 정보검색기술의 응용 (Information Technology Application for Oral Document Analysis)

  • 박순철;함한희
    • 한국산업정보학회논문지
    • /
    • 제13권2호
    • /
    • pp.47-55
    • /
    • 2008
  • 본 연구는 정보검색기술을 응용해서 구술문서 자료를 효율적으로 분석하는 시스템 개발을 목적으로 한다. 여기서 사용된 기술은 용어검색, 문서요약기술, 클러스터링기술 문서분류기술 주제추적기술 등이 있다. 본 연구를 위해서 전북지역에서 채록한 구술자료를 이용하였다. 구술문서 구조의 특성을 반영하면서 분석의 단위를 정하고 내용의 자동분류 및 분류체계에 따른 분류도 시도하였다. 특히 주제를 추적하면서 순서에 따라서 검색해 가는 기술은 세계적으로도 아직 연구단계에 있던 것을 실제로 구현하였다. 이러한 5가지의 검색기술이 한 시스템에서 통합적으로 처리될 수 있다는 것도 이 연구가 이룬 성과이다. 이 연구의 기대효과는 구술문서 분석의 신뢰성 타당성 효용성을 높여서 구술문화연구에도 큰 기여를 할 것으로 기대된다.

  • PDF

대용량 오피니언 문서에 대한 특성 기반 요약 기법 (Feature-Based Summarization Method for a Large Opinion Documents Collection)

  • 장재영
    • 한국인터넷방송통신학회논문지
    • /
    • 제16권1호
    • /
    • pp.33-42
    • /
    • 2016
  • 최근 SNS나 포털을 중심으로 다양한 분야 대해 대중들의 의견이 표현될 수 있는 환경이 확대되고 있고, 이로 인해 오피니언 문서들은 빠르게 대량화 되고 있다. 이러한 환경에서 대용량의 오피니언 문서들의 내용을 파악하기 위해서는 자동 요약 기술의 적용이 필수적이다. 하지만 오피니언 문서 내에는 대상 객체가 갖는 특성들과 주관적 표현들이 내재되어 있어 일반적인 요약 기법으로는 효율적인 요약이 불가능하다. 본 논문에서는 대용량의 오피니언 문서를 대상으로 주요 문장들을 추출하여 요약하는 기법을 제안한다. 제안된 기법에서는 사전에 정의된 오피니언 문서의 특성들에 대해서, 특성들에 대한 오피니언이 표현된 대표적인 문장들이 추출되도록 설계되었다. 또한 실험을 통하여 제안된 방법의 유용성을 증명하였다.

감성공학 문서 데이터의 지표 자동화를 위한 코퍼스 분석 기반 특성정보 추출 (Extraction of Informative Features for Automatic Indexation of Human Sensibility Ergonomic Documents)

  • 배희숙;곽현민;채균식;이상태
    • 감성과학
    • /
    • 제7권2호
    • /
    • pp.133-140
    • /
    • 2004
  • 최근 대량으로 쏟아지는 감성공학 연구 결과와 논문들을 가치 있는 자료로 만들기 위해서는 감성 데이터가 산업 전반에 활용될 수 있도록 지표로 정리해야 한다. 본 논문에서는 "웹기반 감성 데이터 베이스 구축 및 보급에 관한 연구" 과제를 통해 작성된 감성 데이터 지표에 입각해서 앞으로 대량으로 출현할 감성공학 데이터의 지속적인 지표화를 위한 과정의 자동화를 제안한다. 문서 데이터의 지표화 작업이 자동요약과 유사하다는 점에 착안하여 자동지표화 시스템을 위한 기술들의 기초가 되는 정보유형 및 주요어 추출, 특성표현을 통한 정보문 추출에 대해 감성공학 코퍼스 분석을 통해 연구하고자 한다. 이는 감성공학 분야에서의 지식관리 시스템이나 자동요약 시스템에 활용될 수 있다. 활용될 수 있다.

  • PDF

기술문서 정의문 패턴을 이용한 전문용어사전 자동추출 및 활용방안 (Automatic Extraction and Usage of Terminology Dictionary Based on Definitional Sentences Patterns in Technical Documents)

  • 한희정;김태영;두효철;오효정
    • 정보관리학회지
    • /
    • 제34권4호
    • /
    • pp.81-99
    • /
    • 2017
  • 기술문서는 지식정보사회에서 생성되는 중요 연구 성과물로, 이를 제대로 활용하기 위해서는 정보 요약 및 정보추출과 같은 개선된 정보 처리 방법을 토대로 기술문서 활용의 편의성을 높여줄 필요가 있다. 이에 본 연구는 기술문서의 핵심 정보를 추출하기 위한 방안으로, 기술문서의 구조와 정의문 패턴을 기반으로 전문용어 및 정의문을 자동 추출하고, 이를 기반으로 전문용어사전을 구축할 수 있는 시스템을 제안하였다. 나아가 전문용어사전을 지식메모리로서 보다 다양하게 활용할 수 있도록 전문용어사전에 기반한 개인화서비스 제공방안을 제안하였다. 이처럼 전문용어 및 정의문 자동추출을 기반으로 전문용어사전을 구축하게 되면 새롭게 등장하는 전문용어를 빠르게 수용할 수 있어 이용자들이 최신정보를 보다 손쉽게 찾을 수 있다. 더불어 개인화된 전문용어사전을 이용자에게 제공한다면 전문용어사전의 가치와 활용성, 검색의 효율성을 극대화할 수 있다.

텍스트 구성요소 판별 기법과 자질을 이용한 문서 요약 시스템의 개발 및 평가 (Development and Evaluation of a Document Summarization System using Features and a Text Component Identification Method)

  • 장동현;맹성현
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권6호
    • /
    • pp.678-689
    • /
    • 2000
  • 논 본문은 문서의 주요 내용을 나타내는 문장을 추출함으로써 요약문을 작성하는 자동 요약 기법에 대해 기술하고 있다. 개발한 시스템은 문서 집합으로부터 추출한 어휘적, 통계적 정보를 고려하여 요약 문장을 작성하는 모델이다. 시스템은 크게 두 부분, 학습과정과 요약과정으로 구성이 된다. 학습 과정은 수동으로 작성한 요약문장으로부터 다양한 통계적인 정보를 추출하는 단계이며, 요약 과정은 학습 과정에서 추출한 정보를 이용하여 각 문장이 요약문장에 포함될 가능성을 계산하는 과정이다. 본 연구는 크게 세 가지 의의를 갖는다. 첫째, 개발된 시스템은 각 문장을 텍스트 구성 요소의 하나로 분류하는 텍스트 구성 요소 판별 모델을 사용한다. 이 과정을 통해 요약 문장에 포함될 가능성이 없는 문장을 미리 제거하는 효과를 얻게 된다. 둘째, 개발한 시스템이 영어 기반의 시스템을 발전시킨 것이지만, 각각의 자질을 독립적으로 요약에 적용시켰으며, Dempster-Shafer 규칙을 사용해서 다양한 자질의 확률 값을 혼합함으로써 문장이 요약문에 포함될 최종 확률을 계산하게 된다. 셋째, 기존의 시스템에서 사용하지 않은 새로운 자질 (feature)을 사용하였으며, 실험을 통하여 각각의 자질이 요약 시스템의 성능에 미치는 효과를 알아보았다.

  • PDF

문서 자동요약 기술을 적용한 클라우드 스토리지 기반 지능적 아카이빙 시스템 (Cloud storage-based intelligent archiving system applying automatic document summarization)

  • 유기동
    • 한국산업정보학회논문지
    • /
    • 제17권3호
    • /
    • pp.59-68
    • /
    • 2012
  • 제로 클라이언트 체제는 기업의 문서 중앙화를 위해 제시된 최신의 방법이며, 이를 기업의 현실에 보다 적합하도록 토착화시키는 작업은 필수적이다. 본 연구는 제로 클라이언트 체제의 잘 알려진 보안 및 프라이버시 상의 문제점을 제외한, 사용 상의 문제점을 보완하고자 고안되었다. 즉, 작업자가 작업한 문서를 기업 클라우드 스토리지에 저장하고자 저장 카테고리를 검색하는 과정의 부담과 정확성을 향상시키기 위하여, 작업 문서의 주제어를 자동으로 파악하고, 이를 바탕으로 해당 문서가 저장되어야 하는 카테고리를 자동으로 검색하여 작업자의 확인을 통해 자동 저장되도록 하는, 지능적 아카이빙 방식을 제시한다. 본 연구에서 제시하는 주제어 자동 파악 및 자동 아카이빙을 위한 방법론과 프로토타입 시스템은 기업 환경에 적용이 가능할 정도로 정확성과 확장성을 갖추고 있다.

백과사전 기반 전문용어 태깅 시스템 (Terminology Tagging System using elements of Korean Encyclopedia)

  • 배영준;최호섭;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2005년도 제17회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.167-172
    • /
    • 2005
  • 지금까지 자연언어처리에서의 품사태깅(parts-of-speech tagging) 기술에 대한 연구는 활발히 진행된 반면, 전문용어에 대한 처리 기술은 미비한 점이 많았다. 전문용어에 관련된 연구는 대부분 구축, 표준화, 추출 등에 대한 연구가 많았으나 전문용어 태그 설정과 태깅 기술 연구는 부족한 상황이다. 본 논문에서는 전문용어 태그를 (분야정보: 아이디) 순으로 설정하고 백과사전의 분류 체계를 이용하여 어떤 특정 분야 문서의 전문용어를 자동으로 태깅하는 시스템을 구축하였다. 전문용어 태깅 시스템은 형태소분석기를 사용하지 알고 문맥의 규칙과 조사 어미사전을 이용해 자동으로 태깅을 하게 된다. 이 시스템의 정확률 측정을 위한 정답말뭉치는 웹 상에 공개되어 있는 백과사전 html문서를 이용하였다. 우선 백과사전에 나와있는 용어는 전문용어라고 가정한다. 하나의 문서에는 '용어', '요약', '본문', '이미지', '분류', '참조항목' 등의 정보들이 있다. 이 중 '본문'에는 그 용어에 대한 자세한 설명이 있는데 특정 단어에는 태그로 백과사전 내에 있는 단어를 찾아 볼 수 있게 링크 되어있다. 이 정보를 이용해 태그로 되어있는 것을 설정한 태그로 바꾸고 단계별로 확장 태깅을 해서 정답말뭉치를 만든다. 태깅 시스템과 정답말뭉치를 비교해 정확률을 계산해서 시스템의 성능을 측정하였다.

다중 비주얼 특징을 이용한 어학 교육 비디오의 자동 요약 방법 (Automatic Summary Method of Linguistic Educational Video Using Multiple Visual Features)

  • 한희준;김천석;추진호;노용만
    • 한국멀티미디어학회논문지
    • /
    • 제7권10호
    • /
    • pp.1452-1463
    • /
    • 2004
  • 양방향 방송 서비스로의 전환을 맞아 다양한 사용자 요구 및 기호에 적합한 컨텐츠를 제공하고, 증가하는 방송 컨텐츠를 효율적으로 관리, 이용하기 위해 비디오의 자동 에 대한 요구가 증가하고 있다. 본 논문에서는 내용 구성이 잘 갖추어진 어학 교육 비디오의 자동 에 대한 방법을 제안한다. 내용 기반을 자동으로 생성하기 위해 먼저 디지털 비디오로부터 샷 경계를 검출한 후, 각 샷을 대표하는 키프레임으로부터 비주얼 특징들을 추출한다. 그리고 추출된 다중 비주얼 특징을 이용해 어학 교육 비디오의 세분화된 내용 정보를 결정한다. 마지막으로, 결정된 내용 정보를 기술하는 요약문을 MPEG-7 MDS(Multimedia Description cheme)에 정의된 계층적 (Hierarchical Summary) 구조에 맞추어 XML 문서로 생성한다. 외국어 회화 비디오에 대해 실험하여 제안한 자동 방법의 효율성을 검증하였으며, 제안한 방법이 교육 방송용 컨텐츠의 다양한 서비스 제공 및 관리를 위한 비디오 요약 시스템에 효율적으로 적용 가능함을 확인하였다.

  • PDF

자연어 처리 및 협업 필터링 기반의 전장상황 관련 문서 자동탐색 및 요약 기법연구 (A Study on Automatic Discovery and Summarization Method of Battlefield Situation Related Documents using Natural Language Processing and Collaborative Filtering)

  • 김건영;이정빈;손미애
    • 인터넷정보학회논문지
    • /
    • 제24권6호
    • /
    • pp.127-135
    • /
    • 2023
  • 정보통신기술이 발달함에 따라 전투공간에서 생산·공유되는 정보 및 체계 내 저장·관리되는 정보의 양이 폭발적으로 증가하였다. 이는 지휘관이 전장상황 인식 및 지휘결심을 수행하는 데에 활용할 수 있는 정보의 양이 증가하였음을 의미하지만, 한편으로는 지휘관의 정보 부담을 증가시킴으로써 신속한 지휘결심을 저해하는 요인이 되기도 한다. 이러한 한계를 극복하기 위해, 본 연구에서는 지휘관이 전장상황 보고 문서를 수신하였을 때, 체계 내 보유 문서 중에서 이를 해석하는 데에 도움을 줄 수 있는 문서들을 자동적으로 탐색 및 선별하고 요약하는 기법을 제안하였다. 첫째로, 개체명 인식 방법을 활용하여 수신된 전장상황 보고 문서로부터 개체들을 식별한다. 둘째로, 각 개체와 관련된 체계 내 보유 문서들을 탐색한다. 셋째로, 언어모델과 협업 필터링을 활용하여 이러한 문서들을 선별한다. 이때 언어모델은 수신된 보고 문서와 탐색된 문서 간의 유사도를 산출하기 위해 활용되고, 협업 필터링은 지휘관의 문서 열람 히스토리를 반영하기 위해 활용된다. 마지막으로, 선별된 문서들로부터 각 개체가 포함된 문장을 선별하고 이를 정렬한다. 실험은 군 문서와 비슷한 특성을 지니는 학술논문들을 활용하여 수행하였고, 제안된 방법의 타당성을 검증하였다.

육하원칙 활성화도를 이용한 신문기사 자동추출요약 (Automatic Extractive Summarization of Newspaper Articles using Activation Degree of 5W1H)

  • 윤재민;정유진;이종혁
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권4호
    • /
    • pp.505-515
    • /
    • 2004
  • 육하원칙은 신문기사를 기술하는데 있어서 가장 기본적인 요소로서 기사 내용 파악에 핵심적인 역할을 수행한다. 본 논문은 이러한 육하원칙에 기반 하여 기술되는 신문기사의 특성에 주목하여, 육하원칙 활성화도를 이용한 신문기사 요약 방법론을 제안한다. 제안하는 방법론은 기존의 요약 기법 중 가장 우수한 방법으로 알려진 두문 기반 기법(lead-based method)과 제목 기반 기법(title-based method)의 문제점을 극복하기 위해, 제목과 두문의 정보를 결합시켜 충분한 어휘정보를 확보하도록 하였다. 특히 육하원칙 활성화도, 육하원칙 범주 개수, 문장 길이, 문장의 위치 둥과 같은 다양한 요소들을 문장 중요도 계산에 반영함으로써 보다 중요한 정보를 포함하면서도 가독성이 높은 문장들이 요약문으로 선택될 수 있도록 고려하였다. 제안된 방법론의 정확률은 74.7%로서 기존의 두문 기반 기법보다 우수한 성능을 보였으며, 신문기사를 자동 요약하는데 있어서 충분히 효과적으로 사용될 수 있는 방법론임을 실험을 통해 입증하였다.