• 제목/요약/키워드: 자동발췌문

검색결과 5건 처리시간 0.021초

자동 발췌문/요약 시스템 구축에 관한 연구 - 학술지 논문기사를 중심으로 - (A Study on the Construction of the Automatic Extracts and Summaries - On the Basis of Scientific Journal Articles -)

  • 이태영
    • 한국문헌정보학회지
    • /
    • 제39권3호
    • /
    • pp.139-163
    • /
    • 2005
  • 코퍼스 기반의 제 방법. 담화구조의 수사역할, 유사문장의 통합을 이용하여 발췌문과 기초적 요약문을 자동으로 작성하는 방법론을 구축하였다. 코퍼스에 따른 기법들의 효율적 한계치를 사전에 확인하였고 발췌/요약문의 신축적 작성을 위해서 요약문을 이루는 문장들의 수사역할을 목적, 배경, 방법, 결과. 결론 등으로 정하고 각각의 발췌기를 적용하였다. 발췌 성공률은 $90\%$이었다. 수사역할별로 선정된 문장의 합성과 분리를 위하여 유사도 공식을 이용한 유사문장의 통합, 불필요한 의미의 수식절, 삽입절의 제거, 짧은 문장들과 연결이 가능한 문장들의 합성을 시도하였다. 높은 발췌 성공률을 바탕으로 문장의 수사역할, 절의 용언어미 표징, 단서적 어구와 소재를 가미한 문장 정리 시스템의 개발이 요망된다.

학술잡지기사 초록의 비평문장 자동작성에 대한 연구 (A Study on Automatically Constructing a Critical Abstracts of the Articles in Scholar Journals)

  • 이태영
    • 정보관리학회지
    • /
    • 제25권1호
    • /
    • pp.19-41
    • /
    • 2008
  • 논문기사의 비평적 초록을 웹 환경 아래서 자동으로 생성하기 위하여 비평 단서어구, 비평 정보 범례, 비평 수록 문장 발췌규칙, 비평문장 생성규칙을 작성하였다. 비평 정보를 발췌하고 문장을 생성하는데 필요한 비평문 작성 도움 온톨로지를 만들어 비평의 단초가 되는 단서어구와 문장 간의 징후들을 관리 운영하였다. 징후들은 원문의 연구목적, 방법, 결과, 결론 문장을 중심으로 그 주변 문장들에서 상호 작용하여 표출되는 문맥적 정보를 이용하였다. 실제 비평문장의 성능을 조사한 결과, 발췌 및 생성 규칙의 개선과 온톨로지의 관계들이 보강되어야 할 것으로 판단하였다.

HMM을 이용한 연속음성인식 시스템의 화자적응화에 관한 연구 (A Study on Speaker Adaptation of HMM in a Continous Speech Recognition System)

  • 김상범
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1995년도 제12회 음성통신 및 신호처리 워크샵 논문집 (SCAS 12권 1호)
    • /
    • pp.100-104
    • /
    • 1995
  • 일반적으로 화자적응화는 이미 학습되어 있는 불특정 화자 모델을 표준모델로 하고 소량의 적응화용 발화로 추가적인 학습을 실시하여 특정화자 모델의 성능에 가깝게 하는 기술로서 연속음성 인식에 있어서 매우 중요하다. ML 추정법을 이용한 화자적응화는 카테고리마다 모델의 학습패턴들을 다수개 준비한 후 학습시에 일괄적으로 적용시켜 모델 파라메터를 추정 갱신하므로 추가되는 화자데이터에 대해 데이터를 모두 공급하여야 한다. 본 연구에서는 문발화 데이터의 음절단위를 자동추출한 후 추가되는 화자데이터가 주어질 때 마다 적응화할 수 있는 화자적응화 방법을 검토하였다. 이 방법은 문발화 데이터를 잘라내지 않고 음절 단위를 자동추출시켜 추가 데이터마다 최대 사후확률 추정법을 이용하여 적응화 시키는 것으로 수소의 데이터로서도 적응화를 가능하게 하는 것이다. 본 연구에서 사용되는 음성데이터는 신문사설에서 발췌한 연속음성 10문장을 사용하고, 이 음성 데이터중 6명분은 HMM 학습용으로 하고 나머지 3명분은 적응화용 및 평가용 데이터로 사용하였다. 6명의 화자를 DDCHMM으로 학습하고 나머지 3명분을 MAP법으로 적응화시켰다. 그 결과 적응전과 비교해 볼 때 약 32%의 인식율 향상을 얻을 수 있었다.

  • PDF

자동요약시스템 구축에 대한 연구 - 웹 상의 보도기사를 중심으로 - (A Study on the Construction of the Automatic Summaries - on the basis of Straight News in the Web -)

  • 이태영
    • 정보관리학회지
    • /
    • 제23권4호
    • /
    • pp.41-67
    • /
    • 2006
  • 웹의 보도기사에 관한 자동요약시스템을 구축하기 위하여 담화구조와 지식기반 기법을 적용한 글구조 프레임과 제 규칙들을 작성하였다. 프레임에는 문단과 문장 및 절의 역할, 문단과 문장의 성질, 역할을 구분하는 판별규칙, 주요문장 발췌규칙, 그리고 요약문 작성규칙 슬롯이 포함되었다. 문맥정의, 고유명사 등을 안내하는 'if-needed'와 변화된 슬롯 값을 알려주는 if-changed 패싯도 구비되었다. 슬롯이나 패싯의 실제 값들을 추출 표현하는 과정에서 문구의 수사적 역할과 단어 최상위 범주 및 줄거리 단위를 참조하였다. 의미흐름의 연결성을 유지하면서 요약 문장들을 통합, 분리, 합성하는 재구성은 유사도공식, 구문정보, 담화구조와 지식기반 방법에서 도출한 제 규칙 및 문맥정의를 이용하였고 비평과 같은 새로운 문장을 생성하였다.

완전성과 간결성을 고려한 텍스트 요약 품질의 자동 평가 기법 (Automatic Quality Evaluation with Completeness and Succinctness for Text Summarization)

  • 고은정;김남규
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.125-148
    • /
    • 2018
  • 다양한 스마트 기기 및 관련 서비스의 증가에 따라 텍스트 데이터가 폭발적으로 증가하고 있으며, 이로 인해 방대한 문서로부터 필요한 정보만을 추려내는 작업은 더욱 어려워졌다. 따라서 텍스트 데이터로부터 핵심 내용을 자동으로 요약하여 제공할 수 있는 텍스트 자동 요약 기술이 최근 더욱 주목을 받고 있다. 텍스트 요약 기술은 뉴스 요약 서비스, 개인정보 약관 요약 서비스 등을 통해 현업에서도 이미 활발하게 적용되고 있으며, 학계에서도 문서의 주요 요소를 선별하여 제공하는 추출(Extraction) 접근법과 문서의 요소를 발췌한 뒤 이를 조합하여 새로운 문장을 구성하는 생성(Abstraction) 접근법에 따라 많은 연구가 이루어지고 있다. 하지만 문서의 자동 요약 기술에 비해, 자동으로 요약된 문서의 품질을 평가하는 기술은 상대적으로 많은 진전을 이루지 못하였다. 요약문의 품질 평가를 다룬 기존의 대부분의 연구들은 사람이 수작업으로 요약문을 작성하여 이를 기준 문서(Reference Document)로 삼고, 자동 요약문과 기준 문서와의 유사도를 측정하는 방식으로 수행되었다. 하지만 이러한 방식은 기준 문서의 작성 과정에 막대한 시간과 비용이 소요될 뿐 아니라 요약자의 주관에 의해 평가 결과가 다르게 나타날 수 있다는 한계를 갖는다. 한편 이러한 한계를 극복하기 위한 연구도 일부 수행되었는데, 대표적으로 전문에 대해 차원 축소를 수행하고 이렇게 축소된 전문과 자동 요약문의 유사도를 측정하는 기법이 최근 고안된 바 있다. 이 방식은 원문에서 출현 빈도가 높은 어휘가 요약문에 많이 나타날수록 해당 요약문의 품질이 우수한 것으로 평가하게 된다. 하지만 요약이란 본질적으로 많은 내용을 줄여서 표현하면서도 내용의 누락을 최소화하는 것을 의미하므로, 단순히 빈도수에 기반한 "좋은 요약"이 항상 본질적 의미에서의 "좋은 요약"을 의미한다고 보는 것은 무리가 있다. 요약문 품질 평가의 이러한 기존 연구의 한계를 극복하기 위해, 본 연구에서는 요약의 본질에 기반한 자동 품질 평가 방안을 제안한다. 구체적으로 요약문의 문장 중 서로 중복되는 내용이 얼마나 적은지를 나타내는 요소로 간결성(Succinctness) 개념을 정의하고, 원문의 내용 중 요약문에 포함되지 않은 내용이 얼마나 적은지를 나타내는 요소로 완전성(Completeness)을 정의한다. 본 연구에서는 간결성과 완전성의 개념을 적용한 요약문 품질 자동 평가 방법론을 제안하고, 이를 TripAdvisor 사이트 호텔 리뷰의 요약 및 평가에 적용한 실험 결과를 소개한다.