• 제목/요약/키워드: 문장 축약

검색결과 18건 처리시간 0.024초

작은 화면 기기에서의 출력을 위한 신문기사 헤드라인 형식의 문장 축약 시스템 (Sentence Compression of Headline-style Abstract for Displaying in Small Devices)

  • 이공주
    • 정보처리학회논문지B
    • /
    • 제12B권6호
    • /
    • pp.691-696
    • /
    • 2005
  • 모바일 디바이스와 같이 작은 필기의 화면을 갖는 기기에서는 긴 문장의 내용을 한눈에 파악하기가 쉽지 않다. 본 논문에서는 신문기사와 그 헤드라인으로부터 추출한 정보로부터 문장을 자동으로 축약할 수 있는 시스템을 제안하고자 한다. 축약된 문장은 문장 내의 필수적이지 않은 요소들을 제거함으로써 그 기본 의미는 그대로 전달하되 문장의 길이를 축소시킨 것이다. 신문기사의 헤드라인으로부터 문장 축약 방법을 학습하였기 때문에 매우 간결한 형태로 문장을 축약할 수 있다 예비 실험을 통해 본 논문에서 제안하고 있는 시스템이 생성해 내는 축약문장이 유용함을 보이고자 한다.

한국어 문서 축약 시스템의 설계 (A Design of Korean text CONdensing System(KCONS))

  • 백혜승;이승미;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1991년도 제3회 한글 및 한국어정보처리 학술대회
    • /
    • pp.238-246
    • /
    • 1991
  • 본 논문에서는 한국어 문서를 대상으로 한국어에 관한 형태소 및 구문정보를 이용하고 또한 문장구조상에 나타난 특징들을 고려한 휴리스틱(Heuristic)을 이용하여 각 문장 단위로 축약하는 시스템을 설계한다. 그리고 이 축약 시스템을 평가하기 위한 방법들을 제안한다.

  • PDF

한글 문헌 자동축약 시스템에 관한 연구 (The Study of Automatic Extracting System on Korean Full text)

  • 김세중;조성호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1992년도 제4회 한글 및 한국어정보처리 학술대회
    • /
    • pp.27-38
    • /
    • 1992
  • 본 연구는 한글 문헌을 컴퓨터를 이용하여 축약하는 시스템 구축에 관한 연구로서, 기존의 '완전 자동축약'에 따른 축약문 생성의 편협성을 해결하기 위하여 '자동축약 + 후통제 처리'라는 절충형 시스템 관리 형태로 실제 실현 가능한 시스템을 설계한다는데 그 큰 목적이 있다. 대상 문헌에 대한 구체적 적응 문법은 언어학적 문법 이론인 '격문법 이론'과 '성분 이론'을 그 핵심으로 이용하여 문장을 '의미 있는 어절' 단위로 추출, 해당 문헌을 축약하는 방법을 택하였다.

  • PDF

수사구조를 이용한 텍스트 자동요약 (Text Summarisation with Rhetorical Structure)

  • 이유리;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.97-102
    • /
    • 1999
  • 텍스트 요약이란 중요정보만을 추출하여 본래 텍스트의 의미를 전달하는 축약 과정이다. 인터넷을 통한 온라인 정보가 급증함에 따라 정보에 대한 처리와 신속한 내용 파악을 위한 효율적인 자동 텍스트 방법이 필요하다. 기존의 통계적 방법으로는 전체 텍스트의 구조적인 특징을 고려할 수가 없기 때문에, 생성된 요약문의 의미적 흐름이 부자연스럽고, 문장간 응집도가 떨어지게 된다. 수사학적 방법은 요약문을 생성하기 위해서 문장간의 접속관계를 이용한다. 수사 구조란 텍스트를 이루는 문장들간의 논리적인 결합관계로, 수사학적 방법은 이러한 결합관계를 파악하여 요약문을 생성하는 방법이다. 본 논문에서는 표지들이 나타내는 접속 관계정보를 사용하여, 텍스트의 수사구조를 분석한 후 요약문을 생성하는 시스템을 구현한다. 수사구조 파싱 과정은 문장간의 수사구조 파싱과 문단간의 수사구조 파싱, 두 단계로 이루어진다. 파싱은 차트파싱 방법을 사용하여 상향식으로 진행된다. 입력된 문장들로부터 두 단계 파싱에 의해 전체 텍스트의 수사구조 트리를 생성하며, 생성된 트리에서 가중치를 계산하여 중요 문장들을 요약문으로 추출한다.

  • PDF

정보 검색 시스템의 성능 향상을 위한 구문 분석과 검색어 확장 (Syntactic Analysis and Keyword Expansion for Performance Enhancement of Information Retrieval System)

  • 윤성희
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2004년도 춘계학술대회
    • /
    • pp.139-142
    • /
    • 2004
  • 자연어 질의 문장을 입력하는 방법은 정보 검색 시스템 사용자에게 아주 이상적인 인터페이스이다. 검색을 위해 색인어를 입력하거나 불리언 질의식을 사용하는 것에 비해 훨씬 친밀하지만, 동일한 의도의 검색 요구에 대해서도 개인의 성향에 따라서 다양한 형태나 구조의 자연어 질의문장으로 입력될 수 있는 본질적인 특성이 있다. 본 논문은 자연어 질의문장을 입력으로 하는 검색 시스템을 위해 사용자의 입력 질의 문장을 분석하고 검색어를 확장하는 다중 검색 기법을 제안한다. 질의 문장에 대한 형태소 분석 및 구문 분석을 수행하고, 구문 트리를 순회하여 구조적으로 연관된 복합명사를 조합하거나 분할하고 이형 표기 용어와 축약 표기 용어들을 확장하여 다중 검색함으로써 재현율과 정확도를 높일 수 있다.

  • PDF

SC-GRU encoder-decoder 모델을 이용한 자연어생성 (Natural Language Generation Using SC-GRU Encoder-Decoder Model)

  • 김건영;이창기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.167-171
    • /
    • 2017
  • 자연어 생성은 특정한 조건들을 만족하는 문장을 생성하는 연구로, 이러한 조건들은 주로 표와 같은 축약되고 구조화된 의미 표현으로 주어지며 사용자가 자연어로 생성된 문장을 받아야 하는 어떤 분야에서든 응용이 가능하다. 본 논문에서는 SC(Semantically Conditioned)-GRU기반 encoder-decoder모델을 이용한 자연어 생성 모델을 제안한다. 본 논문에서 제안한 모델이 SF Hotel 데이터에서는 0.8645 BLEU의 성능을, SF Restaurant 데이터에서는 0.7570 BLEU의 성능을 보였다.

  • PDF

SC-GRU encoder-decoder 모델을 이용한 자연어생성 (Natural Language Generation Using SC-GRU Encoder-Decoder Model)

  • 김건영;이창기
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.167-171
    • /
    • 2017
  • 자연어 생성은 특정한 조건들을 만족하는 문장을 생성하는 연구로, 이러한 조건들은 주로 표와 같은 축약되고 구조화된 의미 표현으로 주어지며 사용자가 자연어로 생성된 문장을 받아야 하는 어떤 분야에서든 응용이 가능하다. 본 논문에서는 SC(Semantically Conditioned)-GRU기반 encoder-decoder모델을 이용한 자연어 생성 모델을 제안한다. 본 논문에서 제안한 모델이 SF Hotel 데이터에서는 0.8645 BLEU의 성능을, SF Restaurant 데이터에서는 0.7570 BLEU의 성능을 보였다.

  • PDF

정보 검색 시스템의 성능 향상을 위한 구문 분석과 검색어 확장 (Syntactic Analysis and Keyword Expansion for Performance Enhancement of Information Retrieval System)

  • 윤성희
    • 한국산학기술학회논문지
    • /
    • 제5권4호
    • /
    • pp.303-308
    • /
    • 2004
  • 자연어 질의문장을 입력하는 방법은 정보 검색 시스템 사용자에게 가장 이상적인 인터페이스이다. 본 논문은 자연어 질의문장을 입력하는 검색 시스템을 위해 자연어 처리 기술에 기반 하여 사용자의 입력 질의 문장을 분석하고 검색어를 확장하는 다중검색 기법을 제안한다. 질의 문에 대한 형태소 분석 및 구문 분석을 수행하고, 구문 트리를 순회하여 구조적으로 연관된 복합명사를 조합하거나 분할하고, 이형표기 용어와 축약표기 용어들을 확장하여 다중 검색함으로써 재현율을 11.3%, 정확도를 4.7% 높였다.

  • PDF

가중치를 이용한 효과적인 항공 단문 군집 방법 (DOCST: Document frequency Oriented Clustering for Short Texts)

  • 김주영;이지민;안순홍;이훈석
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 춘계학술발표대회
    • /
    • pp.331-334
    • /
    • 2018
  • 비정형 데이터의 대표적인 형태 중 하나인 텍스트 데이터 기계학습은 다양한 산업군에서 활용되고 있다. NOTAM 은 하루에 수 천개씩 생성되는 항공전문으로써 현재는 사람의 수작업으로 분석하고 있다. 기계학습을 통해 업무 효율성을 기대할 수 있는 반면, 축약어가 혼재된 단문이라는 데이터의 특성상 일반적인 분석에 어려움이 있다. 본 연구에서는, 데이터의 크기가 크지 않고, 축약어가 혼재되어 있으며, 문장의 길이가 매우 짧은 문서들을 군집화하는 방법을 제안한다. 주제를 기준으로 문서를 분류하는 LDA 와, 단어를 k 차원의 벡터공간에 표현하는 Word2Vec 를 활용하여 잡음이 포함된 단문 데이터에서도 효율적으로 문서를 군집화 할 수 있다.

TextRank 알고리즘과 주의 집중 순환 신경망을 이용한 하이브리드 문서 요약 (Hybrid Document Summarization using a TextRank Algorithm and an Attentive Recurrent Neural Networks)

  • 정석원;이현구;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.47-50
    • /
    • 2017
  • 문서 요약은 입력 문서가 가진 주제를 유지하면서 크기가 축약된 새로운 문서를 생성하는 것이다. 문서 요약의 방법론은 크게 추출 요약과 추상 요약으로 구분된다. 추출 요약의 경우 결과가 문서 전체를 충분히 대표하지 못하거나 문장들 간의 호응이 떨어지는 문제점이 있다. 최근에는 순환 신경망 구조의 모델을 이용한 추상 요약이 활발히 연구되고 있으나, 이러한 방법은 입력이 길어지는 경우 정보가 누락된다는 문제점을 가지고 있다. 본 논문에서는 이러한 단점들을 해소하기 위해 추출 요약으로 입력 문서의 중요한 일부 문장들을 선별하고 이를 추상 요약의 입력으로 사용했을 때의 성능 변화를 관찰한다. 추출 요약을 통해 원문 대비 30%까지 문서를 요약한 후 요약을 생성했을 때, ROUGE-1 0.2802, ROUGE-2 0.1294, ROUGE-L 0.3254의 성능을 보였다.

  • PDF