• 제목/요약/키워드: 내용 문장

검색결과 397건 처리시간 0.025초

N3WS : 키워드 및 요약문장 추출을 이용한 인터랙티브 신문기사 탐색 (N3WS : Interactive Newspaper Article Navigation Using Keyword and Summary Extraction)

  • 조희정;손지연;윤별이;조아현;김명;박은정
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 추계학술발표대회
    • /
    • pp.694-697
    • /
    • 2017
  • 최근 인터넷 기사 중에는 부정확한 제목이나 자극적인 단어를 사용하는 경우가 많아 구독자에게 불편함을 준다. 본 논문에서는 이러한 기사들의 헤드라인을 삭제하고, 기사의 내용을 3문장으로 요약해 주어, 구독자가 원하는 기사를 효율적으로 파악할 수 있게 하는 시스템을 제안한다. 제안하는 본 시스템은 파이썬 언어의 KoNLPy 패키지를 사용하여 기사의 단어들을 형태소 단위로 분석하며, 추출된 키워드를 토대로 워드 클라우드를 생성한다. 사용자가 클라우드의 특정 단어를 선택하면, 해당 신문기사들의 본문을 분석하여 각 신문 기사만의 핵심적인 문장을 3문장으로 출력해 준다.

무작위 문장 삽입 노이징을 적용한 BART 기반의 한국어 문서 추상 요약 (BART with Random Sentence Insertion Noise for Korean Abstractive Summarization)

  • 박주홍;권홍석;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.455-458
    • /
    • 2020
  • 문서 요약은 입력 문서의 핵심 내용을 파악하여 짧고 간결한 문장으로 나타내는 과정이다. 최근에는 문서 요약을 위해 사전 학습된 언어 모델을 이용하는 방식이 여럿 제안되고 있지만, 이러한 언어 모델들은 문서 요약의 특성을 고려하지 않고 설계된 입력 노이즈 방식을 사용하는 한계점이 있다. 본 논문에서는 한국어 문서 추상 요약에 사전 학습 언어 모델인 BART를 도입하고, 입력 문서에 무작위 문장을 삽입하는 노이징 방식을 추가하여 문서 추상 요약 모델의 언어 이해 능력을 향상시키는 방법론을 제안한다. 실험 결과, BART를 도입한 문서 요약 모델의 결과는 다른 요약 모델들의 결과에 비해 전반적으로 품질 향상을 보였으며, BART와 함께 무작위 문장을 삽입하는 노이징 방법은 적은 비율로 삽입하는 경우 추가적인 성능 향상을 보였다.

  • PDF

구문 의미 이해 기반의 VOC 요약 및 분류 (VOC Summarization and Classification based on Sentence Understanding)

  • 김문종;이재안;한규열;안영민
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권1호
    • /
    • pp.50-55
    • /
    • 2016
  • VOC(Voice of Customer)는 기업의 제품 또는 서비스에 대한 고객의 의견이나 요구를 파악할 수 있는 중요한 데이터이다. 그러나 VOC 데이터는 대화체의 특징으로 인해 내용의 분절이나 중복이 다수 존재할 뿐 아니라 다양한 내용의 대화가 포함되어 유형을 파악하는데 어려움이 있다. 본 논문에서는, 문서에서 중요한 의미를 갖는 키워드와 품사, 형태소 등을 언어 자원으로 선정하였고, 이를 바탕으로 문장의 구조 및 의미를 이해하기 위한 LSP(Lexico-Semantic-Pattern, 어휘 의미 패턴)를 정의하여 구문 의미 이해 기반의 주요 문장을 요약문으로 추출하였다. 요약문을 생성함에 있어 분절된 문장을 연결하고 중복된 의미를 갖는 문장을 줄이는 방법을 제안하였다. 또한 카테고리 별로 어휘 의미 패턴을 정의하고 어휘 의미 패턴에 매칭된 주요 문장이 속한 카테고리를 기반으로 문서를 분류하였다. 실험에서는 VOC 데이터를 대상으로 문서를 분류하고 요약문을 생성하여 기존의 방법들과 비교하였다.

대물(de re) 문맥과 '-라고'의 몇 가지 의미론적 특성 (De re context and some semantic traits of 'rago')

  • 민찬홍
    • 논리연구
    • /
    • 제16권1호
    • /
    • pp.61-85
    • /
    • 2013
  • 대언 믿음과 대물 믿음의 구별을 소개하고, 믿음 문맥과 양상 문맥에서 대언(de dicto)/대물(de re) 애매성이 동일하게 나타나는데, 양상 구문의 경우 한국어는 영어와 차별화되는 특징을 갖지 않는다는 것을 지적한다. 부정문에서도 대언/대물 구문의 애매성이 나타나는 바, 이와 관련하여 한국어는 대물 부정문에 해당하는 통사 구조를 허용한다. 대물 구문은 지시적으로 투명한 구문이요 따라서 동일자 대입률을 허용하는 구문이며, 대언 구문은 지시적으로 불투명한 구문이요 동일자 대입률을 허용하지 않는 구문이다. 그런데, 인용 동사, 언어행위동사, 인지태도 동사들과 함께 사용되는 한국어의 인용 어미 '라고'는 특이하게도 영어와 평행하게 대언/대물 애매성을 갖는 문장 뿐 아니라 애매성 없는 대물 구문을 구성하는 문장도 제공한다. 또한, '라고' 구문은 내포절의 내용에 대한 화자의 공약에 있어서도 중립적이다. 한국어에서는 내포절의 내용에 대한 화자의 긍정적인 공약을 표시하고자 하는 경우 '음/임' 또는 '라는 것'이라는 어미를 사용한다. 이런 점 때문에 '앎이 진리를 전제한다'는 서구 인식론의 원칙은 인식 문장을 한국어 어미 '라고'를 사용하는 문장으로 표현하려고 할 때에는 어려움을 겪게 된다.

  • PDF

의미에 따른 선호 서체 개발에 관한 연구 (A study on the development of preferable font by meaning)

  • 신윤진;홍정표;양종열
    • 감성과학
    • /
    • 제8권4호
    • /
    • pp.375-384
    • /
    • 2005
  • 서체는 고유의 특성을 가지고 있으며, 각각 서로 다른 느낌을 주고 있다. 적절한 서체의 선택은 내용의 의미를 더 빠르게 이해할 수 있도록 한다. 또한 사람들은 일반적인 습관이나 경험을 가지고 있어서 이것과 관련된 서체들의 사용은 그 내용의 의미를 확대시켜 준다. 그러므로 사용자는 글의 의미나 연령, 성별, 대상, 문화적 환경 등에 따라 서체를 다르게 선택하여 사용해야 한다. 서체 선택의 중요성이 강조되고 있으나, 서체 선택에 대한 기준이나 지침이 개발되어 있지 않으며, 이 분야에 대한 연구가 미흡한 실정이다. 이 연구는 의미가 있는 문장이냐 의미가 없는 문장이냐에 따라 서체 선호도가 다르게 나타나는지에 대한 연구와, 의미가 있는 문장인 경우에 긍정적 의미의 문장이냐 부정적 의미의 문장이냐에 따라 서체 선호도가 어떻게 다르게 나타나는지에 관한 연구이다 이번 연구를 통하여 서체 사용자에게는 의미에 따라 다르게 서체를 사용해야 하는 지침을 제공하며, 서체 제작자에게는 서체 개발에 관한 지침을 제공하는 것에 기여하리라고 본다.

  • PDF

초등학교 1학년 수학 교과서의 어휘 및 문장 적합성 분석 (An Analysis on Suitability of Words and Sentences in Mathematics Textbooks for Elementary First Grade)

  • 장혜원;임미인
    • 대한수학교육학회지:수학교육학연구
    • /
    • 제26권2호
    • /
    • pp.247-267
    • /
    • 2016
  • 2009 개정 교육과정에 따른 초등학교 수학 교과서가 한글 교육을 시작한지 얼마 되지 않은 1학년 학생들에게 수학적 내용 지식 이외에 부수적으로 어휘 및 문장의 양과 수준에 의한 어려움을 야기한다는 지적이 있어 왔다. 이에 본 연구는 1학년 수학 교과서의 어휘와 문장의 적합성을 분석하여 시사점을 얻는 것을 목적으로 한다. 어휘 차원에서 난이도와 친숙도, 문장 차원에서 구조, 길이, 표현의 적합성을 분석 내용으로 한다. 분석 결과, 어휘 차원에서 1학년 수준에 난이도가 높은 어휘 108개, 친숙도가 낮은 어휘 6개가 확인되었다. 문장 차원에서는 단문에 비해 구조가 복잡한 중문 37개, 복문 727개, 중복문 38개가 포함된 것으로 나타났으며, 8개 어절을 초과하여 구성된 긴 문장도 237개 추출되었다. 표현 측면에서는 2가지 이상의 활동을 동시에 지시하는 문장 168개, 명사나 형용사가 3개 이상 연속적으로 연결되어 있는 문장 52개 등 어려움의 원인을 확인하였다. 이러한 결과에 기초한 논의로부터 차후 초등 저학년 수학 교과서 개발을 위한 몇 가지 시사점을 제안하였다.

검색 기반의 질문생성에서 중복 방지를 위한 유사 응답 검출 (Detection of Similar Answers to Avoid Duplicate Question in Retrieval-based Automatic Question Generation)

  • 최용석;이공주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권1호
    • /
    • pp.27-36
    • /
    • 2019
  • 본 연구는 검색 기반의 질문 자동 생성 시스템에서 사용자가 이미 답변한 내용을 재질문하지 않도록 사용자의 응답과 유사도가 높은 응답을 질문-데이터베이스에서 찾는 방법을 제안한다. 유사도가 높게 검출된 응답의 질문은 이미 사용자가 아는 내용일 확률이 높기 때문에 질문 후보군에서 제거한다. 유사 응답 검출에는 두 응답간의 동일 단어, 바꿔쓰기 표현, 문장 내용을 모두 사용하였다. 바꿔쓰기 표현은 통계기반의 기계번역에서 사용하는 구절 테이블을 사용하여 구축하였다. 문장 내용은 두 문장을 주의-기반 컨볼루션 신경망으로 압축하여 유사도를 계산하였다. 평가를 위해 구축한 100개의 평가 응답에 질문-응답 데이터베이스로부터 가장 유사한 응답을 추출해서 얻은 결과는 MRR값 71%의 성능을 보였다.

마스크 언어 모델 기반 비병렬 한국어 텍스트 스타일 변환 (Unpaired Korean Text Style Transfer with Masked Language Model)

  • 배장성;이창기;황정인;노형종
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.391-395
    • /
    • 2021
  • 텍스트 스타일 변환은 입력 스타일(source style)로 쓰여진 텍스트의 내용(content)을 유지하며 목적 스타일(target style)의 텍스트로 변환하는 문제이다. 텍스트 스타일 변환을 시퀀스 간 변환 문제(sequence-to-sequence)로 보고 기존 기계학습 모델을 이용해 해결할 수 있지만, 모델 학습에 필요한 각 스타일에 대응되는 병렬 말뭉치를 구하기 어려운 문제점이 있다. 따라서 최근에는 비병렬 말뭉치를 이용해 텍스트 스타일 변환을 수행하는 방법들이 연구되고 있다. 이 연구들은 주로 인코더-디코더 구조의 생성 모델을 사용하기 때문에 입력 문장이 가지고 있는 내용이 누락되거나 다른 내용의 문장이 생성될 수 있는 문제점이 있다. 본 논문에서는 마스크 언어 모델(masked language model)을 이용해 입력 텍스트의 내용을 유지하면서 원하는 스타일로 변경할 수 있는 텍스트 스타일 변환 방법을 제안하고 한국어 긍정-부정, 채팅체-문어체 변환에 적용한다.

  • PDF

텍스트 구성요소 판별 기법과 자질을 이용한 문서 요약 시스템의 개발 및 평가 (Development and Evaluation of a Document Summarization System using Features and a Text Component Identification Method)

  • 장동현;맹성현
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권6호
    • /
    • pp.678-689
    • /
    • 2000
  • 논 본문은 문서의 주요 내용을 나타내는 문장을 추출함으로써 요약문을 작성하는 자동 요약 기법에 대해 기술하고 있다. 개발한 시스템은 문서 집합으로부터 추출한 어휘적, 통계적 정보를 고려하여 요약 문장을 작성하는 모델이다. 시스템은 크게 두 부분, 학습과정과 요약과정으로 구성이 된다. 학습 과정은 수동으로 작성한 요약문장으로부터 다양한 통계적인 정보를 추출하는 단계이며, 요약 과정은 학습 과정에서 추출한 정보를 이용하여 각 문장이 요약문장에 포함될 가능성을 계산하는 과정이다. 본 연구는 크게 세 가지 의의를 갖는다. 첫째, 개발된 시스템은 각 문장을 텍스트 구성 요소의 하나로 분류하는 텍스트 구성 요소 판별 모델을 사용한다. 이 과정을 통해 요약 문장에 포함될 가능성이 없는 문장을 미리 제거하는 효과를 얻게 된다. 둘째, 개발한 시스템이 영어 기반의 시스템을 발전시킨 것이지만, 각각의 자질을 독립적으로 요약에 적용시켰으며, Dempster-Shafer 규칙을 사용해서 다양한 자질의 확률 값을 혼합함으로써 문장이 요약문에 포함될 최종 확률을 계산하게 된다. 셋째, 기존의 시스템에서 사용하지 않은 새로운 자질 (feature)을 사용하였으며, 실험을 통하여 각각의 자질이 요약 시스템의 성능에 미치는 효과를 알아보았다.

  • PDF

중심 벡터에 기반한 신문 기사 요약 (Summarization of News Articles Based on Centroid Vector)

  • 김권양
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국지능시스템학회 2007년도 추계학술대회 학술발표 논문집
    • /
    • pp.382-385
    • /
    • 2007
  • 본 논문은 "X라는 인물은 누구인가?"와 같은 질의어가 주어질 때, X라는 인물에 대한 나이, 직업, 학력 또는 특정 사건에서 X라는 인물의 역할에 대한 정보를 기술하는 문장을 인식하고 추출함으로써 해당 인물에 대한 신문 기사 내용을 요약하는 방법을 제시한다. 질의어 용어에 대해 가능한 많은 관련 문장을 추출하기 위하여 중심 벡터에 기반한 통계적 방법을 적용하였으며, 정확도와 재현율 성능을 개선하기 위해 위키피디어 같은 외부 지식을 사용한 중심 단어의 개선된 가중치 측도를 적용하였다. 실험 대상인 전자신문 말뭉치 상에서 출현 빈도수가 큰 20 인의 IT 인물에 대해 제안한 방법이 개선된 성능을 보임을 알 수 있었다.

  • PDF