• 제목/요약/키워드: 자연언어문장생성

검색결과 58건 처리시간 0.024초

자연스러운 텍스트 생성을 위한 추계적 텍스트 구조화 (A Stochastic Text Structuring using Simulated Annealing)

  • 노지은;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.199-206
    • /
    • 2002
  • 언어가 아닌 다양한 지식원으로부터 그것을 설명하는 텍스트를 생성하는 텍스트 생성 (text generation)은 여러 가지 복합적이고 단계적인 과정을 거쳐 이루어진다. 자연스러운 텍스트를 생성하기 위한 여러 단계 중, 지식원으로부터 텍스트에 포함되기 위해 뽑힌 정보들간의 순서를 적절히 결정하는 과정을 텍스트 구조화(text structuring)라고 한다. 텍스트 구조화는 생성될 텍스트의 결속성(coherence)을 크게 좌우하므로, 양질의 텍스트를 생성하기 위해서는 텍스트 구조화를 다루기 위한 정교한 방법론이 요구된다. 본 논문에서는 SA(simulated annealing) 알고리즘을 이용해 추계적 텍스트 구조화 방안을 제안하며 특히, SA의 평가 함수(evaluation function)로서, 총 4가지의 방법론-중심화 이론(centering theory)을 이용한 센터 전이 유형의 선호도, 추론 비용에 근거한 전이 유형간의 선호도, 서두 문장을 결정하기 위한 가중치 할당에 따른 선호도, 인접한 문장간의 유사도에 따른 선호도-을 제안하고 실험을 통해, 그 효용성을 보였다.

  • PDF

피봇 기계번역시스템에서의 한국어생성을 위한 문제선정 (Style Selection for Korean Generation under the Pivot MT System)

  • 이종혁
    • 인지과학
    • /
    • 제1권2호
    • /
    • pp.279-291
    • /
    • 1989
  • 피봇 기계번역 시스템하에서 자연스런 출력문 생성을 위한 문체선정 문제는 표층 구문정보를 배제한 언어에 의존하지 않는 중간표현의 특성과 언어마다 문화적 차이에서 기인한 사고.발상의 차이로 인해 큰 어려움을 갖는다.본논문은 이들 문제점들을 해결하기 위한 시도로 첫째,출력문의 자연스런 문장구조를 크게 좌우하는 태의 화용적.문체적 결정과 한국어의 심한 피동 제약 가운데서의 태의 생성,둘째,한국어 특유의 표현양식을 위한 문장구조 변경,마지막으로 출력문에서 기능어의 의미 애매성을 제거하기 위한 실질어를 이용한 의미보완 등을 논한다.

Glossary에 기초한 시스템에서의 적형태 영어문장 생성을 위한 한영 대역에 전자사전구축 (Constructing A Korean-English Bilingual Dictionary For Well-formed English Sentence Generations In A Glossary-based System)

  • 신효필
    • 인지과학
    • /
    • 제14권2호
    • /
    • pp.1-13
    • /
    • 2003
  • 본 논문은 자연언어처리 (Natural Language Processing), 특히 한영 기계번역에서 필수적 인 한영 대역어 사전을 구축함에 있어 영어 생성시 정확한 문장형태를 도출하기 위한 방법에 대해 논의한다. 기간의 연구는 주로 한국어와 영어의 의미적 모호성이 해결된 정확한 번역을 위한 대역어 내지 변환사전 구조에 초점이 맞추어져 왔고 상대적으로 형태적 또는 구문적으로 정확한 영어문장을 생성하는 것은 간과되어져 왔다. 기존 자원의 황용이라는 측면에서는 텍스트화된 한영사전을 그대로 이용한다고 하면 그 기술방식과 영어표현은 다양한 형태로 나타나기 때문에 정확한 의미의 대역어 뿐만 아니라 적격한 영어문장의 생성을 위해서는 어떠한 정보들이 대역어 사전에 기술되어야 하는지 고려해 볼 필요가 있다 따라서 본 논의에서는 기존의 인쇄된 한영사전을 구조분석하여 자동으로 변환하여 최소한의 인간의 간섭으로 정확한 영어생성에 필요한 형태적 정보를 자질로 부여하는 방법을 기술한다. 기본적으로 이 방법은 단어 대 단어 번역시스템 둥 glossary에 기초한 얕은 층위의 번역이 필요한 시스템을 위한 사전을 구축에서 시작하며 더 나아가 대규모의 전자사전 구축작업에서 어떻게 응용될 수 있는지 논의한다.

  • PDF

LSTM 언어모델 기반 한국어 문장 생성 (LSTM Language Model Based Korean Sentence Generation)

  • 김양훈;황용근;강태관;정교민
    • 한국통신학회논문지
    • /
    • 제41권5호
    • /
    • pp.592-601
    • /
    • 2016
  • 순환신경망은 순차적이거나 길이가 가변적인 데이터에 적합한 딥러닝 모델이다. LSTM은 순환신경망에서 나타나는 기울기 소멸문제를 해결함으로써 시퀀스 구성 요소간의 장기의존성을 유지 할 수 있다. 본 논문에서는 LSTM에 기반한 언어모델을 구성하여, 불완전한 한국어 문장이 입력으로 주어졌을 때 뒤 이어 나올 단어들을 예측하여 완전한 문장을 생성할 수 있는 방법을 제안한다. 제안된 방법을 평가하기 위해 여러 한국어 말뭉치를 이용하여 모델을 학습한 다음, 한국어 문장의 불완전한 부분을 생성하는 실험을 진행하였다. 실험 결과, 제시된 언어모델이 자연스러운 한국어 문장을 생성해 낼 수 있음을 확인하였다. 또한 문장 최소 단위를 어절로 설정한 모델이 다른 모델보다 문장 생성에서 더 우수한 결과를 보임을 밝혔다.

생성적 적대 네트워크로 자동 생성한 감성 텍스트의 성능 평가 (Evaluation of Sentimental Texts Automatically Generated by a Generative Adversarial Network)

  • 박천용;최용석;이공주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권6호
    • /
    • pp.257-264
    • /
    • 2019
  • 최근 자연언어처리 분야에서 딥러닝 모델이 좋은 성과를 보이고 있다. 이러한 딥러닝 모델의 성능을 향상시키기 위해서는 많은 양의 데이터가 필요하다. 하지만 많은 양의 데이터를 모으기 위해서는 많은 인력과 시간이 소요되기 때문에 데이터 확장을 통해 이와 같은 문제를 해소할 수 있다. 그러나 문장 데이터의 경우 이미지 데이터에 비해 데이터 변형이 어렵기 때문에 다양한 문장을 생성할 수 있는 생성 모델을 통해 문장 데이터 자동 확장을 해보고자 한다. 본 연구에서는 최근 이미지 생성 모델에서 좋은 성능을 보이고 있는 생성적 적대 신경망 중 하나인 CS-GAN을 사용하여 학습 데이터로부터 새로운 문장들을 생성해 보고 유용성을 다양한 지표로 평가하였다. 평가 결과 CS-GAN이 기존의 언어 모델을 사용할 때보다 다양한 문장을 생성할 수 있었고 생성된 문장을 감성 분류기에 학습시켰을 때 감성 분류기의 성능이 향상됨을 보였다.

해외어학연수의 외국어 정확성 향상에 대한 효과 (The Effect of Overseas Language Training on the Development of Foreign Language Accuracy)

  • 차미양
    • 산업융합연구
    • /
    • 제18권4호
    • /
    • pp.93-99
    • /
    • 2020
  • 본 연구는 해외어학연수의 외국어 정확성 향상에 대한 효과를 조명하기 위해 한 학기 동안 해외대학에서 어학연수를 받은 27명의 한국 대학생들이 한 학기의 시간차를 두고 작성한 두 영작문 간의 차이와 오류들을 조사하고, 그러한 차이가 통계적으로 유의미한지를 검정하여 외국어 정확도 면에서의 변화를 분석하였다. 어학연수 이후에 영작문의 길이와 문장의 길이가 증가하였으나 전체 문장수는 감소하였다. 학생들은 더 많은 수의 단어를 더 복잡한 구조의 문장에서 사용하여 오류의 수도 증가하였다. 이를 볼 때, 어학연수 이후 학생들의 문장 생성능력이 향상되고 복잡한 형태의 문장들을 쓰려고 시도한 것을 알 수 있다. 본 연구의 결과는 한 학기 동안 해외어학연수를 받은 이후 대체로 학생들의 문장생성능력은 다소 증진하였지만, 문법적 요소들을 문장 속에서 정확하게 사용하는 문법적 정확성은 크게 향상하지 않은 것으로 나타났다. 이는 비록 해외 어학연수가 집중적으로 목표언어만 학습하여 언어입력을 확대할 수 있을 뿐만 아니라, 목표언어에 자연스럽게 노출될 수 있는 환경적 이점을 제공하긴 하지만, 한 학기라는 기간 안에 문법적으로 정확한 문장을 생성해내는 문법능력을 향상시키는 데는 크게 효과적이지 않았다는 것을 시사한다.

결합범주문법을 이용한 한국어 문장의 자연스러운 억양 생성에 대한 연구 (Predicting Contextually Appropriate Intonation from Utterances in Korean with Combinatory Categorial Grammar)

  • 이화진;박종철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.68-75
    • /
    • 2000
  • 상대방에게 의사를 전달할 때 보다 정확하게 자신의 의도를 표현하려면 대화의 흐름에 맞는 적절한 억양을 주어 발화해야 한다. 본 논문에서는 결합범주문법을 이용하여 문장을 분석하고 문장 내 정보와 문장 간 정보 즉, 문맥에 따라 강세(pitch accent), 휴지(pause), 강조 등의 억양정보를 어떻게 나타내야 하는지를 분석하여 문장의 정보구조에 추가하는 방법을 제시한다.

  • PDF

한영 자동 번역을 위한 보조 용언 생성 (English Auxiliary Verb Generation for Korean-to-English Machine Translation)

  • 신종훈;양성일;서영애;김창현;김영길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2011년도 제23회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.143-147
    • /
    • 2011
  • 본 논문에서는 한국어로 입력된 문장을 분석한 결과로부터 그에 해당하는 영어 대역문을 생성하는 과정에서, 어떻게 한국어의 보조용언을 영어 대역문에 반영 할 것인가를 다룬다. 특히 대화체 분야를 다루는 한영 자동번역 시스템에서는 한국어의 보조용언 생성이 대역문의 품질을 향상시키는데 중요한 위치를 차지하기 때문에, 한영 자동 번역에서의 자연스러운 영어 보조용언 생성을 위한 방법론을 제안한다. 첫째, 기존 패턴 기반 한영 자동 번역 엔진과 한국어 말뭉치를 형태소 분석한 결과를 살펴보고, 자연스러운 보조 용언 대역어 생성의 어려움을 살펴본다. 둘째, 자연스러운 보조용언 생성에 필요한 양상을 규칙화 한 지식을 기반으로 자연스러운 단일 보조용언 생성을 위한 방법을 제시한다. 셋째, 두 개 이상의 보조용언이 연속해서 나타나는 다중 보조용언의 생성 방법을 제시한다. 마지막으로, 실험과 결론을 통하여 본 논문이 제안하는 방법론을 사용했을 때, 자동 번역 엔진의 성능 평가 지표 중 하나인 BLEU와 NIST점수의 변화를 나타내봄으로 그 성능을 보인다.

  • PDF

맥락적 어휘 지식 그래프 추출 알고리즘의 설계 (Design of a Contextual Lexical Knowledge Graph Extraction Algorithm)

  • 남상하;최규현;함영균;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.147-151
    • /
    • 2016
  • 본 논문에서는 Reified 트리플 추출을 위한 한국어 개방형 정보추출 방법을 제시한다. 시맨틱웹 분야에서 지식은 흔히 RDF 트리플 형태로 표현되지만, 자연언어문장은 복수개의 서술어와 논항간의 관계로 구성되어 있다. 이러한 이유로, 시맨틱웹의 대표적인 지식표현법인 트리플을 따름과 동시에 문장의 의존구조를 반영하여 복수개의 술어와 논항간의 관계를 지식화하는 새로운 개방형 정보추출 시스템이 필요하다. 본 논문에서는 문장 구조에 대한 일관성있는 변환을 고려한 새로운 개방형 정보추출 방법을 제안하며, 개체 중심의 지식과 사건중심의 지식을 함께 표현할 수 있는 Reified 트리플 추출방법을 제안한다. 본 논문에서 제안한 방법의 우수성과 실효성을 입증하기 위해 한국어 위키피디아 알찬글 본문을 대상으로 추출된 지식의 양과 정확도 측정 실험을 수행하였고, 본 논문에서 제안한 방식을 응용한 의사 SPARQL 질의 생성 모듈에 대해 소개한다.

  • PDF

한국어 대화체 음성언어 번역시스템에서의 개념기반 번역시스템 (Concept-based Translation System in the Korean Spoken Language Translation System)

  • 최운천;한남용;김재훈
    • 한국정보처리학회논문지
    • /
    • 제4권8호
    • /
    • pp.2025-2037
    • /
    • 1997
  • 대화체 음성언어번역시스템의 일부인 개념기반 번역시스템은 음성인식의 결과를 이용하여 다른 언어로 번역해 주는 시스템이다. 본 논문은 여행계획 영역에 대해 한국어를 해석하여 영어, 일본어, 한국어로 번역해 주는 시스템에 대해 기술한 것이다. 개념기반 번역은 비정형 문장이 많은 대화체 문장을 처리하기 위해 형태소 분석 등의 구문정보를 이용하지 않고, 의미단위의 번역을 시도한 것으로 화자의 의도를 정확히 번역해 주는 것을 목표로 한다. 개념기반 번역은 280여개의 개념과 개념간의 계층구조에 의해, 인식결과를 개념구조로 변환한 후 다른 언어로 생성해 준다. 효율적인 한국어 처리를 위해 기준단어를 이용한 토큰분리기와 문법자동 수정기를 개발하였다. 그리고 자연스러운 생성문을 위해 각 언어에 대한 후처리기를 개발하였다.

  • PDF