• 제목/요약/키워드: 자연언어문장생성

검색결과 58건 처리시간 0.024초

토픽-코멘트 구조에 기반한 한국어 표층 생성기 (Korean Surface Realizer Based on Topic-Comment Structure)

  • 김정은;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.503-508
    • /
    • 2001
  • 본 논문은 자연언어생성 기술을 이용하여 질병에 대한 기술문을 생성해 내는 시스템에서 사용되는 표층 생성기에 대해서 다루고 있다. 표층 생성기는 문장의 추상적인 표현으로부터 통사적으로, 형태론적으로 올바른 텍스트로 생성하여 내는 것을 목표로 한다. 질병에 관한 기술문에 있는 문장들은 두가지 특징을 가지고 있다. 첫번째로, 질병 기술문의 문장들은 토픽-코멘트 구조로 나타내어질 수 있다. 두번째로, 같은 의미 범주에 속하는 문장들은 같은 토픽을 가진다. 따라서, 토픽은 의미범주로부터 유추될 수 있으므로 표층 생성기의 입력인 구 명세 (phrase specification)에 표현될 필요가 없다. 본 논문에서는 이런 특징을 이용하여 효율적인 표층 생성기를 만들기 위하여 표층 생성의 단계를 내부 표현 생성과 외부 문장 생성의 두 단계로 나누었다. 내부 표현 생성 단계에서는 코멘트에 해당하는 부분을 생성하고 외부 문장 생성 단계에서 의미범주 태그에 따라 토픽을 첨가하여 최종 문장으로 생성하였다. 이런 방법으로 실험한 결과, 본 표층 생성기는 문법에 맞으면서 자연스러운 텍스트를 생성해 낸다는 것을 알 수 있었다.

  • PDF

단어 간 관계 패턴 학습을 통한 하이퍼네트워크 기반 자연 언어 문장 생성 (Hypernetwork-based Natural Language Sentence Generation by Word Relation Pattern Learning)

  • 석호식;작가멧;장병탁
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권3호
    • /
    • pp.205-213
    • /
    • 2010
  • 본 논문에서는 단어간 관계 패턴을 학습한 후 이에 기반하여 자연 언어 문장을 생성하는 방법을 소개한다. 기존의 문장 생성 방법론에서는 내재된 문법 규칙의 존재를 가정하거나 템플릿을 사용하고 있으나, 본 논문에서 소개하는 방법론에서는 태깅 등의 부가 정보 없이 단어의 동시 등장 빈도만을 활용하여 단어간 관계 패턴을 학습한다. 단어간 관계 패턴은 하이퍼네트워크 방법론에 기반하여 학습되었다. 학습이 진행됨에 따라 하이퍼네트워크의 복잡도가 높아지며, 학습 모델에 축적되는 언어 관계 패턴의 수가 증가한다. 학습된 모텔의 유효성은 학습 패턴에 기반한 자연 언어 문장 생성을 통해 확인하였다. 실험 결과 학습이 진행됨에 따라 문법적으로 성립하는 문장의 비율이 향상하였다. 파서를 이용하여 생성된 문장을 구성하는 문법 규칙을 분석한 후 문법 규칙의 분포를 학습에 사용한 코퍼스의 문법 규칙 분포와 비교한 결과 학습에 사용된 코퍼스의 문법적 특성을 학습할 수 있는 잠재력을 갖고 있음을 확인하였다.

문맥상 자연스러운 멀티동화 자동 애니메이션을 위한 참조현상 해결 (Anaphora Resolution for Contextually Appropriate Animation of Multimedia Fairy Tales)

  • 홍경화;박종철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.317-324
    • /
    • 2002
  • 참조현상이란 이미 언급되었던 혹은 이미 알고 있다고 여겨지는 정보에 대한 재표현이다. 참조현상은 자연언어처리 분야에서뿐만 아니라 인지과학, 심리학, 철학분야에서도 활발하게 연구되는 현상으로 참조표현인 조응사(anaphora)의 선행사(antecedent)를 채택하는 방법에 따라 그 성능이 좌우된다. 자연언어문장으로부터 멀티동화를 생성을 위한 애니메이션 제어 스크립트 명령들에서의 참조해결은 선행 정보의 적절한 참조를 바탕으로 자연스러운 애니메이션 장면을 생성하는데 있어서 필수적이다. 본 논문에서는 이러한 동화의 자연언어 문장에 나타나는 참조현상들에 대해 살펴보고 결합범주문법을 이용하여 참조현상을 해결하는 방법과 구현방법에 대해 논의한다.

  • PDF

적대적 생성 신경망을 이용한 문법 오류 교정 (Grammatical Error Correction Using Generative Adversarial Network)

  • 권순철;유환조;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.488-491
    • /
    • 2019
  • 문법 오류 교정은 문법적으로 오류가 있는 문장을 입력 받아 오류를 교정하는 시스템이다. 문법 오류 교정을 위해서는 문법 오류를 제거하는 것과 더불어 자연스러운 문장을 생성하는 것이 중요하다. 이 연구는 적대적 생성 신경망(GAN)을 이용하여 정답 문장과 구분이 되지 않을 만큼 자연스러운 문장을 생성하는 것을 목적으로 한다. 실험 결과 GAN을 이용한 문법 오류 교정은 MaxMatch F0.5 score 기준으로 0.4942을 달성하여 Baseline의 0.4462보다 높은 성능을 기록했다.

  • PDF

표현기술언어를 이용한 한국어 생성에 관한 연구 (A Study on the Generation of Korean using Description Directed Control)

  • 권일재;송만석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1995년도 제7회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.117-120
    • /
    • 1995
  • 자연스러운 문장을 생성하는 것은 자연미 생성에서 중요하다. 자연스러운 문장은 개념과 화자의 의도에 의해서 이루어진다. 따라서, 화자의 의도를 반영할 수 있는 한국어 생성 시스템의 설계가 필요하다. 본 논문에서는 언어 현상을 바탕으로 얻은 사람의 발화 모델에 대하여 살펴보고 설정한 한국어의 기본격에 대한 무표어순을 고찰한 후, 이를 바탕으로 화자의 의도를 반영할 수 있는 생성 시스템을 설계한다. 그리고, 이 시스템에서 몇 가지 사람의 언어 행위가 재현되는 과정을 보인다.

  • PDF

한.영 기계번역을 위한 중심어 기반 구 구조 변환 사전 (Head-based Pharse Structure Transfer Dictionary for Korean_English Machine Translation)

  • 이상조;박상규;김영택
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.157-162
    • /
    • 1994
  • 한국어로부터 자연스러운 영어 역어문장을 생성하기 위한 정보를 사전에 일관성있게 수록하는 방법을 제시하였다. 기계번역의 각 과정에서 필요한 정보는 가장 적당한 형태로 사전으로부터 제공되어야 하는 것이 일반적인 방법이다. 그러나 한국어는 어순의 부분적 자유성, 어미의 복잡한 활용규칙, 조사의 다양한 쓰임새로 인해 이러한 규칙들의 정보를 일관되게 사전에 수록하기가 어려운 실정이다. 본 논문에서는 한국어 문장과 역어 문장을 단어나 구 혹은 절등의 구성요소들의 다대다 매핑규칙을 찾고 이들 규칙을 적당한 형태로 사전에 수록하여야하는 어려움에서 벗어나 문장대 문장구조를 직접대응시켜 구구조단위로 분석된 형태의 부분 파서트리 형태의 트리구조를 역어와 함께 사전에 수록하므로써 사전정보를 손쉽게 구축, 유지하고자 하였다. 또 이들 정보를 추출해내는 알고리즘을 사용함으로써 주어진 한국어 문장에 대해 사전에 수록된 가장 자연스러운 형태의 역어문장을 생성할 수 있도록 하였다.

  • PDF

ELECTRA 기반 순차적 문장 분류 모델 (Sequential Sentence Classification Model based on ELECTRA)

  • 최기현;김학수;양성영;정재홍;임태구;김종훈;박찬규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.327-330
    • /
    • 2020
  • 순차적 문장 분류는 여러 문장들을 입력으로 받아 각 문장들에 대하여 사전 정의된 라벨을 할당하는 작업을 말한다. 일반적인 문장 분류와 대조적으로 기준 문장과 주변 문장 사이의 문맥 정보가 분류에 큰 영향을 준다. 따라서 입력 문장들 사이의 문맥 정보를 반영하는 과정이 필수적이다. 최근, 사전 학습 기반 언어 모델의 등장 이후 여러 자연 언어 처리 작업에서 큰 성능 향상이 있었다. 앞서 언급하였던 순차적 문장 분류 작업의 특성상 문맥 정보를 반영한 언어 표현을 생성하는 사전 학습 기반 언어 모델은 해당 작업에 매우 적합하다는 가설을 바탕으로 ELECTRA 기반 순차적 분류 모델을 제안하였다. PUBMED-RCT 데이터 셋을 사용하여 실험한 결과 제안 모델이 93.3%p로 가장 높은 성능을 보였다.

  • PDF

한.영 기계 번역을 위한 부사의 위치 및 순서제약 해결의 방안 및 구현 (Solution Method and Embodying of Adverb's Positioning Restrictions and Orderings for Korean-English Machine Translation)

  • 조준모;이상조
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.163-167
    • /
    • 1994
  • 본 논문에서는 한국어 문장을 입력으로 받아 영어문장을 생성해 내는 한 영 기계번역 시스템에서 부사를 처리함으로써 더욱 자연스러운 역어생성을 꾀하였다 특히, 한국어보다 어순의 제약이 심한 영어를 처리함에 있어서 이들 부사의 위치 및 순서는 자연스러운 역어생성을 하기 위해서는 중요한 요소가 된다. 즉, 부사의 종류에 따라서 문장에서의 위치가 다르며, 한 문장내에서 2개 이상의 부사가 존재 할 때는 이를 부사의 순서를 정해 주어야 한다. 또한, 부사의 처리 없이는 이와 관련된 완료시제와 같은 관련 영역의 처리가 어렵다. 이러한 처리를 위해서, 한 영 기계번역 시스템의 목적에 알맞게 부사들의 특성을 조사하여 이들을 분류하였고, 이것을 기초로 하여 부사의 위치, 순서등의 처리를 하도록 하였다.

  • PDF

생성적 적대 네트워크를 이용한 감성인식 학습데이터 자동 생성 (Automatic Generation of Training Corpus for a Sentiment Analysis Using a Generative Adversarial Network)

  • 박천용;최용석;이공주
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.389-393
    • /
    • 2018
  • 딥러닝의 발달로 기계번역, 대화 시스템 등의 자연언어처리 분야가 크게 발전하였다. 딥러닝 모델의 성능을 향상시키기 위해서는 많은 데이터가 필요하다. 그러나 많은 데이터를 수집하기 위해서는 많은 시간과 노력이 소요된다. 본 연구에서는 이미지 생성 모델로 좋은 성능을 보이고 있는 생성적 적대 네트워크(Generative adverasarial network)를 문장 생성에 적용해본다. 본 연구에서는 긍/부정 조건에 따른 문장을 자동 생성하기 위해 SeqGAN 모델을 수정하여 사용한다. 그리고 분류기를 포함한 SeqGAN이 긍/부정 감성인식 학습데이터를 자동 생성할 수 있는지 실험한다. 실험을 수행한 결과, 분류기를 포함한 SeqGAN 모델이 생성한 문장과 학습데이터를 혼용하여 학습할 경우 실제 학습데이터만 학습 시킨 경우보다 좋은 정확도를 보였다.

  • PDF

복합 자질 정보를 이용한 통계적 한국어 채팅 문장 생성 (Statistical Generation of Korean Chatting Sentences Using Multiple Feature Information)

  • 김종환;장두성;김학수
    • 인지과학
    • /
    • 제20권4호
    • /
    • pp.421-437
    • /
    • 2009
  • 채팅 시스템은 인간이 사용하는 언어를 이용하여 인간과 컴퓨터 간의 대화를 시뮬레이션하는 프로그램이다. 본 논문에서는 핵심어와 화행을 입력으로 받아 자연스러운 채팅 문장을 생성하는 통계 모델을 제안한다. 제안 모델은 먼저 핵심어를 포함한 어절을 말뭉치에서 선택하고, 해당 어절의 주위에 있는 어절의 출현 정보와 구문 정보를 이용하여 후보 문장들을 생성한다. 그리고 화행에 기초한 언어 모델, 어절간 공기 정보, 각 어절의 구문 정보를 이용하여 생성된 후보 문장 중 하나를 선택한다. 실험 결과에 따르면 제안 모델은 단순한 언어 모델에 기반한 기존의 모델보다 좋은 86.2%의 적합 문장 생성률을 보였다.

  • PDF