• 제목/요약/키워드: 텍스트생성

검색결과 683건 처리시간 0.023초

프롬프트 기반 퓨샷 러닝을 통한 한국어 대화형 텍스트 기반 이미지 생성 (Image Generation from Korean Dialogue Text via Prompt-based Few-shot Learning)

  • 이은찬;안상태
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.447-451
    • /
    • 2022
  • 본 논문에서는 사용자가 대화 텍스트 방식의 입력을 주었을 때 이를 키워드 중심으로 변환하여 이미지를 생성해내는 방식을 제안한다. 대화 텍스트란 채팅 등에서 주로 사용하는 형식의 구어체를 말하며 이러한 텍스트 형식은 텍스트 기반 이미지 생성 모델이 적절한 아웃풋 이미지를 생성하기 어렵게 만든다. 이를 해결하기 위해 대화 텍스트를 키워드 중심 텍스트로 바꾸어 텍스트 기반 이미지 생성 모델의 입력으로 변환하는 과정이 이미지 생성의 질을 높이는 좋은 방안이 될 수 있는데 이러한 태스크에 적합한 학습 데이터는 충분하지 않다. 본 논문에서는 이러한 문제를 다루기 위한 하나의 방안으로 사전학습된 초대형 언어모델인 KoGPT 모델을 활용하며, 퓨샷 러닝을 통해 적은 양의 직접 제작한 데이터만을 학습시켜 대화 텍스트 기반의 이미지 생성을 구현하는 방법을 제안한다.

  • PDF

홈쇼핑 사이트를 위한 데이터베이스로부터의 한국어 텍스트 생성 (Korean Text Generation from Relational Database for Homeshopping Sites)

  • 노지은;강신재;이종혁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.373-375
    • /
    • 2001
  • 국내에서는 한국어 생성에 있어서 기계 번역에 기반한 자연스러운 한국어 문장(sentence)의 생성에 관한 연구가 주로 이루어졌었다. 반면에 다양한 지식원으로부터 여러 문장이 긴밀히 결합되어 하나의 텍스트를 생성하는 텍스트 생성에 관한 연구는 거의 이루어지지 않았었다. 문장 단위의 기계 번역에서의 한국어 생성과는 또 다른 다양한 논점을 가지고있는 텍스트 생성에 관해, 본 논문에서는 테이터베이스를 지식원으로 하여 하나의 일관된 정보를 전달하는 단락 단위의 자연스러운 한국어 텍스트를 생성하는 시스템을 제안한다.

  • PDF

자연스러운 텍스트 생성을 위한 추계적 텍스트 구조화 (A Stochastic Text Structuring using Simulated Annealing)

  • 노지은;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.199-206
    • /
    • 2002
  • 언어가 아닌 다양한 지식원으로부터 그것을 설명하는 텍스트를 생성하는 텍스트 생성 (text generation)은 여러 가지 복합적이고 단계적인 과정을 거쳐 이루어진다. 자연스러운 텍스트를 생성하기 위한 여러 단계 중, 지식원으로부터 텍스트에 포함되기 위해 뽑힌 정보들간의 순서를 적절히 결정하는 과정을 텍스트 구조화(text structuring)라고 한다. 텍스트 구조화는 생성될 텍스트의 결속성(coherence)을 크게 좌우하므로, 양질의 텍스트를 생성하기 위해서는 텍스트 구조화를 다루기 위한 정교한 방법론이 요구된다. 본 논문에서는 SA(simulated annealing) 알고리즘을 이용해 추계적 텍스트 구조화 방안을 제안하며 특히, SA의 평가 함수(evaluation function)로서, 총 4가지의 방법론-중심화 이론(centering theory)을 이용한 센터 전이 유형의 선호도, 추론 비용에 근거한 전이 유형간의 선호도, 서두 문장을 결정하기 위한 가중치 할당에 따른 선호도, 인접한 문장간의 유사도에 따른 선호도-을 제안하고 실험을 통해, 그 효용성을 보였다.

  • PDF

수사구조를 이용한 텍스트 자동요약 (Text Summarisation with Rhetorical Structure)

  • 이유리;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.97-102
    • /
    • 1999
  • 텍스트 요약이란 중요정보만을 추출하여 본래 텍스트의 의미를 전달하는 축약 과정이다. 인터넷을 통한 온라인 정보가 급증함에 따라 정보에 대한 처리와 신속한 내용 파악을 위한 효율적인 자동 텍스트 방법이 필요하다. 기존의 통계적 방법으로는 전체 텍스트의 구조적인 특징을 고려할 수가 없기 때문에, 생성된 요약문의 의미적 흐름이 부자연스럽고, 문장간 응집도가 떨어지게 된다. 수사학적 방법은 요약문을 생성하기 위해서 문장간의 접속관계를 이용한다. 수사 구조란 텍스트를 이루는 문장들간의 논리적인 결합관계로, 수사학적 방법은 이러한 결합관계를 파악하여 요약문을 생성하는 방법이다. 본 논문에서는 표지들이 나타내는 접속 관계정보를 사용하여, 텍스트의 수사구조를 분석한 후 요약문을 생성하는 시스템을 구현한다. 수사구조 파싱 과정은 문장간의 수사구조 파싱과 문단간의 수사구조 파싱, 두 단계로 이루어진다. 파싱은 차트파싱 방법을 사용하여 상향식으로 진행된다. 입력된 문장들로부터 두 단계 파싱에 의해 전체 텍스트의 수사구조 트리를 생성하며, 생성된 트리에서 가중치를 계산하여 중요 문장들을 요약문으로 추출한다.

  • PDF

생성적 적대 네트워크를 활용한 텍스트와 스케치 기반 이미지 생성 기법 (Image Generation based on Text and Sketch with Generative Adversarial Networks)

  • 이제훈;이동호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 춘계학술발표대회
    • /
    • pp.293-296
    • /
    • 2018
  • 생성적 적대 네트워크를 활용하여 텍스트, 스케치 등 다양한 자원으로부터 이미지를 생성하기 위한 연구는 활발하게 진행되고 있으며 많은 실용적인 연구가 존재한다. 하지만 기존 연구들은 텍스트나 스케치 등 각 하나의 자원을 통해 이미지를 생성하기 때문에 설명이 부족한 텍스트, 실제 이미지와 상이한 스케치와 같이 자원의 정보가 불완전한 경우에는 제대로 된 이미지를 생성하지 못한다는 한계가 있다. 본 논문에서는 기존 연구의 한계점올 극복하기 위해 텍스트와 스케치 두 개의 자원을 동시에 활용하여 이미지를 생성하는 새로운 생성 기법 TS-GAN 을 제안한다. TS-GAN 은 두 단계로 이루어져 있으며 각 단계를 통해 더욱 사실적인 이미지를 생성한다. 본 논문에서 제안한 기법은 컴퓨터 비전 분야에서 많이 활용되는 CUB 데이터세트를 사용하여 이미지 생성 결과의 우수성을 보인다.

생성-선정을 통한 텍스트 증강 프레임워크 (TAGS: Text Augmentation with Generation and Selection)

  • 김경민;김동환;조성웅;오흥선;황명하
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권10호
    • /
    • pp.455-460
    • /
    • 2023
  • 텍스트 증강은 자연어처리 모델의 성능 향상을 목적으로 원본 텍스트의 변환, 생성을 통하여 새로운 증강 텍스트를 생성하는 방법론이다. 기존 연구된 기법들은 표현적 다양성 부족, 의미 왜곡 , 한정적인 양의 증강 텍스트와 같은 한계점이 존재한다. 거대언어모델과 few-shot learning을 활용한 텍스트 증강은 이러한 한계점의 극복이 가능하지만, 잘못된 생성으로 인한 노이즈 발생의 위험성이 존재한다. 본 논문에서는 여러 후보 텍스트를 생성하고 적합한 텍스트를 증강 텍스트로 선정하는 TAGS를 제안한다. TAGS는 기존 텍스트 few shot learning을 통해 다양한 표현을 생성하면서 대조 학습과 유사도 비교를 통해 원본 텍스트가 적더라도 적합한 데이터를 효과적으로 선정한다. 이를 텍스트 증강이 필수적인 업무용 챗봇 데이터에 적용하여 60배 이상의 양적 향상을 달성하였다. 또한 증강 텍스트의 질적 향상을 확인하기 위해 실제 생성된 텍스트를 분석하여 원본 텍스트에 비해 의미론적, 표현적으로 다양한 텍스트를 생성함을 확인하였으며, 증강 텍스트로 실제 분류 모델을 학습하고 실험하여 실질적으로 자연어처리 모델 성능 향상에 도움이 되는 것을 확인하였다.

구조생성기호학적 관점에서의 디지털게임의 의미생성방식 연구 - 스타크래프트, 리니지, 스페셜포스에 대한 분석을 중심으로 -

  • 박태순
    • 한국게임학회지
    • /
    • 제6권1호
    • /
    • pp.41-43
    • /
    • 2009
  • 게임에서의 텍스트를 추출하고 이를 분석하고자 하였다. 기본적으로 그레마스의 구조생성기호학을 활용하여 텍스트를 분석하고자 하였는데, 연구방법론에서는 현상학, 해석에서는 정신분석학의 이론에서도 도움을 받았다. 구체적인 분석대상으로는 온라인게임인 스타크래프트, 리니지, 스페셜포스를 선택하였다. 연구문제는 이들 세 게임의 의미생성방식에 대한 탐구로 구성되었다. 각 게임의 의미생성방식은 구조생성기호학의 세 가지 층위에서 구분되어 연구되었다. 즉, 심층구조, 기호-설화구조, 담화구조의 세층위로 전환, 발화되면서 점진적으로 의미가 풍성해지는 과정이 탐구되었다. 각 게임의 차이, 나아가 게임 장르간의 차이는 주로 심층 수준의 차이에서 기인한다고 보인다. 이들 게임의 주요 공통점이자, 다른 매체와의 차이점은 행동자 모델에서 두드러지는데, 바로 이용자가 스스로 주체의 위치를 점하게 되는 것이다. 상호작용성으로 대변되는 게임의 특성은 이용자의 텍스트로의 적극적인 개입을 할 수 있게끔 한다. 이러한 적극적인 개입은 이용자가 스스로 텍스트의 주체가 되도록 허용하는데, 주체가 된다고 함은 곧 스스로의 욕망을 직접 대상에 투사하면서 텍스트를 창출함을 의미한다. 바로 이러한 점이 게임의 의미생성방식의 큰 특징이며 다른 매체들과의 주요한 차이점이기도 하다. 더불어 게임이 우리 문화와 사회에 커다란 영향을 미칠 수 있는 기제임이 입증되는 것이기도 하다.

  • PDF

합성 텍스트 생성을 위한 ChatGPT 기반 의료 텍스트 증강 도구 개발 (Development of ChatGPT-based Medical Text Augmentation Tool for Synthetic Text Generation)

  • 공진우;김기연;김유섭;오병두
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.3-4
    • /
    • 2023
  • 자연어처리는 수많은 정보가 수집된 전자의무기록의 비정형 데이터에서 유의미한 정보나 패턴 등을 추출해 의료진의 의사결정을 지원하고, 환자에게 더 나은 진단이나 치료 등을 지원할 수 있어 큰 잠재력을 가지고 있다. 그러나 전자의무기록은 개인정보와 같은 민감한 정보가 다수 포함되어 있어 접근하기 어렵고, 이로 인해 충분한 양의 데이터를 확보하기 어렵다. 따라서 본 논문에서는 신뢰할 수 있는 의료 합성 텍스트를 생성하기 위해 ChatGPT 기반 의료 텍스트 증강 도구를 개발하였다. 이는 사용자가 입력한 실제 의료 텍스트로 의료 합성 데이터를 생성한다. 이를 위해, 적합한 프롬프트와 의료 텍스트에 대한 전처리 방법을 탐색하였다. ChatGPT 기반 의료 텍스트 증강 도구는 입력 텍스트의 핵심 키워드를 잘 유지하였고, 사실에 기반한 의료 합성 텍스트를 생성할 수 있다는 것을 확인할 수 있었다.

  • PDF

클래스 활성화 맵을 이용한 카테고리 의존적 요약 (Category-wise Neural Summarizer with Class Activation Map)

  • 김소언;박성배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.287-292
    • /
    • 2019
  • 다양한 매체를 통해 텍스트 데이터가 빠르게 생성되면서 요약된 텍스트에 대한 수요가 증가하고 있다. 시퀀스-투-시퀀스 모델의 등장과 attention 기법의 출현은 추상적 요약의 난도를 낮추고 성능을 상승시켰다. 그러나 그동안 진행되어 온 attention 기반의 시퀀스-투-시퀀스 모델을 통한 요약 관련 연구들은 요약 시 텍스트의 카테고리 정보를 이용하지 않았다. 텍스트의 카테고리 정보는 Class Activation Map(CAM)을 통해 얻을 수 있는데, 텍스트를 요약할 때 핵심이 되는 단어와 CAM에서 높은 수치를 보이는 단어가 상당수 일치한다는 사실은 요약문 생성이 텍스트의 카테고리에 의존적일 필요가 있음을 증명한다. 본 논문에서는 요약문 생성 시 집중 정도에 대한 정보를 CAM을 통해 전달하여 attention matrix를 보강할 수 있는 모델을 제안하였다. 해당 모델을 사용하여 요약문을 생성하고 대표적인 요약 성능 지표인 ROUGE로 측정한 결과, attention 기반의 시퀀스-투-시퀀스 모델이 질이 떨어지는 요약문을 생성할 때 attention의 성능을 보강하여 요약문의 질을 높일 수 있음을 알 수 있었다.

  • PDF

100 K-Poison: 한국어 생성 모델을 위한 독성 텍스트 저항력 검증 데이터셋 (100 K-Poison: Poisonous Texts Resistance Test Dataset For Korean Generative Models)

  • 비립;강예지;박서윤;장연지;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.149-154
    • /
    • 2023
  • 본고는 한국어 생성 모델의 독성 텍스트 저항 능력을 검증하기 위해 'CVALUE' 데이터셋에서 추출한 고난도 독성 질문-대답 100쌍을 바탕으로 한국어 생성 모델을 위한 '100 K-Poison' 데이터셋을 시범적으로 구축했다. 이 데이터셋을 토대로 4가지 대표적인 한국어 생성 모델 'ZeroShot TextClassifcation'과 'Text Generation7 실험을 진행함으로써 현재 한국어 생성 모델의 독성 텍스트 식별 및 응답 능력을 종합적으로 고찰했고, 모델 간의 독성 텍스트 저항력 격차 현상을 분석했으며, 앞으로 한국어 생성 모델의 독성 텍스트 식별 및 웅대 성능을 한층 더 강화하기 위한 '이독공독(以毒攻毒)' 학습 전략을 새로 제안하였다.

  • PDF