• 제목/요약/키워드: text generation

검색결과 363건 처리시간 0.03초

합성 텍스트 생성을 위한 ChatGPT 기반 의료 텍스트 증강 도구 개발 (Development of ChatGPT-based Medical Text Augmentation Tool for Synthetic Text Generation)

  • 공진우;김기연;김유섭;오병두
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.3-4
    • /
    • 2023
  • 자연어처리는 수많은 정보가 수집된 전자의무기록의 비정형 데이터에서 유의미한 정보나 패턴 등을 추출해 의료진의 의사결정을 지원하고, 환자에게 더 나은 진단이나 치료 등을 지원할 수 있어 큰 잠재력을 가지고 있다. 그러나 전자의무기록은 개인정보와 같은 민감한 정보가 다수 포함되어 있어 접근하기 어렵고, 이로 인해 충분한 양의 데이터를 확보하기 어렵다. 따라서 본 논문에서는 신뢰할 수 있는 의료 합성 텍스트를 생성하기 위해 ChatGPT 기반 의료 텍스트 증강 도구를 개발하였다. 이는 사용자가 입력한 실제 의료 텍스트로 의료 합성 데이터를 생성한다. 이를 위해, 적합한 프롬프트와 의료 텍스트에 대한 전처리 방법을 탐색하였다. ChatGPT 기반 의료 텍스트 증강 도구는 입력 텍스트의 핵심 키워드를 잘 유지하였고, 사실에 기반한 의료 합성 텍스트를 생성할 수 있다는 것을 확인할 수 있었다.

  • PDF

베이지안 네트워크와 페트리넷을 이용한 모바일 상황정보로부터의 블로그 자동 생성 (Automatic Weblog Generation from Mobile Context using Bayesian Network and Petri Net)

  • 이영설;조성배
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권4호
    • /
    • pp.467-471
    • /
    • 2010
  • 블로그는 가장 널리 퍼지고 있는 개인화 웹 서비스로서 전세계의 많은 사람들이 이용하고 있다. 이런 블로그의 내용은 대부분 일상 생활에서 겪은 경험이나 감정을 표현하고 있는 것들이다. 따라서 모바일 기기로 수집된 개인의 생활에 대한 정보를 모아 자동으로 블로그를 만든다면 그것을 바탕으로 보다 쉽게 자신만의 블로그를 만들수 있을 것이다. 이미 모바일 상황정보를 바탕으로 블로그를 자동으로 만들기 위한 몇몇 연구가 이루어지고 있다. 본 논문에서는 모바일 기기에서 수집된 정보를 바탕으로 사용자의 상태를 추론한다. 그리고 추론된 결과를 바탕으로 페트리 넷 스크립트를 이용하여 스토리 형태로 텍스트를 생성한 후, 최종적으로 사진과 지도상의 이동 패턴을 합쳐 사용자의 생활을 보여주는 블로그를 구성한다.

Prosodic Contour Generation for Korean Text-To-Speech System Using Artificial Neural Networks

  • Lim, Un-Cheon
    • The Journal of the Acoustical Society of Korea
    • /
    • 제28권2E호
    • /
    • pp.43-50
    • /
    • 2009
  • To get more natural synthetic speech generated by a Korean TTS (Text-To-Speech) system, we have to know all the possible prosodic rules in Korean spoken language. We should find out these rules from linguistic, phonetic information or from real speech. In general, all of these rules should be integrated into a prosody-generation algorithm in a TTS system. But this algorithm cannot cover up all the possible prosodic rules in a language and it is not perfect, so the naturalness of synthesized speech cannot be as good as we expect. ANNs (Artificial Neural Networks) can be trained to learn the prosodic rules in Korean spoken language. To train and test ANNs, we need to prepare the prosodic patterns of all the phonemic segments in a prosodic corpus. A prosodic corpus will include meaningful sentences to represent all the possible prosodic rules. Sentences in the corpus were made by picking up a series of words from the list of PB (phonetically Balanced) isolated words. These sentences in the corpus were read by speakers, recorded, and collected as a speech database. By analyzing recorded real speech, we can extract prosodic pattern about each phoneme, and assign them as target and test patterns for ANNs. ANNs can learn the prosody from natural speech and generate prosodic patterns of the central phonemic segment in phoneme strings as output response of ANNs when phoneme strings of a sentence are given to ANNs as input stimuli.

설명 가능한 개인화 영화 추천 서비스를 위한 딥러닝 기반 텍스트 요약 모델 (Deep Learning-based Text Summarization Model for Explainable Personalized Movie Recommendation Service)

  • 진요요;강경모;김재경
    • 한국IT서비스학회지
    • /
    • 제21권2호
    • /
    • pp.109-126
    • /
    • 2022
  • The number and variety of products and services offered by companies have increased dramatically, providing customers with more choices to meet their needs. As a solution to this information overload problem, the provision of tailored services to individuals has become increasingly important, and the personalized recommender systems have been widely studied and used in both academia and industry. Existing recommender systems face important problems in practical applications. The most important problem is that it cannot clearly explain why it recommends these products. In recent years, some researchers have found that the explanation of recommender systems may be very useful. As a result, users are generally increasing conversion rates, satisfaction, and trust in the recommender system if it is explained why those particular items are recommended. Therefore, this study presents a methodology of providing an explanatory function of a recommender system using a review text left by a user. The basic idea is not to use all of the user's reviews, but to provide them in a summarized form using only reviews left by similar users or neighbors involved in recommending the item as an explanation when providing the recommended item to the user. To achieve this research goal, this study aims to provide a product recommendation list using user-based collaborative filtering techniques, combine reviews left by neighboring users with each product to build a model that combines text summary methods among deep learning-based natural language processing methods. Using the IMDb movie database, text reviews of all target user neighbors' movies are collected and summarized to present descriptions of recommended movies. There are several text summary methods, but this study aims to evaluate whether the review summary is well performed by training the Sequence-to-sequence+attention model, which is a representative generation summary method, and the BertSum model, which is an extraction summary model.

Text summarization of dialogue based on BERT

  • Nam, Wongyung;Lee, Jisoo;Jang, Beakcheol
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권8호
    • /
    • pp.41-47
    • /
    • 2022
  • 본 연구는 일목요연하게 정리되지 않은 구어체(대화)에 대한 텍스트 자동 요약 모델을 적용시키는 방법을 제안한다. 본 연구에서는 구어체 데이터인 SAMSum 데이터를 활용하였고, 선행연구에서 문어체 데이터 텍스트 자동 요약 모델 연구에서 제안한 BERTSumExtAbs 모델을 적용하였다. SAMSum 데이터셋은 70% 이상은 두 사람 간 대화, 나머지 약 30%는 세 사람 이상 간 대화로 구성되어 있다. 본 논문에서는 텍스트 자동 요약 모델을 구어체 데이터에 적용하여, ROUGE Score R-1 부문에서 42.43 이상의 결과를 도출해내었다. 또한, 텍스트 요약 모델로 기존에 제안된 모델인 BERTSum 모델을 fine-tuning하여, 45.81의 높은 점수를 도출했다. 본 연구를 통하여 구어체 데이터에 대한 텍스트 생성 요약의 성능을 입증하였으며, 앞으로 사람의 자연어를 있는 그대로 컴퓨터가 이해하여 다양한 task를 해결하는 데 기초 자료로 활용되길 바란다.

오류 유형에 따른 생성요약 모델의 본문-요약문 간 요약 성능평가 비교 (Empirical Study for Automatic Evaluation of Abstractive Summarization by Error-Types)

  • 이승수;강상우
    • 인지과학
    • /
    • 제34권3호
    • /
    • pp.197-226
    • /
    • 2023
  • 텍스트 생성요약은 자연어처리의 과업 중 하나로 긴 텍스트의 내용을 보존하면서 짧게 축약된 요약문을 생성한다. 생성요약 과업의 특성 상 본문의 핵심내용을 요약문에서 보존하는 것은 매우 중요하다. 기존의 생성요약 방법론은 정답요약과의 어휘 중첩도(Lexical-Overlap)를 기반으로 본문의 내용과 유창성을 측정했다. ROUGE는 생성요약 요약모델의 평가지표로 많이 사용하는 어휘 중첩도 기반의 평가지표이다. 생성요약 벤치마크에서 ROUGE가 49점대로 매우 높은 성능을 보임에도 불구하고, 생성한 요약문과 본문의 내용이 불일치하는 경우가 30% 가량 존재한다. 본 연구에서는 정답요약의 도움 없이 본문만을 활용해 생성요약 모델의 성능을 평가하는 방법론을 제안한다. 본 연구에서 제안한 평가점수를 AggreFACT의 라벨과 상관도 분석결과, 다음의 두 가지 경우 가장 높은 상관관계를 보였다. 첫 번째는 Transformer 구조의 인코더-디코더 구조에 대규모 사전학습을 진행한 BART와 PEGASUS 등을 생성요약 모델의 베이스라인으로 사용한 경우이고, 두 번째는 요약문 전체에 걸쳐 오류가 발생한 경우이다.

동품종 교배와 이품종 교배를 교번한 이중교배의 차대잠 형질에 관한 연구(II) (교미시간과 정자의 활동성이 이중교배에 미치는 영향) (Studies on the Character of Silkworm, Bombyx mori L., Which Bred from Double Copulation. (About the effect of copulating time and sperm activity in the double copulating))

  • 김윤식
    • 한국잠사곤충학회지
    • /
    • 제6권
    • /
    • pp.9-17
    • /
    • 1966
  • The ratio of form and character in the text generation of silkworms which were double copulated between home race copulation and hetero race copulation in crossing with two males of different races for female(double crossing) are different according to the copulating time, copulating order and sperm activities. But the general tendencies are as follows; 1. During two hour's double copulation, sufficiently ejaculating time, the fertilization percentage of hetero lace copulation are higher than that of homo race, but in case of double copulation with plain and normal marked silkworms showed opposite results. The fertilization percentage of homo race copulation are equal or higher compare with that of hetero race copulation. 2. The form and character of the next generation were largely effected by copulating order, so the primary copulating moths are more effected in the next generation than the secondary moths. 3. The active sperms were more fertilized than non-active sperms in the double copulation.

  • PDF

Video Captioning with Visual and Semantic Features

  • Lee, Sujin;Kim, Incheol
    • Journal of Information Processing Systems
    • /
    • 제14권6호
    • /
    • pp.1318-1330
    • /
    • 2018
  • Video captioning refers to the process of extracting features from a video and generating video captions using the extracted features. This paper introduces a deep neural network model and its learning method for effective video captioning. In this study, visual features as well as semantic features, which effectively express the video, are also used. The visual features of the video are extracted using convolutional neural networks, such as C3D and ResNet, while the semantic features are extracted using a semantic feature extraction network proposed in this paper. Further, an attention-based caption generation network is proposed for effective generation of video captions using the extracted features. The performance and effectiveness of the proposed model is verified through various experiments using two large-scale video benchmarks such as the Microsoft Video Description (MSVD) and the Microsoft Research Video-To-Text (MSR-VTT).