• Title/Summary/Keyword: 텍스트 증강

Search Result 40, Processing Time 0.047 seconds

TAGS: Text Augmentation with Generation and Selection (생성-선정을 통한 텍스트 증강 프레임워크)

  • Kim Kyung Min;Dong Hwan Kim;Seongung Jo;Heung-Seon Oh;Myeong-Ha Hwang
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.12 no.10
    • /
    • pp.455-460
    • /
    • 2023
  • Text augmentation is a methodology that creates new augmented texts by transforming or generating original texts for the purpose of improving the performance of NLP models. However existing text augmentation techniques have limitations such as lack of expressive diversity semantic distortion and limited number of augmented texts. Recently text augmentation using large language models and few-shot learning can overcome these limitations but there is also a risk of noise generation due to incorrect generation. In this paper, we propose a text augmentation method called TAGS that generates multiple candidate texts and selects the appropriate text as the augmented text. TAGS generates various expressions using few-shot learning while effectively selecting suitable data even with a small amount of original text by using contrastive learning and similarity comparison. We applied this method to task-oriented chatbot data and achieved more than sixty times quantitative improvement. We also analyzed the generated texts to confirm that they produced semantically and expressively diverse texts compared to the original texts. Moreover, we trained and evaluated a classification model using the augmented texts and showed that it improved the performance by more than 0.1915, confirming that it helps to improve the actual model performance.

Development of ChatGPT-based Medical Text Augmentation Tool for Synthetic Text Generation (합성 텍스트 생성을 위한 ChatGPT 기반 의료 텍스트 증강 도구 개발)

  • Jin-Woo Kong;Gi-Youn Kim;Yu-Seop Kim;Byoung-Doo Oh
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2023.07a
    • /
    • pp.3-4
    • /
    • 2023
  • 자연어처리는 수많은 정보가 수집된 전자의무기록의 비정형 데이터에서 유의미한 정보나 패턴 등을 추출해 의료진의 의사결정을 지원하고, 환자에게 더 나은 진단이나 치료 등을 지원할 수 있어 큰 잠재력을 가지고 있다. 그러나 전자의무기록은 개인정보와 같은 민감한 정보가 다수 포함되어 있어 접근하기 어렵고, 이로 인해 충분한 양의 데이터를 확보하기 어렵다. 따라서 본 논문에서는 신뢰할 수 있는 의료 합성 텍스트를 생성하기 위해 ChatGPT 기반 의료 텍스트 증강 도구를 개발하였다. 이는 사용자가 입력한 실제 의료 텍스트로 의료 합성 데이터를 생성한다. 이를 위해, 적합한 프롬프트와 의료 텍스트에 대한 전처리 방법을 탐색하였다. ChatGPT 기반 의료 텍스트 증강 도구는 입력 텍스트의 핵심 키워드를 잘 유지하였고, 사실에 기반한 의료 합성 텍스트를 생성할 수 있다는 것을 확인할 수 있었다.

  • PDF

Pattern Recognition Using Augmented Reality (증강현실을 이용한 패턴 인식)

  • Lei, Wang;Shin, Seong-Yoon;Rhee, Yang-Won
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2009.01a
    • /
    • pp.203-206
    • /
    • 2009
  • 분 논문은 카메라 장비와 마커, DB를 이용하여 문자의 색감과 모음, 자음을 인식하여 문자에 해당되는 이미지 및 영상을 HMD 및 모니터, 가정에서 사용하는 화상 카메라 등을 이용하여 보다 구체적인 정보를 전달할 수 있게 해준다. DB에는 각 텍스트의 모음과 자음에 관한 텍스트가 등록되어 있으며, 각각의 색과 텍스트를 비교하여 해당하는 이미지를 출력하게 된다. 기존의 증강현실 기법은 해당 마크에 관한 패턴을 인식하여 그에 해당하는 이미지 및 영상을 출력하는데, DB를 이용한 문자인식을 사용할 경우 사용자에게 텍스트를 인식하여 연관된 많은 정보를 제공할 수 있게 된다. 제안된 인터페이스는 다양한 모습을 어려 시야를 통해 기존의 카탈로그보다 사용자의 접근성을 향상시키고, 미리 정의된 DB에 접근하여 해당 문자에 관한 여러가지 정보를 사용자에게 전달한다. 여러 전달 매체를 이용, 가상현실 및 증강현실 등을 다양한 카탈로그 뿐만 아니라 교육 및 신문 잡지, 광고 등 문자가 등장하는 여러 분야에 활용이 가능하다.

  • PDF

Numerical Reasoning Dataset Augmentation Using Large Language Model and In-Context Learning (대규모 언어 모델 및 인컨텍스트 러닝을 활용한 수치 추론 데이터셋 증강)

  • Yechan Hwang;Jinsu Lim;Young-Jun Lee;Ho-Jin Choi
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.203-208
    • /
    • 2023
  • 본 논문에서는 대규모 언어 모델의 인컨텍스트 러닝과 프롬프팅을 활용하여 수치 추론 태스크 데이터셋을 효과적으로 증강시킬 수 있는 방법론을 제안한다. 또한 모델로 하여금 수치 추론 데이터의 이해를 도울 수 있는 전처리와 요구사항을 만족하지 못하는 결과물을 필터링 하는 검증 단계를 추가하여 생성되는 데이터의 퀄리티를 보장하고자 하였다. 이렇게 얻어진 증강 절차를 거쳐 증강을 진행한 뒤 추론용 모델 학습을 통해 다른 증강 방법론보다 우리의 방법론으로 증강된 데이터셋으로 학습된 모델이 더 높은 성능을 낼 수 있음을 보였다. 실험 결과 우리의 증강 데이터로 학습된 모델은 원본 데이터로 학습된 모델보다 모든 지표에서 2%p 이상의 성능 향상을 보였으며 다양한 케이스를 통해 우리의 모델이 수치 추론 학습 데이터의 다양성을 크게 향상시킬 수 있음을 확인하였다.

  • PDF

Text Augmentation Using Hierarchy-based Word Replacement

  • Kim, Museong;Kim, Namgyu
    • Journal of the Korea Society of Computer and Information
    • /
    • v.26 no.1
    • /
    • pp.57-67
    • /
    • 2021
  • Recently, multi-modal deep learning techniques that combine heterogeneous data for deep learning analysis have been utilized a lot. In particular, studies on the synthesis of Text to Image that automatically generate images from text are being actively conducted. Deep learning for image synthesis requires a vast amount of data consisting of pairs of images and text describing the image. Therefore, various data augmentation techniques have been devised to generate a large amount of data from small data. A number of text augmentation techniques based on synonym replacement have been proposed so far. However, these techniques have a common limitation in that there is a possibility of generating a incorrect text from the content of an image when replacing the synonym for a noun word. In this study, we propose a text augmentation method to replace words using word hierarchy information for noun words. Additionally, we performed experiments using MSCOCO data in order to evaluate the performance of the proposed methodology.

Improving Performance of Sentiment Classification using Korean Style Transfer based Data Augmentation (한국어 스타일 변환 기반 데이터 증강을 이용한 감성 분류 성능 향상)

  • Eunwoo Go;Eunchan Lee;Sangtae Ahn
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.480-484
    • /
    • 2022
  • 텍스트 분류는 입력받은 텍스트가 어느 종류의 범주에 속하는지 구분하는 것이다. 분류 모델에 있어서 좋은 성능을 나타내기 위해서는 충분한 양의 데이터 셋이 필요함을 많은 연구에서 보이고 있다. 이에 따라 데이터 증강기법을 소개하는 많은 연구가 진행되었지만, 실제로 사용하기 위한 모델에 곧바로 적용하기에는 여러 가지 문제점들이 존재한다. 본 논문에서는 데이터 증강을 위해 스타일 변환 기법을 이용하였고, 그 결과 기존 방법 대비 한국어 감성 분류의 성능을 높였다.

  • PDF

A Development of Integrated Video Platform with Augmented Information (영상 미디어의 증강정보 융합 플랫폼 개발)

  • Li, Xin;Moon, Hee-Kyung;Han, Sung-Kook
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2016.04a
    • /
    • pp.811-813
    • /
    • 2016
  • 최근 미래 지식서비스 산업의 핵심으로 등장한 증강정보 기술에 대한 관심이 많아지고 있다. 스마트 기술과 연계하여 게임, 엔터테인먼트 그리고 교육과 같은 다양한 분야에 적용하기 위한 연구가 활발하게 진행되고 있다. 본 논문은 영상 미디어에 증강정보를 통합하는 플랫폼을 제안한다. 증강정보 융합 플랫폼의 개념과 구조에 대해서 서술하고, 영상 미디어에 텍스트, 이미지, 비디오 등 다양한 증강정보를 융합하는 증강정보 저작 도구 개발을 기술한다. 이를 기반으로 영상 미디어에 증강 정보를 융합하여, 새로운 응용 서비스를 개발하는 증강정보 융합 플랫폼을 제시한다.

A Design and Development of Augmented Reality Based Video Guestbook System (증강현실 기반의 비디오 방명록 시스템 설계 및 개발)

  • Kim, Namkil;Park, Heechan;Park, Kyoung Shin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.11a
    • /
    • pp.415-416
    • /
    • 2009
  • 최근 증강현실 기술이 발전하면서 다양한 환경에서의 상호작용을 위한 증강현실 기반 사용자 인터페이스가 활발히 연구되고 있다. 본 논문에서는 증강현실 기반의 사용자 인터페이스를 이용하여 전시회에서 사용자의 참여를 유도하고 다양한 상호작용을 제공하는 비디오 방명록 시스템을 제안한다. 이 시스템은 기존의 텍스트나 음성 서비스 중심적인 전시장 안내 시스템과는 달리 증강현실 기술과 사용자의 참여와 기록을 남길 수 있도록 유도하는 상호작용 방법을 제시한다. 본 논문에서는 증강현실 기반의 동영상 방명록 시스템의 설계와 구현을 설명하고 추후 연구방향을 논한다.

In-Context Retrieval-Augmented Korean Language Model (In-Context 검색 증강형 한국어 언어 모델)

  • Sung-Min Lee;Joung Lee;Daeryong Seo;Donghyeon Jeon;Inho Kang;Seung-Hoon Na
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.443-447
    • /
    • 2023
  • 검색 증강형 언어 모델은 입력과 연관된 문서들을 검색하고 텍스트 생성 과정에 통합하여 언어 모델의 생성 능력을 강화한다. 본 논문에서는 사전 학습된 대규모 언어 모델의 추가적인 학습 없이 In-Context 검색 증강으로 한국어 언어 모델의 생성 능력을 강화하고 기존 언어 모델 대비 성능이 증가함을 보인다. 특히 다양한 크기의 사전 학습된 언어 모델을 활용하여 검색 증강 결과를 보여 모든 규모의 사전 학습 모델에서 Perplexity가 크게 개선된 결과를 확인하였다. 또한 오픈 도메인 질의응답(Open-Domain Question Answering) 과업에서도 EM-19, F1-27.8 향상된 결과를 보여 In-Context 검색 증강형 언어 모델의 성능을 입증한다.

  • PDF

Pet Behavior Detection through Sensor Data Synthesis (센서 데이터 합성을 통한 반려동물 행동 감지)

  • Kim, Hyungju;Park, Chan;Moon, Nammee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.11a
    • /
    • pp.606-608
    • /
    • 2022
  • 센서 데이터를 활용한 행동 감지 연구는 인간 행동 인식을 선행연구로 진행되었으며, 인식의 정확도를 높이기 위해 전처리, 보간, 증강 등을 통한 연구가 활발히 진행되고 있다. 이에 본 논문에서는 시계열 센서 데이터 증강을 통하여 반려동물의 행동 감지를 제안한다. ODROID 단일 보드 컴퓨터와 6축 센서(가속도, 자이로) 데이터를 탑재한 소형 디바이스를 사용하여 블루투스 통신을 통해 웹 서버 DB에 저장한다. 저장된 데이터는 이상치, 결측치 처리 후 정규화를 통해 시퀀스를 구성하는 전처리 과정을 거친다. 이후 GAN을 기반으로 한 시계열 데이터 증강을 진행한다. 이때, 데이터 증강은 입력된 텍스트에 따라 센서 데이터로 변환하여 데이터를 증강한다. 학습된 딥러닝 모델을 바탕으로 행동을 감지 후 평가 지표에 따라 모델 성능을 검증한다.