• 제목/요약/키워드: 텍스트 증강

검색결과 42건 처리시간 0.028초

생성-선정을 통한 텍스트 증강 프레임워크 (TAGS: Text Augmentation with Generation and Selection)

  • 김경민;김동환;조성웅;오흥선;황명하
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권10호
    • /
    • pp.455-460
    • /
    • 2023
  • 텍스트 증강은 자연어처리 모델의 성능 향상을 목적으로 원본 텍스트의 변환, 생성을 통하여 새로운 증강 텍스트를 생성하는 방법론이다. 기존 연구된 기법들은 표현적 다양성 부족, 의미 왜곡 , 한정적인 양의 증강 텍스트와 같은 한계점이 존재한다. 거대언어모델과 few-shot learning을 활용한 텍스트 증강은 이러한 한계점의 극복이 가능하지만, 잘못된 생성으로 인한 노이즈 발생의 위험성이 존재한다. 본 논문에서는 여러 후보 텍스트를 생성하고 적합한 텍스트를 증강 텍스트로 선정하는 TAGS를 제안한다. TAGS는 기존 텍스트 few shot learning을 통해 다양한 표현을 생성하면서 대조 학습과 유사도 비교를 통해 원본 텍스트가 적더라도 적합한 데이터를 효과적으로 선정한다. 이를 텍스트 증강이 필수적인 업무용 챗봇 데이터에 적용하여 60배 이상의 양적 향상을 달성하였다. 또한 증강 텍스트의 질적 향상을 확인하기 위해 실제 생성된 텍스트를 분석하여 원본 텍스트에 비해 의미론적, 표현적으로 다양한 텍스트를 생성함을 확인하였으며, 증강 텍스트로 실제 분류 모델을 학습하고 실험하여 실질적으로 자연어처리 모델 성능 향상에 도움이 되는 것을 확인하였다.

합성 텍스트 생성을 위한 ChatGPT 기반 의료 텍스트 증강 도구 개발 (Development of ChatGPT-based Medical Text Augmentation Tool for Synthetic Text Generation)

  • 공진우;김기연;김유섭;오병두
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.3-4
    • /
    • 2023
  • 자연어처리는 수많은 정보가 수집된 전자의무기록의 비정형 데이터에서 유의미한 정보나 패턴 등을 추출해 의료진의 의사결정을 지원하고, 환자에게 더 나은 진단이나 치료 등을 지원할 수 있어 큰 잠재력을 가지고 있다. 그러나 전자의무기록은 개인정보와 같은 민감한 정보가 다수 포함되어 있어 접근하기 어렵고, 이로 인해 충분한 양의 데이터를 확보하기 어렵다. 따라서 본 논문에서는 신뢰할 수 있는 의료 합성 텍스트를 생성하기 위해 ChatGPT 기반 의료 텍스트 증강 도구를 개발하였다. 이는 사용자가 입력한 실제 의료 텍스트로 의료 합성 데이터를 생성한다. 이를 위해, 적합한 프롬프트와 의료 텍스트에 대한 전처리 방법을 탐색하였다. ChatGPT 기반 의료 텍스트 증강 도구는 입력 텍스트의 핵심 키워드를 잘 유지하였고, 사실에 기반한 의료 합성 텍스트를 생성할 수 있다는 것을 확인할 수 있었다.

  • PDF

증강현실을 이용한 패턴 인식 (Pattern Recognition Using Augmented Reality)

  • 왕레이;신성윤;이양원
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2008년도 제39차 동계학술발표논문집 16권2호
    • /
    • pp.203-206
    • /
    • 2009
  • 분 논문은 카메라 장비와 마커, DB를 이용하여 문자의 색감과 모음, 자음을 인식하여 문자에 해당되는 이미지 및 영상을 HMD 및 모니터, 가정에서 사용하는 화상 카메라 등을 이용하여 보다 구체적인 정보를 전달할 수 있게 해준다. DB에는 각 텍스트의 모음과 자음에 관한 텍스트가 등록되어 있으며, 각각의 색과 텍스트를 비교하여 해당하는 이미지를 출력하게 된다. 기존의 증강현실 기법은 해당 마크에 관한 패턴을 인식하여 그에 해당하는 이미지 및 영상을 출력하는데, DB를 이용한 문자인식을 사용할 경우 사용자에게 텍스트를 인식하여 연관된 많은 정보를 제공할 수 있게 된다. 제안된 인터페이스는 다양한 모습을 어려 시야를 통해 기존의 카탈로그보다 사용자의 접근성을 향상시키고, 미리 정의된 DB에 접근하여 해당 문자에 관한 여러가지 정보를 사용자에게 전달한다. 여러 전달 매체를 이용, 가상현실 및 증강현실 등을 다양한 카탈로그 뿐만 아니라 교육 및 신문 잡지, 광고 등 문자가 등장하는 여러 분야에 활용이 가능하다.

  • PDF

대규모 언어 모델 및 인컨텍스트 러닝을 활용한 수치 추론 데이터셋 증강 (Numerical Reasoning Dataset Augmentation Using Large Language Model and In-Context Learning)

  • 황예찬;임진수;이영준;최호진
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.203-208
    • /
    • 2023
  • 본 논문에서는 대규모 언어 모델의 인컨텍스트 러닝과 프롬프팅을 활용하여 수치 추론 태스크 데이터셋을 효과적으로 증강시킬 수 있는 방법론을 제안한다. 또한 모델로 하여금 수치 추론 데이터의 이해를 도울 수 있는 전처리와 요구사항을 만족하지 못하는 결과물을 필터링 하는 검증 단계를 추가하여 생성되는 데이터의 퀄리티를 보장하고자 하였다. 이렇게 얻어진 증강 절차를 거쳐 증강을 진행한 뒤 추론용 모델 학습을 통해 다른 증강 방법론보다 우리의 방법론으로 증강된 데이터셋으로 학습된 모델이 더 높은 성능을 낼 수 있음을 보였다. 실험 결과 우리의 증강 데이터로 학습된 모델은 원본 데이터로 학습된 모델보다 모든 지표에서 2%p 이상의 성능 향상을 보였으며 다양한 케이스를 통해 우리의 모델이 수치 추론 학습 데이터의 다양성을 크게 향상시킬 수 있음을 확인하였다.

  • PDF

Text Augmentation Using Hierarchy-based Word Replacement

  • Kim, Museong;Kim, Namgyu
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권1호
    • /
    • pp.57-67
    • /
    • 2021
  • 최근 딥 러닝(Deep Learning) 분석에 이질적인 데이터를 함께 사용하는 멀티모달(Multi-modal) 딥러닝 기술이 많이 활용되고 있으며, 특히 텍스트로부터 자동으로 이미지를 생성해내는 Text to Image 합성에 관한 연구가 활발하게 수행되고 있다. 이미지 합성을 위한 딥러닝 학습은 방대한 양의 이미지와 이미지를 설명하는 텍스트의 쌍으로 구성된 데이터를 필요로 하므로, 소량의 데이터로부터 다량의 데이터를 생성하기 위한 데이터 증강 기법이 고안되어 왔다. 텍스트 데이터 증강의 경우 유의어 대체에 기반을 둔 기법들이 다수 사용되고 있지만, 이들 기법은 명사 단어의 유의어 대체 시 이미지의 내용과 상이한 텍스트를 생성할 가능성이 있다는 한계를 갖는다. 따라서 본 연구에서는 단어가 갖는 품사별 특징을 활용하는 텍스트 데이터 증강 방안, 즉 일부 품사에 대해 단어 계층 정보를 활용하여 단어를 대체하는 방안을 제시하였다. 또한 제안 방법론의 성능을 평가하기 위해 MSCOCO 데이터를 사용하여 실험을 수행하여 결과를 제시하였다.

한국어 스타일 변환 기반 데이터 증강을 이용한 감성 분류 성능 향상 (Improving Performance of Sentiment Classification using Korean Style Transfer based Data Augmentation)

  • 고은우;이은찬;안상태
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.480-484
    • /
    • 2022
  • 텍스트 분류는 입력받은 텍스트가 어느 종류의 범주에 속하는지 구분하는 것이다. 분류 모델에 있어서 좋은 성능을 나타내기 위해서는 충분한 양의 데이터 셋이 필요함을 많은 연구에서 보이고 있다. 이에 따라 데이터 증강기법을 소개하는 많은 연구가 진행되었지만, 실제로 사용하기 위한 모델에 곧바로 적용하기에는 여러 가지 문제점들이 존재한다. 본 논문에서는 데이터 증강을 위해 스타일 변환 기법을 이용하였고, 그 결과 기존 방법 대비 한국어 감성 분류의 성능을 높였다.

  • PDF

영상 미디어의 증강정보 융합 플랫폼 개발 (A Development of Integrated Video Platform with Augmented Information)

  • 리신;문희경;한성국
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 춘계학술발표대회
    • /
    • pp.811-813
    • /
    • 2016
  • 최근 미래 지식서비스 산업의 핵심으로 등장한 증강정보 기술에 대한 관심이 많아지고 있다. 스마트 기술과 연계하여 게임, 엔터테인먼트 그리고 교육과 같은 다양한 분야에 적용하기 위한 연구가 활발하게 진행되고 있다. 본 논문은 영상 미디어에 증강정보를 통합하는 플랫폼을 제안한다. 증강정보 융합 플랫폼의 개념과 구조에 대해서 서술하고, 영상 미디어에 텍스트, 이미지, 비디오 등 다양한 증강정보를 융합하는 증강정보 저작 도구 개발을 기술한다. 이를 기반으로 영상 미디어에 증강 정보를 융합하여, 새로운 응용 서비스를 개발하는 증강정보 융합 플랫폼을 제시한다.

증강현실 기반의 비디오 방명록 시스템 설계 및 개발 (A Design and Development of Augmented Reality Based Video Guestbook System)

  • 김남길;박희찬;박경신
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 추계학술발표대회
    • /
    • pp.415-416
    • /
    • 2009
  • 최근 증강현실 기술이 발전하면서 다양한 환경에서의 상호작용을 위한 증강현실 기반 사용자 인터페이스가 활발히 연구되고 있다. 본 논문에서는 증강현실 기반의 사용자 인터페이스를 이용하여 전시회에서 사용자의 참여를 유도하고 다양한 상호작용을 제공하는 비디오 방명록 시스템을 제안한다. 이 시스템은 기존의 텍스트나 음성 서비스 중심적인 전시장 안내 시스템과는 달리 증강현실 기술과 사용자의 참여와 기록을 남길 수 있도록 유도하는 상호작용 방법을 제시한다. 본 논문에서는 증강현실 기반의 동영상 방명록 시스템의 설계와 구현을 설명하고 추후 연구방향을 논한다.

In-Context 검색 증강형 한국어 언어 모델 (In-Context Retrieval-Augmented Korean Language Model)

  • 이성민;이정;서대룡;전동현;강인호;나승훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.443-447
    • /
    • 2023
  • 검색 증강형 언어 모델은 입력과 연관된 문서들을 검색하고 텍스트 생성 과정에 통합하여 언어 모델의 생성 능력을 강화한다. 본 논문에서는 사전 학습된 대규모 언어 모델의 추가적인 학습 없이 In-Context 검색 증강으로 한국어 언어 모델의 생성 능력을 강화하고 기존 언어 모델 대비 성능이 증가함을 보인다. 특히 다양한 크기의 사전 학습된 언어 모델을 활용하여 검색 증강 결과를 보여 모든 규모의 사전 학습 모델에서 Perplexity가 크게 개선된 결과를 확인하였다. 또한 오픈 도메인 질의응답(Open-Domain Question Answering) 과업에서도 EM-19, F1-27.8 향상된 결과를 보여 In-Context 검색 증강형 언어 모델의 성능을 입증한다.

  • PDF

센서 데이터 합성을 통한 반려동물 행동 감지 (Pet Behavior Detection through Sensor Data Synthesis)

  • 김형주;박찬;문남미
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.606-608
    • /
    • 2022
  • 센서 데이터를 활용한 행동 감지 연구는 인간 행동 인식을 선행연구로 진행되었으며, 인식의 정확도를 높이기 위해 전처리, 보간, 증강 등을 통한 연구가 활발히 진행되고 있다. 이에 본 논문에서는 시계열 센서 데이터 증강을 통하여 반려동물의 행동 감지를 제안한다. ODROID 단일 보드 컴퓨터와 6축 센서(가속도, 자이로) 데이터를 탑재한 소형 디바이스를 사용하여 블루투스 통신을 통해 웹 서버 DB에 저장한다. 저장된 데이터는 이상치, 결측치 처리 후 정규화를 통해 시퀀스를 구성하는 전처리 과정을 거친다. 이후 GAN을 기반으로 한 시계열 데이터 증강을 진행한다. 이때, 데이터 증강은 입력된 텍스트에 따라 센서 데이터로 변환하여 데이터를 증강한다. 학습된 딥러닝 모델을 바탕으로 행동을 감지 후 평가 지표에 따라 모델 성능을 검증한다.