• 제목/요약/키워드: 대화 데이터셋

검색결과 65건 처리시간 0.027초

과거 상담대화를 활용한 개인화 대화생성을 위한 프롬프트 기반 데이터 증강 (Prompt-based Data Augmentation for Generating Personalized Conversation Using Past Counseling Dialogues)

  • 임채균;이혜우;오경진;성주원;최호진
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.209-213
    • /
    • 2023
  • 최근 자연어 이해 분야에서 대규모 언어모델 기반으로 프롬프트를 활용하여 모델과 상호작용하는 방법이 널리 연구되고 있으며, 특히 상담 분야에서 언어모델을 활용한다면 내담자와의 자연스러운 대화를 주도할 수 있는 대화생성 모델로 확장이 가능하다. 내담자의 상황에 따라 개인화된 상담대화를 진행하는 모델을 학습시키려면 동일한 내담자에 대한 과거 및 차기 상담대화가 필요하지만, 기존의 데이터셋은 대체로 단일 대화세션으로 구축되어 있다. 본 논문에서는 언어모델을 활용하여 단일 대화세션으로 구축된 기존 상담대화 데이터셋을 확장하여 연속된 대화세션 구성의 학습데이터를 확보할 수 있는 프롬프트 기반 데이터 증강 기법을 제안한다. 제안 기법은 기존 대화내용을 반영한 요약질문 생성단계와 대화맥락을 유지한 차기 상담대화 생성 단계로 구성되며, 프롬프트 엔지니어링을 통해 상담 분야의 데이터셋을 확장하고 사용자 평가를 통해 제안 기법의 데이터 증강이 품질에 미치는 영향을 확인한다.

  • PDF

Large Language Model을 통한 대화 데이터셋 자동 생성 및 검색 성능 향상 (Conversation Dataset Generation and Improve Search Performance via Large Language Model)

  • 최형준;홍범석;최원석;한영섭;전병기;나승훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.295-300
    • /
    • 2023
  • 대화 데이터와 같은 데이터는 사람이 수작업으로 작성해야 하기 때문에 데이터셋 구축에 시간과 비용이 크게 발생한다. 현재 대두되고 있는 Large Language Model은 이러한 대화 생성에서 보다 자연스러운 대화 생성이 가능하다는 이점이 존재한다. 이번 연구에서는 LLM을 통해 사람이 만든 적은 양의 데이터셋을 Fine-tuning 하여 위키백과 문서로부터 데이터셋을 만들어내고, 이를 통해 문서 검색 모델의 성능을 향상시켰다. 그 결과 학습 데이터와 같은 문서집합에서 MRR 3.7%p, 위키백과 전체에서 MRR 4.5%p의 성능 향상을 확인했다.

  • PDF

대화를 중심으로 다양한 멀티모달 융합정보를 포함하는 동영상 기반 인공지능 학습용 데이터셋 구축 (Dialogue based multimodal dataset including various labels for machine learning research)

  • 신사임;장진예;김보은;박한무;정혜동
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.449-453
    • /
    • 2019
  • 미디어방송이 다양해지고, 웹에서 소비되는 콘텐츠들 또한 멀티미디어 중심으로 재편되는 경향에 힘입어 인공지능 연구에 멀티미디어 콘텐츠를 적극적으로 활용하고자 하는 시도들이 시작되고 있다. 본 논문은 다양한 형태의 멀티모달 정보를 하나의 동영상 콘텐츠에 연계하여 분석하여, 통합된 형태의 융합정보 데이터셋을 구축한 연구를 소개하고자 한다. 구축한 인공지능 학습용 데이터셋은 영상/음성/언어 정보가 함께 있는 멀티모달 콘텐츠에 상황/의도/감정 정보 추론에 필요한 다양한 의미정보를 부착하여 활용도가 높은 인공지능 영상 데이터셋을 구축하여 공개하였다. 본 연구의 결과물은 한국어 대화처리 연구에 부족한 공개 데이터 문제를 해소하는데 기여하였고, 한국어를 중심으로 다양한 상황 정보가 함께 구축된 데이터셋을 통하여 다양한 상황 분석 기반 대화 서비스 응용 기술 연구에 활용될 것으로 기대할 수 있다.

  • PDF

페르소나 대화모델에서 일관된 발화 생성을 위한 연구 (Personality Consistent Dialogue Generation in No-Persona-Aware System)

  • 문현석;이찬희;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.572-577
    • /
    • 2020
  • 일관된 발화를 생성함에 있어 인격데이터(persona)의 도입을 이용한 연구가 활발히 진행되고 있지만, 한국어 데이터셋의 부재와 데이터셋 생성의 어려움이 문제점으로 지적된다. 본 연구에서는 인격데이터를 포함하지 않고 일관된 발화를 생성할 수 있는 방법으로 다중 대화 시스템에서 사전 학습된 자연어 추론(NLI) 모델을 도입하는 방법을 제안한다. 자연어 추론 모델을 이용한 관계 분석을 통해 과거 대화 내용 중 발화 생성에 이용할 대화를 선택하고, 자가 참조 모델(self-attention)과 다중 어텐션(multi-head attention) 모델을 활용하여 과거 대화 내용을 반영한 발화를 생성한다. 일관성 있는 발화 생성을 위해 기존 NLI데이터셋으로 수행할 수 있는 새로운 학습모델 nMLM을 제안하고, 이 방법이 일관성 있는 발화를 만드는데 기여할 수 있는 방법에 대해 연구한다.

  • PDF

한국어-영어 공감대화 데이터셋과 성격을 기반으로 한 언어모델 평가 (Language Model Evaluation Based on Korean-English Empathetic Dialogue Datasets and Personality)

  • 이영준;현종환;이도경;성주원;최호진
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.312-318
    • /
    • 2023
  • 본 연구는 다양한 대규모 언어 모델들의 한국어/영어 공감 대화 생성에서 성능을 실험적으로 비교 분석하는 것과 개인의 성향과 공감 사이에서의 상관 관계를 실험적으로 분석하는 것을 목표로 한다. 이를 위해, 한국어 공감 대화 데이터셋인 KorEmpatheticDialogues 를 구축하였고, personality-aware prompting 방법을 제안한다. 실험을 통해, 총 18개의 언어 모델들 간의 공감 대화 생성 성능을 비교 분석하였고, 개인의 성향에 맞춤형 제공하는 공감이 더 상호작용을 이끌어낼 수 있다는 점을 보여준다. 코드와 데이터셋은 게재가 허용되면 공개할 예정이다.

  • PDF

ChatGPT 를 이용한 독해 튜터링 대화 데이터 확장 (Data Augmentation of English Reading Comprehension Tutoring Dialogs using ChatGPT)

  • 권현유;최승권;황금하;권오욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.43-44
    • /
    • 2023
  • 대화형 독해 튜터링 시스템을 위한 학생주도 대화 데이터셋 생성 및 확장에 ChatGPT 의 활용 가능성을 평가하였다. 단순히 수동으로만 구축한 기존의 데이터셋과 ChatGPT 에 의해 반자동으로 확장된 데이터셋을 비교한 결과, 구축량, 소요 시간, 비용 및 반복 작업 측면에서 ChatGPT 가 가진 유용성을 알 수 있었다. 그러나, 유형별 배분의 편중과, 부적절한 데이터 생성 등의 한계도 나타났다. Chat GPT 의 빠른 발전이 예상됨에 따라 대화형 튜터링 분야에 ChatGPT 에 의한 반자동 데이터 확장 방법이 널리 활용될 것으로 기대된다.

Plug and Play Language Model을 활용한 대화 모델의 독성 응답 생성 감소 (Reducing Toxic Response Generation in Conversational Models using Plug and Play Language Model)

  • 김병주;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.433-438
    • /
    • 2021
  • 대화 시스템은 크게 사용자와 시스템이 특정 목적 혹은 자유 주제에 대해 대화를 진행하는 것으로 구분된다. 최근 자유주제 대화 시스템(Open-Domain Dialogue System)에 대한 연구가 활발히 진행됨에 따라 자유 주제를 기반으로 하는 상담 대화, 일상 대화 시스템의 독성 발화 제어 생성에 대한 연구의 중요성이 더욱 커지고 있다. 이에 본 논문에서는 대화 모델의 독성 응답 생성을 제어하기 위해 일상 대화 데이터셋으로 학습된 BART 모델에 Plug-and-Play Language Model 방법을 적용한다. 공개된 독성 대화 분류 데이터셋으로 학습된 독성 응답 분류기를 PPLM의 어트리뷰트(Attribute) 모델로 활용하여 대화 모델의 독성 응답 생성을 감소시키고 그 차이를 실험을 통해 정량적으로 비교한다. 실험 결과 어트리뷰트 모델을 활용한 모든 실험에서 독성 응답 생성이 감소함을 확인하였다.

  • PDF

대화질의 기반 패션 추천시스템을 위한 데이터 전처리 방법에 관한 연구 (A study on data preprocessing method for conversational query-based fashion recommendation system)

  • 최철웅;염성웅;김경백
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.815-818
    • /
    • 2021
  • 현재 대부분의 패션 추천시스템은 프로필 또는 설문조사를 통해 수집 된 사용자의 정적 정보를 활용하고 있다. 사용자의 정적 정보는 매우 한정적이며 이를 활용하여 다양한 환경에 적합한 패션 코디셋을 추천하기란 매우 어렵다. AI코디네이터와 사용자간의 지속적인 대화가 담긴 대화질의 데이터셋을 사용하면 사용자의 상황과 환경을 고려하여 개인에게 최적화 된 패션 코디셋을 추천할 수 있다. 본 논문에서는 한국전자통신연구원(ETRI)에서 제공하는 AI 패션 코디네이터와 사용자의 대화 정보가 담긴 FASCODE 데이터셋을 사용하여 사용자의 발화에 따라 의상을 추천하는 인공지능 모델을 위한 대화질의 데이터 전처리 방법을 제안한다.

개인정보 특화 개체명 주석 대화 데이터셋 기반 생성AI 활용 개체명 탐지 (Named Entity Detection Using Generative Al for Personal Information-Specific Named Entity Annotation Conversation Dataset)

  • 강예지;비립;장연지;박서윤;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.499-504
    • /
    • 2023
  • 본 연구에서는 민감한 개인정보의 유출과 남용 위험이 높아지고 있는 상황에서 정확한 개인정보 탐지 및 비식별화의 효율을 높이기 위해 개인정보 항목에 특화된 개체명 체계를 개발하였다. 개인정보 태그셋이 주석된 대화 데이터 4,981세트를 구축하고, 생성 AI 모델을 활용하여 개인정보 개체명 탐지 실험을 수행하였다. 실험을 위해 최적의 프롬프트를 설계하여 퓨샷러닝(few-shot learning)을 통해 탐지 결과를 평가하였다. 구축한 데이터셋과 영어 기반의 개인정보 주석 데이터셋을 비교 분석한 결과 고유식별번호 항목에 대해 본 연구에서 구축한 데이터셋에서 더 높은 탐지 성능이 나타났으며, 이를 통해 데이터셋의 필요성과 우수성을 입증하였다.

  • PDF

상담 전략을 통합한 정서 교감형 챗봇 개발을 위한 데이터셋 구조 제안 (Proposal for the Dataset Structure for Developing Emotionally Intelligent Chatbots with Integrated Counseling Strategies)

  • 신동혁;양재희;장진예;신사임
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.179-184
    • /
    • 2023
  • 본 연구는 우울감을 느끼거나 대화 상대 부재로 어려움을 겪는 사용자와 정서 교감형 시스템간의 대화로 구성된 한국어 데이터 셋을 구축하고 이때 시스템이 사용할 수 있는 효과적인 응대 전략을 제안하는데 목적이 있다. 데이터셋은 사용자와 시스템 간의 대화 쌍을 기본 단위로 하며, 사용자의 7가지 기본 감정(행복, 슬픔, 공포, 놀람, 분노, 혐오, 중립)과 시스템의 4가지 응대 전략(명료화, 공감적 응대, 제안, 페르소나)에 따라 주석이 된다. 이 중, 공감적 응대 전략은 10가지 독특한 반응 유형(수용적 경청, 후행 발화 요청, 승인/동의, 비승인/재고 요청, 놀람, 격려, 느낌 표시, 상대 발화 반복, 인사, 의견 제시) 및 4가지 후행 발화 요청 유형(무엇, 왜, 어떻게, 그밖에)을 포함하는 구조로 구체화되었다. 이러한 주석은 시스템이 사용자의 다양한 감정을 식별하고 적절한 공감 수준을 나타내는 응답을 생성하는 데 있어 연구적인 의의가 있으며, 필요시 사용자가 부정적 감정을 극복할 수 있는 활동을 제안하는 데 도움을 줄 수 있다는 점에서 실제적인 의의가 있다.

  • PDF