• 제목/요약/키워드: 대화 데이터

검색결과 582건 처리시간 0.026초

페르소나 대화모델에서 일관된 발화 생성을 위한 연구 (Personality Consistent Dialogue Generation in No-Persona-Aware System)

  • 문현석;이찬희;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.572-577
    • /
    • 2020
  • 일관된 발화를 생성함에 있어 인격데이터(persona)의 도입을 이용한 연구가 활발히 진행되고 있지만, 한국어 데이터셋의 부재와 데이터셋 생성의 어려움이 문제점으로 지적된다. 본 연구에서는 인격데이터를 포함하지 않고 일관된 발화를 생성할 수 있는 방법으로 다중 대화 시스템에서 사전 학습된 자연어 추론(NLI) 모델을 도입하는 방법을 제안한다. 자연어 추론 모델을 이용한 관계 분석을 통해 과거 대화 내용 중 발화 생성에 이용할 대화를 선택하고, 자가 참조 모델(self-attention)과 다중 어텐션(multi-head attention) 모델을 활용하여 과거 대화 내용을 반영한 발화를 생성한다. 일관성 있는 발화 생성을 위해 기존 NLI데이터셋으로 수행할 수 있는 새로운 학습모델 nMLM을 제안하고, 이 방법이 일관성 있는 발화를 만드는데 기여할 수 있는 방법에 대해 연구한다.

  • PDF

SNS 대화 분석을 통한 주제별 적합 광고 시간대 도출 (When is the best time to run SNS AD per topic?: through conversation data analysis)

  • 이지민;전예림;이지선;우지영
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제65차 동계학술대회논문집 30권1호
    • /
    • pp.335-336
    • /
    • 2022
  • 본 논문에서는 시간대와 대화 주제를 활용하여 카테고리별로 적절한 SNS 광고 시간대 예측 방법을 제시한다. 위의 분석으로 광고주들에게 적절한 광고시간을 제안할 수 있다. 연관규칙분석 알고리즘인 apriori를 사용하였다. 주제는 상거래(쇼핑), 미용과 건강, 시사/교육, 식음료, 여가생활로 추려서 분석하였다. 연관분석 결과, 미용과 건강이 18시, 17시, 16시에 가장 활발히 대화를 나누었다. 상거래(쇼핑)이 14시, 16시, 17시 순으로 가장 활발히 대화를 나누었으며, 시사/교육이 15시, 17시, 16시 순으로 많은 대화를 나누었으며, 식음료가 18시, 17시, 19시 순으로 대화를 많이 나눈 것을 확인했다. 마지막으로, 여가생활은 22시, 23시, 21시 순으로 각각의 대화 주제별로 가장 많이 대화를 나눈 시간대가 달라지는 것을 확인할 수 있었다. 이를 통해 소비자 입장에서는 알맞은 광고를 적절한 시간대에 추천받을 수 있다.

  • PDF

현실 세계를 제어하는 혼합 현실 대화 시스템 (Mixed Reality Dialog Agent for Real-World Control)

  • 김다혜;박규훤;정영섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.60-63
    • /
    • 2019
  • 사용자와 자연어 음성을 통해 상호작용하는 대화 시스템이 주목받고 있다. 음성 뿐 아니라, 화면을 통해 사용자와 상호작용하는 기능을 제공하는 대화 시스템들이 소개되고 있으며, 최근에는 혼합 현실 환경에서 대화 에이전트가 실제 공간에 존재하는 서비스가 소개되기도 하였다. 본 연구에서는 혼합 현실 환경의 대화 시스템이 현실 세계에 영향을 미칠 수 있는 시스템을 설계하였다. 제안하는 시스템은 서버가 클라이언트와 통신하여 필요 시 적절한 장치를 제어하도록 설계되었다. 본 연구 시스템의 실현가능성을 입증하기 위해 라즈베리파이를 제어할 장치로 사용하였으며, 화면에 보이는 대화 에이전트에게 음성으로 명령하여 전등, 에어컨 등을 제어하는 것이 가능함을 확인하였다.

  • PDF

Large Language Model을 통한 대화 데이터셋 자동 생성 및 검색 성능 향상 (Conversation Dataset Generation and Improve Search Performance via Large Language Model)

  • 최형준;홍범석;최원석;한영섭;전병기;나승훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.295-300
    • /
    • 2023
  • 대화 데이터와 같은 데이터는 사람이 수작업으로 작성해야 하기 때문에 데이터셋 구축에 시간과 비용이 크게 발생한다. 현재 대두되고 있는 Large Language Model은 이러한 대화 생성에서 보다 자연스러운 대화 생성이 가능하다는 이점이 존재한다. 이번 연구에서는 LLM을 통해 사람이 만든 적은 양의 데이터셋을 Fine-tuning 하여 위키백과 문서로부터 데이터셋을 만들어내고, 이를 통해 문서 검색 모델의 성능을 향상시켰다. 그 결과 학습 데이터와 같은 문서집합에서 MRR 3.7%p, 위키백과 전체에서 MRR 4.5%p의 성능 향상을 확인했다.

  • PDF

Plug and Play Language Model을 활용한 대화 모델의 독성 응답 생성 감소 (Reducing Toxic Response Generation in Conversational Models using Plug and Play Language Model)

  • 김병주;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.433-438
    • /
    • 2021
  • 대화 시스템은 크게 사용자와 시스템이 특정 목적 혹은 자유 주제에 대해 대화를 진행하는 것으로 구분된다. 최근 자유주제 대화 시스템(Open-Domain Dialogue System)에 대한 연구가 활발히 진행됨에 따라 자유 주제를 기반으로 하는 상담 대화, 일상 대화 시스템의 독성 발화 제어 생성에 대한 연구의 중요성이 더욱 커지고 있다. 이에 본 논문에서는 대화 모델의 독성 응답 생성을 제어하기 위해 일상 대화 데이터셋으로 학습된 BART 모델에 Plug-and-Play Language Model 방법을 적용한다. 공개된 독성 대화 분류 데이터셋으로 학습된 독성 응답 분류기를 PPLM의 어트리뷰트(Attribute) 모델로 활용하여 대화 모델의 독성 응답 생성을 감소시키고 그 차이를 실험을 통해 정량적으로 비교한다. 실험 결과 어트리뷰트 모델을 활용한 모든 실험에서 독성 응답 생성이 감소함을 확인하였다.

  • PDF

대화질의 기반 패션 추천시스템을 위한 데이터 전처리 방법에 관한 연구 (A study on data preprocessing method for conversational query-based fashion recommendation system)

  • 최철웅;염성웅;김경백
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.815-818
    • /
    • 2021
  • 현재 대부분의 패션 추천시스템은 프로필 또는 설문조사를 통해 수집 된 사용자의 정적 정보를 활용하고 있다. 사용자의 정적 정보는 매우 한정적이며 이를 활용하여 다양한 환경에 적합한 패션 코디셋을 추천하기란 매우 어렵다. AI코디네이터와 사용자간의 지속적인 대화가 담긴 대화질의 데이터셋을 사용하면 사용자의 상황과 환경을 고려하여 개인에게 최적화 된 패션 코디셋을 추천할 수 있다. 본 논문에서는 한국전자통신연구원(ETRI)에서 제공하는 AI 패션 코디네이터와 사용자의 대화 정보가 담긴 FASCODE 데이터셋을 사용하여 사용자의 발화에 따라 의상을 추천하는 인공지능 모델을 위한 대화질의 데이터 전처리 방법을 제안한다.

지상파 DMB 대화형 서비스 (T-DMB Interactive Service)

  • 안상우;정원식;차지훈;문경애
    • 전자통신동향분석
    • /
    • 제21권4호통권100호
    • /
    • pp.45-51
    • /
    • 2006
  • 지상파 DMB 대화형 서비스는 사용자가 휴대.이동 단말을 통하여 방송을 시청하면서 이와 동시에 관련 대화형 데이터를 수신하고, 필요에 따라 통신망과 접속하여 풍부한 부가 데이터를 수신할 수 있는 차세대 양방향 데이터 서비스이다. 지상파 DMB 대화형서비스는 개인화된 단말에서 방송과 통신이 연동.융합될 수 있는 서비스이므로, 향후 지상파 DMB의 활성화와 더불어 점차 그 수요가 증대될 것으로 기대된다. 이에 한국정보통신기술협회 산하 DMB 프로젝트그룹에서는 지상파 DMB 대화형 서비스에 대한표준 권고안이 작성중에 있으며, 2006년 하반기에는 권고안을 기반으로한 지상파DMB 대화형 방송 시범서비스가 시작될 예정이다. 본 논고에서는 지상파 DMB 서비스기술에 대하여 살펴보고, 관련 기술개발 동향 및 전망에 대하여 소개한다.

ChatGPT 를 이용한 독해 튜터링 대화 데이터 확장 (Data Augmentation of English Reading Comprehension Tutoring Dialogs using ChatGPT)

  • 권현유;최승권;황금하;권오욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.43-44
    • /
    • 2023
  • 대화형 독해 튜터링 시스템을 위한 학생주도 대화 데이터셋 생성 및 확장에 ChatGPT 의 활용 가능성을 평가하였다. 단순히 수동으로만 구축한 기존의 데이터셋과 ChatGPT 에 의해 반자동으로 확장된 데이터셋을 비교한 결과, 구축량, 소요 시간, 비용 및 반복 작업 측면에서 ChatGPT 가 가진 유용성을 알 수 있었다. 그러나, 유형별 배분의 편중과, 부적절한 데이터 생성 등의 한계도 나타났다. Chat GPT 의 빠른 발전이 예상됨에 따라 대화형 튜터링 분야에 ChatGPT 에 의한 반자동 데이터 확장 방법이 널리 활용될 것으로 기대된다.

멀티턴 대화에서 윤리적인 발화 생성을 위한 새로운 데이터 세트 (A New Dataset for Ethical Dialogue Generation in Multi-Turn Conversations)

  • 장빈;김서현;박규병
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.446-448
    • /
    • 2022
  • 별개의 분류 모델을 이용하여 비윤리 발화를 억제하려 했던 과거의 시도들과는 달리, 본 연구에서는 데이터 추가를 통한 발화 생성 단계에서의 윤리성 체화에 대해 실험하였다. 본 연구에서는 분류 모델로는 감지하기 어려운 멀티턴 비윤리 공격으로 이루어진 새로운 대화 데이터 세트를 소개하고, 해당 데이터 세트를 통해 개선된 챗봇 대화 모델의 방어 성능을 공개한다.

KOMUChat : 인공지능 학습을 위한 온라인 커뮤니티 대화 데이터셋 연구 (KOMUChat: Korean Online Community Dialogue Dataset for AI Learning)

  • 유용상;정민화;이승민;송민
    • 지능정보연구
    • /
    • 제29권2호
    • /
    • pp.219-240
    • /
    • 2023
  • 사용자가 만족감을 느끼며 상호작용할 수 있는 대화형 인공지능을 개발하기 위한 노력이 이어지고 있다. 대화형 인공지능 개발을 위해서는 사람들의 실제 대화를 반영한 학습 데이터를 구축하는 것이 필요하지만, 기존 데이터셋은 질문-답변 형식이 아니거나 존대어를 사용하여 사용자가 친근감을 느끼기 어려운 문체로 구성되어 있다. 이에 본 논문은 온라인 커뮤니티에서 수집한 30,767개의 질문-답변 문장 쌍으로 구성된 대화 데이터셋(KOMUChat)을 구축하여 제안한다. 본 데이터셋은 각각 남성, 여성이 주로 이용하는 연애상담 게시판의 게시물 제목과 첫 번째 댓글을 질문-답변으로 수집하였다. 또한, 자동 및 수동 정제 과정을 통해 혐오 데이터 등을 제거하여 양질의 데이터셋을 구축하였다. KOMUChat의 타당성을 검증하기 위해 언어 모델에 본 데이터셋과 벤치마크 데이터셋을 각각 학습시켜 비교분석하였다. 그 결과 답변의 적절성, 사용자의 만족감, 대화형 인공지능의 목적 달성 여부에서 KOMUChat이 벤치마크 데이터셋의 평가 점수를 상회했다. 본 연구는 지금까지 제시된 오픈소스 싱글턴 대화형 텍스트 데이터셋 중 가장 대규모의 데이터이며 커뮤니티 별 텍스트 특성을 반영하여 보다 친근감있는 한국어 데이터셋을 구축하였다는 의의를 가진다.