• 제목/요약/키워드: 개인화 대화생성

검색결과 14건 처리시간 0.023초

과거 상담대화를 활용한 개인화 대화생성을 위한 프롬프트 기반 데이터 증강 (Prompt-based Data Augmentation for Generating Personalized Conversation Using Past Counseling Dialogues)

  • 임채균;이혜우;오경진;성주원;최호진
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.209-213
    • /
    • 2023
  • 최근 자연어 이해 분야에서 대규모 언어모델 기반으로 프롬프트를 활용하여 모델과 상호작용하는 방법이 널리 연구되고 있으며, 특히 상담 분야에서 언어모델을 활용한다면 내담자와의 자연스러운 대화를 주도할 수 있는 대화생성 모델로 확장이 가능하다. 내담자의 상황에 따라 개인화된 상담대화를 진행하는 모델을 학습시키려면 동일한 내담자에 대한 과거 및 차기 상담대화가 필요하지만, 기존의 데이터셋은 대체로 단일 대화세션으로 구축되어 있다. 본 논문에서는 언어모델을 활용하여 단일 대화세션으로 구축된 기존 상담대화 데이터셋을 확장하여 연속된 대화세션 구성의 학습데이터를 확보할 수 있는 프롬프트 기반 데이터 증강 기법을 제안한다. 제안 기법은 기존 대화내용을 반영한 요약질문 생성단계와 대화맥락을 유지한 차기 상담대화 생성 단계로 구성되며, 프롬프트 엔지니어링을 통해 상담 분야의 데이터셋을 확장하고 사용자 평가를 통해 제안 기법의 데이터 증강이 품질에 미치는 영향을 확인한다.

  • PDF

한글 입술 움직임과 얼굴 표정이 동기화된 3차원 개인 아바타 대화방 시스템 (Supporting the Korean Lip Synchronization and Facial Expression)

  • 이정;오범수;정원기;김창헌
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.640-642
    • /
    • 2000
  • 대화방 시스템은 텍스트화 화상을 이용한 대화방 또는 메시지 전달시스템이 널리 사용되고 있다. 본 논문은 3차원 아바타가 등장하는 대화방 시스템을 생성 및 관리하는 기술을 제안한다. 본 아바타 대화방의 특징은 사진을 가지고 간단히 3차원 개인 아바타로 변환 생성하는 기술, 3차원 개인 아바타의 한글 발음에 적합한 입술 움직임, 메시지에 따른 적절한 표정변화 등이다. 특히, 3차원 개인 아바타는 사진만으로 생성이 가능하며, 텍스쳐 매핑된 3차원 아바타는 실시간으로 사실감있는 대화방 서비스가 가능하도록 제어된다.

  • PDF

개인정보 특화 개체명 주석 대화 데이터셋 기반 생성AI 활용 개체명 탐지 (Named Entity Detection Using Generative Al for Personal Information-Specific Named Entity Annotation Conversation Dataset)

  • 강예지;비립;장연지;박서윤;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.499-504
    • /
    • 2023
  • 본 연구에서는 민감한 개인정보의 유출과 남용 위험이 높아지고 있는 상황에서 정확한 개인정보 탐지 및 비식별화의 효율을 높이기 위해 개인정보 항목에 특화된 개체명 체계를 개발하였다. 개인정보 태그셋이 주석된 대화 데이터 4,981세트를 구축하고, 생성 AI 모델을 활용하여 개인정보 개체명 탐지 실험을 수행하였다. 실험을 위해 최적의 프롬프트를 설계하여 퓨샷러닝(few-shot learning)을 통해 탐지 결과를 평가하였다. 구축한 데이터셋과 영어 기반의 개인정보 주석 데이터셋을 비교 분석한 결과 고유식별번호 항목에 대해 본 연구에서 구축한 데이터셋에서 더 높은 탐지 성능이 나타났으며, 이를 통해 데이터셋의 필요성과 우수성을 입증하였다.

  • PDF

언어 모델 기반 페르소나 대화 모델 (Personalized Chit-chat Based on Language Models)

  • 장윤나;오동석;임정우;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.491-494
    • /
    • 2020
  • 최근 언어 모델(Language model)의 기술이 발전함에 따라, 자연어처리 분야의 많은 연구들이 좋은 성능을 내고 있다. 정해진 주제 없이 인간과 잡담을 나눌 수 있는 오픈 도메인 대화 시스템(Open-domain dialogue system) 분야에서 역시 이전보다 더 자연스러운 발화를 생성할 수 있게 되었다. 언어 모델의 발전은 응답 선택(Response selection) 분야에서도 모델이 맥락에 알맞은 답변을 선택하도록 하는 데 기여를 했다. 하지만, 대화 모델이 답변을 생성할 때 일관성 없는 답변을 만들거나, 구체적이지 않고 일반적인 답변만을 하는 문제가 대두되었다. 이를 해결하기 위하여 화자의 개인화된 정보에 기반한 대화인 페르소나(Persona) 대화 데이터 및 태스크가 연구되고 있다. 페르소나 대화 태스크에서는 화자마다 주어진 페르소나가 있고, 대화를 할 때 주어진 페르소나와 일관성이 있는 답변을 선택하거나 생성해야 한다. 이에 우리는 대용량의 코퍼스(Corpus)에 사전 학습(Pre-trained) 된 언어 모델을 활용하여 더 적절한 답변을 선택하는 페르소나 대화 시스템에 대하여 논의한다. 언어 모델 중 자기 회귀(Auto-regressive) 방식으로 모델링을 하는 GPT-2, DialoGPT와 오토인코더(Auto-encoder)를 이용한 BERT, 두 모델이 결합되어 있는 구조인 BART가 실험에 활용되었다. 이와 같이 본 논문에서는 여러 종류의 언어 모델을 페르소나 대화 태스크에 대해 비교 실험을 진행했고, 그 결과 Hits@1 점수에서 BERT가 가장 우수한 성능을 보이는 것을 확인할 수 있었다.

  • PDF

Pseudo Labeling을 통한 한국어 대화 추론 데이터셋 구축 (Constructing Korean Dialogue Natural Inference Dataset through Pseudo Labeling)

  • 이영준;;최윤수;임지희;최호진
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.205-209
    • /
    • 2022
  • 페르소나 대화 시스템이 상대방의 개인화된 정보에 일관된 응답을 생성하는 것은 상당히 중요하며, 이를 해결하기 위해 최근에 많은 연구들이 활발히 이루어지고 있다. 그 중, PersonaChat 데이터셋에 대해 수반/중립/모순 관계를 라벨링한 DialoguNLI 데이터셋이 제안되었으며, 일관성 측정, 페르소나 속성 추론 태스크 등 여러 분야에 활용되고 있다. 그러나, 공개적으로 이용가능한 한국어로 된 대화 추론 데이터셋은 없다. 본 연구에서는 한국어로 번역된 페르소나 대화 데이터셋과 한국어 자연어 추론 데이터셋에 학습된 모델을 이용하여 한국어 대화 추론 데이터셋(KorDialogueNLI)를 구축한다. 또한, 사전학습된 언어모델을 학습하여 한국어 대화 추론 모델 베이스라인도 구축한다. 실험을 통해 정확도 및 F1 점수 평가 지표에서 KLUE-RoBERTa 모델을 미세조정(fine-tuning)시킨 모델이 가장 높은 성능을 달성하였다. 코드 및 데이터셋은 https://github.com/passing2961/KorDialogueNLI에 공개한다.

  • PDF

인공지능 튜터링 시스템을 위한 대화 기반 교육 데이터 구축 및 품질 평가 (Building and quality assessing conversation-based training data for artificial intelligence tutoring systems)

  • 전예림;황금하;최승권;조민수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.430-431
    • /
    • 2023
  • 교육 분야에서는 각 학생의 특성과 요구에 부응하는 개인화 교육의 중요성이 증가하고 있다. 이에 따라 인공지능 기반의 튜터링 시스템, 특히 대화 기반의 튜터링이 주목받고 있다. 본 연구는 GPT-3.5-turbo 를 사용하여 데이터를 생성하는 과정에서 프롬프트 설계의 중요성과 인간의 감수 과정의 필요성을 확인했다. 또한, 자동 평가 방법을 제안하여 데이터의 품질과 유용성을 평가하였다.

TV-Anytime을 이용한 멀티에이전트 기반의 개인화된 TV 프로그램 서비스 시스템 개발 (Development of Multi-agent based Personalized-TV Program Service System using TV-Anytime)

  • 하경휘;김건희;최진우;하성도
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2006년도 학술대회 1부
    • /
    • pp.333-338
    • /
    • 2006
  • 최근 사용자에 대한 많은 정보를 얻는 것이 가능해지면서, 데이터마이닝 기법이나 Contents 추천 기법을 이용한 맞춤형 서비스가 가능하게 되었다. 특히, 대부분의 사람들에게 TV 프로그램 시청은 여가생활시간에서 가장 높은 비중을 차지 하고 있다. 따라서, 보다 지능적인 TV 프로그램 서비스를 제공하는 기술에 대하여 관심이 고조되고 있다. 본 논문에서는 TV-Anytime을 이용하여 개인화된 Electronic Program Guide (EPG)를 생성하고, 개인화된 EPG 정보를 활용하여 시청자에게 맞춤형 TV 프로그램 서비스를 제공하는 시스템에 대한 연구 결과를 제시한다. 또한 시청자의 시청패턴과 TV 프로그램 선호도를 바탕으로 시청자가 원하는 프로그램을 추천하는 TV Program Recommender Agent와 방송 및 TV 프로그램에 대한 대화를 담당하는 TV Program Helper Agent, 시스템 조정 및 메시지 전달을 담당하는 Coordinator Agent로 이루어진 멀티에이전트 기반 시스템 구조를 제시한다.

  • PDF

인스턴트 메신저 말랑말랑 톡카페 애플리케이션 데이터베이스 복호화 방안 및 분석 (Study on The Decryption Method and Analysis of MalangMalang Talkcafe Application Database)

  • 김기윤;이종혁;신수민;김종성
    • 정보보호학회논문지
    • /
    • 제29권3호
    • /
    • pp.541-547
    • /
    • 2019
  • 개인 정보 유출 사례가 빈번해짐에 따라 개인정보보호에 대한 관심이 증가하고 있다. 이러한 이유로 개인 정보를 수집해야 하는 대다수 애플리케이션은 민감한 정보를 암호화하여 저장하는 방식을 취하고 있다. 특히 사용자의 흔적이 가장 많이 기록되는 인스턴트 메신저는 대화 내용 등을 암호화하지 않는 경우를 찾는 것이 더 어렵다. 하지만 개인 정보 암호화는 디지털 포렌식 수사 관점에서 안티 포렌식에 해당하므로, 이를 증거로 활용하기 위해서 메신저 애플리케이션 데이터 복호화 연구는 선행되어야 한다. 본 논문에서는 인스턴트 메신저인 말랑말랑 톡카페 애플리케이션의 데이터베이스 암호화 과정을 분석하여 암호화 키 생성 과정에 존재하는 취약점을 밝혀낸다. 이는 암호화된 데이터베이스를 복호화해내는데 치명적으로 작용하여, 이를 토대로 실제 사용 가능한 복호화 방안을 제시한다. 또한, 복호화를 통해 얻은 데이터베이스에서 포렌식적으로 의미 있는 데이터를 분류한다.

지능형방송 부가콘텐츠 제어정보 편집기 개발 (Development of Editing Tool of Additional Contents Control Information for the Intelligent Broadcasting)

  • 김현철;정원식;김규헌
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2003년도 정기총회 및 학술대회
    • /
    • pp.79-82
    • /
    • 2003
  • 방송용 콘텐츠가 디지털화되면서 고품질의 서비스가 가능해 졌으며, 통신망과의 융합을 통해 다양한 서비스가 가능해 질 것으로 전망된다. 또한, 시청자의 요구가 단순 시청에서 개인의 요구에 따른 방송을 시청하고 방송에 직접 참여할 수 있는 정보 선택 및 정보 맞춤형 서비스로 발전하고 있다. 이러한 시청자의 요구에 부합하기 위해 다양한 부가콘텐츠의 서비스 기술이 개발되고 있으며, 본 논문에서는 MPEG-4에 기반을 둔 객체기반 대화형 콘텐츠와 M[PEG-7에 기반한 메타데이터. MPEG-2 IPMP 데이터 등의 다양한 부가콘텐츠를 지능형방송 전송서버에서 효율적으로 사용할 수 있도록 제어정보를 생성하고, 부가콘텐츠들의 시공간적인 편집 기능을 수행하는 지능형방송 부가콘텐츠 제어정보 편집기를 설계하고 이의 구현결과를 보인다.

  • PDF

DOM update를 이용한 효율적인 멀티미디어 장면 구성 정보 변경 방안 (Effective Method to Change Multimedia Scene Configuration Information Using DOM Update)

  • 김규헌;박정욱;김병철
    • 방송공학회논문지
    • /
    • 제18권1호
    • /
    • pp.43-58
    • /
    • 2013
  • 리치미디어 서비스는 비디오, 오디오, 텍스트와 같은 다수의 멀티미디어 요소들을 동시에 소비할 수 있으며 시청자의 요구사항을 수용하여 개인화된 데이터에 대한 이용이 가능한 대화형 미디어 서비스를 뜻한다. MPEG(Moving Picture Expert Group)에서는 BIFS(Binary Format for Scenes)와 LASeR(Light Application Scene Representation)를 제정함으로써 리치미디어 서비스를 위한 방안을 제시하였다. 상기 두 표준은 다수의 미디어 콘텐츠간의 시간적, 공간적 배치에 대한 정보와 콘텐츠 간 상호작용을 기술한 장면 구성 정보를 이용함으로써 리치미디어 서비스를 가능하게 하였다. 그러나 기존의 리치미디어 서비스에서는 사용자 및 서비스에 의해서 장면 구성 정보가 변경될 때마다 매번 단말이 가진 기존의 장면 구성 정보를 삭제하고 새로운 장면 구성 정보를 생성 및 분석해야하는 비효율적인 방법으로 장면 전환이 이루어진다. 따라서 본 논문에서는 DOM(Document Object Model) update라는 웹문서 데이터 인터페이스 규격을 사용하여 보다 효율적이고 동적인 장면 구성 변경 방안을 제시하여 장면 전환의 시간적 단축 효과와 장면전환에 따른 화면의 정지 등의 불연속성을 제거하는 효과를 검증하였다.