• Title/Summary/Keyword: 대화 데이터

Search Result 584, Processing Time 0.032 seconds

Extracting User-Specific Advertising Keywords Based on Textual Data Mining from KakaoTalk (카카오톡에서의 텍스트 데이터 마이닝 기반의 사용자별 적합 광고 키워드 도출 )

  • Yerim Jeon;Dayeong So;Jimin Lee;Eunjin (Jinny) Jo;Jihoon Moon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.368-369
    • /
    • 2023
  • 대화 데이터 기반 광고 추천은 광고 마케팅에서 고객 맞춤형 광고 제공, 마케팅 효과 극대화 등을 위한 중요한 기술로 주목받고 있다. 본 논문에서는 모바일 인스턴스 메신저인 카카오톡 대화창에서 발생한 텍스트 데이터를 기반으로 대화 내용을 분석하여 대화 주제별 적절한 광고 키워드를 제안한다. 이를 위해 주제별 대화 내용을 미용, 식음료, 상거래로 세분하고 KoNLPy 의 Okt 를 이용하여 텍스트 전처리를 수행하고 키워드별로 빈도수를 뽑아 워드 클라우드를 제시한다. 또한, 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA)을 기반으로 대화 주제를 세분화한 뒤 라벨링을 통해 주제별 대화 키워드를 분석한다. 실험 결과, 대화 주제를 온라인 쇼핑, 헤어, 뷰티 관리, 음식으로 나눌 수 있었으며, 토픽별 상위 키워드를 Word2Vec 을 통해 특정 단어와 유사한 키워드를 도출하여 적절한 광고 키워드를 제시할 수 있었다.

Language Model Evaluation Based on Korean-English Empathetic Dialogue Datasets and Personality (한국어-영어 공감대화 데이터셋과 성격을 기반으로 한 언어모델 평가)

  • Young-Jun Lee;JongHwan Hyeon;DoKyong Lee;Joo-Won Sung;Ho-Jin Choi
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.312-318
    • /
    • 2023
  • 본 연구는 다양한 대규모 언어 모델들의 한국어/영어 공감 대화 생성에서 성능을 실험적으로 비교 분석하는 것과 개인의 성향과 공감 사이에서의 상관 관계를 실험적으로 분석하는 것을 목표로 한다. 이를 위해, 한국어 공감 대화 데이터셋인 KorEmpatheticDialogues 를 구축하였고, personality-aware prompting 방법을 제안한다. 실험을 통해, 총 18개의 언어 모델들 간의 공감 대화 생성 성능을 비교 분석하였고, 개인의 성향에 맞춤형 제공하는 공감이 더 상호작용을 이끌어낼 수 있다는 점을 보여준다. 코드와 데이터셋은 게재가 허용되면 공개할 예정이다.

  • PDF

Dialogue Relation Extraction using Dialogue Graph (상호참조 정보와 대화 그래프를 활용한 대화 관계추출 모델)

  • Jungwoo Lim;Junyoung Son;Jinsung Kim;Yuna Hur;Jaehyung Seo;Yoonna Jang;JeongBae Park;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.385-390
    • /
    • 2022
  • 관계추출은 문서 혹은 문장에서 자동으로 엔티티들간의 관계를 추출하는 기술로, 비정형 데이터를 정형데이터로 변환하기에 자연어 처리 중에서도 중요한 분야중 하나이다. 그 중에서도 대화 관계추출은 기존의 문장 단위의 관계추출과는 다르게 긴 길이에 비해 적은 정보의 양, 빈번하게 등장하는 지시대명사 등의 특징을 가지고 있어 주어와 목적어 사이의 관계를 예측하기에 어려움이 있었다. 본 연구에서는 이러한 어려움을 극복하기 위해 대화의 특성을 고려한 대화 그래프를 구축하고 이를 이용한 모델을 제안한다. 제안하는 모델은 상호참조 정보와 문맥정보를 더 반영한 그래프를 통해 산발적으로 퍼져있는 정보를 효율적으로 수집하고, 지시대명사로 인해 어려워진 중요 발화 파악 능력을 증진시켰다. 또한 이를 실험적으로 보이기 위하여 대화 관계추출 데이터셋에 실험해본 결과, 기존 베이스라인 보다 약 10 % 이상의 높은 F1점수를 달성하였다.

  • PDF

Hate Speech Detection in Chatbot Data Using KoELECTRA (KoELECTRA를 활용한 챗봇 데이터의 혐오 표현 탐지)

  • Shin, Mingi;Chin, Hyojin;Song, Hyeonho;Choi, Jeonghoi;Lim, Hyeonseung;Cha, Meeyoung
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.518-523
    • /
    • 2021
  • 챗봇과 같은 대화형 에이전트 사용이 증가하면서 채팅에서의 혐오 표현 사용도 더불어 증가하고 있다. 혐오 표현을 자동으로 탐지하려는 노력은 다양하게 시도되어 왔으나, 챗봇 데이터를 대상으로 한 혐오 표현 탐지 연구는 여전히 부족한 실정이다. 이 연구는 혐오 표현을 포함한 챗봇-사용자 대화 데이터 35만 개에 한국어 말뭉치로 학습된 KoELETRA 기반 혐오 탐지 모델을 적용하여, 챗봇-사람 데이터셋에서의 혐오 표현 탐지의 성능과 한계점을 검토하였다. KoELECTRA 혐오 표현 분류 모델은 챗봇 데이터셋에 대해 가중 평균 F1-score 0.66의 성능을 보였으며, 오탈자에 대한 취약성, 맥락 미반영으로 인한 편향 강화, 가용한 데이터의 정확도 문제가 주요한 한계로 포착되었다. 이 연구에서는 실험 결과에 기반해 성능 향상을 위한 방향성을 제시한다.

  • PDF

Dataset for Interactive Recommendation System (인터랙션 기반 추천 시스템 개발을 위한 데이터셋 연구)

  • Chung, Euisok;Kim, Hyun Woo;Oh, Hyo-Jung;Song, Hwa Jeon
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.481-485
    • /
    • 2020
  • AI와 사용자간의 대화를 통해 사용자의 요구사항을 파악하고, 해당 요구사항에 적합한 상품을 추천하는 형상을 인터랙션 기반 추천 시스템의 한 예로 볼 수 있다. 우리는 해당 시스템 개발을 위하여 의상 코디셋 추천을 위한 대화 기반 데이터셋을 구축하였다. 데이터셋은 대화와 의상 추천 절차를 반복하여 사용자가 원하는 의상셋을 찾아가는 내용으로 구성된다. 그리고, AI의 코디셋 추천 기술 검증을 위해 두가지 의상 추천 평가셋을 제안한다. 본 논문은 대화 데이터셋 및 관련 평가셋의 개발 절차 및 구성에 대하여 기술하고, 관련된 실험 결과 일부를 보여준다.

  • PDF

Survey on Out-Of-Domain Detection for Dialog Systems (대화시스템 미지원 도메인 검출에 관한 조사)

  • Jeong, Young-Seob;Kim, Young-Min
    • Journal of Convergence for Information Technology
    • /
    • v.9 no.9
    • /
    • pp.1-12
    • /
    • 2019
  • A dialog system becomes a new way of communication between human and computer. The dialog system takes human voice as an input, and gives a proper response in voice or perform an action. Although there are several well-known products of dialog system (e.g., Amazon Echo, Naver Wave), they commonly suffer from a problem of out-of-domain utterances. If it poorly detects out-of-domain utterances, then it will significantly harm the user satisfactory. There have been some studies aimed at solving this problem, but it is still necessary to study about this intensively. In this paper, we give an overview of the previous studies of out-of-domain detection in terms of three point of view: dataset, feature, and method. As there were relatively smaller studies of this topic due to the lack of datasets, we believe that the most important next research step is to construct and share a large dataset for dialog system, and thereafter try state-of-the-art techniques upon the dataset.

A Study on Conversational AI Agent based on Continual Learning

  • Chae-Lim, Park;So-Yeop, Yoo;Ok-Ran, Jeong
    • Journal of the Korea Society of Computer and Information
    • /
    • v.28 no.1
    • /
    • pp.27-38
    • /
    • 2023
  • In this paper, we propose a conversational AI agent based on continual learning that can continuously learn and grow with new data over time. A continual learning-based conversational AI agent consists of three main components: Task manager, User attribute extraction, and Auto-growing knowledge graph. When a task manager finds new data during a conversation with a user, it creates a new task with previously learned knowledge. The user attribute extraction model extracts the user's characteristics from the new task, and the auto-growing knowledge graph continuously learns the new external knowledge. Unlike the existing conversational AI agents that learned based on a limited dataset, our proposed method enables conversations based on continuous user attribute learning and knowledge learning. A conversational AI agent with continual learning technology can respond personally as conversations with users accumulate. And it can respond to new knowledge continuously. This paper validate the possibility of our proposed method through experiments on performance changes in dialogue generation models over time.

Dynamic Capacity Allocation Scheme for Interactive GEO Satellite Networks (대화형 GEO 위성 네트워크를 위한 동적 용량 할당 체계)

  • Jang Geun-Nyeong
    • Proceedings of the Korean Operations and Management Science Society Conference
    • /
    • 2006.05a
    • /
    • pp.1042-1047
    • /
    • 2006
  • 본 논문에서는 대화형 GEO 위성 네트워크의 데이터 손실량과 데이터 지연량을 최소화하기 위한 리턴 링크 용량 할당 체계를 제시한다. 데이터의 지연 특성에 따라 구분되는 각 데이터 유형별로 데이터 손실량 기대값과 데이터 지연량 기대값을 분석하고, 데이터 손실량 기대값과 데이터 지연량 기대값의 가중합을 최소화하는 리턴 링크 용량 할당 모형을 제시한다. 또한, 제시한 모형을 빠른 시간 내에 해결할 수 있는 라그랑지안 이완 기법을 이용한 동적 용량 할당 체계를 제시한다.

  • PDF

An Implementation of Interactive 3D Audio Broadcasting Terminal (대화형 3차원 오디오 방송단말 구현)

  • Park Gi Yoon;Lee Taejin;Kang Kyeongok
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2004.11a
    • /
    • pp.211-214
    • /
    • 2004
  • 본 논문에서는 사용자의 입력에 따라 3차원 오디오 장면을 재구성하여 전달할 수 있는 대화형 오디오 방송단말의 구현 예를 제시한다. MPEG-4 AudioBIFS 규격에 따라 계층적으로 표현한 오디오 장면의 속성을 사용자의 입력에 따라 갱신하고, 주어진 속성을 참조하여 오디오 데이터를 3차원 공간상에 재합성하는 방식을 취한다 속성을 갱신하는 모듈은 MPEG-4 Audio 프로파일을 지원하게 하되 AudioBIFS 노드 유형에 따른 사용자 인터페이스를 미리 정의하여 단말 측에 저장해 두고 이용함으로써 대화형 방송 서비스를 구현했다. 3차원 오디오 데이터를 재생하는 기능은 사용자의 입력에 대한 피드백을 풍부하게 하여 대화형 방송의 효과를 극대화하고, 사실감을 제고하는 데 중요한 역할을 담당한다. 요소기술로 음상의 위치, 지향성, 모양, 잔향특성 등을 구현하기 위한 3차원 오디오 기술에 대해 소개한다. 또한 대화형 3차원 오디오 방송단말을 이용한 서비스의 예로 대화형 합주 및 합창 프로그램을 소개한다.

  • PDF

Data Management System for FTTH-based Interactive Broadcasting (FTTH 기반의 양방향 통신을 위한 데이터 관리 시스템)

  • Park, June;Na, Cheol-Soo;Kim, Dae-In;Hwang, Bu-Hyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.11a
    • /
    • pp.258-261
    • /
    • 2007
  • 디지털 콘텐츠 방송 서비스와 멀티미디어 통신을 위한 기반 기술의 발전은 고품질의 대화형 멀티미디어 방송 서비스를 등장시켰다. 대화형 멀티미디어통신을 이용한 양방향 디지털 방송의 중요한 요소 중에 하나는 방송제공자와 시청자와의 데이터 상호 운용성이다. 본 논문에서는 FTTH기반 고품질 대화형 멀티미디어 통신의 데이터 상호 운용성에 적합한 데이터 관리 시스템(DaMaFIB)을 제안한다. 본 시스템은 XML을 이용하여 방송 데이터의 메타데이터를 관리하고, 대용량 멀티미디어 데이터의 효율적인 관리를 위하여 2분할 군집영역 추출기법을 이용하였다.