• Title/Summary/Keyword: 한국어 대화 코퍼스

Search Result 19, Processing Time 0.024 seconds

A Study on Building Korean Dialogue Corpus for Restaurant reservation and recommendation (식당예약 및 추천을 위한 한국어 대화 코퍼스 구축 연구)

  • So, Aram;Park, Kinam;Lim, HeuiSeok
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.630-632
    • /
    • 2018
  • 최근 딥러닝(Deep Learning)기반 연구가 활발해짐에 따라 딥러닝 모델 기반의 대화 시스템 연구가 활성화되고 있다. 하지만 이러한 연구는 다량의 데이터를 기반으로 이루어지기 때문에 데이터 구축 연구의 필요성이 증가하고 있다. 기존에 공개된 대화 코퍼스는 대부분 영어로 이루어져있어 한국어 대화 시스템에는 적용하기 어렵다. 본 논문에서는 한국어 대화 코퍼스 구축을 위하여 식당예약 및 추천을 위한 한국어 대화를 수집하였으며, 총 498개의 대화를 수집하였다. 대화는 식당 예약 및 추천을 위한 12개의 정보를 수집할 수 있도록 구성하였다. 또한 데이터의 활용성을 높이기 위하여 데이터 후처리 작업으로 12개의 정보를 태깅작업을 하였다.

  • PDF

Study on Method Constructing Dialog Act Tagged Corpus for Dialog System in Car (차량용 대화 시스템을 위한 Dialog Act 태깅 코퍼스 구축 방법 연구)

  • Choi, Sung-Kwon;Kwon, Oh-Woog;Kim, Young-Gil
    • Annual Conference on Human and Language Technology
    • /
    • 2012.10a
    • /
    • pp.181-184
    • /
    • 2012
  • 본 논문에서는 한국전자통신연구원 언어처리연구팀에서 개발하고 있는 차량용 대화 시스템을 위한 Dialog Act 태깅 코퍼스 구축 방법에 대해 기술하는 것을 목표로 한다. 차량용 태깅 코퍼스 구축 방법은 크게 차량용 대화 코퍼스 수집과 수집된 대화 코퍼스에 Dialog Act를 반자동으로 태깅하는 방법으로 나눌 수 있다. 차량용 대화 코퍼스 수집은 1) 대화플랜 맵 구축, 2) 표준대화 구축, 3) 자유대화 구축, 4) 사용자 발화에 패러프래징 발화 구축의 순으로 구축되었다. Dialog Act 태깅은 수집된 대화코퍼스로부터 슬롯 후보를 추출하여 슬롯 체계를 구축한 후 반자동 슬롯 태깅을 실시하고, 슬롯 태깅 결과와 Dialog Act Type을 조합하여 Dialog Act 태깅 코퍼스를 구축하였다. 이렇게 구축된 Dialog Act 태깅 코퍼스는 차량 공조시스템(에어컨, 히터 등) 및 차량 응급 조치 정보 서비스와 같은 차량용 대화 시스템에 적용 중에 있다.

  • PDF

Mitigating Hate Speech in Korean Open-domain Chatbot using CTRL (한국어 오픈 도메인 대화 모델의 CTRL을 활용한 혐오 표현 생성 완화)

  • Jwa, Seung Yeon;Cha, Young-rok;Han, Moonsu;Shin, Donghoon
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.365-370
    • /
    • 2021
  • 대형 코퍼스로 학습한 언어 모델은 코퍼스 안의 사회적 편견이나 혐오 표현까지 학습한다. 본 연구에서는 한국어 오픈 도메인 대화 모델에서 혐오 표현 생성을 완화하는 방법을 제시한다. Seq2seq 구조인 BART [1]를 기반으로 하여 컨트롤 코드을 추가해 혐오 표현 생성 조절을 수행하였다. 컨트롤 코드를 사용하지 않은 기준 모델(Baseline)과 비교한 결과, 컨트롤 코드를 추가해 학습한 모델에서 혐오 표현 생성이 완화되었고 대화 품질에도 변화가 없음을 확인하였다.

  • PDF

POMDP based Dialogue Management System for Train Reservation Service (열차 예약을 위한 POMDP 기반의 대화 관리 시스템)

  • Sung, Joo Won;Eun, Jihyun;Kim, Hyunjeong;Chang, Du-Seong
    • Annual Conference on Human and Language Technology
    • /
    • 2008.10a
    • /
    • pp.167-171
    • /
    • 2008
  • 본 연구에서는 열차 예약 영역에 통계적 대화형 인터페이스를 도입하여 보다 자연스럽고 오류에 강인한 서비스 제공의 가능성을 검토하였다. 훈련용 코퍼스를 기반으로 사용자 및 시스템 행동 유형, 상태 변이 확률을 추출하여 정책을 도출하고, 성능분석용 코퍼스 기반 사용자 모델로 그 성능을 실험하였다. 방대한 시나리오의 반영을 위해 대량의 코퍼스 수집이 필요한 예제 기반 대화 정책, 혹은 인식기에 의한 오류나 노이즈를 고려하지 않음으로써 현실의 불확실성을 자연스럽게 반영하지 못하는 MDP 대화 정책에 비해 POMDP 정책은 효율적이고 빠른 훈련 알고리즘을 지속적으로 개선시켜 나간다면 적은 노력과 비용으로 효율적이고 강인한 대화 서비스의 제공이 가능할 것으로 기대된다.

  • PDF

Statistical Korean Spoken Language Understanding System for Dialog Processing (대화처리를 위한 통계기반 한국어 음성언어이해 시스템)

  • Roh, Yoon-Hyung;Yang, Seong-II;Kim, Young-Gil
    • Annual Conference on Human and Language Technology
    • /
    • 2012.10a
    • /
    • pp.215-218
    • /
    • 2012
  • 본 논문에서는 한국어 대화 처리를 위한 통계기반 음성언어이해 시스템에 대해 기술한다. 음성언어이해시스템은 대화처리에서 음성 인식된 문장으로부터 사용자의 의도를 인식하여 의미표현으로 표현하는 기능을 담당한다. 한국어의 특성을 반영한 실용적인 음성언어이해 시스템을 위해서 강건성과 적용성, 확장성 등이 요구된다. 이를 위해 본 시스템은 음성언어의 특성상 구조분석을 하지 않고, 마이닝 기법을 이용하여 사용자 의도 표현을 생성하는 방식을 취하고 있다. 또한 한국어에서 나타나는 특징들에 대한 처리를 위해 자질 추가 및 점규화 처리 등을 수행하였다. 정보서비스용 대화처리 시스템을 대상으로 개발되고 있고, 차량 정보서비스용 학습 코퍼스를 대상으로 실험을 하여 문장단위 정확률로 약 89%의 성능을 보이고 있다.

  • PDF

Building a human rights corpus for interactive generation models (대화형 생성 모델을 위한 인권 코퍼스 구축)

  • Youngsook Song;angjin Sim;Seonghyun Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.571-576
    • /
    • 2023
  • 본 연구에서는 인권의 측면에서 AI 모델이 향상된 답변을 제시할 수 있는 방안을 모색하기 위해서 AI가 인권의 문제를 고민하는 전문가와 자신의 문제를 해결하고자 하는 사용자 사이에서 어느 정도로 도움을 줄 수 있는가를 정량적, 정성적으로 검증했다. 구체적으로는 국가인권위원회의 결정례와 상담사례를 분석한 후 이를 바탕으로 좀 더 나은 답변은 무엇인지에 대해 고찰하기 위해서 인권과 관련된 질의 응답 세트를 만든다. 질의 응답 세트는 인권 코퍼스를 학습한 모델과 그렇지 않은 모델의 생성 결과를 바탕으로 한다. 또한 생성된 질의 응답 세트를 바탕으로 설문을 실시하여 전문적인 내용을 담은 문장에 대한 선호도를 분석한다. 본 논문은 대화형 생성 모델이 인권과 관련된 주제에 대해서도 선호되는 답변을 제시할 수 있는가에 대한 하나의 대안이 될 수 있을 것이다.

  • PDF

Study on Personification of Korean open domain Dialog system: Focusing on honorific expression under changes of social variations (한국어 오픈도메인 대화 시스템의 의인화 연구: 사회적 변인에 따른 상대높임법 중심)

  • Choi, Nam-Kyu;Min, Byeong-Cheol;Cho, Woo-Ri;Min, Kyung-eun;Jeong, Han-kyeol;Uprety, Sudan Prasad
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.11a
    • /
    • pp.393-395
    • /
    • 2022
  • 실제 대화에서는 다양한 화자와 청자간의 사회적 위치와 관계 등의 사회적 변인에 따라 다양한 상대높임법이 존재한다. 제안하는 상대높임법 중심의 대화시스템 아키텍처를 설명하기에 앞서 배경지식 및 관련연구로 규칙/코퍼스 기반 대화시스템을 소개하고, 상대높임법을 포함하는 공손법처리에 대한 기존 연구들의 제약사항을 논의한다. 본 연구에서는 한국어 상대높임법을 정의 및 사회적 변인 모델링하고 이를 구현하기 위한 대화시스템 아키텍처 방안을 제안한다.

Using CNN-LSTM for Effective Application of Dialogue Context to Emotion Classification (CNN-LSTM을 이용한 대화 문맥 반영과 감정 분류)

  • Shin, Dong-Won;Lee, Yeon-Soo;Jang, Jung-Sun;Rim, Hae-Chang
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.141-146
    • /
    • 2016
  • 대화 시스템에서 사용자가 나타내는 발화에 내재된 감정을 분류하는 것은, 시스템이 적절한 응답과 서비스를 제공하는데 있어 매우 중요하다. 본 연구에서는 대화 내 감정 분류를 하는데 있어 직접적, 간접적으로 드러나는 감정 자질을 자동으로 학습하고 감정이 지속되는 대화 문맥을 효과적으로 반영하기 위해 CNN-LSTM 방식의 딥 뉴럴 네트워크 구조를 제안한다. 그리고 대량의 구어체 코퍼스를 이용한 사전 학습으로 데이터 부족 문제를 완화하였다. 실험 결과 제안하는 방법이 기존의 SVM이나, 단순한 RNN, CNN 네트워크 구조에 비해 전반전인 성능 향상을 보였고, 특히 감정이 있는 경우 더 잘 분류하는 것을 확인할 수 있었다.

  • PDF

Development of a Dialogue State Tracking System utilizing the Results of Rule and Statistics-based System and Evaluation using User Simulator (규칙 및 통계 기반 시스템의 결과를 활용하는 대화 상태 추적 시스템의 개발 및 사용자 시뮬레이터를 이용한 평가)

  • Shin, Chang-Uk;Chang, Du-Seong;Cha, Jeong-Won
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.518-523
    • /
    • 2020
  • 본 논문에서는 목적 지향 대화 시스템을 위한 대화 상태 추적 시스템과 사용자 시뮬레이터를 설계 및 제안한다. 사용자 시뮬레이터는 작성된 대화 상태 추적 시스템을 평가하기 위한 용도로 사용된다. 본 논문에서 제안하는 대화 상태 추적 시스템은 대화 기록과 함께 사전에 학습된 대화 기록 및 규칙/통계 기반 추론 시스템의 추론 결과를 입력으로 받는다. 그리고 입력된 발화 기록 중 마지막 사용자 발화의 사용자 목표와 개체명 그리고 다음 시스템 발화의 화행을 추론한다. 또한, 작성된 대화 상태 추적기의 성능을 평가하고 분석하기 위해, 주어진 환경에서 시스템과 대화를 수행하며 대화 시스템의 성능을 평가하는 사용자 시뮬레이터를 구현 및 적용하였다. 본 연구에서 수행된 실험과 분석을 통해, 규칙 및 통계 기반의 기반 시스템을 이용해 목표 시스템의 성능 개선이 가능함을 보인다. 또한, 제안하는 사용자 시뮬레이터는 규칙과 통계를 이용해 평가 코퍼스 없이 여러 상황에 대해 대화 시스템의 성능을 평가할 수 있다.

  • PDF

Memory Attention-based Breakdown Detection for Natural Conversation in Dialogue System (대화 시스템에서의 자연스러운 대화를 위한 Memory Attention기반 Breakdown Detection)

  • Lee, Seolhwa;Park, Kinam;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.31-34
    • /
    • 2018
  • 대화 시스템에서 사람과 기계와의 모든 발화에서 발생하는 상황들을 모두 규칙화할 수 없기 때문에 자연스러운 대화가 단절되는 breakdown 현상이 빈번하게 일어날 수 있다. 이런 현상이 발생하는 이유는 다음과 같다. 첫째, 대화에서는 다양한 도메인이 등장하기 때문에 시스템이 커버할 수 있는 리소스가 부족하며, 둘째, 대화 데이터에서 학습을 위한 annotation되어 있는 많은 양의 코퍼스를 보유하기에는 한계가 있으며, 모델에 모든 대화 흐름의 히스토리를 반영하기 어렵다. 이런 한계점이 존재함에도 breakdown detection은 자연스러운 대화 시스템을 위해서는 필수적인 기능이다. 본 논문은 이런 이슈들을 해소하기 위해서 memory attention기반의 새로운 모델을 제안하였다. 제안한 모델은 대화내에 발화에 대해 memory attention을 이용하여 과거 히스토리가 반영되기 때문에 자연스러운 대화흐름을 잘 detection할 수 있으며, 기존 모델과의 성능비교에서 state-of-the art 결과를 도출하였다.

  • PDF