• Title/Summary/Keyword: 한국어대화

Search Result 317, Processing Time 0.029 seconds

A Study of Korean Subdialogues and Discourse Markers (한국어 대화체의 부 대화 유형 및 담화표지에 관한 연구)

  • Lee, Hyon-Ho;Lim, Hye-Won;Kim, Young-Mi;Yang, Young-Ha
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.477-492
    • /
    • 1997
  • 본 연구에서는 한국어 대화체에 사용되는 담화표지와 부 대화의 유형을 분석하였다. 한국어 대화체에 사용되는 각종 담화표지에 대한 기존의 언어학적 연구를 정리하였고, 실제 한국어 대화자료를 녹취, 전사하여 연구에 필요한 데이터를 만들었으며, 이 데이터를 분석하여 한국어 대화체에서 관찰되는 부 대화의 유형을 분류하고자 하였다. 또한 각 부 대화와 담화표지들간의 관계를 규명하려는 시도를 하였다. 이것은 인간과 컴퓨터간의 특정 목적 대화를 구현하는 데도 중요한 역할을 한다. 특히 인간과 컴퓨터가 예약, 상담 등 특정 목적을 달성하기 위한 대화를 수행할 수 있는 프로그램을 구축하는 데 있어서, 인간이 실제로 사용하는 담화표지 및 의사소동 책략 등을 반영할 수 있게 해줄 것이다. 담화분석 연구자들이 실제 대화 자료를 분석하여 한국어 대화체의 기저에 흐르는 대화의 메카니즘을 다방면에서 종합적으로 정리하면 그 결과를 토대로 전산학 연구자들이 한층 바람직한 한국어 대화인지 모형을 만들어낼 수 있을 것으로 기대된다.

  • PDF

Processing of Dialogue and Construction of Its Representation Structure: the Case of Korean Dialogue (대화의 처리와 표상구조의 구축: 한국어대화의 경우)

  • Lee, Dong-Young
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.04a
    • /
    • pp.523-526
    • /
    • 2002
  • 본 논문은 한국어대화에는 주어나 목적어와 같은 구성요소의 빈번한 생략, 존대현상, 존대대명사의 사용 등의 특이한 현상이 나타나는 것을 지적하고, 이러한 한국어대화를 처리하기 위해서는 대화참석자에 관한 정보, 발화문의 화행에 관한 정보, 대화에 관련된 사람들의 사회적 지위에 있어서의 상대적 순위에 관한 정보 등의 상황정보와 정보의 흐름을 이용해야만 한다고 주장한다. 또한, 본 논문은 이러한 상황정보를 전산적으로 어떻게 표기해서 입력하고 한국어대화의 표상구조를 어떠한 형태로 구축하는 것이 타당한지도 자세히 보여 준다.

  • PDF

Representation Structure of Korean Dialogue (한국어 대화의 표상구조)

  • 이동영
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.496-498
    • /
    • 2002
  • 한국어 대화에서는 상황에 따라 주어나 목적어가 대화 속의 발화문에서 완전히 생략되기도 하고, 존대현상이 일어나기도 하고, 존대대명사가 사용되기도 한다 본 논문은 이러한 특징적인 언어현상이 일어나는 한국어 대화를 처리하고 그것의 표상구조를 만들기 위해서는 대화참석자에 관한 정보, 발화문의 화형에 관한 정보, 대화에 관련된 사람들의 사회적 지위에 있어서의 상대적 순위에 관한 정보, 대화에 나타나는 발화문 사이의 정보흐름에 관한 정보 등을 명시적으로 표시하고 이용하여야 한다고 주장하며, 또한 이러한 상황정보를 한국어대화표상구조에 구현하는 방법을 제안한다. 본 논문에서 한국어대화표상구조의 구축은 담화표상이론(Discourse Representation Theory)과 분할담화표상이론(Segmented Discourse Representation Theory)을 수정, 확대하여 이루어진다.

  • PDF

Computational Processing of Korean Dialogue and the Construction of Its Representation Structure Based on Situational Information (상황정보에 기반한 한국어대화의 전산적 처리와 표상구조의 구축)

  • Lee, Dong-Young
    • The KIPS Transactions:PartB
    • /
    • v.9B no.6
    • /
    • pp.817-826
    • /
    • 2002
  • In Korean dialogue honorification phenomenon may occur, an honorific pronoun may be used, and a subject or an object may be completely omitted when it can be recovered based on context. This paper proposes that in order to process Korean dialogue in which such distinct linguistic phenomena occur and to construct its representation structure we mark and use the following information explicitly, not implicitly : information about dialogue participants, information about the speech act of an utterance, information about the relative order of social status for the people involved in dialogue, and information flow among utterances of dialogue. In addition, this paper presents a method of marking and using such situational information and an appropriate representation structure of Korean dialogue. In this paper we set up Korean dialogue representation structure by modifying and extending DRT (Discourse Representation Theory) and SDRT (Segmented Discourse Representation Theory). Futhermore, this paper shows how to process Korean dialogue computationally and construct its representation structure by using Prolog programming language, and then applies such representation structure to spontaneous Korean dialogue to know its validity.

OK-KGD:Open-domain Korean Knowledge Grounded Dialogue Dataset (OK-KGD:오픈 도메인 한국어 지식 기반 대화 데이터셋 구축)

  • Seona Moon;San Kim;Jinyea Jang;Minyoung Jeung;Saim Shin
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.342-345
    • /
    • 2023
  • 최근 자연어처리 연구 중 오픈 도메인 지식 기반 대화는 많은 관심을 받고 있다. 연구를 위해서는 오픈 도메인 환경을 갖추고 적절한 지식을 사용한 대화 데이터셋이 필요하다. 지금까지 오픈 도메인 환경을 갖춘 한국어 지식 기반 대화 데이터셋은 존재하지 않아 한국어가 아닌 데이터셋을 한국어로 기계번역하여 연구에 사용하였다. 이를 사용할 경우 두 가지 단점이 존재한다. 먼저 사용된 지식이 한국 문화에 익숙하지 않아 한국인이 쉽게 알 수 없는 대화 내용이 담겨있다. 그리고 번역체가 남아있어 대화가 자연스럽지 않다. 그래서 본 논문에서는 자연스러운 대화체와 대화 내용을 담기 위해 새로운 오픈 도메인 한국어 지식 기반 대화 데이터셋을 구축하였다. 오픈 도메인 환경 구축을 위해 위키백과와 나무위키의 지식을 사용하였고 사용자와 시스템의 발화로 이루어진 1,773개의 대화 세트를 구축하였다. 시스템 발화는 크게 지식을 사용한 발화, 사용자 질문에 대한 답을 주지 못한 발화, 그리고 지식이 포함되지 않은 발화 3가지로 구성된다. 이렇게 구축한 데이터셋을 통해 KE-T5와 Long-KE-T5를 사용하여 간단한 실험을 진행하였다.

  • PDF

A Study on Building Korean Dialogue Corpus for Restaurant reservation and recommendation (식당예약 및 추천을 위한 한국어 대화 코퍼스 구축 연구)

  • So, Aram;Park, Kinam;Lim, HeuiSeok
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.630-632
    • /
    • 2018
  • 최근 딥러닝(Deep Learning)기반 연구가 활발해짐에 따라 딥러닝 모델 기반의 대화 시스템 연구가 활성화되고 있다. 하지만 이러한 연구는 다량의 데이터를 기반으로 이루어지기 때문에 데이터 구축 연구의 필요성이 증가하고 있다. 기존에 공개된 대화 코퍼스는 대부분 영어로 이루어져있어 한국어 대화 시스템에는 적용하기 어렵다. 본 논문에서는 한국어 대화 코퍼스 구축을 위하여 식당예약 및 추천을 위한 한국어 대화를 수집하였으며, 총 498개의 대화를 수집하였다. 대화는 식당 예약 및 추천을 위한 12개의 정보를 수집할 수 있도록 구성하였다. 또한 데이터의 활용성을 높이기 위하여 데이터 후처리 작업으로 12개의 정보를 태깅작업을 하였다.

  • PDF

Constructing Korean Dialogue Natural Inference Dataset through Pseudo Labeling (Pseudo Labeling을 통한 한국어 대화 추론 데이터셋 구축)

  • Young-Jun Lee;Chae-Gyun Lim;Yunsu Choi;Ji-Hui Lm;Ho-Jin Choi
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.205-209
    • /
    • 2022
  • 페르소나 대화 시스템이 상대방의 개인화된 정보에 일관된 응답을 생성하는 것은 상당히 중요하며, 이를 해결하기 위해 최근에 많은 연구들이 활발히 이루어지고 있다. 그 중, PersonaChat 데이터셋에 대해 수반/중립/모순 관계를 라벨링한 DialoguNLI 데이터셋이 제안되었으며, 일관성 측정, 페르소나 속성 추론 태스크 등 여러 분야에 활용되고 있다. 그러나, 공개적으로 이용가능한 한국어로 된 대화 추론 데이터셋은 없다. 본 연구에서는 한국어로 번역된 페르소나 대화 데이터셋과 한국어 자연어 추론 데이터셋에 학습된 모델을 이용하여 한국어 대화 추론 데이터셋(KorDialogueNLI)를 구축한다. 또한, 사전학습된 언어모델을 학습하여 한국어 대화 추론 모델 베이스라인도 구축한다. 실험을 통해 정확도 및 F1 점수 평가 지표에서 KLUE-RoBERTa 모델을 미세조정(fine-tuning)시킨 모델이 가장 높은 성능을 달성하였다. 코드 및 데이터셋은 https://github.com/passing2961/KorDialogueNLI에 공개한다.

  • PDF

Persona-based Korean Conversational Model (페르소나 기반 한국어 대화 모델)

  • Jang, Yoonna;Lim, Jungwoo;Hur, Yuna;Yang, Kisu;Park, Chanjun;Seo, Jaehyung;Lee, Seungjun;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.453-456
    • /
    • 2021
  • 대화형 에이전트가 일관성 없는 답변, 재미 없는 답변을 하는 문제를 해결하기 위하여 최근 페르소나 기반의 대화 분야의 연구가 활발히 진행되고 있다. 그러나 한국어로 구축된 페르소나 대화 데이터는 아직 구축되지 않은 상황이다. 이에 본 연구에서는 영어 원본 데이터에서 한국어로 번역된 데이터를 활용하여 최초의 페르소나 기반 한국어 대화 모델을 제안한다. 전처리를 통하여 번역 품질을 향상시킨 데이터에 사전 학습 된 한국어 모델인 KoBERT와 KoELECTRA를 미세조정(fine-tuning) 시킴으로써 모델에게 주어진 페르소나와 대화 맥락을 고려하여 올바른 답변을 선택하는 모델을 학습한다. 실험 결과 KoELECTRA-base 모델이 가장 높은 성능을 보이는 것을 확인하였으며, 단순하게 사용자의 발화만을 주는 것 보다 이전 대화 이력이 추가적으로 주어졌을 때 더 좋은 성능을 보이는 것을 확인할 수 있었다.

  • PDF

Korean Generation-based Dialogue State Tracking using Korean Token-Free Pre-trained Language Model KeByT5 (한국어 토큰-프리 사전학습 언어모델 KeByT5를 이용한 한국어 생성 기반 대화 상태 추적)

  • Kiyoung Lee;Jonghun Shin;Soojong Lim;Ohwoog Kwon
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.644-647
    • /
    • 2023
  • 대화 시스템에서 대화 상태 추적은 사용자와의 대화를 진행하면서 사용자의 의도를 파악하여 시스템 응답을 결정하는데 있어서 중요한 역할을 수행한다. 특히 목적지향(task-oriented) 대화에서 사용자 목표(goal)를 만족시키기 위해서 대화 상태 추적은 필수적이다. 최근 다양한 자연어처리 다운스트림 태스크들이 사전학습 언어모델을 백본 네트워크로 사용하고 그 위에서 해당 도메인 태스크를 미세조정하는 방식으로 좋은 성능을 내고 있다. 본 논문에서는 한국어 토큰-프리(token-free) 사전학습 언어모델인 KeByT5B 사용하고 종단형(end-to-end) seq2seq 방식으로 미세조정을 수행한 한국어 생성 기반 대화 상태 추적 모델을 소개하고 관련하여 수행한 실험 결과를 설명한다.

  • PDF

Development of Korean Dialogue Dataset for Restaurant Reservation System (식당 예약 대화 시스템 개발을 위한 한국어 데이터셋 구축)

  • Kim, GyeongMin;Lee, DongYub;Hur, YunA;Lim, HeuiSeok
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.267-269
    • /
    • 2017
  • 대화 시스템(dialogue system)은 사용자의 언어를 이해하고 그 의도를 분석하여 사용자가 원하는 목적을 달성할 수 있게 도와주는 시스템이다. 인간과 비슷한 수준의 대화를 위해서는 대량의 데이터가 필요하며 데이터의 양질에 따라 그 결과가 달라진다. 최근 페이스북에서 End-to-end learning 방식을 기반으로 한 영어로 구성된 식당 예약 학습 대화 데이터셋(The 6 dialog bAbI tasks)을 구축하여 해당 모델에 적용한 연구가 있다. 대화 시스템에서 활용 가능한 연구가 활발히 진행되고 있지만 영어 기반의 데이터와는 다르게 식당 예약 시스템에서 다른 연구자들의 연구 목적으로 공유한 한국어 데이터셋은 아직까지도 미흡하다. 본 논문에서는 페이스북에서 구축한 영어로 구성된 식당 예약 학습 대화 데이터셋을 이용하여 한국어 기반의 식당 예약 대화 시스템에서 활용 가능한 한국어 데이터셋을 구축하고, 일상생활에서 발생 가능한 발화(utterance)에 따른 형태 변화를 통해 한국어 식당 예약 시스템 데이터셋 구축 방법을 제안한다.

  • PDF