• Title/Summary/Keyword: 한국어대화

Search Result 319, Processing Time 0.021 seconds

A Similarity-based Dialogue Modeling with Case Frame and Word Embedding (격틀과 워드 임베딩을 활용한 유사도 기반 대화 모델링)

  • Lee, Hokyung;Bae, Kyoungman;Ko, Youngjoong
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.220-225
    • /
    • 2016
  • 본 논문에서는 격틀과 워드 임베딩을 활용한 유사도 기반 대화 모델링을 제안한다. 기존의 유사도 기반 대화 모델링 방법은 형태소, 형태소 표지, 개체명, 토픽 자질, 핵심단어 등을 대화 말뭉치에서 추출하여 BOW(Bag Of Words) 자질로 사용하였기 때문에 입력된 사용자 발화에 포함된 단어들의 주어, 목적어와 같은 문장성분들의 위치적 역할을 반영할 수 가 없다. 또한, 의미적으로 유사하지만 다른 형태소를 가지는 문장 성분들의 경우 유사도 계산에 반영되지 않는 형태소 불일치 문제가 존재한다. 이러한 문제점을 해결하기 위해서, 위치적 정보를 반영하기 위한 문장성분 기반의 격틀과 형태소 불일치 문제를 해결하기 위한 워드 임베딩을 활용하여 개선된 유사도 기반 대화 모델링을 제안한다. 개선된 유사도 기반 대화 모델링은 MRR 성능 약 92%의 성능을 나타낸다.

  • PDF

Korean Restaurant Reservation System Model Using Hybrid Code Network (Hybrid Code Network를 이용한 한국어 식당 예약 시스템 모델)

  • Lee, Dong-Yub;Hur, Yun-A;Lim, Heui-Seok
    • Proceedings of The KACE
    • /
    • 2017.08a
    • /
    • pp.57-59
    • /
    • 2017
  • 대화 시스템(dialogue system)은 텍스트나 음성을 통해 다양한 분야에서 특정한 목적을 수행할 수 있는 시스템이다. 대화 시스템을 구현하기 위한 방법으로 인공 신경망(neural network)을 기반으로한 end-to-end learning 방식이 제안되었다. End-to-end learning 방식을 이용한 식당 예약 시스템 모델의 학습을 위해 페이스북은 영어로 이루어진 식당 예약에 관련된 학습 대화 데이터셋(The 6 dialog bAbI tasks)을 구축하였다. 하지만 end-to-end learning 방식의 학습은 많은 학습 데이터가 필요하다는 단점이 존재하는데, 액션 템플릿(action template)의 정의를 통해 도메인 지식을 표현함으로써 일반적인 end-to-end learning 방식보다 적은 학습량으로 좋은 성능의 모델을 학습할 수 있는 Hybrid Code Network 구조를 제안한 연구가 있다. 본 논문에서는 Hybrid Code Network 구조를 이용하여 한국어 식당 예약 시스템을 구축할 수 있는 방법을 제안하고, 한국어로 이루어진 식당 예약에 관련한 학습 대화 데이터를 구축하는 방법을 제안한다.

  • PDF

Evaluation of the Translation Part of the Concept-based Spoken Language Translation System (개념기반 대화체 언어번역시스템의 번역부평가)

  • Choi, Un-Cheon;Han, Nam-Yong;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.322-325
    • /
    • 1996
  • 이 논문은 개념기반의 대화체 언어번역시스템의 번역부의 평가에 대해 기술한 것이다. 대상언어는 한국어와 영어로 한국어를 해석하여 영어로 번역하는 시스템이다. 개념기반 시스템은 개념을 기준으로 입력된 문장을 해석하고 그 개념을 이용하여 번역한다. 개념기반 시스템은 개념에 기반을 두기 때문에 자유로운 간투사의 사용, 빈번한 단어 생략 등의 특성을 가지는 대화체 번역에 유리하다. 시스템의 평가는 입력문에 대한 번역문의 결과가 의미적으로 어느 정도 전달되었는지를 평가자의 주관적인 판단에 의해 평가한다. 현재 개발된 시스템은 여행안내 영역(domain)을 대상으로 하고 있다. 개발된 시스템에 대한 평가는 대화체를 전사한 문장과 음성인식의 결과 두 가지의 입력에 대해 하였다.

  • PDF

Mitigating Hate Speech in Korean Open-domain Chatbot using CTRL (한국어 오픈 도메인 대화 모델의 CTRL을 활용한 혐오 표현 생성 완화)

  • Jwa, Seung Yeon;Cha, Young-rok;Han, Moonsu;Shin, Donghoon
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.365-370
    • /
    • 2021
  • 대형 코퍼스로 학습한 언어 모델은 코퍼스 안의 사회적 편견이나 혐오 표현까지 학습한다. 본 연구에서는 한국어 오픈 도메인 대화 모델에서 혐오 표현 생성을 완화하는 방법을 제시한다. Seq2seq 구조인 BART [1]를 기반으로 하여 컨트롤 코드을 추가해 혐오 표현 생성 조절을 수행하였다. 컨트롤 코드를 사용하지 않은 기준 모델(Baseline)과 비교한 결과, 컨트롤 코드를 추가해 학습한 모델에서 혐오 표현 생성이 완화되었고 대화 품질에도 변화가 없음을 확인하였다.

  • PDF

A Linguistic Study of Automatic Speech Act Classification for Korean Dialog (한국어 대화문 화행 자동분류를 위한 언어학적 기반연구)

  • Koo, Youngeun;Kim, Jiyoun;Hong, Munpyo;Kim, Young-Kil
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.17-22
    • /
    • 2017
  • 화행이란 의사소통 과정에서 발화자가 가지는 발화 의도를 말한다. 성공적인 의사소통을 위해서는 발화자의 화행을 정확하게 파악하는 것이 매우 중요하다. 본 논문에서는 한국어 대화체 문장의 화행 자동분류를 위해, 화행을 결정짓는 요인이 무엇인지 언어학적으로 분석하고자 하였다. 한국어 수업 대화를 분석하여 화행 분류 체계를 새롭게 자체 정립하였고, 언어학적 근거를 바탕으로 10개의 화행 분류 자질을 제안하였다. 또한 제안하는 화행 분류 자질을 검증하고자 웨카(Weka)를 이용하여 정확률 실험을 진행하였다.

  • PDF

Building a Corpus for Korean Tutoring Chatbot (한국어 튜터링 챗봇을 위한 말뭉치 구축)

  • Kim, Hansaem;Choi, Kyung-Ho;Han, Ji-Yoon;Jung, Hae-Young;Kwak, Yong-Jin
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.288-293
    • /
    • 2017
  • 교수-학습 발화는 발화 턴 간에 규칙화된 인과관계가 강하고 자연 발화에서의 출현율이 낮다. 일반적으로 어휘부, 표현 제시부, 대화부로 구성되며 커리큘럼과 화제에 따라 구축된 언어자원이 필요하다. 기존의 말뭉치는 이러한 교수-학습 발화의 특징을 반영하지 않았기 때문에 한국어 교육용 튜터링 챗봇을 개발하는 데에 활용도가 떨어진다. 이에 따라 이 논문에서는 자연스러운 언어 사용 수집, 도구 기반의 수집, 주제별 수집 및 분류, 점진적 구축 절차의 원칙에 따라 교수-학습의 실제 상황을 반영하는 준구어 말뭉치를 구축한다. 교실에서 발생하는 언어학습 상황을 시나리오로 구성하여 대화 흐름을 제어하고 채팅용 메신저와 유사한 형태의 도구를 통해 말뭉치를 구축한다. 이 연구는 한국어 튜터링 챗봇을 개발하기 위해 말뭉치 구축용 챗봇과 한국어 학습자, 한국어 교수자가 시나리오를 기반으로 발화문을 생성한 준구어 말뭉치를 최초로 구축한다는 데에 의의가 있다.

  • PDF

Information Packaging in Korea: Focusing on the Pronoun Resolution (한국어에서의 정보포장: 대명사 해결을 중심으로)

  • 이민행
    • Language and Information
    • /
    • v.4 no.1
    • /
    • pp.36-48
    • /
    • 2000
  • 이 논문에서는 국지적인 대명사의 해결을 위한 이론적인 틀로 널리 아려진 중심화이론의 여러 이론적인 정보포장이론이라는 새로운 담화의미론으로 발전시킬 수 있음을 보이고자 한다. 이로써 한국어 담화상에 나타나는 대명사의 선행사 탐색이 상당히 설득력있게 이루어질 수 있음을 보였다. 이를 위해 먼저 제한된 영역대화라 할 수 있는 호텔예약대화에 나타나는 영대명사의 특징에 대해 논의한다. 이어서, 대명사 해결과 관련하여 정보구조가 중심화이론의 주요 구성요소인 정향적 중심리스트 서열 구성에 직접 반영되어야 함을 보인다. 마지막으로 대명사를 담화통어할 수 있는 위치에 있어야 한다는 담화통어제약을 제안하여 광역대화에 나타나는 명시적인 대명사의 해결을 위한 하나의 대안을 제시한다.

  • PDF

Machine Translation of Korean-to-English spoken language Based on Semantic Patterns (의미패턴에 기반한 대화체 한영 기계 번역)

  • Jung, Cheon-Young;Seo, Young-Hoon
    • The Transactions of the Korea Information Processing Society
    • /
    • v.5 no.9
    • /
    • pp.2361-2368
    • /
    • 1998
  • This paper analyzes Korean spoken language and describes the machine translation o[ Korean to-English spoken language based on semantic patterns, In Korean-to-English machine translation. ambiguity of Korean sentence analysis using syntactic information can be resolved by semantic patterns, Therefore, for machine translation of spoken language, we estabilish the system based on semantic patterns extracted from Korean scheduling domain, This system obtains the robustness by skip ability of syllables in analysis of Korean sentence and we add options to semantic patterns in order to reduce pattern numbers, The data used [or the experiment are scheduling domain and performance of Korean-to-English translation is 88%.

  • PDF

Integrated Dialogue Analysis using Long Short-Term Memory (Long Short-Term Memory를 이용한 통합 대화 분석)

  • Kim, Min-Kyoung;Kim, Harksoo
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.119-121
    • /
    • 2016
  • 최근 사람과 컴퓨터가 대화를 하는 채팅시스템 연구가 활발해지고 있다. 컴퓨터가 사람의 말에 적절한 응답을 하기 위해선 그 의미를 분석할 필요가 있다. 발화에 대한 의미 분석의 기본이 되는 연구로 감정분석과 화행분석이 있다. 그러나 이 둘은 서로 밀접한 연관이 있음에도 불구하고 함께 분석하는 연구가 시도되지 않았다. 본 연구에서는 Long Short-term Memory(LSTM)를 이용하여 대화체 문장의 감정과 화행, 서술자를 동시에 분석하는 통합 대화 분석모델을 제안한다. 사랑 도메인 데이터를 사용한 실험에서 제안 모델은 감정 58.08%, 화행 82.60%, 서술자 62.74%의 정확도(Accuracy)를 보였다.

  • PDF

RNN Sentence Embedding and ELM Algorithm Based Domain and Dialogue Acts Classification for Customer Counseling in Finance Domain (RNN 문장 임베딩과 ELM 알고리즘을 이용한 금융 도메인 고객상담 대화 도메인 및 화행분류 방법)

  • Oh, Kyo-Joong;Park, Chanyong;Lee, DongKun;Lim, Chae-Gyun;Choi, Ho-Jin
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.220-224
    • /
    • 2017
  • 최근 은행, 보험회사 등 핀테크 관련 업체에서는 챗봇과 같은 인공지능 대화 시스템을 고객상담 업무에 도입하고 있다. 본 논문에서는 금융 도메인을 위한 고객상담 챗봇을 구현하기 위하여, 자연어 이해 기술 중 하나인 고객상담 대화의 도메인 및 화행분류 방법을 제시한다. 이 기술을 통해 자연어로 이루어지는 상담내용을 이해하고 적합한 응답을 해줄 수 있는 기술을 개발할 수 있다. TF-IDF, LDA, 문장 임베딩 등 대화 문장에 대한 자질을 추출하고, 추출된 자질을 Extreme learning machine(ELM)을 통해 도메인 및 화행 분류 모델을 학습한다.

  • PDF