• 제목/요약/키워드: 한국어대화

검색결과 319건 처리시간 0.021초

멀티-세션 오픈 도메인 지식기반 대화 수집 툴 (Multi-Session Open Domain Knowledge-based dialog collection Tool)

  • 김태용;김산;신사임
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.491-496
    • /
    • 2022
  • 최근 멀티-세션 데이터로 장기간 페르소나와 대화 일관성을 유지하며 인터넷에서 대화와 관련된 지식을 활용하는 대화모델 연구가 활발히 진행되고 있다. 하지만 이를 위한 한국어 멀티-세션 오픈 도메인 지식 기반 대화 데이터는 공개되지 않아 한국어 대화모델 연구에 어려움이 있다. 따라서 본 논문에서는 한국어 멀티-세션 오픈 도메인 지식 기반 데이터의 필요성을 시사하고, 데이터 수집을 위한 툴을 제안한다. 제안하는 수집 툴은 양질의 데이터 수집을 위해 작업자들이 사용하기 편하도록 UI/UX를 구성하였으며, 대화 생성 시 텍스트뿐만 아니라 정보가 밀집된 테이블도 대화에 활용할 지식으로 참조할 수 있도록 구현하였다. 제안하는 수집 툴은 웹 랜덤채팅 시스템에 기반을 두어 작업자가 여러 다른 작업자와 같은 확률로 매칭되게 구현되었으며, 일정 확률로 기존 대화로부터 대화를 시작하도록 함으로써 멀티-세션 대화 수집이 가능하도록 하였다.

  • PDF

식당 예약 대화 시스템 개발을 위한 한국어 데이터셋 구축 (Development of Korean Dialogue Dataset for Restaurant Reservation System)

  • 김경민;이동엽;허윤아;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.267-269
    • /
    • 2017
  • 대화 시스템(dialogue system)은 사용자의 언어를 이해하고 그 의도를 분석하여 사용자가 원하는 목적을 달성할 수 있게 도와주는 시스템이다. 인간과 비슷한 수준의 대화를 위해서는 대량의 데이터가 필요하며 데이터의 양질에 따라 그 결과가 달라진다. 최근 페이스북에서 End-to-end learning 방식을 기반으로 한 영어로 구성된 식당 예약 학습 대화 데이터셋(The 6 dialog bAbI tasks)을 구축하여 해당 모델에 적용한 연구가 있다. 대화 시스템에서 활용 가능한 연구가 활발히 진행되고 있지만 영어 기반의 데이터와는 다르게 식당 예약 시스템에서 다른 연구자들의 연구 목적으로 공유한 한국어 데이터셋은 아직까지도 미흡하다. 본 논문에서는 페이스북에서 구축한 영어로 구성된 식당 예약 학습 대화 데이터셋을 이용하여 한국어 기반의 식당 예약 대화 시스템에서 활용 가능한 한국어 데이터셋을 구축하고, 일상생활에서 발생 가능한 발화(utterance)에 따른 형태 변화를 통해 한국어 식당 예약 시스템 데이터셋 구축 방법을 제안한다.

  • PDF

도메인 특정 지식을 결합한 End-to-End Learning 방식의 한국어 식당 예약 대화 시스템 모델 개발 (Development of a Dialogue System Model for Korean Restaurant Reservation with End-to-End Learning Method Combining Domain Specific Knowledge)

  • 이동엽;김경민;임희석
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.111-115
    • /
    • 2017
  • 목적 지향적 대화 시스템(Goal-oriented dialogue system)은 텍스트나 음성을 통해 특정한 목적을 수행할 수 있는 시스템이다. 최근 RNN(recurrent neural networks)을 기반으로 대화 데이터를 end-to-end learning 방식으로 학습하여 대화 시스템을 구축하는데에 활용한 연구가 있다. End-to-end 방식의 학습은 도메인에 대한 지식 없이 학습 데이터 자체만으로 대화 시스템 구축을 위한 학습이 가능하다는 장점이 있지만 도메인 지식을 학습하기 위해서는 많은 양의 데이터가 필요하다는 단점이 존재한다. 이에 본 논문에서는 도메인 특정 지식을 결합하여 end-to-end learning 방식의 학습이 가능한 Hybrid Code Network 구조를 기반으로 한국어로 구성된 식당 예약에 관련한 대화 데이터셋을 이용하여 식당 예약을 목적으로하는 대화 시스템을 구축하는 방법을 제안한다. 실험 결과 본 시스템은 응답 별 정확도 95%와 대화 별 정확도 63%의 성능을 나타냈다.

  • PDF

MTRNN을 이용한 한국어 대화 모델 생성 (Korean Dialogue Modeling using MTRNN)

  • 신창욱;차정원
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.285-287
    • /
    • 2017
  • 본 논문에서는 Multi-layer sequence-to-sequence 구조를 이용해 한국어 대화 시스템을 개발하였다. sequence-to-sequence는 RNN 혹은 그 변형 네트워크에 데이터를 입력하고, 입력이 완료된 후의 은닉층의 embedding에 기반해 출력열을 생성한다. 우리는 sequence-to-sequence로 입력된 발화에 대해 출력 발화를 내어주는 대화 모델을 학습하였고, 그 성능을 측정하였다. RNN에 대해서는 약 80만 발화를, MTRNN에 대해서는 5만 발화를 학습하고 평가하였다. 모델의 결과로 나타난 발화들을 정리하고 분석하였다.

  • PDF

차량 정보 서비스용 한국어 대화 시스템 (Korean Dialogue System for Car Information Service)

  • 최승권;권오욱;황금하;노윤형;이기영;김영길
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 춘계학술발표대회
    • /
    • pp.281-284
    • /
    • 2013
  • 한국전자통신연구원(ETRI)에서는 2010 년부터 2015 년까지 5 년간에 걸쳐 모바일 플랫폼 기반 대화모델이 적용된 자연어 음성인터페이스 기술을 개발하고 있다. 2010 년에는 대화 시스템의 전반적인 모습을 설계하였고, 2011 년에는 대상 도메인으로 도시 관광용 영어 대화 시스템을, 2012 년에는 대상 도메인으로 차량공조, 응급조치 등과 같은 차량 정보 서비스용 한국어 대화 시스템을 개발하였다. 본 논문에서는 2012 년에 개발한 차량 정보 서비스용 한국어 대화 시스템을 기술하는 것을 목표로 한다. 차량 정보 서비스용 한국어 대화 시스템의 성능 평가는 운전 경험이 있는 평가자 20 명에 의해 이루어졌다. 평가자는 웹 평가 도구에 원격으로 접속하여 주어진 40 개의 차량 정보 관련 대화 미션을 태스크로 하여 차량 정보 서비스용 대화 시스템과 대화를 하였다. 평가는 태스크 성공률과 대화턴 성공률로 나누어 측정되었으며 태스크 성공률은 87.8%, 대화턴 성공률은 86.7%였다.

대화처리를 위한 통계기반 한국어 음성언어이해 시스템 (Statistical Korean Spoken Language Understanding System for Dialog Processing)

  • 노윤형;양성일;김영길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.215-218
    • /
    • 2012
  • 본 논문에서는 한국어 대화 처리를 위한 통계기반 음성언어이해 시스템에 대해 기술한다. 음성언어이해시스템은 대화처리에서 음성 인식된 문장으로부터 사용자의 의도를 인식하여 의미표현으로 표현하는 기능을 담당한다. 한국어의 특성을 반영한 실용적인 음성언어이해 시스템을 위해서 강건성과 적용성, 확장성 등이 요구된다. 이를 위해 본 시스템은 음성언어의 특성상 구조분석을 하지 않고, 마이닝 기법을 이용하여 사용자 의도 표현을 생성하는 방식을 취하고 있다. 또한 한국어에서 나타나는 특징들에 대한 처리를 위해 자질 추가 및 점규화 처리 등을 수행하였다. 정보서비스용 대화처리 시스템을 대상으로 개발되고 있고, 차량 정보서비스용 학습 코퍼스를 대상으로 실험을 하여 문장단위 정확률로 약 89%의 성능을 보이고 있다.

  • PDF

페르소나 기반 한국어 대화 모델링을 위한 데이터셋 (A Dataset for Persona-based Korean Dialogue Modeling )

  • 이요한;김현;신종훈;조민수;권오욱;김영길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.512-516
    • /
    • 2022
  • 페르소나 기반의 대화 시스템은 일관적인 대화를 수행할 수 있어 많은 관심을 받고 있다. 영어권에서 구축된 페르소나 대화 데이터셋은 서로의 페르소나를 알아가기 보다는 자신의 페르소나에 대해서만 말하는 경향을 보이며 이는 상대방의 말을 이해하여 관련 대화를 진행하는 대화의 특성을 반영하지 못한다. 본 연구에서는 회사 방문객이 안내 시스템과 대화하는 상황을 가정하여 안내 시스템이 주도적으로 방문객의 페르소나를 묻고 관련 대화를 수행하는 데이터셋을 구축함과 동시에 목적지향 대화 시스템의 대화 관리 프레임워크를 기반으로 시스템 주도적인 대화를 모델링하는 페르소나 대화 관리 모델을 제안한다. 실험을 통해 제안한 대화 관리 모델의 대화 이해 및 정책 성능을 검증하고 방문객의 페르소나를 예측할 때 대화 정책의 성능이 향상됨을 보임으로써 구축한 데이터셋이 이해와 정책이 포함된 대화의 특성을 반영하는 것을 확인한다.

  • PDF

MTRNN을 이용한 한국어 대화 모델 생성 (Korean Dialogue Modeling using MTRNN)

  • 신창욱;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.285-287
    • /
    • 2017
  • 본 논문에서는 Multi-layer sequence-to-sequence 구조를 이용해 한국어 대화 시스템을 개발하였다. sequence-to-sequence는 RNN 혹은 그 변형 네트워크에 데이터를 입력하고, 입력이 완료된 후의 은닉층의 embedding에 기반해 출력열을 생성한다. 우리는 sequence-to-sequence로 입력된 발화에 대해 출력 발화를 내어주는 대화 모델을 학습하였고, 그 성능을 측정하였다. RNN에 대해서는 약 80만 발화를, MTRNN에 대해서는 5만 발화를 학습하고 평가하였다. 모델의 결과로 나타난 발화들을 정리하고 분석하였다.

  • PDF

대화 요약 생성을 위한 한국어 방송 대본 데이터셋 (KMSS: Korean Media Script Dataset for Dialogue Summarization )

  • 김봉수;전혜진;전현규;정혜인;장정훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.198-204
    • /
    • 2022
  • 대화 요약은 다중 발화자와 발화문으로 이루어진 멀티턴 형식의 문서에 대해 핵심내용을 추출하거나 생성하는 태스크이다. 대화 요약 모델은 추천, 대화 시스템 등에 콘텐츠, 서비스 기록에 대한 분석을 제공하는 데 유용하다. 하지만 모델 구축에 필요한 한국어 대화 요약 데이터셋에 대한 연구는 부족한 실정이다. 본 논문에서는 생성 기반 대화 요약을 위한 데이터셋을 제안한다. 이를 위해 국내 방송사의 대용량 콘텐츠로 부터 원천 데이터를 수집하고, 주석자가 수작업으로 레이블링 하였다. 구축된 데이터셋 규모는 6개 카테고리에 대해 약 100K이며, 요약문은 단문장, 세문장, 2할문장으로 구분되어 레이블링 되었다. 또한 본 논문에서는 데이터의 특성을 내재화하고 통제할 수 있도록 대화 요약 레이블링 가이드를 제안한다. 이를 기준으로 모델 적합성 검증에 사용될 디코딩 모델 구조를 선정한다. 실험을 통해 구축된 데이터의 몇가지 특성을 조명하고, 후속 연구를 위한 벤치마크 성능을 제시한다. 데이터와 모델은 aihub.or.kr에 배포 되었다.

  • PDF

한국어 대화 모델 학습을 위한 디노이징 응답 생성 (Denoising Response Generation for Learning Korean Conversational Model)

  • 김태형;노윤석;박성배;박세영
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.29-34
    • /
    • 2017
  • 챗봇 혹은 대화 시스템은 특정 질문이나 발화에 대해 적절한 응답을 해주는 시스템으로 자연어처리 분야에서 활발히 연구되고 있는 주제 중 하나이다. 최근에는 대화 모델 학습에 딥러닝 방식의 시퀀스-투-시퀀스 프레임워크가 많이 이용되고 있다. 하지만 해당 방식을 적용한 모델의 경우 학습 데이터에 나타나지 않은 다양한 형태의 질의문에 대해 응답을 잘 못해주는 문제가 있다. 이 논문에서는 이러한 문제점을 해결하기 위하여 디노이징 응답 생성 모델을 제안한다. 제안하는 방법은 다양한 형태의 노이즈가 임의로 가미된 질의문을 모델 학습 시에 경험시킴으로써 강건한 응답 생성이 가능한 모델을 얻을 수 있게 한다. 제안하는 방법의 우수성을 보이기 위해 9만 건의 질의-응답 쌍으로 구성된 한국어 대화 데이터에 대해 실험을 수행하였다. 실험 결과 제안하는 방법이 비교 모델에 비해 정량 평가인 ROUGE 점수와 사람이 직접 평가한 정성 평가 모두에서 더 우수한 결과를 보이는 것을 확인할 수 있었다.

  • PDF