• 제목/요약/키워드: Dialog system

검색결과 107건 처리시간 0.021초

음성인식에 기초한 치매환자 노인을 위한 대화시스템 (Dialog System based on Speech Recognition for the Elderly with Dementia)

  • Kim, Sung-Il;Kim, Byoung-Chul
    • 한국정보통신학회논문지
    • /
    • 제6권6호
    • /
    • pp.923-930
    • /
    • 2002
  • 본 연구는 치매노인환자의 생활의 질을 향상시키기 위한 대화시스템의 개발에 목표를 둔다. 제안된 시스템은 주로 세 가지 모듈, 즉, 음성인식, 시간테이블에 의해 구분된 대화 데이터베이스의 자동검색, 그리고 간호사의 녹음음성으로 이루어진 맞장구 등의 긍정적인 대답, 등으로 구성되어 있다. 첫 단계로서, 치매환자가 간호시설에서 자주 발화하는 대화의 내용을 조사하였다. 다음으로, 환자들의 요구를 충족시키기 위해 그들의 발화 음성을 자동인식 하도록 구성하였다. 여기서 시스템의 응답은 전문 간호사의 녹음음성으로 설계되었다. 시스템의 평가를 위해서 시스템이 도입되었을 때와 되지 않았을 때의 비교연구를 실시하였고, 치료 전문가(occupational therapist)들이 비디오 촬영을 통해서 남성 대상자의 반응을 평가하였다. 평가 견과는 치매환자의 요구를 충족시키는데 있어서 대화 시스템이 전문간호사들보다 더욱 답적이었다는 것을 보여준다. 게다가 제안된 시스템은 상호 대화에 있어서 간호사들보다 환자가 더 많이 말하도록 유도함을 알 수 있었다.

호 제어 마크업 해석기 개발 및 음성 대화 시스템과의 연동 (Design and Implementation of a Call Control Markup Interpreter and Its Interaction with Voice Dialog Systems)

  • 이경아;권지혜;김지영;홍기형
    • 대한음성학회지:말소리
    • /
    • 제53호
    • /
    • pp.171-183
    • /
    • 2005
  • Call Control eXtensible Markup (CCXML) is a standard language that supports a call control of voice dialog systems such as VoiceXML based systems. CCXML allows developers to handle telephony calls in an easy way without deep knowledge about telephony networks and their switching systems.We design and implement a call control markup interpreter. At the implementation, we use a Dialogic JCT-LS board, but, by designing a wrapping class for CTI (computer telephony board) features, the interpreter can easily adopt other CTI boards. We also design and implement event-based interaction scheme between the interpreter and voice dialog systems. For verifying the interaction scheme, we implement a simple voice dialog system.

  • PDF

Sentence model based subword embeddings for a dialog system

  • Chung, Euisok;Kim, Hyun Woo;Song, Hwa Jeon
    • ETRI Journal
    • /
    • 제44권4호
    • /
    • pp.599-612
    • /
    • 2022
  • This study focuses on improving a word embedding model to enhance the performance of downstream tasks, such as those of dialog systems. To improve traditional word embedding models, such as skip-gram, it is critical to refine the word features and expand the context model. In this paper, we approach the word model from the perspective of subword embedding and attempt to extend the context model by integrating various sentence models. Our proposed sentence model is a subword-based skip-thought model that integrates self-attention and relative position encoding techniques. We also propose a clustering-based dialog model for downstream task verification and evaluate its relationship with the sentence-model-based subword embedding technique. The proposed subword embedding method produces better results than previous methods in evaluating word and sentence similarity. In addition, the downstream task verification, a clustering-based dialog system, demonstrates an improvement of up to 4.86% over the results of FastText in previous research.

기계학습을 이용한 한국어 대화시스템 도메인 분류 (Machine Learning Based Domain Classification for Korean Dialog System)

  • 정영섭
    • 융합정보논문지
    • /
    • 제9권8호
    • /
    • pp.1-8
    • /
    • 2019
  • 대화시스템은 인간과 컴퓨터의 상호작용에 새로운 패러다임이 되고 있다. 자연어로써 상호작용함으로써 인간은 보다 자연스럽고 편리하게 각종 서비스를 누릴 수 있게 되었다. 대화시스템의 구조는 일반적으로 음성 인식, 자연어 이해, 문맥 파악 등의 여러 모듈의 파이프라인으로 이뤄지는데, 본 연구에서는 자연어 이해 모듈의 도메인 분류 문제를 풀기 위해 convolutional neural network, random forest 등의 기계학습 모델을 비교하였다. 사람이 직접 태깅한 총 7개 서비스 도메인 데이터에 대하여 각 문장의 도메인을 분류하는 실험을 수행하였고 random forest 모델이 F1 score 0.97 이상으로 가장 높은 성능을 달성한 것을 보였다. 향후 다른 기계학습 모델들을 추가 실험함으로써 도메인 분류 성능 개선을 지속할 계획이다.

사용자 주도 폼 다이얼로그 시스템의 VoiceXML 어플리케이션에 관한 연구 (A Study on VoiceXML Application of User-Controlled Form Dialog System)

  • 권형준;노용완;이현구;홍광석
    • 정보처리학회논문지B
    • /
    • 제14B권3호
    • /
    • pp.183-190
    • /
    • 2007
  • VoiceXML은 음성을 통해 웹 자원 탐색을 제공하기 위한 목적으로 설계된 XML 기반의 새로운 마크업 언어이다. VoiceXML로 만들어진 어플리케이션은 기계 주도 폼 다이얼로그 구조와 상호 주도 폼 다이얼로그 구조로 분류된다. 이와 같은 다이얼로그 구조들은 어플리케이션 개발자에 의해 서비스 시나리오가 결정되기 때문에 사용자가 자유롭게 웹 자원을 탐색하는 서비스를 구축할 수 없다. 본 논문에서는 사용자의 의도에 따라 서비스 시나리오가 결정되는 음성 웹 서비스의 구축을 위해 사용자 주도 폼 다이얼로그 시스템의 VoiceXML 어플리케이션 구조를 제안한다. 제안하는 어플리케이션은 사용자에 의해 요청된 정보로부터 인식 후보들을 자동적으로 검출하여 음성 앵커로 사용하고 각각의 음성 앵커론 새로운 음성 노드로 연결한다. 제안하는 시스템의 예로 IT 용어사전을 내장한 뉴스 서비스를 구현하여 음성 앵커의 검출 및 등록 여부를 확인하였고, 음성 인식률 및 사용자가 의도한 정보를 성공적으로 제공했는지 판단하는 척도가 되는 적중률과 응답 속도를 측정하였다. 실험 결과, 제안한 시스템이 기존의 VoiceXML 폼 다이얼로그 구조의 시스템보다 더 자유로운 웹 자원의 탐색이 가능함을 확인하였다.

대화시스템 미지원 도메인 검출에 관한 조사 (Survey on Out-Of-Domain Detection for Dialog Systems)

  • 정영섭;김영민
    • 융합정보논문지
    • /
    • 제9권9호
    • /
    • pp.1-12
    • /
    • 2019
  • 대화시스템은 인간과 컴퓨터 사이의 새로운 의사소통 수단으로 떠오르고 있다. 대화시스템은 인간의 음성을 입력으로 취하여, 적절한 음성 답변 또는 서비스를 제공하게 된다. 아마존 에코, 네이버 웨이브 등과 같은 대화시스템 제품들이 등장하고 있음에도 불구하고, 이 대화시스템들은 공통적으로 미지원 도메인을 제대로 처리하지 못한다는 문제점을 안고 있다. 이와 관련한 몇몇 연구들이 있었지만, 이 문제를 풀기 위한 더욱 많은 연구가 진행될 필요가 있다. 이 논문에서는, 미지원 도메인 검출과 관련한 기존 연구들에 대하여 3가지 관점, 즉 데이터, 자질, 방법에 대한 관점으로 요약한 정보를 제공한다. 데이터셋이 부족하다는 점으로 인해 타 연구분야에 비해 적은 연구가 수행되어왔으므로, 앞으로 가장 시급한 연구 주제는 대화시스템의 미지원 도메인 검출을 위한 공개용 데이터셋을 구축하고 배포하는 것이다.

Dialog/4 보드를 이용한 전화음성 기반의 화자 인증 시스템의 구현 (An Implementation of Telephone-based Speaker Verification System using Dialog/4 Board)

  • 이순려;박일구;최홍섭
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2004년도 춘계학술발표대회 논문집 제23권 1호
    • /
    • pp.89-92
    • /
    • 2004
  • 전화 음성용 화자인증 시스템 전화기에서 의뢰인의 ID와 음성을 입력받은 후 인증관련 처리론 PC에서 수행하여 그 인증 결과를 의뢰인의 전화로 알려주는 시스템으로 본 논문에서는 CTI(Computer Telephony Integration) 기술이 적용된 Dialog/4 보드를 이용하여 시스템을 구현하였다. Dialog/4 보드를 통하여 시스템에 입력된 ID와 음성에 대하여 신호처리와 특징 추출을 거친후 ID에 해당하는 화자모델과 배경화자 정보를 이용하여 유사도를 계산하여 의뢰인에 대한 인증 또는 거절의 결과를 알려준다. 실제의 전화음성을 이용한 화자인증 시스템이 성능평가에서 전화음성으로 실험을 할 경우 $99.6\%$의 인증률을 보여주었다.

  • PDF

멀티미디어 신호처리에 기초한 스마트홈 가상대화 시스템 (Virtual Dialog System Based on Multimedia Signal Processing for Smart Home Environments)

  • 김성일;오세진
    • 한국지능시스템학회논문지
    • /
    • 제15권2호
    • /
    • pp.173-178
    • /
    • 2005
  • 본 논문은 보다 편리한 가정 생활환경 구축을 목적으로 한 가상대화시스템 구현에 관한 연구이다. 이를 실현하기 위하여 본 논문은 음성인식, 음성합성, 비디오 신호 및 센서신호처리 등의 멀티미디어 신호처리에 그 기술적 기반을 두고 있다. 대화시스템의 중요한 모듈로서의 음성합성기, HM-Net(Hidden Markov Network)에 기반한 실시간 음성인식기, 픽셀의 밝기차를 이용한 실시간 움직임 검출 및 터치센서 등을 대화시스템에 통합함으로써 이루어진다. 실제 구동 실험에서 주위 노이즈 환경의 영향으로 시뮬레이션 결과보다는 성능이 떨어지나, 소파에 앉아있는 동안 자동되는 시스템의 실험 평가에서 가전제품 능의 컨트롤이 비교적 사용하기 쉬웠다는 결과를 얻었다.

Out-Of-Domain Detection Using Hierarchical Dirichlet Process

  • Jeong, Young-Seob
    • 한국컴퓨터정보학회논문지
    • /
    • 제23권1호
    • /
    • pp.17-24
    • /
    • 2018
  • With improvement of speech recognition and natural language processing, dialog systems are recently adapted to various service domains. It became possible to get desirable services by conversation through the dialog system, but it is still necessary to improve separate modules, such as domain detection, intention detection, named entity recognition, and out-of-domain detection, in order to achieve stable service offer. When it misclassifies an in-domain sentence of conversation as out-of-domain, it will result in poor customer satisfaction and finally lost business. As there have been relatively small number of studies related to the out-of-domain detection, in this paper, we introduce a new method using a hierarchical Dirichlet process and demonstrate the effectiveness of it by experimental results on Korean dataset.

SALT 기반 음성 웹 페이지의 자동 생성 (Automatic Generation of Voice Web Pages Based on SALT)

  • 고유정;김윤중
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권3호
    • /
    • pp.177-184
    • /
    • 2010
  • 음성 브라우저가 등장함에 따라, 음성 대화 어플리케이션이 웹 환경에서 사용이 가능하게 되었다. 음성 대화 어플리케이션은 음성 웹 페이지로 구성되어 있다. 음성 웹 페이지의 대화 스크립트는 SALT(Speech Application Language Tags) 언어 등으로 기술되어야 한다. 기존 웹 페이지들은 음성 대화를 고려하지 않고 시각용(visual)용으로 제작되었지만, 이들 웹 페이지에도 음성 대화를 이용하여 처리할 수 있는 요소들이 있다. 따라서 본 논문에서는 시각용으로 제작된 HTML 웹 페이지로부터 대화처리가 가능한 요소들을 추출하고 해당대화를 SALT로 생성해내는 음성 웹 페이지의 자동 생성방법을 제안하였다. 제안한 음성 웹 페이지의 자동 생성기는 어휘 분석기와 구문 분석기로 구성된 번역기로, HTML로 기술된 웹 페이지를 HTML+SALT로 기술된 음성 웹 페이지로 변환한다. 변환된 음성 웹 페이지는 기존의 마우스, 키보드롤 이용한 처리도 가능하고 음성 대화 처리도 가능하도록 설계되었다.