DOI QR코드

DOI QR Code

Implementation of Scenario-based AI Voice Chatbot System for Museum Guidance

박물관 안내를 위한 시나리오 기반의 AI 음성 챗봇 시스템 구현

  • 정선우 (동의대학교 부산IT융합부품연구소) ;
  • 최은성 (동의대학교 대학원 인공지능학과, 부산IT융합부품연구소) ;
  • 안선규 (동의대학교 부산IT융합부품연구소) ;
  • 강영진 (동의대학교 인공지능그랜드ICT연구센터) ;
  • 정석찬 (동의대학교 e비즈니스학과, 인공지능그랜드ICT연구센터, 부산IT융합부품연구소)
  • Received : 2022.11.17
  • Accepted : 2022.12.08
  • Published : 2022.12.31

Abstract

As artificial intelligence develops, AI chatbot systems are actively taking place. For example, in public institutions, the use of chatbots is expanding to work assistance and professional knowledge services in civil complaints and administration, and private companies are using chatbots for interactive customer response services. In this study, we propose a scenario-based AI voice chatbot system to reduce museum operating costs and provide interactive guidance services to visitors. The implemented voice chatbot system consists of a watcher object that detects the user's voice by monitoring a specific directory in real-time, and an event handler object that outputs AI's response voice by performing inference by model sequentially when a voice file is created. And Including a function to prevent duplication using thread and a deque, GPU operations are not duplicated during inference in a single GPU environment.

인공지능이 발전하면서 AI 챗봇 시스템의 활용이 활발히 이루어지고 있다. 그 예로 공공기관에서는 민원, 행정 분야에서 업무 보조, 전문지식 서비스 등으로 챗봇 활용 분야가 확대되고 있으며 민간기업은 대화형 고객 응대 서비스 등으로 챗봇을 활용하고 있다. 본 연구에서는 시나리오 기반의 AI 음성 챗봇 시스템을 제안하여 박물관의 운영 비용을 절감하고 관람객에게 양방향성 안내 서비스를 제공하고자 한다. 구현한 음성 챗봇 시스템은 실시간으로 특정 디렉터리를 감시하여 사용자의 음성을 감지하는 감시자 객체와 음성 파일이 생성되면 순차적으로 모델별 추론을 수행하여 AI의 응대 음성을 출력하는 이벤트 핸들러 객체로 구성되며, 스레드와 데크를 활용한 중복 방지 기능을 포함하여 단일 GPU 환경에서 추론 중에 GPU의 연산이 중복되지 않도록 한다.

Keywords

Acknowledgement

본 연구는 문화체육관광부 및 한국콘텐츠진흥원의 지역연계 첨단 CT실증(R2022020140, 1375027492)사업의 연구 결과로 수행되었음.

References

  1. 정현숙, 이기길, 이대경, 김정민, "조선대학교 박물관 모바일 도슨트 어플 설계 및 구현", 융합정보논문지, 제8권, 제5호, pp.121-129, 2018. https://doi.org/10.22156/CS4SMB.2018.8.5.121
  2. 김종건, 허정윤, "비대면 전시의 사용자 경험개선을 위한 스마트 도슨트 챗봇", 한국HCI학회학술대회, 제21권, 제1호, pp.184-187, 2021.
  3. https://github.com/openspeech-team/openspeech
  4. William Chan, Navdeep Jaitly, Quoc V. Le and Oriol Vinyals, "Listen, attend and spell: A neural network for large vocabulary conversational speech recognition", International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp.4960-4964, 2016.
  5. Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser and Illia Polosukhin, "Attention Is All You Need", Advances in neural information processing systems 30, 2017.
  6. https://sktelecom.github.io/project/kobert/
  7. https://github.com/nawnoes/WellnessConversation-LanguageModel
  8. https://en.wikipedia.org/wiki/Mel_scale
  9. Jonathan Shen, Ruoming Pang, Ron J. Weiss, Mike Schuster, Navdeep Jaitly, Zongheng Yang, Zhifeng Chen, Yu Zhang, Yuxuan Wang, RJ Skerry-Ryan, Rif A. Saurous, Yannis Agiomyrgiannakis and Yon ghui Wu, "Natural TTS Syn thesis by Conditioning WaveNet on Mel Spectrogram Predictions", International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp.4779-4783, 2018.
  10. Ryan Prenger, Rafael Valle and Bryan Catanzaro, "WaveGlow: A Flow-based Generative Network for Speech Synthesis", International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp.3617-3621, 2018.
  11. https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=123
  12. 민소연, 이광형, 이동선, 류동엽, "한국어 특성기반의 STT 엔진 정확도를 위한 정량적 평가방법 연구", 한국산학기술학회논문지, 제21권, 제7호, pp.699-707, 2020. https://doi.org/10.5762/KAIS.2020.21.7.699
  13. 김영원, 이수진, "소프트맥스 함수 특성을 활용한 침입탐지 모델의 공격 트래픽 분류성능향상방안", 융합보안논문지, 제20권, 제4호, pp.81-90, 2020.