DOI QR코드

DOI QR Code

Open API-based Conversational Voice Interaction Scheme for Intelligent IoT Applications for the Digital Underprivileged

디지털 소외계층을 위한 지능형 IoT 애플리케이션의 공개 API 기반 대화형 음성 상호작용 기법

  • 장준혁 (한남대학교 컴퓨터공학과)
  • Received : 2022.10.21
  • Accepted : 2022.12.05
  • Published : 2022.11.30

Abstract

Voice interactions are particularly effective in applications targeting the digital underprivileged who are not proficient in the use of smart devices. However, applications based on open APIs are using voice signals only for short, fragmentary input and output due to the limitations of existing touchscreen-oriented UI and API provided. In this paper, we design a conversational voice interaction model for interactions between users and intelligent mobile/IoT applications and propose a keyword detection algorithm based on the edit distance. The proposed model and scheme were implemented in an Android environment, and the edit distance-based keyword detection algorithm showed a higher recognition rate than the existing algorithm for keywords that were incorrectly recognized through speech recognition.

음성 상호작용은 스마트 기기의 활용에 능숙하지 못한 디지털 소외계층을 대상으로 하는 애플리케이션에서 특히 효과적이다. 그러나 공개 API를 기반으로 한 애플리케이션들은 기존의 터치스크린 중심의 UI와 제공되는 API의 한계로 인해 음성 신호를 짧고 단편적인 입출력에만 활용하고 있다. 본 논문에서는 사용자와 지능형 모바일/IoT 애플리케이션의 대화형 음성 상호작용 모델을 설계하고, 편집 거리(Levenshtein distance) 기반 키워드 탐지 기법을 제안한다. 제안 모델 및 기법은 안드로이드 환경에서 구현되었으며, 편집 거리 기반 키워드 탐지 기법은 음성인식을 통해 부정확하게 인식된 키워드에 대해 기존 기법보다 높은 인식률을 보였다.

Keywords

Acknowledgement

본 연구는 2022년도 중소벤처기업부의 기술개발사업 지원에 의한 연구임 [S3251990]

References

  1. S. Wolff and A. Brechmann, "MOTI: A Motivational Prosody Corpus for Speech-Based Tutorial Systems," Proc. of Conference on Speech Communication, pp. 1-4, Braunschweig, Germany, Sep. 2012. 
  2. J. Kolar and L. Lamel, "Development and Evaluation of Automatic Punctuation for French and English Speech-to-Text," Proc. of Conference on Interspeech, pp. 1376-1379, Sep. 2012. 
  3. Google Speech-to-Text Document, https://cloud.google.com/speech-to-text/docs (accessed Oct., 15, 2022). 
  4. Amazon Polly, https://aws.amazon.com/ko/polly/ (accessed Oct., 15, 2022). 
  5. Naver Clova AI Products, https://clova.ai/ko/aisolutions/ (accessed Oct., 15, 2022). 
  6. 심규진, 홍현의, 황기덕, 황영준, 윤용운, "컴퓨터 언어 인식과 음성 합성을 통한 청각장애인 대화 보조 서비스 개발," 한국정보과학회 2019년 한국소프트웨어종합학술대회 논문집, 1269-1271쪽, 2019년 12월 
  7. 전주현, "AI 시대의 효과적인 인공지능 학습을 위한 실습 도구," 대한기계학회 기계저널, 제62권, 제9호, 41-46쪽, 2022년 9월 
  8. 이애진, 김기웅, "난독증 학습자를 위한 AI기반 한글 해득 프로그램 개발 및 효과 검증," 한국디지털콘텐츠학회논문지, 제23권, 제5호, 781-791쪽, 2022년 5월 
  9. 장수영, 임재홍, 조준동, "독거노인 음성 발생량 및 빈도 측정을 통한 가족 소통 증진 Wearable Device 및 Application Design, 'Hellocom," 한국디자인학회 2017년 봄 국제학술대회 논문집, 110-111쪽, 2017년 6월 
  10. 최진해, "대화 패턴 연구를 통한 스마트TV 음성 상호작용 모델의 탐구," 한국콘텐츠학회 논문지, 제17권, 제2호, 96-104쪽, 2017년 2월 
  11. 배순민, "음성 합성과 동작 인식 기술을 활용한 CLOVA Dubbing과 Avatar 서비스", 한국방송.미디어공학회 방송과 미디어, 제26권, 제1호, 31-37쪽, 2021년 1월 
  12. Z. Su, B.R. Ahn, K. Eom, M.K. Kang, J.P. Kim and M.K. Kim, "Plagiarism Detection Using the Levenshtein Distance and Smith-Waterman Algorithm," Proc. of 2008 3rd International Conference on Innovative Computing Information and Control, pp. 569-569, Dalian, China, Jun. 2008. 
  13. A.S. Lhoussain, G. Hicham and Y. Abdellah, "Adaptating the Levenshtein Distance to Contextual Spelling Correction," International Journal of Computer Science and Applications, Vol. 12, No. 1, pp. 127-133, Dec. 2015. 
  14. 박선우, "편집거리 기반 한국어 용언 활용 패러다임의 불규칙성 분석," 언어, 제47권, 제1호, 83-106쪽, 2022년 3월  https://doi.org/10.18855/LISOKO.2022.47.1.004
  15. 노강호, 박근수, 조환규, 장소원, "음소의 분류 체계를 이용한 한글 편집 거리 알고리즘," 한국정보과학회논문지 : 시스템 및 이론, 제37권, 제6호, 323-329쪽, 2010년 12월 
  16. 김수현, 문현수, 이영석, "인터넷 채팅에서 편집거리 알고리즘을 이용한 비속어 탐지 방법," 한국정보과학회 2018 한국소프트웨어종합학술대회 논문집, 2012-2014쪽, 2018년 12월 
  17. 노명호, 박영민, 서정연, "자소 편집거리를 이용한 한글 트위터 개체명 인식," 한국정보과학회 2016년 동계학술대회 논문집, 482-484쪽, 2016년 12월 
  18. danbee.Ai, https://danbee.ai/ (accessed Oct., 15, 2022). 
  19. 김상렬, 유승욱, 김중훈, 조윤식, "한국 드라마 캐릭터의 성격을 가진 대화형 챗봇 구현," 한국정보과학회 2022년 한국컴퓨터종합학술대회 논문집, 639-641쪽, 2022년 6월 
  20. 김유진, 남지민, 엄란이, "자연어 처리를 이용한 미용실 예약 지원 인공지능 챗봇 설계," 한국생활과학회 2022년 하계연합학술대회 논문집, 105-105쪽, 2022년 5월 
  21. 김민호, 권혁철, 최성기, "어절 N-gram을 이용한 문맥의존 철자오류 교정," 한국정보과학회논문지, 제41권, 제12호, 1081-1089쪽, 2014년 12월 
  22. H.W. Jin, A.H. Lee, Y.J. Chae, S.H. Park, Y.J. Kang and S.W. Lee, "Error Correction for Korean Speech Recognition using a LSTM-based Sequence-to-Sequence Model," Journal of the Korea Society of Computer and Information, Vol. 26, No. 10, pp. 1-7, Oct. 2021. 
  23. 윤용욱, 정한민, 이근배, "어휘의미패턴을 이용한 음성인식 오류 검출 및 수정," 한국정보과학회 언어공학연구회 학술발표 논문집, 62-68쪽, 2002년 10월