DOI QR코드

DOI QR Code

대화형 에이전트 인식오류 및 신조어 탐지를 위한 알고리즘 개발: 한글 음절 분리 기반의 단어 유사도 활용

Developing a New Algorithm for Conversational Agent to Detect Recognition Error and Neologism Meaning: Utilizing Korean Syllable-based Word Similarity

  • 이정원 (연세대학교 경영학과) ;
  • 임일 (연세대학교 경영학과)
  • Jung-Won Lee (School of Business, Yonsei University) ;
  • Il Im (School of Business, Yonsei University)
  • 투고 : 2023.08.30
  • 심사 : 2023.09.12
  • 발행 : 2023.09.30

초록

인공지능 스피커로 대표되는 대화형 에이전트는 사람-컴퓨터 간 대화형이기 때문에 대화 상황에서 오류가 발생하는 경우가 잦다. 에이전트 사용자의 발화 기록에서 인식오류는 사용자의 발화를 제대로 인식하지 못하는 미인식오류 유형과 발화를 인식하여 서비스를 제공하였으나 사용자가 의도한 바와 다르게 인식된 오인식오류 유형으로 나뉜다. 이 중 오인식오류의 경우, 서비스가 제공된 것으로 기록되기 때문에 이에 대한 오류 탐지가 별도로 필요하다. 본 연구에서는 텍스트 마이닝 기법 중에서도 단어와 문서를 벡터로 바꿔주는 단어 임베딩과 문서 임베딩을 이용하여 단순 사용된 단어 기반의 유사도 산출이 아닌 단어의 분리 방식을 다양하게 적용함으로써 연속 발화 쌍의 유사도를 기반으로 새로운 오인식오류 및 신조어 탐지 방법을 탐구하였다. 연구 방법으로는 실제 사용자 발화 기록을 활용하여 오인식오류의 패턴을 모델 학습 및 생성 시 적용하여 탐지 모델을 구현하였다. 그 결과, 오인식오류의 가장 큰 원인인 등록되지 않은 신조어 사용을 탐지할 수 있는 패턴 방식으로 다양한 단어 분리 방식 중 초성 추출 방식이 가장 좋은 결과를 보임을 확인하였다. 본 연구는 크게 두 개의 함의를 가진다. 첫째, 인식오류로 기록되지 않아 탐지가 어려운 오인식오류에 대하여 다양한 방식 별 비교를 통해 최적의 방식을 찾았다. 둘째, 이를 실제 신조어 탐지 적용이 필요한 대화형 에이전트나 음성 인식 서비스에 적용한다면 음성 인식 단계에서부터 발생하는 오류의 패턴도 구체화할 수 있으며, 오류로 분류되지 않더라도 사용자가 원하는 결과에 맞는 서비스가 제공될 수 있음을 보였다.

The conversational agents such as AI speakers utilize voice conversation for human-computer interaction. Voice recognition errors often occur in conversational situations. Recognition errors in user utterance records can be categorized into two types. The first type is misrecognition errors, where the agent fails to recognize the user's speech entirely. The second type is misinterpretation errors, where the user's speech is recognized and services are provided, but the interpretation differs from the user's intention. Among these, misinterpretation errors require separate error detection as they are recorded as successful service interactions. In this study, various text separation methods were applied to detect misinterpretation. For each of these text separation methods, the similarity of consecutive speech pairs using word embedding and document embedding techniques, which convert words and documents into vectors. This approach goes beyond simple word-based similarity calculation to explore a new method for detecting misinterpretation errors. The research method involved utilizing real user utterance records to train and develop a detection model by applying patterns of misinterpretation error causes. The results revealed that the most significant analysis result was obtained through initial consonant extraction for detecting misinterpretation errors caused by the use of unregistered neologisms. Through comparison with other separation methods, different error types could be observed. This study has two main implications. First, for misinterpretation errors that are difficult to detect due to lack of recognition, the study proposed diverse text separation methods and found a novel method that improved performance remarkably. Second, if this is applied to conversational agents or voice recognition services requiring neologism detection, patterns of errors occurring from the voice recognition stage can be specified. The study proposed and verified that even if not categorized as errors, services can be provided according to user-desired results.

키워드

과제정보

이 연구는 BK21 2023년도 연구비와 연세대학교 연구경쟁력 강화사업 연구비(#2023-22-0207)의 지원을 받아 수행되었습니다.

참고문헌

  1. 김민정, 한지은, 강효진, 권규현.(2020). 음성 사용자 인터페이스(VUI)의 사용성 범주 추출 : AI 비서를 중심으로. 한국HCI학회 논문지, 15(1), 53-64.
  2. 신조어. (2011). 신조어 연어의 형성 원리. 인문논총, 66, 269-297.
  3. 신지영. (2011). 한국어의 말소리. (No Title).
  4. 유원준, & 안상준. (2021). 딥 러닝을 이용한 자연어 처리 입문. https://wikidocs.net/book/2155.
  5. 유재권, 이경미. (2011). 한국어에서의 성인과 유아의 음성 인식 비교. 한국콘텐츠학회논문지, 11(5), 138-147.
  6. 이종혁. (2021). 매체 간 뉴스 동질화 현상에 대한 탐색적 연구: Doc2Vec 을 통한 문서 유사도 측정의 활용. 언론정보연구, 58(4), 5-48.
  7. 이지희, 전소원, 이종태. (2017). 융합기술의 사용자 수용에 시대적 압박이 미치는 영향에 대한 연구. 한국기술혁신학회 학술대회, (), 1355-1368.
  8. 이한동, & 김종배. (2017). 문서 유사도 기법을 활용한 이슈 키워드 추출 방법-인터넷 뉴스 기사를 대상으로. 예술인문사회 융합 멀티 미디어 논문지, 7(8), 383-391.
  9. 정지수, 지민규, 고명현, 김학동, 임헌영, 이유림, & 김원일. (2019). 문서 유사도를 통한 관련 문서 분류 시스템 연구. 방송공학회논문지, 24(1), 77-86.
  10. 최가람, & 최성필. (2018). 단어 임베딩 (Word Embedding) 기법을 적용한 키워드 중심의 사회적 이슈 도출 연구: 장애인 관련 뉴스 기사를 중심으로. 정보관리학회지, 35(1), 231-250.
  11. 최우빈. (2020). 대화형 에이전트의 오류 메시지 전략과 의인화가 오류 회복에 미치는 영향. 국내석사학위논문 서울대학교 대학원, 서울. 
  12. Ceaparu, I., Lazar, J., Bessiere, K., Robinson, J., and Shneiderman, B. (2004). Determining Causes and Severity of End-User Frustration. International Journal of Human-Computer Interaction, 17(3), 333-356. https://doi.org/10.1207/s15327590ijhc1703_3
  13. Church, K. W. (2017). Word2Vec. Natural Language Engineering, 23(1), 155-162. https://doi.org/10.1017/S1351324916000334
  14. Di Gennaro, G., Buonanno, A., & Palmieri, F. A. (2021). Considerations about learning Word2Vec. The Journal of Supercomputing, 1-16.
  15. Douzi, S., Amar, M., El Ouahidi, B., & Laanaya, H. (2017). Towards a new spam filter based on PV-DM (paragraph vector-distributed memory approach). Procedia Computer Science, 110, 486-491.
  16. Friedman, B. (1995, May). "It's the computer's fault" reasoning about computers as moral agents. In Conference companion on Human factors in computing systems (pp. 226-227).
  17. Hancock, P. A., Billings, D. R., Schaefer, K. E., Chen, J. Y., De Visser, E. J., & Parasuraman, R. (2011). A meta-analysis of factors affecting trust in human-robot interaction. Human factors, 53(5), 517-527.
  18. Harris, Z. S. (1954). Distributional structure. Word, 10(2-3), 146-162. https://doi.org/10.1080/00437956.1954.11659520
  19. Kriz, S., Anderson, G., & Trafton, J. G. (2010, March). Robot-directed speech: Using language to assess first-time users' conceptualizations of a robot. In 2010 5th ACM/IEEE International Conference on Human-Robot Interaction (HRI) (pp. 267-274). IEEE.
  20. Lau, J. H., & Baldwin, T. (2016). An empirical evaluation of doc2vec with practical insights into document embedding generation. arXiv preprint arXiv:1607.05368.
  21. LuperFoy, S., Loehr, D., Duff, D., Miller, K. J., Reeder, F., & Harper, L. (1998). An architecture for dialogue management, context tracking, and pragmatic adaptation in spoken dialogue systems. In COLING 1998 Volume 2: The 17th International Conference on Computational Linguistics.
  22. Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781.
  23. Mikolov, T., Sutskever, I., Chen, K., Corrado, G. S., & Dean, J. (2013). Distributed representations of words and phrases and their compositionality. Advances in neural information processing systems, 26.
  24. Rong, X. (2014). word2vec parameter learning explained. arXiv preprint arXiv:1411.2738.
  25. Salem, M., Lakatos, G., Amirabdollahian, F., & Dautenhahn, K. (2015, March). Would you trust a (faulty) robot? Effects of error, task type and personality on human-robot cooperation and trust. In Proceedings of the tenth annual ACM/IEEE international conference on human-robot interaction (pp. 141-148).
  26. Sarma, A., & Palmer, D. D. (2004). Context-based speech recognition error detection and correction. In Proceedings of HLT-NAACL 2004: Short Papers (pp. 85-88).
  27. Yoon, S. Y., Hasegawa-Johnson, M., & Sproat, R. (2010). Landmark-based automated pronunciation error detection. In Eleventh annual conference of the international speech communication association.
  28. You, S., Nie, J., Suh, K., & Sundar, S. S. (2011, March). When the robot criticizes you... Self-serving bias in human-robot interaction. In Proceedings of the 6th international conference on human-robot interaction (pp. 295-296).