DOI QR코드

DOI QR Code

A Method for Measuring Inter-Utterance Similarity Considering Various Linguistic Features

다양한 언어적 자질을 고려한 발화간 유사도 측정 방법

  • 이연수 (고려대학교 컴퓨터.전파통신공학과) ;
  • 신중휘 (고려대학교 컴퓨터학과) ;
  • 홍금원 (고려대학교 컴퓨터.전파통신공학과) ;
  • 송영인 (고려대학교 컴퓨터.전파통신공학과) ;
  • 이도길 (고려대학교 민족문화연구원) ;
  • 임해창 (고려대학교 컴퓨터.전파통신공학과)
  • Published : 2009.01.31

Abstract

This paper presents an improved method measuring inter-utterance similarity in an example-based dialogue system, which searches the most similar utterance in a dialogue database to generate a response to a given user utterance. Unlike general inter-sentence similarity measures, the inter-utterance similarity measure for example-based dialogue system should consider not only word distribution but also various linguistic features, such as affirmation/negation, tense, modality, sentence type, which affects the natural conversation. However, previous approaches do not sufficiently reflect these features. This paper proposes a new utterance similarity measure by analyzing and reflecting various linguistic features to improve performance in accuracy. Also, by considering substitutability of the features, the proposed method can utilize limited number of examples. Experimental results show that the proposed method achieves 10%p improvement in accuracy compared to the previous method.

본 연구는 예제 기반 대화 시스템에서 응답을 결정하기 위한 핵심 요소 기술 중 하나인 발차간 유사도 측정 방법의 개선에 대해 논한다. 일반적인 문장간 유사도 측정과는 달리, 대화에서 발차간 유사도 측정은 단어 분포간 유사도 뿐만 아니라, 문형, 시제, 긍/부정, 양태등 대화 자연스러움을 결정하는 문장의 다양한 언어적 요소 역시 중요하게 고려되어야 한다. 그러나 기존 연구에서는 이에 대한 고려가 부족 했던 것이 사실이며, 따라서 본 연구에서는 개선 방안으로서 발화의 형태적 유사성 뿐 아니라 다양한 언어적 자질들을 분석하고 이를 유사도 측정에 반영하여 정확도를 향상시키는 새로운 유사도 측정 방법을 제안한다. 또한, 발차의 자질별 유사도를 고려함으로써, 한정된 수의 예제들의 활용도를 높일 수 있는 방법을 제안하였다. 실험 결과 제안하는 방법이 기존 방식에 비해 10%p 이상 정확도 성능 향상이 있었다.

Keywords

References

  1. E Levin, R Pieraccini, and W Eckert., "Using markov decision processor for learning dialogue strategies," In Proceedings of ICASSP98, 1, 201-204, 1998 https://doi.org/10.1109/ICASSP.1998.674402
  2. S Young, "Talking to machines (statistically speaking)", In Proceedings of ICSLP-2002, 9-16, 2002
  3. G Salton, "The SMART Retrieval System - Experiments in Automatic Document Processing", Prentice Hall Inc., Engle-woddCliffs, NJ, 1971
  4. I McCowan, D Moore, J Dines, D Gatica-Perez, M Flynn, P Wellner, and H Bourlard., "On the Use of Information Re-trieval Measure for Speech Recognition Evaluation", IDIAP-RR 04-73, 2004
  5. K Papineni, S Roukos, T Ward, and WJ Zhu, "BLEU:A method for automatic evaluation of machine translation", In Proceedings of ACL02, pp. 311-318, 2002
  6. C Tillmann, S Vogel, H Ney, A Zubiaga, and H Sawaf, "Accelerated DP based search for statistical translation", InEUROSPEECH-1997, 2667-2670, 1997
  7. N Inui, T Koiso, J Nakamura andY Kotani, "Fully Corpus-Based Natural Language Diaglogue System", AAAI Spring Symposium, 2003
  8. C Lee, S Jung, M Jeong, and GG Lee, "Chat and Goal-Oriented Dialog Together: A Unified Example-based Architecture for Multi-Domain Dialog Management", Proceedings of the IEEE/ACL 2006 workshop on spoken language technology (SLT), 2006 https://doi.org/10.1109/SLT.2006.326788
  9. Y Yang and JO Pedersen, ., "A comparative study on feature selection in text categorization", In Proceedings 14th International Conference on Machine Learning (ICML-97), 412-420, 1997
  10. R Kohavi. "A study of cross-validation and bootstrap for accuracy estimation and model selection", Proceedings of the Fourteenth International Joint Conference on Artificial Intelligence 2(12): 1137-1143, (Morgan Kaufmann, San Mateo), 1995