Acknowledgement
이 논문은 2019년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원(2019-0-00004, 준지도 학습형 언어지능 원천기술 및 이에 기반한 외국인 지원용 한국어 튜터링 서비스 개발)과 2022년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구임(No. RS-2022-00187238, 효율적 사전학습이 가능한 한국어 대형 언어모델 사전학습 기술 개발).
지능형 대화 시스템은 줄곧 서비스의 목표와 무관한 사용자 입력을 전달받아, 그 처리 성능을 의심받는다. 특히 종단간 대화 이해 생성 모델이나, 기계학습 기반 대화 이해 모델은 학습 시간대에 한정된 범위의 도메인 입력에만 노출됨으로, 사용자 발화를 자신이 처리 가능한 도메인으로 과신하는 경향이 있다. 본 연구에서는 대화 생성 모델이 처리할 수 없는 입력과 신뢰도가 낮은 생성 결과를 배제하기 위해 불확실성 정량화 기법을 대화 의도 분류 모델에 적용한다. 여러 번의 추론 샘플링이 필요 없는 실용적인 예측 신뢰도 획득 방법과 함께, 평가 시간대와 또다른 도메인으로 구성된 분포 외 입력 데이터를 학습에 노출시키는 것이 분포 외 입력을 구분하는데 도움이 되는지를 실험으로 확인한다.
이 논문은 2019년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원(2019-0-00004, 준지도 학습형 언어지능 원천기술 및 이에 기반한 외국인 지원용 한국어 튜터링 서비스 개발)과 2022년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구임(No. RS-2022-00187238, 효율적 사전학습이 가능한 한국어 대형 언어모델 사전학습 기술 개발).