Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))
- 2013.10a
- /
- Pages.45-49
- /
- 2013
- /
- 2005-3053(pISSN)
Semi-Supervised Answer Type Classification For Question-Answering System
질의 응답 시스템을 위한 반교사 기반의 정답 유형 분류
- Park, Seonyeong (Department of Computer Science and Engineering, POSTECH) ;
- Lee, Donghyeon (Department of Computer Science and Engineering, POSTECH) ;
- Kim, Yonghee (Department of Computer Science and Engineering, POSTECH) ;
- Ryu, Seonghan (Department of Computer Science and Engineering, POSTECH) ;
- Lee, Gary Geunbae (Department of Computer Science and Engineering, POSTECH)
- 박선영 (포항공과대학교, 컴퓨터공학과) ;
- 이동현 (포항공과대학교, 컴퓨터공학과) ;
- 김용희 (포항공과대학교, 컴퓨터공학과) ;
- 류성한 (포항공과대학교, 컴퓨터공학과) ;
- 이근배 (포항공과대학교, 컴퓨터공학과)
- Published : 2013.10.06
Abstract
기존 연구에서는 질의 응답 시스템에서 정답 유형을 분류하기 위해 패턴 매칭 방식이나 교사 학습(Supervised Learning)을 이용했다. 패턴 매칭 방식은 질의 분석을 통해 수동으로 패턴을 구축해야 한다. 교사 학습에서는 훈련 데이터 전체에 정답 유형이 태깅(Tagging)되어야 하며, 이를 위해서는 사용자의 질의에 정답 유형을 수동으로 태깅하는 작업이 많이 필요하다. 웹을 통해 정답 유형이 태깅되지 않은 대용량의 사용자 질의 말뭉치를 구할 수 있지만, 이 데이터에는 정답 유형이 태깅되어 있지 않다. 따라서, 대용량의 사용자 질의에 비례하여, 정답 유형을 수동으로 태깅하는 작업량이 증가한다. 앞서 언급한 두 가지 방법론에서, 정답 유형 분류를 위해 수작업이 많이 필요하다는 문제점을 해결하고자 본 논문에서는 일부 태깅된 훈련 데이터를 필요로 하는 반교사 학습(Semi-supervised Learning)에 기반한 정답 유형 분류를 제안한다. 이는 정답 유형 분류 작업에 필요한 노동력을 최소화함으로 대용량의 데이터를 통한 효율적 질의 응답 시스템 구축을 가능하게 한다.