Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))
- 2022.10a
- /
- Pages.115-121
- /
- 2022
- /
- 2005-3053(pISSN)
A Study on the Dense Vector Representation of Query-Passage for Open Domain Question Answering
오픈 도메인 질의응답을 위한 질문-구절의 밀집 벡터 표현 연구
- Minji Jung (NCSOFT Corp.) ;
- Saebyeok Lee (NCSOFT Corp.) ;
- Youngjune Kim (NCSOFT Corp.) ;
- Cheolhun Heo (NCSOFT Corp.) ;
- Chunghee Lee (NCSOFT Corp.)
- Published : 2022.10.18
Abstract
질문에 답하기 위해 관련 구절을 검색하는 기술은 오픈 도메인 질의응답의 검색 단계를 위해 필요하다. 전통적인 방법은 정보 검색 기법인 빈도-역문서 빈도(TF-IDF) 기반으로 희소한 벡터 표현을 활용하여 구절을 검색한다. 하지만 희소 벡터 표현은 벡터 길이가 길 뿐만 아니라, 질문에 나오지 않는 단어나 토큰을 검색하지 못한다는 취약점을 가진다. 밀집 벡터 표현 연구는 이러한 취약점을 개선하고 있으며 대부분의 연구가 영어 데이터셋을 학습한 것이다. 따라서, 본 연구는 한국어 데이터셋을 학습한 밀집 벡터 표현을 연구하고 여러 가지 부정 샘플(negative sample) 추출 방법을 도입하여 전이 학습한 모델 성능을 비교 분석한다. 또한, 대화 응답 선택 태스크에서 밀집 검색에 활용한 순위 재지정 상호작용 레이어를 추가한 실험을 진행하고 비교 분석한다. 밀집 벡터 표현 모델을 학습하는 것이 도전적인 과제인만큼 향후에도 다양한 시도가 필요할 것으로 보인다.
Keywords