LUKE based Korean Dense Passage Retriever

Dongryul Ko;Changwon Kim;Jaieun Kim;Sanghyun Park;

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

2022.10a
/
Pages.131-134
/
2022
/
2005-3053(pISSN)

Human and Language Technology (한국정보과학회 언어공학연구회)

LUKE based Korean Dense Passage Retriever

LUKE 기반의 한국어 문서 검색 모델

Dongryul Ko (AI Labs, Saltlux Inc) ;
Changwon Kim (AI Labs, Saltlux Inc) ;
Jaieun Kim (AI Labs, Saltlux Inc) ;
Sanghyun Park (Dept. of Computer Science, Yonsei University)

고동률 ((주)솔트룩스 AI Labs) ;
김창완 ((주)솔트룩스 AI Labs) ;
김재은 ((주)솔트룩스 AI Labs) ;
박상현 (연세대학교 컴퓨터과학과)

Published : 2022.10.18

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

자연어처리 분야 중 질의응답 태스크는 전통적으로 많은 연구가 이뤄지고 있는 분야이며, 최근 밀집 벡터를 사용한 리트리버(Dense Retriever)가 성공함에 따라 위키피디아와 같은 방대한 정보를 활용하여 답변하는 오픈 도메인 QA(Open-domain Question Answering) 연구가 활발하게 진행되고 있다. 대표적인 검색 모델인 DPR(Dense Passage Retriever)은 바이 인코더(Bi-encoder) 구조의 리트리버로서, BERT 모델 기반의 질의 인코더(Query Encoder) 및 문단 인코더(Passage Encoder)를 통해 임베딩한 벡터 간의 유사도를 비교하여 문서를 검색한다. 하지만, BERT와 같이 엔티티(Entity) 정보에 대해 추가적인 학습을 하지 않은 언어모델을 기반으로 한 리트리버는 엔티티 정보가 중요한 질문에 대한 답변 성능이 저조하다. 본 논문에서는 엔티티 중심의 질문에 대한 답변 성능 향상을 위해, 엔티티를 잘 이해할 수 있는 LUKE 모델 기반의 리트리버를 제안한다. KorQuAD 1.0 데이터셋을 활용하여 한국어 리트리버의 학습 데이터셋을 구축하고, 모델별 리트리버의 검색 성능을 비교하여 제안하는 방법의 성능 향상을 입증한다.

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

LUKE based Korean Dense Passage Retriever

LUKE 기반의 한국어 문서 검색 모델

Abstract

Keywords