LUKE based Korean Dense Passage Retriever

Dongryul Ko;Changwon Kim;Jaieun Kim;Sanghyun Park;

한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리) (Annual Conference on Human and Language Technology)

한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
/
Pages.131-134
/
2022
/
2005-3053(pISSN)

한국정보과학회 언어공학연구회 (Human and Language Technology)

LUKE 기반의 한국어 문서 검색 모델

LUKE based Korean Dense Passage Retriever

고동률 ((주)솔트룩스 AI Labs) ;
김창완 ((주)솔트룩스 AI Labs) ;
김재은 ((주)솔트룩스 AI Labs) ;
박상현 (연세대학교 컴퓨터과학과)

Dongryul Ko (AI Labs, Saltlux Inc) ;
Changwon Kim (AI Labs, Saltlux Inc) ;
Jaieun Kim (AI Labs, Saltlux Inc) ;
Sanghyun Park (Dept. of Computer Science, Yonsei University)

발행 : 2022.10.18

PDF

PDF 다운로드

⟨ 이전 논문 다음 논문 ⟩

초록

자연어처리 분야 중 질의응답 태스크는 전통적으로 많은 연구가 이뤄지고 있는 분야이며, 최근 밀집 벡터를 사용한 리트리버(Dense Retriever)가 성공함에 따라 위키피디아와 같은 방대한 정보를 활용하여 답변하는 오픈 도메인 QA(Open-domain Question Answering) 연구가 활발하게 진행되고 있다. 대표적인 검색 모델인 DPR(Dense Passage Retriever)은 바이 인코더(Bi-encoder) 구조의 리트리버로서, BERT 모델 기반의 질의 인코더(Query Encoder) 및 문단 인코더(Passage Encoder)를 통해 임베딩한 벡터 간의 유사도를 비교하여 문서를 검색한다. 하지만, BERT와 같이 엔티티(Entity) 정보에 대해 추가적인 학습을 하지 않은 언어모델을 기반으로 한 리트리버는 엔티티 정보가 중요한 질문에 대한 답변 성능이 저조하다. 본 논문에서는 엔티티 중심의 질문에 대한 답변 성능 향상을 위해, 엔티티를 잘 이해할 수 있는 LUKE 모델 기반의 리트리버를 제안한다. KorQuAD 1.0 데이터셋을 활용하여 한국어 리트리버의 학습 데이터셋을 구축하고, 모델별 리트리버의 검색 성능을 비교하여 제안하는 방법의 성능 향상을 입증한다.

한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리) (Annual Conference on Human and Language Technology)

LUKE 기반의 한국어 문서 검색 모델

LUKE based Korean Dense Passage Retriever

초록

키워드

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)