ColBERT with Adversarial Language Adaptation for Multilingual Information Retrieval

다국어 정보 검색을 위한 적대적 언어 적응을 활용한 ColBERT

  • Jonghwi Kim (Graduated School of Artificial Intelligence, Pohang University of Science and Technology) ;
  • Yunsu Kim (Graduated School of Artificial Intelligence, Pohang University of Science and Technology) ;
  • Gary Geunbae Lee (Graduated School of Artificial Intelligence, Pohang University of Science and Technology)
  • 김종휘 (포항공과대학교 인공지능대학원) ;
  • 김윤수 (포항공과대학교 인공지능대학원) ;
  • 이근배 (포항공과대학교 인공지능대학원)
  • Published : 2023.10.12

Abstract

신경망 기반의 다국어 및 교차 언어 정보 검색 모델은 타겟 언어로 된 학습 데이터가 필요하지만, 이는 고자원 언어에 치중되어있다. 본 논문에서는 이를 해결하기 위해 영어 학습 데이터와 한국어-영어 병렬 말뭉치만을 이용한 효과적인 다국어 정보 검색 모델 학습 방법을 제안한다. 언어 예측 태스크와 경사 반전 계층을 활용하여 인코더가 언어에 구애 받지 않는 벡터 표현을 생성하도록 학습 방법을 고안하였고, 이를 한국어가 포함된 다국어 정보 검색 벤치마크에 대해 실험하였다. 본 실험 결과 제안 방법이 다국어 사전학습 모델과 영어 데이터만을 이용한 베이스라인보다 높은 성능을 보임을 실험적으로 확인하였다. 또한 교차 언어 정보 검색 실험을 통해 현재 검색 모델이 언어 편향성을 가지고 있으며, 성능에 직접적인 영향을 미치는 것을 보였다.

Keywords

Acknowledgement

본 연구는 과학기술정보통신부 및 정보통신기획평가원의 대학ICT연구센터육성지원사업의 연구결과로 수행되었음(IITP-2023-2020-0-01789) 또한, 본 논문은 2023년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구임 (No.2022-0-00653, 보이스피싱 정보 수집·가공 및 빅데이터 기반 수사지원시스템 개발)