Acknowledgement
이 논문은 2023 년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원(No.2020-0-01373, 인공지능대학원지원(한양대학교))을 받아 수행되었음.
DOI QR Code
최근 자연어처리 분야에서 의미론적 유사성을 반영하기 위한 대조 학습 (contrastive learning) 관련 연구가 활발히 이뤄지고 있다. 이러한 대조 학습의 핵심은 의미론적으로 가까워져야 하는 쌍과 멀어져야 하는 쌍을 잘 구축하는 것이지만, 기존의 손실 함수는 문장의 상대적인 유사성을 풍부하게 반영하는데 한계가 있다. 이를 해결하기 위해, 이전 연구에서는 삼중 항 손실 함수 (triplet loss)를 도입하였으며, 본 논문에서는 이러한 삼중 항을 구성하기 위해 대조 학습에서의 효과적인 토큰 컷오프(cutoff) 데이터 증강 기법을 제안한다. BERT, RoBERTa 등 널리 활용되는 언어 모델을 이용한 실험을 통해 제안하는 방법의 우수한 성능을 보인다.
이 논문은 2023 년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원(No.2020-0-01373, 인공지능대학원지원(한양대학교))을 받아 수행되었음.