Analyzing Spurious Contextualization of Korean Contrastive Sentence Representation from the Perspective of Linguistics

언어학 관점에서의 한국어 대조학습 기반 문장 임베딩의 허위 문맥화에 대한 고찰

  • Yoo Hyun Jeong (Dept, of Artificial Intelligence, Hanyang University) ;
  • Myeongsoo Han (Dept, of Artificial Intelligence, Hanyang University) ;
  • Dong-Kyu Chae (Dept, of Artificial Intelligence, Hanyang University)
  • 정유현 (한양대학교 인공지능학과) ;
  • 한명수 (한양대학교 인공지능학과) ;
  • 채동규 (한양대학교 인공지능학과)
  • Published : 2023.10.12

Abstract

본 논문은 사전 학습 언어 모델의 특성인 이방성과 문맥화에 주목하여 이에 대한 분석 실험과 한국어 언어 모델만의 새로운 관점을 제안한다. 최근 진행된 영어 언어 모델 분석 연구에서 영감을 받아, 한국어 언어 모델에서도 대조학습을 통한 이방성과 문맥화의 변화를 보고하였으며, 다양한 모델에 대하여 토큰들을 문맥화 정도에 따라 분류하였다. 또한, 한국어의 언어학적 특성을 고려하여, 허위 문맥화를 완화할 수 있는 토큰을 문맥 중심어로, 문맥 중심어의 임베딩을 모방하는 토큰을 문맥 기능어로 분류하는 기준을 제안하였다. 간단한 적대적 데이터 증강 실험을 통하여 제안하는 분류 기준의 가능성을 확인하였으며, 본 논문이 향후 평가 벤치마크 및 데이터셋 제작, 나아가 한국어를 위한 강건한 학습 방법론에 기여하길 바란다.

Keywords

Acknowledgement

이 논문은 2023년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원(No.2020-0-01373, 인공지능대학원지원(한양대학교))을 받아 수행되었습니다.