Acknowledgement
이 논문은 2022년도 정부(과학기술정보통신부)의 재원으로 (1) 정보통신기획평가원의 지원(No.2020-0-01373, 인공지능대학원지원(한양대학교))과 (2) 한국연구재단의 지원을 받아 수행된 연구임 (No.2021R1A2C1094863)
최근 자연어 처리 분야에서 문맥적 의미를 반영하기 위한 대조학습 (contrastive learning) 에 대한 연구가 활발히 이뤄지고 있다. 이 때 대조학습을 위한 양질의 학습 (training) 데이터와 검증 (validation) 데이터를 이용하는 것이 중요하다. 그러나 한국어의 경우 대다수의 데이터셋이 영어로 된 데이터를 한국어로 기계 번역하여 검토 후 제공되는 데이터셋 밖에 존재하지 않는다. 이는 기계번역의 성능에 의존하는 단점을 갖고 있다. 본 논문에서는 한국어 리뷰 데이터로 임베딩의 의미 반영 정도를 측정할 수 있는 간단한 검증 데이터셋 구축 방법을 제안하고, 이를 활용한 데이터셋인 SimKoR (Similarity Korean Review dataset) 을 제안한다. 제안하는 검증 데이터셋을 이용해서 대조학습을 수행하고 효과성을 보인다.
이 논문은 2022년도 정부(과학기술정보통신부)의 재원으로 (1) 정보통신기획평가원의 지원(No.2020-0-01373, 인공지능대학원지원(한양대학교))과 (2) 한국연구재단의 지원을 받아 수행된 연구임 (No.2021R1A2C1094863)