Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))
- 2020.10a
- /
- Pages.32-36
- /
- 2020
- /
- 2005-3053(pISSN)
Self-supervised Learning Method using Heterogeneous Mass Corpus for Sentence Embedding Model
이종의 말뭉치를 활용한 자기 지도 문장 임베딩 학습 방법
- Kim, Sung-Ju (NAVER Corporation) ;
- Suh, Soo-Bin (NAVER Corporation) ;
- Park, Jin-Seong (NAVER Corporation) ;
- Park, Sung-Hyun (NAVER Corporation) ;
- Jeon, Dong-Hyeon (NAVER Corporation) ;
- Kim, Seon-Hoon (NAVER Corporation) ;
- Kim, Kyung-Duk (NAVER Corporation) ;
- Kang, In-Ho (NAVER Corporation)
- Published : 2020.10.14
Abstract
문장의 의미를 잘 임베딩하는 문장 인코더를 만들기 위해 비지도 학습과 지도 학습 기반의 여러 방법이 연구되고 있다. 지도 학습 방식은 충분한 양의 정답을 구축하는데 어려움이 있다는 한계가 있다. 반면 지금까지의 비지도 학습은 단일 형식의 말뭉치에 한정해서 입력된 현재 문장의 다음 문장을 생성 또는 예측하는 형식으로 문제를 정의하였다. 본 논문에서는 위키피디아, 뉴스, 지식 백과 등 문서 형태의 말뭉치에 더해 지식인이나 검색 클릭 로그와 같은 구성이 다양한 이종의 대량 말뭉치를 활용하는 자기 지도 학습 방법을 제안한다. 각 형태의 말뭉치에 적합한 자기 지도 학습 문제를 설계하고 학습한 경우 KorSTS 데이셋의 비지도 모델 성능 평가에서 기준 모델 대비 7점 가량의 성능 향상이 있었다.