한국정보처리학회:학술대회논문집 (Proceedings of the Korea Information Processing Society Conference)
- 한국정보처리학회 2023년도 추계학술발표대회
- /
- Pages.410-413
- /
- 2023
- /
- 2005-0011(pISSN)
- /
- 2671-7298(eISSN)
DOI QR Code
의사 레이블링을 통한 레이블이 없는 데이터 보완 연구
Research on supplementing unlabeled data through pseudo-labeling.
- Min-Hee Yoo (Graduate School of Computer & Information Technology, Korea University) ;
- Heon-Chang Yu (Graduate School of Computer & Information Technology, Korea University)
- 발행 : 2023.11.02
초록
레이블링 작업은 데이터 분석 시 필요한 사전 작업중 하나이다. 모든 데이터들에 대해 레이블링 작업은 시간/인적 자원을 필요로 하기에, 해당 작업을 보완할 방법이 존재한다면 요구되는 리소스를 줄여 효율성을 크게 향상시킬 수 있다. 본 논문에서는 통신회사에서 적재된 데이터 셋에 대하여 레이블이 없는 데이터(Unlabeled-data)에 대해 의사 레이블링(Pseudo-labeling), SMOTE 를 통한 데이터 증강을 활용하여 기존에 활용되지 못한 데이터를 추가하여 모델에 학습시킨다. 실험을 통해 의사 레이블을 통한 모델 학습 방법이 기존 도메인 지식의 레이블 방법보다 효율적이고 성능이 우수함을 확인하였다.
키워드