Enhancing Classification Model Performance through Noise Data Refinement

노이즈 데이터 정제를 통한 분류모델 성능 향상

  • Unkuk Jeong (Graduate School of Software Convergence, Kookmin University) ;
  • Seungshik Kang (Dept. of Artificial Intelligence, Kookmin University)
  • 정운국 (국민대학교 소프트웨어융합대학원) ;
  • 강승식 (국민대학교 인공지능학부)
  • Published : 2024.05.23

Abstract

자연어 기반의 분류모델을 개발할 때 높은 성능을 획득하기 위해서는 데이터의 품질이 중요한 요소이다. 특히 무역상품 국제 분류체계 HS-CODE에서 상품명을 기반으로 HS코드를 분류할 때, 라벨링 된 데이터의 품질에 의해서 분류모델의 성능이 좌우된다. 하지만 현실적으로 확보 가능한 데이터셋에는 데이터 라벨링 오류나 데이터로 활용하기에 특징점이 부족한 데이터들이 다수 존재하기도 한다. 본 연구에서는 분류모델 학습 데이터의 정제 방법론으로, 딥러닝 기반 노이즈 검출 알고리즘을 제안한다. 분류 대상의 특징점이 분류 경계값 주변에 존재한다면 분류하기 모호한 노이즈 데이터일 가능성이 높다고 가정하고, 해당 노이즈 데이터를 검출하는 방법으로 딥러닝 기술을 활용한다. 해당 경계값 노이즈 검출 알고리즘으로 데이터를 정제한 뒤 학습모델의 성능비교 결과, 기존 대비 우수한 분류 정확도를 기록하였다.

Keywords

References

  1. Lee, Eunji, et al. "Classification of goods using text descriptions with sentences retrieval," arXiv preprint arXiv:2111.01663, 2021. 
  2. Chen, Xi, Stefano Bromuri, and Marko Van Eekelen. "Neural machine translation for harmonized system codes prediction." Proceedings of the 2021 6th International Conference on Machine Learning Technologies. 2021. 
  3. Ding, Liya, ZhenZhen Fan, and DongLiangChen, "Auto-categorization of HS code usingbackground net approach," Procedia Computer Science 60: 1462-1471, 2015. 
  4. Luppes, Jeffrey, Arjen P. de Vries, and Faegheh Hasibi. "Classifying short text for the harmonized system with convolutional neural networks." Radboud University, 2019. 
  5. Kim, Yoon. "Convolutional neural networks for sentence classification. arXiv 2014." arXiv preprint arXiv:1408.5882, 2019. 
  6. Rolnick, David, et al. "Deep learning is robust to massive label noise." arXiv preprint arXiv:1705.10694, 2017. 
  7. Song, Hwanjun, et al. "Learning from noisy labels with deep neural networks: A survey," IEEE transactions on neural networks and learning systems, 2022. 
  8. Smart, Brandon, and Gustavo Carneiro. "Bootstrapping the relationship between images and their clean and noisy labels," Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. 2023.