이슈 리포트 자동 레이블링 성능 개선을 위한 데이터 증강 기법의 실증적 연구

An Empirical Study on Data Augmentation Techniques for Improving the Performance of Automatic Issue Report Labeling

  • 김정우 (전남대학교 에너지자원공학과 ) ;
  • 김미수 (전남대학교 인공지능융합학과)
  • Jeong-Wu Kim (Dept. of Energy and Resources Engineering, Chonnam University) ;
  • Misoo-Soo Kim (Dept. of Artificial Intelligence Convergence, Chonnam University)
  • 발행 : 2024.10.31

초록

이슈 리포트 자동 레이블링은 효율적인 소프트웨어 유지보수를 위해 필수적인 작업이다. 그러나 이슈 리포트 데이터 셋은 롱테일 레이블 분포를 가지고 있어, 성능 저하를 초래할 수 있는 불균형 문제가 존재한다. 본 연구에서는 Easy Data Augmentation을 적용하여 롱테일 레이블의 성능을 개선할 수 있는지 실증적으로 검토하였다. 그 결과, 가장 희소한 "good-first-issue" 레이블에서 성능이 크게 개선된 것을 확인하였다.

키워드

과제정보

본 연구는 과학기술정보통신부 및 정보통신기획평가원의 소프트웨어중심대학사업(2021-0-01409)과 과학기술정보통신부 및 정보통신기획평가원의 인공지능융합혁신인재양성사업(IITP-2023-RS-2023-00256629), 대학ICT연구센터사업(IITP-2024-RS-2024-00437718)의 연구 결과로 수행되었음

참고문헌

  1. Wang, Jun, et al. "Personalizing label prediction for GitHub issues." Information and Software Technology, vol. 145, 2022, p. 106845.
  2. Wei, Jason, and Kai Zou. "Eda: Easy data augmentation techniques for boosting performance on text classification tasks." Proceedings of the EMNLP-IJCNLP 2019, Hong Kong, 2019, pp. 6382-6388.
  3. Heo, Jueun, and Seonah Lee. "An empirical study on the performance of individual issue label prediction." Proceedings of the 2023 IEEE/ACM 20th International Conference on Mining Software Repositories (MSR), Melbourne, Australia, 2023, pp. 228-233.
  4. Fang, Sen, et al. "RepresentThemAll: A universal learning representation of bug reports." Proceedings of the 2023 IEEE/ACM 45th International Conference on Software Engineering (ICSE), Melbourne, Australia, 2023.