DOI QR코드

DOI QR Code

Software Defect Prediction Based on SAINT

SAINT 기반의 소프트웨어 결함 예측

  • ;
  • 주은정 (전북대학교 소프트웨어공학과) ;
  • 이정화 (전북대학교 소프트웨어공학과) ;
  • 류덕산 (전북대학교 소프트웨어공학과)
  • Received : 2024.03.28
  • Accepted : 2024.04.22
  • Published : 2024.05.31

Abstract

Software Defect Prediction (SDP) enhances the efficiency of software development by proactively identifying modules likely to contain errors. A major challenge in SDP is improving prediction performance. Recent research has applied deep learning techniques to the field of SDP, with the SAINT model particularly gaining attention for its outstanding performance in analyzing structured data. This study compares the SAINT model with other leading models (XGBoost, Random Forest, CatBoost) and investigates the latest deep learning techniques applicable to SDP. SAINT consistently demonstrated superior performance, proving effective in improving defect prediction accuracy. These findings highlight the potential of the SAINT model to advance defect prediction methodologies in practical software development scenarios, and were achieved through a rigorous methodology including cross-validation, feature scaling, and comparative analysis.

소프트웨어 결함 예측(SDP)은 오류가 발생할 가능성이 있는 모듈을 사전에 식별하여 소프트웨어 개발의 효율을 높이고 있다. SDP에서의 주과제는 예측 성능을 향상시키는것에 있다. 최근 연구에서는 딥러닝 기법이 소프트웨어 결함 예측(SDP) 분야에 적용되어 있으며, 특히 구조화된 데이터를 분석하는 데 뛰어난 성능을 보이고 있는 SAINT 모델이 주목받고 있다. 본 연구는 SAINT 모델을 다른 주요 모델(XGBoost, Random Forest, CatBoost)과 비교하여 SDP에 적용 가능한 최신 딥러닝 기법을 조사하였다. SAINT는 일관되게 우수한 성능을 보여주며 결함 예측 정확도 향상에 효과적임을 입증하였다. 이 연구 결과는 실용적인 소프트웨어 개발 상황에서 결함 예측 방법론을 발전시킬 수 있는 SAINT의 잠재력을 강조하며, 교차 검증, 특성 스케일링, 비교 분석 등을 포함한 철저한 방법론을 통해 수행되었다.

Keywords

Acknowledgement

본 연구는 원자력안전위원회의 재원으로 한국원자력안전재단의 지원을 받아 수행한 원자력안전연구사업(No. 2105030)과 정부(교육부)의 재원으로 한국연구재단의 지원을 받아 수행된 기초연구사업(NRF- 2022R1I1A3069233)과 과학기술정보통신부 및 정보통신기획평가원의 대학ICT연구센터 지원사업 (IITP-2024-2020-0-01795)의 연구결과로 수행되었음.

References

  1. S. O. Arik and T. Pfister, "Tabnet: Attentive interpretable tabular learning," in Proceedings of the AAAI Conference on Artificial Intelligence, Vol.35, No.8, pp.6679-6687, 2021.
  2. C. Pan, M. Lu, B. Xu, and H. Gao. "An improved CNN model for within-project software defect prediction," Applied Sciences, 2019.
  3. J. W. Lee, J. W. Choi, D. S. Ryu, and S. T. Kim, "TabNet based Software Defect Prediction," in Proceedings of the Korean Information Science Society Annual Conference, pp.1255-1257, 2021.
  4. G. Somepalli, M. Goldblum, A. Schwarzschild, C. B. Bruss, and T. Goldstein, "Saint: Improved neural networks for tabular data via row attention and contrastive pre-training," arXiv preprint arXiv:2106.01342, 2021.
  5. S. J. Kim, E. J. Ju, J. W. Choi, and D. S. Ryu. "Software defect prediction based on Ft-Transformer," In Proceedings of the Korea Information Science Society Conference, 2022.
  6. J. Chen, E. Jimenez-Ruiz, I. Horrocks, and C. Sutton. "Learning s mantic annotations for tabular data," arXiv preprint arXiv:1906.00781, 2019.
  7. A. V. Dorogush, V. Ershov, and A. Gulin. "CatBoost: gradient boosting with categorical features support," arXiv preprint arXiv:1810.11363, 2018.
  8. J. Ho, N. Kalchbrenner, D. Weissenborn, and T. Salimans. "Axial attention in multidimensional transformers," arXiv preprint arXiv:1912.12180, 2019.
  9. Y. LeCunet, L. Bottou, Y. Bengio, and P. Haffner, "Gradient-based learning applied to document recognition," in Proceedings of the IEEE, 86.11: pp.2278-2324, 1998.
  10. T. Chen, C. Guestrin, "Xgboost: A scalable tree boosting system," in Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp.785-794, 2016.
  11. K. Clark, M. T. Luong, Q. V. Le, and C. D. Manning. "Electra: Pre-training text encoders as discriminators rather than generators," arXiv preprint arXiv:2003.10555, 2020.
  12. I. Guyon, S. Gunn, A. Ben-Hur, and G. Dror, "Result analysis of the NIPS 2003 feature selection challenge," in Advances in Neural Information Processing Systems, 17, 2004.
  13. L. Katzir, G. Elidan, and R. EI-Yaniv, "Net-dnf: Effective deep modeling of tabular data," International Conference on Learning Representations, 2020.
  14. A. Oord, Y. Li, and O. Vinyals, "Representation learning with contrastive predictive coding," arXiv preprint arXiv: 1807.03748, 2018.