파인튜닝을 사용한 대형 언어 모델 기반 취약점 탐지 시스템에 대한 연구

A Survey on Fine-tuned Large Language Model-based Vulnerability Detection System

  • 김현준 (서울대학교 전기정보공학부, 반도체공동연구소) ;
  • 윤수빈 (서울대학교 전기정보공학부, 반도체공동연구소) ;
  • 백윤흥 (서울대학교 전기정보공학부, 반도체공동연구소)
  • Hyun-Jun Kim (Dept. of Electrical and Computer Engineering and Inter-University Semiconductor Research Center (ISRC), Seoul National University) ;
  • Subin Yun (Dept. of Electrical and Computer Engineering and Inter-University Semiconductor Research Center (ISRC), Seoul National University) ;
  • Yun-Heung Paek (Dept. of Electrical and Computer Engineering and Inter-University Semiconductor Research Center (ISRC), Seoul National University)
  • 발행 : 2024.10.31

초록

본 논문은 소스 코드에 내재된 취약점을 탐색하기 위해 대형 언어 모델을 취약점 탐색 태스크에 맞게 파인튜닝하여 사용하는 최신 연구들을 소개한다. 각 연구에서 대형 언어 모델을 활용하여 중점적으로 해결하려는 문제와 솔루션을 설명하고, 향후 연구 방향을 조망하려 한다.

키워드

과제정보

이 논문은 2024년도 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원(RS-2023-00277326)과 2024년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원(IITP-2023-RS-2023-00256081)과 2024년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원(No.2020-0-01840,스마트폰의 내부데이터 접근 및 보호 기술 분석)과 2024년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원(No.RS-2024-00438729, 익명화된 기밀실행을 이용한 전주기적 데이터 프라이버시 보호 기술 개발)과 2024년도 정부(산업통상자원부)의 재원으로 한국산업기술기획평가원의 지원(No. RS-2024-00406121, 자동차보안취약점기반위협분석시스템개발(R&D))을 받았으며, 2024년도 BK21 FOUR 정보기술 미래인재 교육연구단의 지원을받았으며, 반도체 공동연구소 지원을받아 수행된 연구임.

참고문헌

  1. 황찬웅, "2023년 하반기 사이버 위협 동향 보고서", p. 4, 2024, https://www.kisa.or.kr/20205/form?postSeq=1025&page=1 
  2. Liu, Zhongxin, et al., "Pre-training by Predicting Program Dependencies for Vulnerability Analysis Tasks.", Proceedings of the IEEE/ACM46th International Conference on Software Engineering, Portugal, 2024. 
  3. Feng, Zhangyin, et al., "Codebert: A pre-trained model for programming and natural languages.", arXiv preprint arXiv:2002.08155, 2020. 
  4. Fabian Yamaguchi, joern [Computer software], joernio, https://github.com/joernio/joern. 
  5. Du, Xiaohu, et al., "Generalization-Enhanced Code Vulnerability Detection via Multi-Task Instruction Fine-Tuning", The 62nd Annual Meeting of the Association for Computational Linguistics Findings, Thailand, 2024. 
  6. Ding, Yangruibo, et al., "Vulnerability Detection with Code Language Models: How Far Are We?", IEEE/ACM 46th International Conference on Software Engineering, Canada, 2025. 
  7. Fan, Jiahao, et al., "AC/C++ code vulnerability dataset with code changes and CVE summaries.", Proceedings of the 17th International Conference on Mining Software Repositories, Online, 2020.