Fine-Tuned ProtBERT for Toxic Protein Classification

ProtBERT를 활용한 독성 단백질 분류

  • 안성윤 (가천대학교 IT융합대학 AI.소프트웨어학부) ;
  • 이상웅 (가천대학교 IT융합대학 AI.소프트웨어학부)
  • Published : 2022.07.13

Abstract

살아있는 유기체에 의해 분비되는 독소는 대부분의 경우 인간에게 유해하다. 가령 여름철 날것이나 오래된 음식에서 쉽게 식중독에 걸릴 수 있는데, 이는 주로 Clorustidium Botulinum이 만들어낸 보툴리눔 독소가 원인이다. 유기체에 의해 생성된 모든 독소는 단백질이며 이는 아미노산 서열로 나타낼 수 있다. 이를 통해 생물정보학 분야의 많은 연구자들이 많은 머신러닝 기술을 통해 단백질의 독성을 예측할 수 있었다. 최근 몇 년 동안 SVM를 사용하는 BTXpred와 CNN을 사용하는 ToxDL과 같은 모델이 각각 박테리아와 동물 독소의 독성을 예측하기 위해 제안되었다. 시대가 변함에 따라 BERT와 같은 성능이 더욱 뛰어난 모델이 시퀀스 분류를 위해 도입되었다. 본 논문은 독성 단백질을 분류를 위해 ProtBERT를 사용할 경우 이의 성능을 보여주고자 한다.

Keywords

Acknowledgement

This work was supported by Korea Environment Industry & Technology Institute (KEITI) through Technology Development Project for Biological Hazards Management in Indoor Air Program(or Project), funded by Korea Ministry of Environment(MOE)(2021003380003)