Abstract
T cells induce immune responses and thereby eliminate infected micro-organisms when peptides from the microbial proteins are bound to HLAs in the host cell surfaces, It is known that the more stable the binding of peptide to HLA is, the stronger the T cell response gets to remove more effectively the source of infection. Accordingly, if peptides (HLA binder) which can be bound stably to a certain HLA are found, those peptieds are utilized to the development of peptide vaccine to prevent infectious diseases or even to cancer. However, HLA is highly polymorphic so that HLA has a large number of alleles with some frequencies even in one population. Therefore, it is very inefficient to find the peptides stably bound to a number of HLAs by testing random possible peptides for all the various alleles frequent in the population. In order to solve this problem, computational methods have recently been developed to predict peptides which are stably bound to a certain HLA. These methods could markedly decrease the number of candidate peptides to be examined by biological experiments. Accordingly, this paper not only introduces a method of machine learning to predict peptides binding to an HLA, but also suggests a new prediction model so called 'knowledge-based genetic algorithm' that has never been tried for HLA binding peptide prediction. Although based on genetic algorithm (GA). it showed more enhanced performance than GA by incorporating expert knowledge in the process of the algorithm. Furthermore, it could extract rules predicting the binding peptide of the HLA alleles common in Koreans.
감염된 미생물에서 유래한 단백질 펩타이드가 HLA에 결합하여 숙주의 세포표면에 제시되면, T 세포가 이를 인식하여 면역반응을 유발함으로써 감염원을 제거하게 된다. HLA와 펩타이드간의 결합이 안정적일수록 T 세포반응이 강하게 일어나 효율적으로 감염원을 제거할 수 있다고 알려져 있다. 따라서 특정 HLA에 안정적으로 결합할 수 있는 펩타이드(HLA binder)를 찾아낼 수 있다면 감염질환이나 암의 예방을 위한 펩타이드 백신의 개발에 활용될 수 있다. 그런데 HLA는 매우 다형하기 때문에 하나의 집단 내에서도 어느 정도의 빈도를 가지는 대립유전자의 수가 매우 많다. 따라서 이들 모든 대립유전자들에 대해 가능한 펩타이드조합을 제작한 후 직접 실험을 통해 안정적으로 결합하는 펩타이드를 찾아내는 것은 매우 비효율적이다. 이를 극복하기 위하여 특정 HLA에 안정적으로 결합하는 펩타이드를 예측하는 정보전산적인 방법이 최근 개발되어 왔다. 이들 방법을 통해 제시된 펩타이드에 대해서만 직접 생물학적 실험을 시행함으로써 연구자는 검증해야 할 후보 펩타이드의 수를 현격히 감소시킬 수 있게 된다. 본 논문에서는 HLA 결합 펩타이드 예측을 위해 기계학습을 이용한 방법을 소개할 뿐만 아니라, 지금까지 HLA 결합 펩타이드 예측에 시도된 적이 없는 '지식기반 유전자 알고리즘(knowledge-based genetic algorithm)'이라는 새로운 모델을 제시하고자 한다. 이것은 유전자알고리즘(GA)에 기반한 것이었지만 전문가 지식을 접목함으로써 GA보다 더 향상된 성능으로 한국인에 흔한 HLA에 결합하는 펩타이드를 예측하였다. 뿐만 아니라 이것은 결합하는 펩타이드의 규칙을 한국인에 흔한 HLA 대립유전자에 대하여 추출해 줄 수 있는 새로운 방법이었다.