DOI QR코드

DOI QR Code

탠덤 질량 분석을 위한 디코이 데이터베이스 생성 방법의 중복성 관점에서의 성능 평가

Evaluation of the Redundancy in Decoy Database Generation for Tandem Mass Analysis

  • 투고 : 2015.09.14
  • 심사 : 2015.11.13
  • 발행 : 2016.01.15

초록

탠덤 질량 분석에서는 신뢰도 높은 펩타이드 동정을 위해 목표 데이터베이스의 참조 단백질 순서를 재배치한 디코이 데이터베이스가 주로 이용된다. 한편 목표 데이터베이스와 디코이 데이터베이스 사이 혹은 디코이 데이터베이스 내부에 서열이 동일한 중복 펩타이드가 존재할 수 있으며, 이는 단백질 동정을 어렵게 하는 요인이 된다. 따라서 디코이 데이터베이스의 중복성을 최소화하는 것은 중요한 문제이다. 본 논문에서는 디코이 데이터베이스 생성에 널리 사용되는 의사셔플(pseudo-shuffling)과 의사역순(pseudo-reversing) 방법이 디코이 데이터베이스의 중복성에 미치는 영향을 조사하였다. 실험 결과, 목표 데이터베이스 크기와 데이터베이스 생성 시 허용되는 'missed cleavage site'의 최대 개수는 중복성을 증가시킴을 확인하였다. 또한 동일한 조건에서는 의사역순 방법이 의사셔플보다 항상 낮은 수준의 중복성을 가지는 디코이 데이터베이스를 생성하였다.

Peptide identification in tandem mass spectrometry is usually done by searching the spectra against target databases consisting of reference protein sequences. To control false discovery rates for high-confidence peptide identification, spectra are also searched against decoy databases constructed by permuting reference protein sequences. In this case, a peptide of the same sequence could be included in both the target and the decoy databases or multiple entries of a same peptide could exist in the decoy database. These phenomena make the protein identification problem complicated. Thus, it is important to minimize the number of such redundant peptides for accurate protein identification. In this regard, we examined two popular methods for decoy database generation: 'pseudo-shuffling' and 'pseudo-reversing'. We experimented with target databases of varying sizes and investigated the effect of the maximum number of missed cleavage sites allowed in a peptide (MC), which is one of the parameters for target and decoy database generation. In our experiments, the level of redundancy in decoy databases was proportional to the target database size and the value of MC, due to the increase in the number of short peptides (7 to 10 AA). Moreover, 'pseudo-reversing' always generated decoy databases with lower levels of redundancy compared to 'pseudo-shuffling'.

키워드

과제정보

연구 과제 주관 기관 : 한국연구재단

참고문헌

  1. H. Steen and M. Mann, "The ABC's (and XYZ's) of peptide sequencing," Nature Reviews Molecular Cell Biology, Vol. 5, pp. 699-711, 2004. https://doi.org/10.1038/nrm1468
  2. A. Nesvizhskii, "A survey of computational methods and error rate estimation procedures for peptide and protein identification in shotgun proteomics," Journal of Proteomics, Vol. 73, No. 11, pp. 2092-2123, 2010. https://doi.org/10.1016/j.jprot.2010.08.009
  3. J. Elias and S. Gygi, "Target-decoy search strategy for increased confidence in large-scale protein identifications by mass spectrometry," Nature Methods, Vol. 4, No. 3, pp. 207-214, 2007. https://doi.org/10.1038/nmeth1019
  4. A. Nesvizhskii, "Proteogenomics: concepts, applications and computational strategies," Nature Methods, Vol. 11, pp. 1114-1125, 2014. https://doi.org/10.1038/nmeth.3144
  5. S. Woo, S. Cha, G. Merrihew, Y. He, N. Castellana, C. Guest, M. MacCoss, and V. Bafna, "Proteogenomic database construction driven from large scale RNA-seq data," Journal of Proteome Research, Vol. 13, No. 1, pp. 21-28, 2014. https://doi.org/10.1021/pr400294c