• 제목/요약/키워드: redundant peptides

검색결과 4건 처리시간 0.017초

Theoretical Peptide Mass Distribution in the Non-Redundant Protein Database of the NCBI

  • Lim Da-Jeong;Oh Hee-Seok;Kim Hee-Bal
    • Genomics & Informatics
    • /
    • 제4권2호
    • /
    • pp.65-70
    • /
    • 2006
  • Peptide mass mapping is the matching of experimentally generated peptides masses with the predicted masses of digested proteins contained in a database. To identify proteins by matching their constituent fragment masses to the theoretical peptide masses generated from a protein database, the peptide mass fingerprinting technique is used for the protein identification. Thus, it is important to know the theoretical mass distribution of the database. However, few researches have reported the peptide mass distribution of a database. We analyzed the peptide mass distribution of non-redundant protein sequence database in the NCBI after digestion with 15 different types of enzymes. In order to characterize the peptide mass distribution with different digestion enzymes, a power law distribution (Zipfs law) was applied to the distribution. After constructing simulated digestion of a protein database, rank-frequency plot of peptide fragments was applied to generalize a Zipfs law curve for all enzymes. As a result, our data appear to fit Zipfs law with statistically significant parameter values.

탠덤 질량 분석을 위한 디코이 데이터베이스 생성 방법의 중복성 관점에서의 성능 평가 (Evaluation of the Redundancy in Decoy Database Generation for Tandem Mass Analysis)

  • 이홍란;류단휘;이기욱;황규백
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권1호
    • /
    • pp.56-60
    • /
    • 2016
  • 탠덤 질량 분석에서는 신뢰도 높은 펩타이드 동정을 위해 목표 데이터베이스의 참조 단백질 순서를 재배치한 디코이 데이터베이스가 주로 이용된다. 한편 목표 데이터베이스와 디코이 데이터베이스 사이 혹은 디코이 데이터베이스 내부에 서열이 동일한 중복 펩타이드가 존재할 수 있으며, 이는 단백질 동정을 어렵게 하는 요인이 된다. 따라서 디코이 데이터베이스의 중복성을 최소화하는 것은 중요한 문제이다. 본 논문에서는 디코이 데이터베이스 생성에 널리 사용되는 의사셔플(pseudo-shuffling)과 의사역순(pseudo-reversing) 방법이 디코이 데이터베이스의 중복성에 미치는 영향을 조사하였다. 실험 결과, 목표 데이터베이스 크기와 데이터베이스 생성 시 허용되는 'missed cleavage site'의 최대 개수는 중복성을 증가시킴을 확인하였다. 또한 동일한 조건에서는 의사역순 방법이 의사셔플보다 항상 낮은 수준의 중복성을 가지는 디코이 데이터베이스를 생성하였다.

Proteomics Data Analysis using Representative Database

  • Kwon, Kyung-Hoon;Park, Gun-Wook;Kim, Jin-Young;Park, Young-Mok;Yoo, Jong-Shin
    • Bioinformatics and Biosystems
    • /
    • 제2권2호
    • /
    • pp.46-51
    • /
    • 2007
  • In the proteomics research using mass spectrometry, the protein database search gives the protein information from the peptide sequences that show the best match with the tandem mass spectra. The protein sequence database has been a powerful knowledgebase for this protein identification. However, as we accumulate the protein sequence information in the database, the database size gets to be huge. Now it becomes hard to consider all the protein sequences in the database search because it consumes much computing time. For the high-throughput analysis of the proteome, usually we have used the non-redundant refined database such as IPI human database of European Bioinformatics Institute. While the non-redundant database can supply the search result in high speed, it misses the variation of the protein sequences. In this study, we have concerned the proteomics data in the point of protein similarities and used the network analysis tool to build a new analysis method. This method will be able to save the computing time for the database search and keep the sequence variation to catch the modified peptides.

  • PDF

출산 후 경과한 날에 따른 한국인 산모의 모유 단백체 분석 (Proteomic analysis of Korean mothers' human milk at different lactation stages; postpartum 1, 3, and 6 weeks)

  • 박종문;이후근;송승현;한원호;김미정;이주현;강남미
    • 분석과학
    • /
    • 제30권6호
    • /
    • pp.348-354
    • /
    • 2017
  • 이 연구는 출산 후 1, 3, 6주가 경과한 산모에서 얻은 모유의 단백체 발현 양상과 과 발현 단백질을 검출하는 것을 목적으로 하였다. 샷 건 정량 단백체 분석법을 이용하여 모유 중의 단백질을 동정하였고, 각 수유단계 간에 정량적 비교를 하였다. 각 주의 모유 샘플은 두 명의 산모로부터 얻어진 모유를 혼합하였고, 각 샘플 마다 3회 반복 실험을 하였다. Casein은 모유 내에 가장 많이 존재하는 단백질로서 실험의 정확성을 위하여 제거하였고, 트립신을 이용한 절편 화로 모유 단백질들을 펩타이드로 변환하였다. 처리된 펩타이드들은 역상 C18 미세관 크로마토그래피 및 이온-트랩 질량분석기를 이용하여 분석하였으며, Spectra Counting으로 단백질의 정량적 비교를 하였다. 각 샘플 당, 80-109 개의 단백질을 중복 제거한 후 동정하였다. 당화 단백질, metabolic enzyme, 및 lactoferrin, Carboxylic ester hydrolase, Clusterin을 포함하는 chaperon 효소들이 주로 검출되었다. 각 반복실험에서 재현성 있게 검출되는 63개의 단백질에 대한 정량적 비교분석 결과 25개의 단백질이 통계적으로 유의하게 수유단계에 따라 변화하는 것을 확인할 수 있었고, 특히 Ig lambda-7 chain C region과 Tenascin은 시간에 따라 현저하게 감소하였다. 향후 이와 같은 수유 단계에 따른 모유 내 단백의 변화가 생리적으로 가지는 의미에 관하여 추가적인 연구가 필요하다 생각된다.