DOI QR코드

DOI QR Code

The Analysis of Genome Database Compaction based on Sequence Similarity

시퀀스 유사도에 기반한 유전체 데이터베이스 압축 및 영향 분석

  • 권선영 (서울대학교 전기정보공학부) ;
  • 이병한 (서울대학교 전기정보공학부) ;
  • 박승현 (서울대학교 전기정보공학부) ;
  • 조정희 (서울대학교 협동과정 생물정보학전공) ;
  • 윤성로 (서울대학교 전기정보공학부)
  • Received : 2016.10.07
  • Accepted : 2016.12.26
  • Published : 2017.04.15

Abstract

Given the explosion of genomic data and expansion of applications such as precision medicine, the importance of efficient genome-database management continues to grow. Traditional compression techniques may be effective in reducing the size of a database, but a new challenge follows in terms of performing operations such as comparison and searches on the compressed database. Based on that many genome databases typically have numerous duplicated or similar sequences, and that the runtime of genome analyses is normally proportional to the number of sequences in a database, we propose a technique that can compress a genome database by eliminating similar entries from the database. Through our experiments, we show that we can remove approximately 84% of sequences with 1% similarity threshold, accelerating the downstream classification tasks by approximately 10 times. We also confirm that our compression method does not significantly affect the accuracy of taxonomy diversity assessments or classification.

유전체 데이터의 급증 및 정밀의료 등 응용 분야 확대에 따라 유전체 데이터베이스의 효율적 관리에 대한 중요성이 커지고 있다. 전통적인 압축 기법을 통해 유전체 데이터를 압축할 경우, 압축효과는 크지만, 압축된 상태에서 데이터베이스를 비교하거나 검색하는 등의 작업이 용이하지 않게 된다. 유전체 데이터 분석에 소요되는 시간은 데이터베이스에 존재하는 시퀀스 수에 비례하며, 중복되거나 유사한 시퀀스가 다수 존재한다는 점에 착안하여, 본 논문에서는 유전체 데이터베이스 상에 존재하는 유사 시퀀스를 제거함으로써 전체 데이터베이스 크기를 줄이는 기법을 제안한다. 실험을 통해 시퀀스 유사도 1% 기준으로도 전체의 약 84% 시퀀스가 제거되며, 약 10배 빠른 분류분석이 가능함을 보인다. 또한 큰 폭의 압축효과에도 불구하고, 범주 다양성 및 분류 분석 등에 미치는 변화가 미미함을 확인함으로써, 시퀀스 유사도 기반의 제안 압축 기법이 유전체 데이터베이스 압축에 효과적인 방법임을 제시한다.

Keywords

Acknowledgement

Supported by : 한국연구재단

References

  1. Stephens, Zachary D., et al., "Big data: astronomical or genomical?," PLoS Biol, 13.7 (2015): e1002195. https://doi.org/10.1371/journal.pbio.1002195
  2. http://www.ncbi.nlm.nih.gov/refseq
  3. Altschul, Stephen F., et al., "Basic local alignment search tool," Journal of molecular biology, 215.3 (1990): 403-410. https://doi.org/10.1016/S0022-2836(05)80360-2
  4. Edgar, Robert C., "Search and clustering orders of magnitude faster than BLAST," Bioinformatics, 26.19 (2010): 2460-2461. https://doi.org/10.1093/bioinformatics/btq461
  5. Cole, James R., et al., "The Ribosomal Database Project: improved alignments and new tools for rRNA analysis," Nucleic acids research 37.suppl 1 (2009): D141-D145. https://doi.org/10.1093/nar/gkn879
  6. Sikic, Kresimir, and Oliviero Carugo, "Protein sequence redundancy reduction: comparison of various method," Bioinformation 5.6 (2010): 234-239. https://doi.org/10.6026/97320630005234
  7. Loh, Po-Ru, Michael Baym, and Bonnie Berger, "Compressive genomics," Nature biotechnology 30.7 (2012): 627-630. https://doi.org/10.1038/nbt.2241
  8. Smith, Temple F., and Michael S. Waterman, "Identification of common molecular subsequences," Journal of molecular biology, 147.1 (1981): 195-197. https://doi.org/10.1016/0022-2836(81)90087-5
  9. Needleman, Saul B., and Christian D. Wunsch, "A general method applicable to the search for similarities in the amino acid sequence of two proteins," Journal of molecular biology 48.3 (1970): 443-453. https://doi.org/10.1016/0022-2836(70)90057-4
  10. Li, Weizhong, and Adam Godzik, "Cd-hit: a fast program for clustering and comparing large sets of protein or nucleotide sequences," Bioinformatics 22.13 (2006): 1658-1659. https://doi.org/10.1093/bioinformatics/btl158
  11. DeSantis, Todd Z., et al., "Greengenes, a chimerachecked 16S rRNA gene database and workbench compatible with ARB," Applied and environmental microbiology 72.7 (2006): 5069-5072. https://doi.org/10.1128/AEM.03006-05
  12. Maaten, Laurens van der, and Geoffrey Hinton, "Visualizing data using t-SNE," Journal of Machine Learning Research 9. Nov (2008): 2579-2605.