A Study on the Genomic Patterns of SARS coronavirus using Bioinformtaics Techniques

바이오인포매틱스 기법을 활용한 SARS 코로나바이러스의 유전정보 연구

  • 안인성 (한국과학기술정보연구원 슈퍼컴퓨팅센터) ;
  • 정병진 (서울대학교 보건대학원) ;
  • 손현석 (서울대학교 보건대학원)
  • Published : 2007.11.16

Abstract

Since newly emerged disease, the Severe Acute Respiratory Syndrome (SARS), spread from Asia to North America and Europe rapidly in 2003, many researchers have tried to determine where the virus came from. In the phylogenetic point of view, SARS virus has been known to be one of the genus Coronavirus, but, the overall conservation of SARS virus sequence was not highly similar to that of known coronaviruses. The natural reservoirs of SARS-CoV are not clearly determined, yet. In the present study, the genomic sequences of SARS-CoV were analyzed by bioinformatics techniques such as multiple sequence alignment and phylogenetic analysis methods as well multivariate statistical analysis. All the calculating processes, including calculations of the relative synonymous codon usage (RSCU) and other genomic parameters using 30,305 coding sequences from the two genera, Coronavirus, and Lentivirus, and one family, Orthomyxoviridae, were performed on SMP cluster in KISTI, Supercomputing Center. As a result, SARS_CoV showed very similar RSCU patterns with feline coronavirus on the both axes of the correspondence analysis, and this result showed more agreeable results with serological results for SARS_CoV than that of phylogenetic result itself. In addition, SARS_CoV, human immunodeficiency virus, and influenza A virus commonly showed the very low RSCU differences among each synonymous codon group, and this low RSCU bias might provide some advantages for them to be transmitted from other species into human beings more successfully. Large-scale genomic analysis using bioinformatics techniques may be useful in genetic epidemiology field effectively.

중중급성호흡기증후군(SARS, Severe Acute Respiratory Syndrome)은 전 세계적으로 알려진 바가 없었던 신종 급성 전염성 질환으로써, 2003년 아시아로부터 북미와 유럽지역까지 빠른 속도로 전파되어 나간 이후로부터 많은 과학자들의 연구의 대상이 되어오고 있다. 계통발생학적인 관점에서 SARS 바이러스는 Coronavirus 속에 속하는 것으로 알려져 있으나, 전체적인 유전정보 면에서는 다른 코로나바이러스들에 비하여 진화상으로 보존된 부분들이 현저하게 적은 경향을 나타낸다. 자연계에서의 SARS 코로나바이러스(SARS-CoV)의 숙주생물종에 대해서는 아직까지도 명확히 알려지지 않고 있다. 본 연구에서는 SARS-CoV의 유전서열들을 대상으로 다중서열정렬법, 계통발생학적 분석기법 및 다변량 통계분석법 등과 같은 바이오인포매틱스 분석기법들을 활용하여 이 바이러스의 유전정보 패턴을 분석하였다. Relative synonymous codon usage(RSCU)값을 포함하는 여러 유전정보 파라미터들은 Coronavirus와 Lentivirus 속과 Orthomyxoviridae과로부터 수집된 총 30,305개의 암호화 서열들로부터 계산이 되었으며 이 모든 계산은 KISTI 슈퍼컴퓨팅센터의 SMP 클러스터 상에서 수행되었다. 분석 결과, SARS-CoV는 feline 코로나바이러스와 매우 유사한 RSCU 패턴을 나타내었는데, 이것은 기존에 보고되었던 혈청학적인 연구결과와 일치하는 결과였다. 또한 SARS-CoV와 human immunodeficiency virus 및 influenza A virus는 공통적으로 각각이 속한 속이나 과내에서 상대적으로 낮은 RSCU bias를 나타내어서 이와 같은 현상이 이들 바이러스들이 종 간 장벽을 뛰어넘어 전파되는 과정에 영향을 미쳤을 가능성을 시사하였다. 결론적으로 이와 같은 바이오인포매틱스 분석기법들을 활용한 대용량의 유전정보 분석은 유전체 역학 연구에 효과적으로 사용될 수 있을 것으로 기대된다.

Keywords