A Nucleotide Sequence Signature Extraction Method based on Position-Specific Relative Base Frequency Differences

위치기반 상대빈도차 기반의 바이러스 염기서열 시그너쳐 추출 기법

  • 황경순 (충북대학교 전기전자컴퓨터공학부) ;
  • 이혜리 (충북대학교 전기전자컴퓨터공학부) ;
  • 이건명 (충북대학교 전기전자컴퓨터공학부) ;
  • 이찬희 (충북대학교 생명과학부) ;
  • 윤형우 (주성대학 임상병리학과) ;
  • 김성수 (충북대학교 전기전자컴퓨터공학부)
  • Published : 2007.04.20

Abstract

동일한 집단에 속하는 개체를 다른 집단에 속하는 개체로부터 구별할 수 있는 염기의 특징을 해당 집단의 시그너쳐라고 한다. 학습 데이터는 두 집단에 속하는 염기서열들이고, 염기서열에 대한 시그너쳐는 개체를 다른 집단과 구별할 수 있는 위치의 염기들로 구성된 서열이다. 제안한 방법에서는 각 집단에 대해서 위치별로 염기의 발생빈도를 계산하고, 가장 발생빈도가 높은 염기를 결정한 다음, 다른 집단의 대응 위치에서 해당 염기의 빈도를 계산하여, 빈도차이가 지정한 분류임계값 이상이면, 해당 위치의 염기를 시그너쳐를 구성하는 특징으로 간주한다. 시그너쳐를 대한 임의의 염기서열에 대한 부합정도는 시그너쳐에 속하는 염기의 학습집단에서의 상대빈도값을 가중치로 하여 계산한다. 임의의 염기서열이 특정 집단에 속하는지 판단하기 위해서는 해당 집단의 시그너쳐에 대한 부합정도를 계산하게 되는데, 부합정도가 얼마이상이 되어야 해당 집단에 속하는 것으로 간주할지 기준이 되는 임계값을 엄밀도 임계값이라고 한다. 엄밀도 임계값은 학습 데이터 집합에 대해서 주어진 시그너쳐에 대한 엄밀도 임계값이 민감도와 특이도를 최대로 하는 것을 선택한다. 제안한 방법을 구현한 바이오인포매틱스 도구를 개발하여, 한국형 HIV-1 바이러스 시그너쳐 추출에 적용하여 분류특성이 우수한 시그너쳐를 추출할 수 있음을 확인하였다.

Keywords