Classification of Protein Sequence Using Sequential Pattern Mining

순차 패턴 마이닝 기법을 이용한 단백질 서열 분류

  • 정광호 (인하대학교 컴퓨터ㆍ정보공학과) ;
  • 김진수 (인하대학교 컴퓨터ㆍ정보공학과) ;
  • 최성용 (인하대학교 컴퓨터ㆍ정보공학과) ;
  • 한승진 (경인여자대학 컴퓨터 정보기술학부) ;
  • 이정현 (인하대학교 컴퓨터공학부)
  • Published : 2004.10.01

Abstract

기존의 생물정보학 연구는 전체 서열들의 매칭을 통한 상동성 연구에 중점을 두고 진행되어 왔다 최근에 서열 데이터베이스의 급격한 증가와 게놈 정보가 축적됨에 따라 서열로부터 다양한 정보를 얻기 위해 서열 데이터 분석에 마이닝 기법을 접목시키고자 하는 다양한 기술들이 제안되고 있다. 단백질과 DNA의 서열 비교는 생물정보학의 기본 작업 기운데 하나이다. 신속하고 자동화 된 서열 비교 능력은 새로운 서열에 대한 기능 판별 및 분석 등 모든 작업을 용이하게 한다 본 논문에서는 동종의 단백질 서열들을 다중 정렬하여 일치하는 구간을 찾아내고, 그 구간에서 아미노산 코드와 위치정보를 이용해 동종 서열들 간의 특정한 패턴 규칙을 찾아내고, 새로운 서열에서 어떤 서열 필턴 특징이 발생하는지를 찾아냄으로써 서얼을 분류하는 방법을 제안한다.

Keywords