• 제목/요약/키워드: 단백질 서열

검색결과 699건 처리시간 0.028초

단백질 서열 정렬을 통한 구조 분류정보 추출 (Extracting Information on Structural Classification through Protein Sequence Alignment)

  • 변상희;김진홍;안건태;이명준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (A)
    • /
    • pp.884-886
    • /
    • 2003
  • 인간 지놈 프로젝트가 완료된 이후로 여러 지놈 프로젝트가 수행되었으며 이로 인해 데이터베이스에 수록되는 서열수가 기하급수적으로 증가하고 있다. 최근에는 단순한 서열 분석뿐만 아니라 이미 밟혀진 단백질 정보를 이용하여 새로운 단백질의 기능을 예측하는 연구가 보다 활발히 진행되고 있다. 단백질 기능은 단백질의 삼차구조에 의해 결정된다. 따라서 단백질의 서열을 분석하여 삼차구조를 알아내고 어떤 분류에 속하는지 알아낸다면 단백질의 기능을 예측할 수 있다. 본 논문에서는 단백질 서열 정렬을 통하여 보다 빠르고 효과적으로 단백질 구조 정보를 추출하는 기법에 대하여 기술한다. 개발된 단백질 구조 추출 기법은 Pfam 데이터베이스에서 제공하는 단백질 서열의 샘플링 결과를 기반으로 서열 정렬을 수행퇴고, 선정뭔 서열을 대상으로 SCOP 데이터베이스에서 단백질 구조 분류정보(family 및 fold)를 추출함으로써 구조 분류정보 추출 과정의 성능을 향상시키고자 한다.

  • PDF

로컬 서열 정렬과 트리거 기반의 단백질 버전 정보 관리 기법 (A management Technique for Protein Version Information based on Local Sequence Alignment and Trigger)

  • 정광수;박성희;류근호
    • 정보처리학회논문지D
    • /
    • 제12D권1호
    • /
    • pp.51-62
    • /
    • 2005
  • 하나의 아미노산 서열의 기능이 밝혀지면, 그와 유사한 서열 구조를 가지고 있는 서열의 기능도 유추해 낼 수 있다. 또한 기능이 밝혀진 단백질의 아미노산 서열을 변화시키거나 유용한 단백질을 만드는 것도 가능하다. 이 과정에서 하나의 원본 단백질 서열에 대하여 다른 서열 구성을 가지고 있는 여러 가지 단백질 서열이 생겨 날 수 있다. 여기서, 원본 단백질을 변화시켜 만든 단백질 버전 서열과 단백질의 주석정보를 저장 및 관리하는 체계적인 기법이 요구된다. 따라서 이 논문에서는 로컬 서열 정렬 기법을 적용한 단백질 아미노산 서열의 버전관리 기법과 트리거를 적용한 단백질 주석데이터의 이력 관리 기법을 제시하였다. 제안된 기법을 통하여 원본 서열과 버전서열의 유사도 측정 및 버전 관리의 자동화와 저장 공간을 감소시킬 수 있다. 또한 단백질 정보의 이력을 저장하고 서열 변화 정보를 분석하여 돌연변이 연구에 의한 유용한 단백질 개발 및 신약 개발이 가능하다.

서열 유사도와 특징 기반 분류를 융합시킨 단백질 기능 예측 시스템 (A Hybrid Protein Function Prediction System Using Sequence Similarity and Feature-based Classification)

  • 문지환;김유성
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.197-200
    • /
    • 2010
  • 단백질의 서열 정보와 기능 정보의 양이 증가함에 따라 컴퓨터 실험을 통한 단백질의 기능 예측이 가능해졌으며 정확성이 높은 예측 시스템을 개발하려는 여러 연구가 시도되고 있다. 대표적인 방법으로 서열 유사도를 기반으로 기능 예측을 하는 시스템이 제안되었으나 단백질 중에는 서열이 유사하지만 기능이 다르거나 또는 서열은 다름에도 불구하고 기능이 같은 단백질이 존재하기 때문에 서열의 유사도 만을 이용해서는 단백질의 기능 예측을 어렵다. 이러한 유사도 방법의 단점을 극복하기 위해 단백질 서열로부터 추출한 특징을 기반으로 분류하는 방법도 제안되었다. 본 논문에서는 이러한 기존 방법들의 장점을 얻기 위하여 서열 유사도 방법과 특징 기반 방법을 융합한 단백질 기능 예측 시스템을 제안하고 예측 정확성 분석을 위한 실험을 실시하였다. 실험의 결과에 따르면 제안된 융합시스템이 서열 유사도만을 이용한 방법과 특징 기반 방법보다 좋은 예측 정확률을 갖는 것으로 분석되었다.

서열 데이타마이닝을 통한 단백질 서열 예측기법 (A Protein Sequence Prediction Method by Mining Sequence Data)

  • 조순이;이도헌;조광휘;원용관;김병기
    • 정보처리학회논문지D
    • /
    • 제10D권2호
    • /
    • pp.261-266
    • /
    • 2003
  • 단백질은 아미노산의 선형 중합체(linear polymer)로서 생체의 조직을 구성하고 각종 생화학 반응을 조절하는 역할을 하는 가장 중요한 생체 분자에 속한다. 이러한 단백질의 특성과 기능은 해당 단백질을 구성하는 아미노산의 서열에 의해 결정되기 때문에, 주어진 단백질의 서열을 알아내는 것은 단백질 기능 연구의 출발점이다. 본 논문은 기존의 생화학적 단백질 서열 결정 방법의 단점을 극복할 수 있는 데이터 마이닝 기반 단백질 서열 예측 기법을 제안한다. 복수개의 단백질 절단효소(protease)를 적용함으로써, 서로 중첩된 단백질 조각을 얻어내고, 각 조각의 질량 정보와 단백질 데이타베이스를 이용하여 후보 서열을 식별한다. 얻어진 후보 서열의 조립을 통해 전체 서열을 결정하기 위한, 다중 분할 그래프(multi-partite graph) 구축 및 경로 탐색 기법을 제안한다. 아울러, 대표적인 단백질 서열 데이타베이스인 SWISS-PROT을 이용한 실험을 통해 제안한 방법의 성능을 평가한다.

클러스터링 단백질 데이터베이스와 데이터 분산 기법을 적용한 단백질 이차구조예측 시스템 설계 (Protein Secondary Structure System Design Using Clustering Protein Database and Data Distribution Scheme)

  • 이수진;김재훈;정진원;이원태
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (A)
    • /
    • pp.82-84
    • /
    • 2003
  • 생물학 데이터베이스의 크기가 점점 증가함에 따라 데이터베이스를 사용하여 서열을 정렬할 경우 많은 처리시간이 필요하게 되었다. 단백질 이차구조예측 시스템에서 단백질 서열 데이터베이스를 이용해 사용자의 서열들을 정렬하는 부분에서도 많은 처리 시간을 요구한다. 본 논문에서는 단백질 데이터베이스를 비슷한 크기로 나눠 여러 노드에서 서열 정렬을 분산 처리하여 처리율을 높이고자 했다. 또한, ClustalW에서 서열들의 관계에 따라 다양한 BLOSUM을 사용하여 정렬의 정확도를 높이는 휴리스틱 전략을 적용하기 위해 기존의 데이터베이스를 클러스터링 하였다. 클러스터링된 데이터베이스의 대표서열과 사용자 서열의 거리를 비교하여 적합한 BLOSUM을 선택하여 보다 정확한 서열 정렬을 통해 단백질 이차구조예측의 정확도를 높이게 될 것이다. 본 논문에서는 대용량의 단백질 데이터베이스를 여러 노드를 사용하여 병렬 클러스터링하여 이를 이차구조예측 시스템에 적용하여 처리율과 정확도를 높이고자 하였다.

  • PDF

Stand-Alone BLAST를 이용한 향상된 통합 서열분석시스템의 설계 및 구현 (Design and Implementation of Advanced Sequence Analysis System using the Stand -Alone BLAST)

  • 박춘구;허정호;최지인;박윤주;정동수;남홍길
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (1)
    • /
    • pp.268-270
    • /
    • 2002
  • 오늘날 급속하게 발전하는 유전자 분석기술은 유전자 서열(sequence), 단백질의 기능(function) 및 구조(structure)정보와 같은 생명현상의 연구에 필수적인 정보들을 제공하게 되었다. 특히, 인간 유전체 프로젝트의 완성 이후 염기 및 단백질의 서열데이터를 이용하여 유사한 서열데이터의 검색 및 관련 단백질의 기능, 구조 정보들과 같은 생물정보의 종합적인 검색이 요구되고 있다. 하지만 기존 대부분의 통합서열분석시스템들은 단지 관련 정보를 포함하는 데이터 베이스들에 접근하며 서열유사성을 분석한 후, 그 결과를 단순히 디스플레이 하는 것이 대부분 이였다. 부연하면, 기존 통합 서열분석시스템들은 각 데이터베이스로부터 검색된 결과들 간의 명확한 관계를 설명하지 못하여 종합적인 생물정보를 제공하지 못하고 있다. 따라서 본 논문에서는 염기 및 단백질의 서열데이터로부터 서열유사성 검색 및 관련 단백질의 기능, 구조정보에 해당하는 종합적 인 생물정보를 효과적으로 검색, 서비스 할 수 있는 통합 서열분석시스템의 설계, 구현에 관해 기술한다.

  • PDF

모티프 서열에서의 특징추출 및 빈발패턴 분석 (Feature selection and frequent pattern analysis in protein motif sequence)

  • 김대성;이범주;류근호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 춘계학술발표대회
    • /
    • pp.10-13
    • /
    • 2007
  • 모티프는 진화과정을 거치면서 단백질 서열상에서 부분적으로 높게 보존된 지역을 의미한다. 이러한 모티프는 단백질의 기능과 구조를 예측하거나 생물학적으로 관련성이 있는 단백질의 공통적인 특성을 기술하는데 사용된다. 또한, 모티프와 단백질 서열의 상관관계는 생물학적 기능 예측에 필수적이며, 이러한 예측 문제는 모티프 검색을 통해 서열에 존재하는 빈발한 서열패턴과 구조패턴을 통해 단백질 서열에 대한 분석이 가능하다. 이 논문에서는 단백질 서열에 존재하는 2차 구조 특성과 빈발패턴을 검색하고 추출된 정보를 이용하여 단백질 기능 분류에 활용하고자 한다.

단백질 서열과 텍스트 정보 기반 오토마타 종 분류기 (Automata Species Classifier based on Protein Sequences and Text Information)

  • 박준형;이현정;양지훈;김선호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 한국컴퓨터종합학술대회논문집 Vol.34 No.1 (B)
    • /
    • pp.9-14
    • /
    • 2007
  • 단백질 분류는 현대 생물학의 큰 도전과제이다. 현재 여러 단체에 의해 잘 관리되는 상세한 주석이 달린 많은 양의 단백질 정보들이 존재한다. 이러한 데이터베이스의 덕분으로 다양한 물리 화학적 특성과 주석들에 기반하고 있는 분류 기법들이 연구되고 있다. 특히 아미노산들로 이루어진 단백질 서열이 해당 단백질의 분류에 중요한 역할을 하는 진화적 기록들의 단서가 되기 때문에 단백질 서열들에 대한 연구가 활성화되고 있다. 비록 단백질 서열이 단백질 분류 문제의 중요한 특징이 된다고 해도 단순한 단백질 서열만으론 해당 단백질에 대한 충분한 정보를 얻을 수 없으며, 타 종 간에도 기능상 유사성 때문에 서로 비슷하게 판별될 수 있다. 이러한 문제점에 착안해서 우리는 오토마타 종 분류기라고 부르는 새로운 시스템적인 종 분류 접근 방법을 제안한다. 이 시스템의 클러스터링과 종 분류 판별 성능에 대한 평가 실험을 수행해본 결과 상대적으로 좋은 성능을 얻을 수 있었다.

  • PDF

단백질 서열의 상동 관계를 가중 조합한 단백질 이차 구조 예측 (Prediction of Protein Secondary Structure Using the Weighted Combination of Homology Information of Protein Sequences)

  • 지상문
    • 한국정보통신학회논문지
    • /
    • 제20권9호
    • /
    • pp.1816-1821
    • /
    • 2016
  • 단백질은 대부분의 생물학적 과정에서 중대한 역할을 수행하고 있으므로, 단백질 진화, 구조와 기능을 알아내기 위하여 많은 연구가 수행되고 있는데, 단백질의 이차 구조는 이러한 연구의 중요한 기본적 정보이다. 본 연구는 대규모 단백질 구조 자료로부터 단백질 이차 구조 정보를 효과적으로 추출하여 미지의 단백질 서열이 가지는 이차 구조를 예측하려 한다. 질의 서열과 상동관계에 있는 단백질 구조자료내의 서열들을 광범위하게 찾아내기 위하여, 탐색에 사용하는 프로파일의 구성에 질의 서열과 유사한 서열들을 사용하고 갭을 허용하여 반복적인 탐색이 가능한 PSI-BLAST를 사용하였다. 상동 단백질들의 이차구조는 질의 서열과의 상동 관계의 강도에 따라 가중되어 이차 구조 예측에 기여되었다. 이차 구조를 각각 세 개와 여덟 개로 분류하는 예측 실험에서 상동 서열들과 신경망을 동시에 사용하여 93.28%와 88.79%의 정확도를 얻어서 기존 방법보다 성능이 향상되었다.

서열 분석을 위한 연관 규칙 탐사 (Association Rule Discovery for Sequence Analysis)

  • 김정자;이도헌
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.91-93
    • /
    • 2001
  • 최근 지놈(Genome) 프로젝트를 통해 핵산, 단백질 서열 정보가 밝혀짐에 따라 분자 수준의 유전자 정보를 다루는 기법들이 활발히 연구되면서 방대한 서열 정보를 데이터 베이스화하고, 부족하기 위한 효과적인 도구와 컴퓨터 알고리즘의 개발을 필요로 하고 있다. 본 논문에서는 여러 단백질에 공통적으로 존재하는 서열 정보간에 존재하는 연관성을 탐사하기 위한 서열 연관 규칙 알고리즘을 제안한다. 원자 항목을 취급하였던 기존 알고리즘과는 달리 중복을 반영해야 하는 서열 데이터의 특성을 고려하여야 한다. 실험을 단백질 서열 데이터를 대상으로 수행하였다. 먼저 여러 서열에 빈발하게 발생하는 부 서열 집합을 찾고, 부 서열 집합들간에 존재하는 관련성을 탐사한다. 본 연구의 결과는 탐사된 규칙으로부터 다른 단백질의 구조와 기능을 예측할 수 있고, 이 정보는 필요로 하는 생물학적 분석을 방향을 제시할 것이다. 이는 생물학적 실험 대상의 후부조합을 최소화함으로써 많은 시간과 노력 비용을 절감할 수 있다.

  • PDF