• 제목/요약/키워드: 단백질 구조 정렬

검색결과 22건 처리시간 0.028초

단백질 이차 구조에 기반을 둔 단백질 구조 정렬 방법 (A Method for Protein Structure Alignment based on Protein Secondary Structure)

  • 김진홍;안건태;윤형석;이수현;이명준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (A)
    • /
    • pp.700-702
    • /
    • 2002
  • 단백질 구조를 정렬하는 방법은 단백질의 모티프 또는 폴드를 찾는데 사용되고 있으며, 기능적 또는 구조적으로 연관된 단백질을 분류하는데 유용하게 사용되고 있다. 본 논문에서는 단백질 이차 구조($\alpha$-나선 구조와 $\beta$-병풍구조)를 기반으로 하는 단백질 구조 정렬 방법에 대하여 기술한다. 제안된 단백질 이차 구조 요소 기반의 정렬방법은 단백질 구조를 단백질 이차 구조 요소와 그들 사이의 관계(수소결합, 상대적 위치)를 이용하여 표현하고, 표현된 두 개의 구조를 단백질 이차 구조 요소와 그들 사이의 관계만을 이용하여 비교하는 방법으로 기존의 방법보다 빨리 정렬할 수 있다.

  • PDF

단백질 3차원 구조의 지역적 유사성을 이용한 Flexible 단백질 구조 정렬에 관한 연구 (A Study of Flexible Protein Structure Alignment Using Three Dimensional Local Similarities)

  • 박찬용;황치정
    • 정보처리학회논문지B
    • /
    • 제16B권5호
    • /
    • pp.359-366
    • /
    • 2009
  • 구조적 생물 정보학 분야는 단백질의 3차원 구조를 대상으로 단백질을 연구하는 분야이며, 본 논문에서는 구조적 생물 정보학 분야의 핵심 연구 주제중의 하나인 Flexible 단백질 구조 정렬에 관한 새로운 알고리즘을 제시한다. Flexible 단백질 구조 정렬을 위하여, 단백질의 3차원 구조의 지역적인 유사성을 이용하여 두 단백질의 유사한 부분 구조를 추출해 내고, 이 추출된 유사 구조간에 연결 가능성을 검색하여 정렬이 가능한 모든 유사 구조를 찾고, 이 유사 구조에 꺽임점을 도입하여 Flexible 단백질 구조 정렬을 수행하였다. 이 과정에서 단백질의 지역적 유사성을 정확히 비교하기 위하여 RDA를 이용한 방법을 제안하였고, Flexible 단백질 구조 정렬시 신뢰성 있는 꺽임점 위치 선정 방법과 그래프를 이용한 최적화 방법을 제안하였다. 성능 평가를 위하여 다양한 방법으로 Flexible 단백질 구조 정렬의 성능 평가를 수행하였고, 기존의 방법인 DALI, CE, FATCAT 보다 성능의 우수함을 나타내었다.

정렬된 잔기 사이의 최대거리와 유사도 그래프에 기반한 단백질 구조 정렬 (Protein Structure Alignment Based on Maximum of Residue Pair Distance and Similarity Graph)

  • 김우철;박상현;원정임
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권5호
    • /
    • pp.396-408
    • /
    • 2007
  • 최근 인간 게놈 프로젝트를 통해서 인간의 DNA가 해석된 이후 유전자가 생성하는 단백질의 기능에 대한 관심이 높아지고 있다. 단백질의 기능은 서열의 유사도보다는 진화과정 상에서 잘 보존되는 구조의 유사도에 더 연관되어 있다. 이를 통해 두 개의 단백질 간에 구조 유사성이 관찰되면 이로부터 이들이 유사한 생물학적 기능을 가질 것을 기대할 수 있다. 따라서 유사한 단백질 구조를 가진 단백질을 찾기 위한 방법으로 단백질 구조 정렬에 대한 많은 연구들이 진행되었다. 하지만 기존의 연구들은 유사도로 주로 RMSD(Root Mean Square Deviation)를 사용했기 때문에 두 단백질의 정렬 결과가 유사한지 흑은 유사하지 않은지를 직관적으로 판단하기 쉽지 않다. 또한 대부분의 기존 연구들은 정렬 결과로 최적의 정렬 결과 하나만을 찾기 때문에 서로 다른 목적을 가지는 사용자들을 만족시키기 어렵다. 따라서 본 논문에서는 새로운 유사도인 MRPD(Maximum of Residue Pair Distance)와 다수의 정렬 결과를 하나의 그래프로 표현하는 SG(Similarity Graph)을 기반으로 여러 가지 정렬 결과를 한 번에 생성하는 단백질 구조 정렬 방식을 제안한다. 단백질 정렬에 MRPB를 유사도로 사용하면 RMSD를 사용하는 경우에 비해서 유사 정도를 직관적으로 이해할 수 있을 뿐 아니라 신속하게 결과를 얻을 수 있다. SG는 사용자가 다양한 후보 정렬 결과들 중에서 자신이 원하는 정렬결과를 신속히 검색할 수 있도록 지원한다. 따라서 본 논문에서 제안한 단백질 구조 정렬 알고리즘은 다양한 길이에 따른 다수의 최적 정렬들을 제시하여 사용자의 만족도를 향상시킬 수 있었으며, 다수의 정렬결과 검색임에도 불구하고 정렬 시간은 기존 방법들과 거의 비슷하다는 장점이 있다.

클러스터링 단백질 데이터베이스와 데이터 분산 기법을 적용한 단백질 이차구조예측 시스템 설계 (Protein Secondary Structure System Design Using Clustering Protein Database and Data Distribution Scheme)

  • 이수진;김재훈;정진원;이원태
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (A)
    • /
    • pp.82-84
    • /
    • 2003
  • 생물학 데이터베이스의 크기가 점점 증가함에 따라 데이터베이스를 사용하여 서열을 정렬할 경우 많은 처리시간이 필요하게 되었다. 단백질 이차구조예측 시스템에서 단백질 서열 데이터베이스를 이용해 사용자의 서열들을 정렬하는 부분에서도 많은 처리 시간을 요구한다. 본 논문에서는 단백질 데이터베이스를 비슷한 크기로 나눠 여러 노드에서 서열 정렬을 분산 처리하여 처리율을 높이고자 했다. 또한, ClustalW에서 서열들의 관계에 따라 다양한 BLOSUM을 사용하여 정렬의 정확도를 높이는 휴리스틱 전략을 적용하기 위해 기존의 데이터베이스를 클러스터링 하였다. 클러스터링된 데이터베이스의 대표서열과 사용자 서열의 거리를 비교하여 적합한 BLOSUM을 선택하여 보다 정확한 서열 정렬을 통해 단백질 이차구조예측의 정확도를 높이게 될 것이다. 본 논문에서는 대용량의 단백질 데이터베이스를 여러 노드를 사용하여 병렬 클러스터링하여 이를 이차구조예측 시스템에 적용하여 처리율과 정확도를 높이고자 하였다.

  • PDF

단백질 서열 정렬을 통한 구조 분류정보 추출 (Extracting Information on Structural Classification through Protein Sequence Alignment)

  • 변상희;김진홍;안건태;이명준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (A)
    • /
    • pp.884-886
    • /
    • 2003
  • 인간 지놈 프로젝트가 완료된 이후로 여러 지놈 프로젝트가 수행되었으며 이로 인해 데이터베이스에 수록되는 서열수가 기하급수적으로 증가하고 있다. 최근에는 단순한 서열 분석뿐만 아니라 이미 밟혀진 단백질 정보를 이용하여 새로운 단백질의 기능을 예측하는 연구가 보다 활발히 진행되고 있다. 단백질 기능은 단백질의 삼차구조에 의해 결정된다. 따라서 단백질의 서열을 분석하여 삼차구조를 알아내고 어떤 분류에 속하는지 알아낸다면 단백질의 기능을 예측할 수 있다. 본 논문에서는 단백질 서열 정렬을 통하여 보다 빠르고 효과적으로 단백질 구조 정보를 추출하는 기법에 대하여 기술한다. 개발된 단백질 구조 추출 기법은 Pfam 데이터베이스에서 제공하는 단백질 서열의 샘플링 결과를 기반으로 서열 정렬을 수행퇴고, 선정뭔 서열을 대상으로 SCOP 데이터베이스에서 단백질 구조 분류정보(family 및 fold)를 추출함으로써 구조 분류정보 추출 과정의 성능을 향상시키고자 한다.

  • PDF

확장된 PSAML을 통한 효과적인 단백질 구조 비교 (Effective Comparison of Protein Structures Based on Extended PSAML)

  • Kim, Jin-Hong;Ahn, Geon-Tae;Lee, Su-Hyun;Lee, Myung-Joon
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2003년도 제2차 연례학술대회 발표논문집
    • /
    • pp.114-119
    • /
    • 2003
  • 단백질 구조를 비교하는 방법은 단백질 구조를 표현하는 기술에 따라 다양하게 존재한다. 일반적인 단백질 구조 정렬방법은 단백질 구조를 원자 또는 Residue를 기준으로 표현하고, 표현된 두 구조사이의 일치된 부분을 찾는 방법과 단백질 구조를 단백질 이차구조요소로 표현하고 표현된 두 단백질 구조를 정렬하는 방법으로 크게 구분된다. 이러한 단백질 구조 비교 방법은 단백질 구조의 유사성을 측정하는 과정에서 많은 시간을 요구할 뿐만 아니라 PDB에 저장된 데이터가 증가함에 따라 보다 많은 단백질과 비교가 요구된다. 따라서 대용량의 단백질 구조 데이터베이스를 대상으로 효율적으로 단백질의 유사 부분구조를 찾을 수 있는 방법이 필요하다. 본 논문에서는 단백질 구조 비교를 보다 빠르고 효과적으로 수행하기 위하여, 기존의 단백질 이차구조 기반의 구조 표현 방법인 PSAML을 확장하여 단백질 이차구조가 가지는 공간상의 정보를 내포한 Topology String을 생성하고 이를 이용하여 대용량의 단백질구조 데이터베이스에서 유사성이 높은 단백질 구조를 필터링하는 방법에 대하여 기술한다. Topology String은 단백질 이차구조를 하나의 문자로 기술하여 아미노산 순서와 위상학적인(공간적인) 정보를 바탕으로 단백질 구조를 표현하여, 단백질 이차구조를 이용하여 구조 비교를 수행하기 이전에 유사성이 높은 단백질 구조를 신속하게 찾아내는데 효과적으로 적용될 수 있다.

  • PDF

단백질 구조 비교를 위한 전처리 기법으로서의 주성분 분석 (Principal Component Analysis as a Preprocessing Method for Protein Structure Comparison)

  • 박성희;박찬용;김대희;박수준;박선희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 추계학술발표논문집(상)
    • /
    • pp.805-808
    • /
    • 2004
  • 본 논문에서는 두 단백질의 구조적 유사성을 기반으로 한 단백질 비교를 위해서 전처리 기법으로서의 주성분분석기법을 소개한다. 기존의 백본 및 알파탄소 간의 거리행렬(distance matrix), 2차 구조 비교기법, 구역(segment)단위의 비교 기법과 같은 단백질 비교 기법들은 위치이동(translation)와 회전(rotation)에 불변한(invariant) 차이를 구하기 위하여 거리행렬을 이용하였다. 그리고, 난 다음 이들의 최적화 과정을 거쳤다. 그러나, 본 논문에서 제시하는 전처리 기법으로서의 주성분분석기법은 단백질 구조를 전체적인 구조 관점에서 위치를 정렬시킨 후에 단백질 간의 구조를 비교하는 방식이다. 단백질의 구조의 방향성(Orientation)을 맞춘 다음에는 다양한 단백질 표현으로 구를 비교할 수 있다. 본 논문에서는 두 단백질의 구조의 유사성을 측정하기 위한 간결한 단백질 표현(representation)으로 3 차원 에지 히스토그램을 사용하였다. 이 기법은 방향성을 정렬하기 위하여 기존의 방법에서 사용되었던 반복적인 거리계산을 통한 최적화하는 과정을 없앰으로써 단백질 구조 비교 시간을 단축할 수 있는 새로운 단백질 구조 비교 패러다임을 가능하게 한다. 따라서, 이 패러다임을 통하여 적절한 단백질 구조 방향성 정렬과 단백질 구조 표현을 이용한 단백질 구조 비교 검색 시스템은 많은 양의 단백질 구조 정보로부터 원하는 형태의 단백질 구조를 빠른 시간에 검색할 수 있는 장점을 가질 수 있다.

  • PDF

PSAML과 Topology String 데이터베이스를 이용한 웹 기반 단백질 구조 비교 시스템 (A Web-Based Protein Comparison System Using PSAML and Topology String Databases)

  • 김진홍;안건태;변상희;이수현;이명준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.271-273
    • /
    • 2004
  • 단백질의 기능은 단백질의 구조에 따라 결정되며, 새로운 단백질의 기능을 파악하기 위하여 이미 밝혀진 단백질의 기능과 구조를 비교하는 방법이 사용되고 있다. 단백질 구조를 비교하는 방법은 단백질 구조를 표현하는 방법에 따라 다양하게 개발되고 있으며, 보다 효과적으로 관련된 연구자들이 자신의 연구에 활용하기 위해서는 빠르고 쉽게 활용할 수 있는 인터페이스를 제공하는 도구가 필요하다. 본 논문에서는 PDB 데이터베이스에서 제공하는 단백질 정보를 이용하여 PSAML 및 Topology String 데이터베이스를 구축하고 이를 바탕으로 웹 기반에서 단백질 구조 비교를 보다 빠르고 효과적으로 수행하는 시스템에 대하여 기술한다. PSAML 데이터베이스는 단백질 구조를 단백질 이차구조 및 그들 사이의 관계를 포함하는 PSAML 데이터를 제공하며, Topology String 데이터베이스는 단백질 구조를 단백질 이차구조를 하나의 문자로 기술하여 아미노산 순서와 위상학적(공간적) 정보를 포함하는 문자열로 단백질 구조정보를 제공한다. 이를 이용하여 구축된 웹 기반 단백질 구조 비교 시스템은 Topology String 정렬 방법을 통하여 보다 빠르게 유사성이 높은 부분 구조를 찾는 방법을 제공한다.

  • PDF

클러스터링 기반 다중 서열 정렬 알고리즘 (Algorithm of Clustering-based Multiple Sequence Alignment)

  • 이병일;이종연;정순기
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 춘계학술발표대회
    • /
    • pp.27-30
    • /
    • 2005
  • 3개 이상의 DNA 혹은 단백질의 염기서열을 정렬하는 다중 서열 정렬(multiple sequence alignment, MSA)은 서열들 사이의 진화관계, 단백질의 구조와 기능에 관한 연구에 필수적인 도구이다. 최적화된 다중서열 정렬을 얻기 위해 사용되는 가장 유용한 방법은 동적 프로그래밍이다. 그러나 동적프로그래밍은 정렬하고자 하는 서열의 수가 증가함에 따라 시간도 지수함수($O(n^k)$)로 증가하기 때문에 다중 서열 정렬에는 효율적이지 못하다. 따라서, 본 논문에서는 최적의 MSA 문제를 해결하기 위해 클러스터링 기반의 새로운 다중 서열 정렬 (Clustering-based Multiple Sequence Alignment, CMSA) 알고리즘을 제안한다. 결과적으로 제안한 CMSA 알고리즘의 기여도는 다중 서열 정렬의 질적 향상과 처리 시간 단축($O(n^3L^2)$)이 기대된다.

  • PDF

복수 염기서열 정렬을 위한 한 유용성 알고리즘 (An effcient algorithm for multiple sequence alignment)

  • 김진;송민동
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (2)
    • /
    • pp.51-53
    • /
    • 1998
  • 3개 이상의 DNA 혹은 단백질의 염기서열을 정렬하는 복수 염기서열 정렬(multiple sequence alignment)방법은 염기서열들 사이의 진화관계, gene regulation, 단백질의 구조와 기능에 관한 연구에 필수적인 도구이다. 복수 염기서열 정렬문제는 NP-complete 문제군에 속하며, 이 문제를 해결하기 위하여 가장 유용하게 사용되는 알고리즘으로는 dynamic programming이 있다. Dynamic programming은 주어진 입력 염기서열 군들에 대한 최적의 정렬을 생산할 수 있다. 그러나 dynamic programming의 단점은 오랜 실행시간이 요구되며, 때로는 dynamic programming의 속성 때문에 이 알고리즘을 사용하여도 주어진 입력 염기서열 군들에 대한 최적의 정렬을 얻어내지 못하는 경우가 있다. 본 연구에서는 이러한 dynamic programming의 문제를 해결하기 위하여 genetic algorithm을 복수 염기서열 정렬문제에 적용하였다. 본 논문에서는 genetic algorithm의 design과 적용방법을 기술하였다. 본 연구에서 제안된 genetic algorithm을 사용하여 dynamic programming의 단점이었던 오랜 실행시간을 줄일 수 있었으며, dynamic programming이 제공하지 못하는 최적의 염기서열 정렬을 제공할 수 있었다.

  • PDF