• Title/Summary/Keyword: 단백질 데이터베이스

Search Result 159, Processing Time 0.034 seconds

A Web-Based Information System for the Integrated Search for Protein Structure Classifications (단백질 구조 분류의 통합 검색을 위한 웹 정보시스템)

  • 신원준;황의윤;김진홍;안건태;이명준
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.274-276
    • /
    • 2004
  • 단백질은 대부분 공간상의 특징을 고려할 때 유사한 부분을 기준으로 분류되는 경우가 많다 단백질 구조 분류 데이터베이스는 단백질이 가지는 다양한 구조 정보를 바탕으로 단백질 구조 분류 정보를 제공하고 있다. 대표적인 단백질 구조 분류 데이터베이스에는 CATH와 SCOP 데이터베이스가 있다. 이들 데이터베이스는 서로 다른 구조 분류 기준으로 단백질 구조를 분류하고 있으며, 단백질 구조 분류 정보를 검색하는 웹 서비스를 개별적으로 제공하고 있다. 따라서 여러 종류의 단백질 구조 분류 정보를 하나의 웹 사이트에서 검색할 수 있으면 유용할 것이다. 본 논문에서는 CATH와 SCOP에서 정의한 단백질 구조 분류 정보의 통합적인 검색 기능 일 통계 정보를 체계적으로 제공하는 웹 정보시스템에 관하여 기술한다. 제안된 시스템은 CATH와 SCOP에서 제공하는 각각의 데이터를 가공하여 효과적인 구조 분류 검색을 지원하는 구조화된 데이터베이스를 구축하였다. 개발된 시스템은 PDB 식별자, CAT터 식별자. 그리고 SCOP 식별자 또는 단백질 분류 이름으로 한번의 검색으로 두 데이터베이스에서 제공하는 계층적 구조 분류 정보를 제공한다. 또한, 단백질 구조에 대한 유용한 통계 정보를 제공한다.

  • PDF

A Web-Based Protein Comparison System Using PSAML and Topology String Databases (PSAML과 Topology String 데이터베이스를 이용한 웹 기반 단백질 구조 비교 시스템)

  • 김진홍;안건태;변상희;이수현;이명준
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.271-273
    • /
    • 2004
  • 단백질의 기능은 단백질의 구조에 따라 결정되며, 새로운 단백질의 기능을 파악하기 위하여 이미 밝혀진 단백질의 기능과 구조를 비교하는 방법이 사용되고 있다. 단백질 구조를 비교하는 방법은 단백질 구조를 표현하는 방법에 따라 다양하게 개발되고 있으며, 보다 효과적으로 관련된 연구자들이 자신의 연구에 활용하기 위해서는 빠르고 쉽게 활용할 수 있는 인터페이스를 제공하는 도구가 필요하다. 본 논문에서는 PDB 데이터베이스에서 제공하는 단백질 정보를 이용하여 PSAML 및 Topology String 데이터베이스를 구축하고 이를 바탕으로 웹 기반에서 단백질 구조 비교를 보다 빠르고 효과적으로 수행하는 시스템에 대하여 기술한다. PSAML 데이터베이스는 단백질 구조를 단백질 이차구조 및 그들 사이의 관계를 포함하는 PSAML 데이터를 제공하며, Topology String 데이터베이스는 단백질 구조를 단백질 이차구조를 하나의 문자로 기술하여 아미노산 순서와 위상학적(공간적) 정보를 포함하는 문자열로 단백질 구조정보를 제공한다. 이를 이용하여 구축된 웹 기반 단백질 구조 비교 시스템은 Topology String 정렬 방법을 통하여 보다 빠르게 유사성이 높은 부분 구조를 찾는 방법을 제공한다.

  • PDF

Protein Secondary Structure System Design Using Clustering Protein Database and Data Distribution Scheme (클러스터링 단백질 데이터베이스와 데이터 분산 기법을 적용한 단백질 이차구조예측 시스템 설계)

  • 이수진;김재훈;정진원;이원태
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04a
    • /
    • pp.82-84
    • /
    • 2003
  • 생물학 데이터베이스의 크기가 점점 증가함에 따라 데이터베이스를 사용하여 서열을 정렬할 경우 많은 처리시간이 필요하게 되었다. 단백질 이차구조예측 시스템에서 단백질 서열 데이터베이스를 이용해 사용자의 서열들을 정렬하는 부분에서도 많은 처리 시간을 요구한다. 본 논문에서는 단백질 데이터베이스를 비슷한 크기로 나눠 여러 노드에서 서열 정렬을 분산 처리하여 처리율을 높이고자 했다. 또한, ClustalW에서 서열들의 관계에 따라 다양한 BLOSUM을 사용하여 정렬의 정확도를 높이는 휴리스틱 전략을 적용하기 위해 기존의 데이터베이스를 클러스터링 하였다. 클러스터링된 데이터베이스의 대표서열과 사용자 서열의 거리를 비교하여 적합한 BLOSUM을 선택하여 보다 정확한 서열 정렬을 통해 단백질 이차구조예측의 정확도를 높이게 될 것이다. 본 논문에서는 대용량의 단백질 데이터베이스를 여러 노드를 사용하여 병렬 클러스터링하여 이를 이차구조예측 시스템에 적용하여 처리율과 정확도를 높이고자 하였다.

  • PDF

Designing of Comparison System for Protein Tertiary Substructure Database (단백질 3차 하위구조 비교 시스템 설계)

  • Yu, Nam Hee;Jung, Kwang Su;Sohn, Gyo Yong;Chung, Yong Je;Ryu, Keun Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.04a
    • /
    • pp.369-371
    • /
    • 2009
  • 생명체 내에서 기능 수행 시 각종 물질들이나 단백질들끼리 상호결합을 해야 한다. 이런 결합성을 결정짓는 것들이 단백질의 3차원 구조이기 때문에 단백질 구조연구는 중요하다. 이 논문에서는 단백질 구조데이터 및 관련된 구조정보의 통합된 데이터베이스를 구축하고 웹 환경에서 질의된 단백질과 유사성 비교를 진행하여 그 결과 및 연관된 정보를 검색하여 체계적으로 정보를 제공하는 단백질 구조 비교시스템을 제안한다. 제안 시스템을 구축하기 위하여 공개용 단백질 구조데이터 저장소인 Protein Data Bank의 플랫파일에서 필수적인 구조데이터정보만을 추출하여 여기에서 단백질의 하위구조 생성 알고리즘을 적용하여 데이터베이스를 구축한다. 사용자가 인터넷을 통하여 진행한 질의는 하위구조처리 모듈을 통하여 하위구조를 생성하고 구조유사부분에 대해 RMSD값이 계산되고 이와 연관된 구조정보의 검색이 진행 된 후 체계적으로 출력화면에 보여준다. 제안 시스템은 단백질의 전체적인 서열과 구조 정보를 이용하지 않고서, 단백질 기능을 결정하는 핵심영역을 포함하는 표면을 효과적으로 비교함으로써 기존의 구조비교 시스템보다 빠른 검색과 상세한 분석을 지원한다.

Prediction of Protein Function using Pattern Mining in Protein-Protein Interaction Network (단백질 상호작용 네트워크에서의 단백질 기능예측을 위한 패턴 마이닝)

  • Kim, Taewook;Li, Meijing;Li, Peipei;Ryu, Keun Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.11a
    • /
    • pp.1115-1118
    • /
    • 2011
  • 단백질 사이의 상호작용 네트워크(PPI network: Protein-Protein Interaction network)를 이용하여 단백질 기능을 예측 하는 것은 단백질 기능 예측 기법들 중에서 중요한 작용을 한다. 하지만 PPI를 이용한 단백질 기능 예측은 기능의 복잡도와 다양성으로 인해 제한적인 결과를 나타내 왔다. 따라서 본 논문에서는 기존의 연구들 보다 높은 정확도로 단백질 기능을 예측하기 위해 기능 예측을 하려는 단백질과 상호작용 하는 단백질들에 그래프 마이닝 기법을 적용하여 빈발 2-노드 상호작용 패턴을 찾고, 그 패턴을 이용하여 단백질 기능을 예측하는 접근법을 제안하였다. 실험데이터로 DIP(Database of Interacting Proteins)에서 제공하는 단백질 상호작용 데이터를 사용하였으며, 다른 기존의 단백질 기능 예측 기법들보다 높은 정확도를 보여주었다.

Integrated Information Retrieval System from Distributed Biological Database (분산된 생물정보 데이터베이스의 통합검색 시스템연구)

  • 윤홍원
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2000.04a
    • /
    • pp.311-314
    • /
    • 2000
  • 분자 생물학의 발전염기서열, 단백질 서열, 지놈 서열 등의 서열데이터베이스와 단백질 3차구조를 제공하는 구조 데이터베이스등이 구축되어서 웹을 통해 많은 정보를 제공하고 있다. 전세계적으로 분산되어 있는 다양한 생물정보 데이터베이스의 효율적인 검색을 위해서 통합 검색 시스템의 개발이 필요하다. 이 논문에서는 전세계의 생물정보 데이터베이스의 개발 현황을 보이고 분산되어 있는 생물정보데이터베이스로부터 통합검색을 위한 생물정보 통합검색시스템(GenPlus)를 제안하였다. 제안한 GenPlus 에서는 염기 서열, 단백질서열, 그리고 키워드를 이용한 서열정보, 구조정보,완전한 지놈 정보, 그리고 문헌정보의 통합 검색을 제공한다.

  • PDF

A Template-based Dynamic Management of PPI Networks (단백질 상호작용 네트워크를 위한 템플릿 기반 동적 관리)

  • Park, Jong-Min;Choi, Jae-Hun;Park, Seon-Hee
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.289-291
    • /
    • 2005
  • 본 논문에서는 단백질 상호작용 네트워크를 효율적으로 구축하고 관리하기 위한 템플릿 기반 동적 관리 방법에 대해 제안한다. 기존의 단백질 상호작용 네트워크를 지원하는 대부분 시스템들은 각각의 단백질을 창조 데이터베이스에 대한 레퍼런스로 표현하고 있다. 따라서, 단백질에 상세한 정보를 가지고 분석하기 위해서는 참조 데이터베이스를 통해 상세한 정보를 얻어야 가능하다. 하지만, 방대하고 복잡한 상호작용 네트워크인 경우 분석에 많이 시간이 필요하며, 참조 데이터베이스의 레퍼런스가 변경된 경우 제대로 된 분석 결과를 얻을 수 없다. 본 논문에서 제시한 템플릿 기반의 동적 관리 기법은 다양한 사용자들이 자신의 요구에 맞는 단백질 상호작용 네트워크를 템플릿 검색을 통해 손쉽게 구축할 수 있도록 지원하며, 다중 사용자들이 서로간의 간섭없이 각자의 단백질 상호작용 네트워크 관리할 수 있다. 또한 참조 데이터베이스의 수정된 내용이 단백질 상호작용 네트워크에 지속적으로 반영할 수 있도록 한다.

  • PDF

Predict Protein Secondary Structure based on Emerging Sequence Mining (출현 시퀀스 마이닝 기반의 단백질 2 차 구조 예측)

  • Li, Meijing;Lee, Heon Gyu;Saeed, Khalid E.K.;Shon, Ho Sun;Ryu, Keun Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.04a
    • /
    • pp.379-382
    • /
    • 2009
  • 최근 단백질 기능 예측을 위한 서열비교와 구조비교 기법들은 정확한 분류가 가능한 반면, 새로운 단백질 기능 분류를 함에 있어서 많은 복잡도가 따른다. 따라서 이 논문에서는 보다 빠른 단백질의 구조 분류 및 예측을 위하여 출현 시퀀스(emerging sequence)를 기반으로 하는 분류기법을 제안하였다. 이 기법에서는 먼저, 출현 시퀀스 마이닝 알고리즘을 이용하여 단백질 서열 데이터로부터 4 가지의 단백질 2 차 구조 출현 시퀀스를 발견하고, SVM을 이용하여 단백질의 출현 시퀀스 속성으로부터 단백질의 2 차 구조를 예측하였다.

Extracting Information on Structural Classification through Protein Sequence Alignment (단백질 서열 정렬을 통한 구조 분류정보 추출)

  • 변상희;김진홍;안건태;이명준
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04a
    • /
    • pp.884-886
    • /
    • 2003
  • 인간 지놈 프로젝트가 완료된 이후로 여러 지놈 프로젝트가 수행되었으며 이로 인해 데이터베이스에 수록되는 서열수가 기하급수적으로 증가하고 있다. 최근에는 단순한 서열 분석뿐만 아니라 이미 밟혀진 단백질 정보를 이용하여 새로운 단백질의 기능을 예측하는 연구가 보다 활발히 진행되고 있다. 단백질 기능은 단백질의 삼차구조에 의해 결정된다. 따라서 단백질의 서열을 분석하여 삼차구조를 알아내고 어떤 분류에 속하는지 알아낸다면 단백질의 기능을 예측할 수 있다. 본 논문에서는 단백질 서열 정렬을 통하여 보다 빠르고 효과적으로 단백질 구조 정보를 추출하는 기법에 대하여 기술한다. 개발된 단백질 구조 추출 기법은 Pfam 데이터베이스에서 제공하는 단백질 서열의 샘플링 결과를 기반으로 서열 정렬을 수행퇴고, 선정뭔 서열을 대상으로 SCOP 데이터베이스에서 단백질 구조 분류정보(family 및 fold)를 추출함으로써 구조 분류정보 추출 과정의 성능을 향상시키고자 한다.

  • PDF

Exploring Association Among Protein Motifs (단백질 모티프간 연관성 탐사)

  • Lee, Hyun-Suk;Lee, Do-Heon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.04a
    • /
    • pp.47-50
    • /
    • 2002
  • 단백질 모티프(motif)란 유사한 기능을 가진 여러 단백질 서열에서 공통적으로 발견되는 패턴으로서 단백질의 기능을 예측하는 단서로 활용된다. 현재 Prosite, Pfam 등의 데이터베이스에서 정규식(regular expression), 가중치 행렬(weighted matrix). 은닉 마코프 모델(hidden Markov model)의 형태로 4천여종 이상의 모티프가 등록되어 있다. 하지만, 이러한 데이터베이스는 모티프와 단백질간의 일대일 관계만을 저장하고 있기 때문에, 모티프 간의 연관성을 파악하기는 어렵다. 본 논문에서는 모티프 간의 연관 관계를 연관 규칙의 형태로 발견하는 데이터 마이닝 기법을 제시한다. 아울러 HITS 데이터베이스로부터 입수한 단백질-모티프 데이터베이스에 본 기법을 적용함으로써 상당히 높은 연관성을 갖는 모티프 집단이 실제로 존재한다는 것을 밝힌다.

  • PDF