• 제목/요약/키워드: 단백질 데이터 모델링

검색결과 11건 처리시간 0.03초

Fact constellation 스키마와 트리 기반 XML 모델을 적용한 실험실 레벨의 단백질 데이터 통합 기법 (An Approach for Integrated Modeling of Protein Data using a Fact Constellation Schema and a Tree based XML Model)

  • 박성희;이영화;류근호
    • 정보처리학회논문지D
    • /
    • 제11D권3호
    • /
    • pp.519-532
    • /
    • 2004
  • 유전자 및 단백질간의 복잡한 상호작용에 의해 기능이 결정되는 생명정보 데이터의 특성으로 인하여 생명정보 데이터 분석을 위해서는 이질적인 데이터를 통합적으로 분석할 수 있는 통합시스템이 요구된다. 따라서 이 논문에서는 생물학 실험실 레벨에서 단백질 구조 관련 데이터를 통합할 수 있도록 XML 모델기반에 웨어하우스 미디에이터 통합시스템을 제안한다. 제안 시스템은 fact constellation 모델을 기반하여 이질적인 소스에 대한 통합 모델링을 진행하고 통합 스키마를 XML 스키마로 변환하여 유지한다. 또한 통합 데이터베이스에 포함된 소스 데이터의 변경 및 출처에 대한 추적 관리를 위해 데이터의 점진적 갱신방법과 서열에 대한 버전관리를 이용한다. 실제로 이 시스템을 단백질 구조(PDB), 서열(Swiss-Prot)과 도메인 분류데이터(CATH) 통합에 적용한 통합 모델링 과정을 보여준다.

공간객체 모델 기반 단백질 3차 구조 모델링 (Modelling of three Dimensional Structure in Protein based on Spatial Object Model)

  • 한욱;박성희;이순희;류근호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.73-75
    • /
    • 2002
  • PDB에서 제공하는 단백질 3차원 고분자결정 구조에 대한 플랫파일은 인자들의 좌표, 서열정보, 실험정보 및 참조 정보가 포함된다. 이러한 정보를 포함하고 있는 플랫파일로부터 필수적인 구조정보 및 서열정보 등의 효율적인 검색을 위해서는 이러한 데이터를 추출하여 데이터베이스 구축이 요구되며 이 때 단백질 구조 및 서열 정보와 실험 및 탐조 정보의 관계에 대한 모델링이 중요하다. 따라서 이 논문에서는 PDB에서 제공하는 플랫파일들의 엔트리들을 분석하고 3차원 공간 객체의 기하적 특성을 갖는 단백질 3차 구조를 공간객체로 표현하고 공간객체 모델을 적용하여 모델링한다. 이렇게 함으로써 단백질 3차 구조 분자를 구성하는 인자 및 구조 정보 검색이 가능하며 위상 및 기하 연산자글 이용하여 단백질 구조 분석에 활용할 수 있다.

  • PDF

단백질 기능 예측을 위한 그래프 기반 모델링 (Graph-based modeling for protein function prediction)

  • 황두성;정재영
    • 정보처리학회논문지B
    • /
    • 제12B권2호
    • /
    • pp.209-214
    • /
    • 2005
  • 단백질 상호작용 데이터는 현 생물정보학에서 기능이 알려져 있지 않은 단백질의 기능 예측에 높은 신뢰성이 있는 프로티오믹스의 계산 모델에 이용되고 있다. 단백질 기능 예측 관련 연구로는 guilt-by-association 개념을 바탕으로 대규모의 단순 2차원 단백질-단백질 상호작용 맵을 이용하고 있다. 본 논문에서는 단백질-단백질 상호작용 데이터를 이용한 그래프 기반 기능 예측 방법인 neighbor-counting, $\chi^2$-통계치 예측 모델을 살펴보고 대량의 상호작용 데이터로부터 빠른 기능예측에 효과적인 알고리즘을 제안한다. 제안하는 알고리즘은 단백질 상호작용 맵, 서열 유사성 및 경험적 전문가 지식을 이용하는 그래프 기반 모델이다. 제안된 알고리즘은 Yeast 단백질의 기능 예측을 수행하였으며, neighbor-counting, $\chi^2$-통계치 모델의 실험 결과와 비교되었다.

단백질 상호 작용 예측을 위한 SVM의 부정예제 생성방법론 (Negative example generation methods of SVM for predicting protein-protein interactions)

  • 김철환;정유진
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.265-267
    • /
    • 2004
  • 생명체의 기본 정보가 저장된 DNA에서 생성되는 단백질은 생명 현상의 중요한 기능적 역할을 수행하기 때문에 단백질과 관련된 다양한 연구가 진행되고 있다. 본 논문에서는 단백질간 상호작용(protein-protein interaction)을 예측하기 위해 시스템을 통계학적 모델인 Support Vector Machine(SVM)을 사용하였다. SVM 시스템은 상호작용이 있는 데이터(긍정예제)와 상호작용이 없는 데이터(부정예제)를 입력으로 하여 모델링 생성과 테스트를 하는데, 상호작용이 있는 데이터는 DIP에 있는 interaction list로 해결이 가능하지만 상호작용이 없는 데이터는 현재 존재하지 않기 때문에 이를 생성하기 위한 생성방법이 필요하다. 이 논문에서는 shuffling, non-interaction list, 그리고 앞의 두 방법을 보완하는 non-interaction list + shuffling이라는 방법을 제시하고 기존의 실험 결과를 상회하는 부정예제 생성방법을 제시한다.

  • PDF

In Vitro 조절 기전 모델링을 위한 DNA 컴퓨팅 (DNA Computing for In Vitro Regulatory Machinery Modeling)

  • 남진우;정제균;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.67-69
    • /
    • 2003
  • 바이오네트웍 모델링은 유전자네트웍, 단백질네트웍, 대사회로, 신호전달회로네트웍등에 대하여 각 요소간의 관계를 그래프이론을 통하여 표현하는 작업을 말한다. 특히 조절네트웍의 모델링은 다양한 생물학적 실험 데이터로부터 단백질들간의 활성과 불활성 관계를 유추해내는 것을 말한다. 현재 조절네트웍 모델링을 위한 다양한 알고리즘들이 개발되어 있으나 응용적인 측면에서 유추된 네트웍은 활용성이 부족하다. 본 논문에서는 In Vitro상에서 DNA 컴퓨팅을 이용하여 간단한 연산을 수행함으로서 유전자 조절 기전을 모델링하고자 한다. 이러한 방법의 장점은 DNA컴퓨팅의 연산이 세포의 현재 또는 다음 상태를 In Vivo 상에서 구현되어 진단 등의 문제에 응용될 수 있다는 가능성을 제시해 준다는 것이다.

  • PDF

이질형 바이오 데이터베이스 통합을 위한 개체-관련성 모델링 (Entity-Relationship Modeling for Integrating Heterogeneous Bio-databases)

  • 정진희;이도헌
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 추계학술발표논문집 (상)
    • /
    • pp.69-72
    • /
    • 2001
  • 유전체 연구를 위해 구축된 바이오 데이터베이스는 해당 프로젝트의 목적에 따라 서로 다른 주체에 의해 독립적으로 구축되어 왔다. 그러나 바이오 데이터의 효과적인 판용을 위해서는 그러한 이질적인 바이오 데이터베이스의 정보를 상호 연계하여 분석한 필요성이 높아지고 있다. 본 논문에서는 대표적인 핵산 데이터베이스인 GenBank와 단백질 데이터베이스인 SWISS-PROT, 문헌 데이터베이스인 PubMed의 데이터 구조를 개체-관련성 도표로 각각 모델링한 후 합병하여, 핵산-단백질-문헌자료로 연계되는 정보를 통합 서비스할 수 있는 모델과 시스템 구조를 제시한다.

  • PDF

단백질 상호작용 정보와 위치정보를 활용한 신호 전달 경로추출 (Signal transduction pathway extraction by information of protein-protein interaction and location)

  • Kim, Min-Kyung;Park, Hyun-Seok;Kim, Eun-Ha
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2004년도 The 3rd Annual Conference for The Korean Society for Bioinformatics Association of Asian Societies for Bioinformatics 2004 Symposium
    • /
    • pp.64-73
    • /
    • 2004
  • 세포 내에서 일어나는 신호 전달 과정은 단백질간의 상호작용을 통해 수행되고 조절된다. 단백질 상호작용 데이터를 활용하여 수행된 연구로는 단백질의 기능을 유추하거나 전체 네트워크 중 다른 지역보다 더 조밀한 상호작용을 추출하여 complex 혹은 pathway를 발견하고 진화 과정을 이해하는 바탕이 되고 있다. 본 연구에서는 신호 전달 경로에 대한 사전 정보 없이 yeast 상호작용 정보와 녹색형광단백질(GFP)을 이용하여 밝혀진 4000여 개의 yeast 단백질 위치 분포 data를 이용하여 신호전달경로를 찾는 방법을 시도했다. 기존 연구에 의해 밝혀진 yeast 내의 단백질 위치 분포 결과를 보면 21개의 category에 대해 각 단백질 상호작용 분포가 다양하게 나타나고, 특정 위치에서 상호작용 빈도수가 현저히 크다는 것을 알 수 있다. 특히 두 단백질이 같은 장소에 있을 경우 상호작용 확률이 높으며, 세포 내 소기관 사이에도 상호작용의 정도가 다양함이 알려져 있다. 따라서 이러한 분포상의 특성을 고려하여 상호작용을 기반으로 하여 세포막 단백질을 출발점으로, 핵에 있는 단백질을 도착점으로 잡고, 그 사이에 존재하는 다양한 가능 경로 중에서 단백질의 위치 정보를 가중치로 사용하여 그 중 최대 가능 경로를 찾도록 구현하였다. 이와 같은 pathway 모델링은 기존에 밝혀진 pathway와의 비교를 통해 알려지지 않은 새로운 경로를 발견하고, 이전에 경로에 참여하지 않은 단백질들을 발견할 수 있고, 이미 알려진 단백질들의 새로운 기능들에 대해서도 추론할 수 있을 것이라 기대한다.

  • PDF

전산 클로닝을 위한 Clustered EST 데이터베이스 구축 (Buliding Clustered EST database for In Silico Cloning)

  • 이진관;최은선;류근호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 추계학술발표논문집 (상)
    • /
    • pp.105-108
    • /
    • 2001
  • cDNA(complementary DNA)를 복제(cloneing)하여 염기 서열화 한 EST(Expressed Sequence Tag) 데이터는 여러 생물체들의 염기서열 정보들과 비교를 통해 유사점을 찾거나 기능적 부위 검색을 통해 유전자 기능을 추정한 수 있어 기능 유전체 연구에 많이 사용되고 있다. EST 데이터를 식물은 특정종(Species)별로, 동물의 경우 종의 조직별로 클러스터링 함으로써 아직 알려지지 않은 종의 유전자를 밝혀낼 수 있음은 물론 유전자의 발현에 따른 단백질의 기능도 알아낼 수 있다. 따라서 이 논문에서는 NCBI에서 flatfile 형태로 제공하는 EST 데이터를 분석하여 관계형 데이터베이스로 모델링하고 구축하였다. 또한 EST 데이터의 효율적인 사용을 위하여 데이터를 특정 종의 조직별로 클러스터링하여 제공하는 시스템을 설계하고 구현하였다.

  • PDF

이질형 바이오 데이터베이스 통합을 위한 게이트웨이 시스템 (Bio-Gateway System Architecture for Integrating Heterogeneous Bio-Databases)

  • 정진희;정민아
    • 한국정보통신학회논문지
    • /
    • 제9권8호
    • /
    • pp.1828-1833
    • /
    • 2005
  • 이질적인 생물 데이터베이스의 통합은 데이터간의 연계 분석의 필요성이 높아짐에 따라 중요한 문제로 대두되고 있다. 그러나 이러한 데이터베이스들은 초기에 이질적 환경에서 각기 다른 목적에 의해 생성되므로 포맷, 설계자가 불일치하는 등 여러 가지 문제점으로 인해 통합하는데 어려움이 따른다. 그러므로 이질적인 데이터베이스의 통합을 위해서는 초기단계의 설계가 무엇보다도 중요하다. 본 논문에서는 대표적인 핵산 데이터베이스인 Genbank와 단백질 데이터베이스인 Swiss-Prot을 통합하기 위해 ER 모델을 사용하여 개념적 모델을 보인 후, 이를 합병하여 통합모델을 제시한다. 또한, 핵산-단백질 자료로 연계되는 정보를 통합 서비스할 수 있는 시스템 구조를 제안한다. 제안된 바이오 게이트웨이 시스템은 개념적 설계 단계에서 가장 원자적인 단위로 분할하여 모델링 함으로써 정교한 질의 처리가 가능하고, 사용자가 상세 조건을 알고 있을 경우에 기존의 검색시스템과 달리 여러 번의 검색 과정을 거치지 않고, 단시간에 원하는 결과를 얻을 수 있다는 장점을 지닌다.

양자역학으로 π-π interaction 에너지 계산을 통한 ligand binding energy 분석

  • 이승진;윤지희;장성민
    • EDISON SW 활용 경진대회 논문집
    • /
    • 제2회(2013년)
    • /
    • pp.89-100
    • /
    • 2013
  • 생물정보학의 다양한 이론적 내용과 계산적 방법들이 갈수록 전문화 되어짐에 따라 신약 개발, 신 물질 합성, 단백질의 구조 예측 등 다양한 분야에서 필요성이 커져가고 있다. 이 중 molecular docking 기술은 단백질과 특정 분자간의 결합 형태를 분자 모델링 기법을 통해 알아내는 방법이며 신약개발 연구에 큰 영향을 미치고 있다. Molecular docking을 통하여 분자간의 결합 형태를 예측하는 과정에서 Protein-ligand complex의 정확한 에너지 측정을 가능하게 하는 scoring function이 필요하다. 그런데 본 연구에서 사용한 B-Raf kinase protein 은 active site 부분에서 ligand와 receptor 간에 aromatic ring로 인한 ${\pi}-{\pi}$ interaction이 정확한 에너지 계산을 어렵게 한다. 이러한 ${\pi}-{\pi}$ interaction 부분의 에너지를 정확하게 계산하기 위해 양자역학 계산을 실시하였다. Active site 부분에서 ligand와 receptor에서 발생하는 각각 다른 5개의 ${\pi}-{\pi}$ interaction 구조를 준비하여 Gaussian을 통해 양자역학 에너지를 계산하였다. 그리고 이러한 결과 값들이 ligand의 활성 값과 어떤 상관관계를 갖는지 살펴보았다. 그 결과 ${\pi}-{\pi}$ interaction을 양자역학으로 계산한 값이 그렇지 않은 것보다 더 좋은 상관관계를 보여주었다. 이는 특별한 구조의 영향으로 ligand와 receptor 간의 결합에너지를 정확하게 계산하기 어려운 문제에서 양자역학을 적용할 경우 더욱 좋은 결과값을 얻을 수 있었다. 또한 이러한 데이터가 신 물질 개발이나 신약 개발 등의 다양한 분야에서 계산화학 방법이 신뢰성을 얻는데 도움 될 수 있다고 생각된다.

  • PDF