• 제목/요약/키워드: protein interaction prediction

검색결과 68건 처리시간 0.028초

Prediction Accuracy Evaluation of Domain and Domain Combination Based Prediction Methods for Protein-Protein Interaction

  • Han, Dong-Soo;Jang, Woo-Hyuk
    • Bioinformatics and Biosystems
    • /
    • 제1권2호
    • /
    • pp.128-133
    • /
    • 2006
  • This paper compares domain combination based protein-protein interaction prediction method with domain based protein-protein interaction method. The prediction accuracy and reliability of the methods are compared using the same prediction technique and interaction data. According to the comparison, domain combination based prediction method has showed superior prediction accuracy to domain based prediction method for protein pairs with fully overlapped domains with protein pairs in learning sets. When we consider that domain combination based method has the effects of assigning a weight to each domain interaction, it implies that we can improve the prediction accuracies of currently available domain or domain combination based protein interaction prediction methods further by developing more advanced weight assignment techniques. Several significant facts revealed from the comparative studies are also described in this paper.

  • PDF

Development and Application of Protein-Protein interaction Prediction System, PreDIN (Prediction-oriented Database of Interaction Network)

  • 서정근
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2002년도 제1차워크샵
    • /
    • pp.5-23
    • /
    • 2002
  • Motivation: Protein-protein interaction plays a critical role in the biological processes. The identification of interacting proteins by bioinformatical methods can provide new lead In the functional studies of uncharacterized proteins without performing extensive experiments. Results: Protein-protein interactions are predicted by a computational algorithm based on the weighted scoring system for domain interactions between interacting protein pairs. Here we propose potential interaction domain (PID) pairs can be extracted from a data set of experimentally identified interacting protein pairs. where one protein contains a domain and its interacting protein contains the other. Every combinations of PID are summarized in a matrix table termed the PID matrix, and this matrix has proposed to be used for prediction of interactions. The database of interacting proteins (DIP) has used as a source of interacting protein pairs and InterPro, an integrated database of protein families, domains and functional sites, has used for defining domains in interacting pairs. A statistical scoring system. named "PID matrix score" has designed and applied as a measure of interaction probability between domains. Cross-validation has been performed with subsets of DIP data to evaluate the prediction accuracy of PID matrix. The prediction system gives about 50% of sensitivity and 98% of specificity, Based on the PID matrix, we develop a system providing several interaction information-finding services in the Internet. The system, named PreDIN (Prediction-oriented Database of Interaction Network) provides interacting domain finding services and interacting protein finding services. It is demonstrated that mapping of the genome-wide interaction network can be achieved by using the PreDIN system. This system can be also used as a new tool for functional prediction of unknown proteins.

  • PDF

보완된 카이-제곱 기법을 이용한 단백질 기능 예측 기법 (Fucntional Prediction Method for Proteins by using Modified Chi-square Measure)

  • 강태호;유재수;김학용
    • 한국콘텐츠학회논문지
    • /
    • 제9권5호
    • /
    • pp.332-336
    • /
    • 2009
  • 유전체 분석에서 중요한 부분 중 하나는 기능이 알려지지 않은 미지 단백질에 대한 기능 예측이다. 단백질-단백질 상호작용 네트워크를 분석하는 것은 미지 단백질에 대한 기능을 보다 쉽게 예측할 수 있게 한다. 단백질-단백질 상호작용 네트워크로부터 미지 단백질의 기능을 예측하기 위한 다양한 연구들이 시도되어 왔다. 카이-제곱(Chi-square) 방식은 단백질-단백질 상호작용 네트워크를 통해 기능을 예측하고자 하는 연구 중 대표적인 방식이다. 하지만 카이-제곱 방식은 네트워크의 토폴로지를 반영하지 않아 네트워크 크기에 따라 예측의 정확성이 떨어지는 문제점이 있다. 따라서 본 논문에서는 카이-제곱 방식을 보완하여 정확성을 높인 새로운 기능 예측 방법을 제안한다 이를 위해 MIPS, DIP 그리고 SGD와 같은 공개된 단백질 상호작용 데이터베이스들로부터 데이터를 수집하여 분석하였다. 그리고 제안된 방식의 우수성을 입증하기 위해 각 데이터베이스들에 대해 카이-제곱방식과 제안하는 보완된 카이-제곱(Modified Chi-square)방식으로 예측해보고 이들의 정확성을 평가하였다.

상호작용 중요도 행렬을 이용한 단백질-단백질 상호작용 예측 (Protein-Protein Interaction Prediction using Interaction Significance Matrix)

  • 장우혁;정석훈;정휘성;현보라;한동수
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권10호
    • /
    • pp.851-860
    • /
    • 2009
  • 최근 계산을 통한 단백질 상호작용 예측 기법 중, 단백질 쌍이 포함하고 있는 도메인들 사이의 관계에 중점을 둔 도메인 정보 기반 예측 기법들이 다양하게 제안되고 있다. 하지만, 다수의 도메인 쌍들이 상호작용에 기여하는 정도를 정밀하게 반영하는 계산 기법은 드문 실정이다. 본 논문에서는 단백질 상호작용에 있어 도메인 조합 쌍의 상호작용 영향력을 수치화하여 반영한 상호작용 중요도 행렬을 고안하고 이를 기반으로 한 단백질 상호작용 예측 시스템을 구현한다. 일반적인 도메인 조합 기법과 달리, 상호작용 중요도 행렬에서는 상호작용을 위한 도메인간의 협업 확률이 고려된 Weighted 도메인 조합과, 다수의 Weighted 도메인 조합 중 실제 상호작용 주체가 될 확률을 도메인 조합 쌍의 힘(Domain Combination Pair Power, DCPPW)으로 수치화한다. DIP과 IntAct에서 얻어온 S. cerevisiae의 단백질 상호작용 데이터와 Pfam-A 도메인 정보를 사용한 정확도 검증 결과, 평균 63%의 민감도와 94%의 특이도를 확인하였으며, 학습집단의 증가에 따른 안정적인 예측 정확도 향상을 보였다. 본 논문에서 구현한 예측 시스템과 학습 데이터는 웹(http://code.google.com/p/prespi)을 통하여 내려 받을 수 있다.

도메인 조합 기반 단백질-단백질 상호작용 확률 예측기법 (A Domain Combination Based Probabilistic Framework for Protein-Protein Interaction Prediction)

  • Han, Dong-Soo;Seo, Jung-Min;Kim, Hong-Soog;Jang, Woo-Hyuk
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2003년도 제2차 연례학술대회 발표논문집
    • /
    • pp.7-16
    • /
    • 2003
  • In this paper, we propose a probabilistic framework to predict the interaction probability of proteins. The notion of domain combination and domain combination pair is newly introduced and the prediction model in the framework takes domain combination pair as a basic unit of protein interactions to overcome the limitations of the conventional domain pair based prediction systems. The framework largely consists of prediction preparation and service stages. In the prediction preparation stage, two appearance pro-bability matrices, which hold information on appearance frequencies of domain combination pairs in the interacting and non-interacting sets of protein pairs, are constructed. Based on the appearance probability matrix, a probability equation is devised. The equation maps a protein pair to a real number in the range of 0 to 1. Two distributions of interacting and non-interacting set of protein pairs are obtained using the equation. In the prediction service stage, the interaction probability of a protein pair is predicted using the distributions and the equation. The validity of the prediction model is evaluated fur the interacting set of protein pairs in Yeast organism and artificially generated non-interacting set of protein pairs. When 80% of the set of interacting protein pairs in DIP database are used as foaming set of interacting protein pairs, very high sensitivity(86%) and specificity(56%) are achieved within our framework.

  • PDF

단백질 기능 예측을 위한 그래프 기반 모델링 (Graph-based modeling for protein function prediction)

  • 황두성;정재영
    • 정보처리학회논문지B
    • /
    • 제12B권2호
    • /
    • pp.209-214
    • /
    • 2005
  • 단백질 상호작용 데이터는 현 생물정보학에서 기능이 알려져 있지 않은 단백질의 기능 예측에 높은 신뢰성이 있는 프로티오믹스의 계산 모델에 이용되고 있다. 단백질 기능 예측 관련 연구로는 guilt-by-association 개념을 바탕으로 대규모의 단순 2차원 단백질-단백질 상호작용 맵을 이용하고 있다. 본 논문에서는 단백질-단백질 상호작용 데이터를 이용한 그래프 기반 기능 예측 방법인 neighbor-counting, $\chi^2$-통계치 예측 모델을 살펴보고 대량의 상호작용 데이터로부터 빠른 기능예측에 효과적인 알고리즘을 제안한다. 제안하는 알고리즘은 단백질 상호작용 맵, 서열 유사성 및 경험적 전문가 지식을 이용하는 그래프 기반 모델이다. 제안된 알고리즘은 Yeast 단백질의 기능 예측을 수행하였으며, neighbor-counting, $\chi^2$-통계치 모델의 실험 결과와 비교되었다.

단위 신경망을 이용한 단백질 기능 예측 (Modular neural network in prediction of protein function)

  • 황두성
    • 정보처리학회논문지B
    • /
    • 제13B권1호
    • /
    • pp.1-6
    • /
    • 2006
  • 단백질의 기능 예측 모델은 guilt-by-association 개념을 바탕으로 단백질-단백질 상호작용 맵을 이용하고 있다. 이 방법은 목표 단백질이 기능이 알려진 단백질과 상호작용이 없는 경우 기능 예측이 불가능하다. 본 논문에서는 단백질 기능 예측 모델을 K-class 다중 분류 문제로 재 정의하고 단백질-단백질 상호작용 데이터 및 단백질의 알려진 속성 등을 학습 모델에 이용한 단위신경망의 설계와 응용을 제안한다. 제안하는 모델은 Yeast 단백질 데이터의 기능 예측에서 단백질-단백질 상호작용 데이터를 이용하는 방법에 비해 분류 예측율에서 우수한 성능을 보였으며 또한 상호작용이 밝혀지지 않은 단백질의 기능 예측을 할 수 있다.

PreSPI: 단백질 상호작용 예측 서비스 시스템 (PreSPI: Protein-Protein Interaction Prediction Service System)

  • 한동수;김홍숙;장우혁;이성독
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제11권6호
    • /
    • pp.503-513
    • /
    • 2005
  • 계산을 통한 단백질 상호작용 예측 기법의 중요성이 제기되면서 많은 단백질 상호 작용 예측 기법이 제안되고 있다. 하지만 이러한 기법들이 일반 사용자가 손쉽게 사용할 수 있는 서비스 형태로 제공되고 있는 경우는 드물다. 본 논문에서는 현재까지 알려진 단백질 상호작용 예측 기법 중 예측 기법의 완성도가 높고 상대적으로 예측 정확도가 높은 것으로 알려진 도메인 조합 기반 단백질 상호 작용 예측 기법을 이용하여 서비스 시스템으로 설계하고 구현하였다. 효모(Yeast)의 단백질 집합에 대하여 학습한 후, 학습된 단백질 집합과 공통된 도메인을 가지지만 학습 집합에 존재하지 않는 단백질 쌍들에 예측 기법을 적용하여 매우 높은 $77\%$의 민감도(sensitivity)와 $95\%$의 특이도(specificity)를 보였다. 더불어 DIP CORE, HMS-PCI, TAP 데이타의 테스트를 통해서 이 기법의 안정성을 확인하였다. 시스템의 기능들은 핵심 기능, 부가 기능 그리고 일반 서비스 기능으로 분류하였다. 시스템 설계의 주요 목표인 성능, 개방성 그리고 확장성에 따라, 개별 서비스들은 병렬화, 웹 서비스 표준 준수 및 계층화된 구조화를 지원하도록 구현하였다. 본 논문에서는 몇 가지 대표적인 사용자 인터페이스와 상세한 사용 지침도 소개한다.

도메인 조합 기반 단백질-단백질 상호작용 확률 예측 틀 (A Domain Combination-based Probabilistic Framework for Protein-Protein Interaction Prediction)

  • 한동수;서정민;김홍숙;장우혁
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제10권4호
    • /
    • pp.299-308
    • /
    • 2004
  • 최근 단백질 및 도메인과 관련된 방대한 양의 데이타들이 인터넷상에 공표되고 축적됨에 따라, 단백질간의 상호작용에 대한 예측 시스템의 필요성이 제기되고 있다. 본 논문에서는 이러한 데이타를 이용하여 계산적으로 도메인 조합 쌍에 기반하여 단백질의 상호작용 확률을 예측하는 새로운 단백질 상호작용 예측 시스템을 제안한다. 제안된 예측 시스템에서는 기존의 도메인 쌍(domain pair)의 제약성을 극복하기 위하여 도메인 조합(domain combination)과 도메인 조합 쌍(domain combination pair)의 개념이 새롭게 도입하였다. 그리고 도메인 조합 쌍(domain combination pair 또는 dc-pair)을 단백질 상호작용의 기본 단위로 간주하고 예측을 시도한다. 예측 시스템은 크게 예측 준비 과정과 서비스 과정으로 구성되어 있다. 예측 준비 과정에서는 상호작용이 있는 것으로 알려진 단백질 쌍 집합과 상호작용이 없는 것으로 추정되는 단백질 도메인 쌍 집합으로부터 각각 도메인 조합 정보와 그 출현 빈도를 추출한다. 추출된 정보들은 출현 확률 배열(Appearance Probability Matrix 또는 AP matrix)로 불리는 배열 구조에 저장된다. 논문에서는 출현 확률 배열에 기반을 두어, 단백질-단백질 상호작용을 예측하는 확률식 PIP(Primary Interaction Probability)를 고안하고, 고안된 확률식을 이용하여, 상호작용이 있는 것으로 알려진 단백질 쌍 집합과 상호작용이 없는 것으로 추정되는 단백질 도메인 쌍 집합의 확률 값 분포를 생성시킨다. 예측서비스 과정에서는 예측 준비 과정에서 얻어진 분포와 확률식을 이용하여 임의의 단백질 쌍의 상호작용 확률을 계산한다. 예측 모델의 유효성은 효모(yeast)에서 상호작용이 있는 것으로 보고된 단백질 쌍 집합과 상호작용이 없는 것으로 추정되는 단백질 쌍 집합을 이용하여 검증하였다. DIP(Database of Inter-acting Proteins)의 상호작용이 있는 것으로 알려진 효모 단백질 쌍 집합의 80%를 학습 집단으로 사용했을 때, 86%의 sensitivity와 56%의 specificity를 나타내어, 도메인을 기반으로 한 기존의 예측 시스템에 비해서 우월한 예측 정확도를 보여주었다. 이와 같은 예측 정확도의 개선은 본 예측 시스템이 상호작용의 기본 단위로 dc-pair를 채택한 점과 분류를 위하여 새롭게 고안하여 사용한 PIP식이 유효했던 것으로 판단된다.

도메인 조합 기반 단백질 상호작용 가능성 순위 부여 기법 (Protein Interaction Possibility Ranking Method based on Domain Combination)

  • 한동수;김홍숙;장우혁;이성독
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제11권5호
    • /
    • pp.427-435
    • /
    • 2005
  • 인터넷 상에 단백질 및 관련 데이터의 축적에 따라, 도메인에 기반하여 단백질의 상호작용을 계산적으로 예측하는 많은 기법들이 제안되었다. 그러나, 대부분의 기법들이 예측에서 낮은 정확도와 복수개의 단백질 쌍에 대한 상호작용 가능성들 간에 순위 정보를 제공하지 못하는 등의 한계로 인하여 실무 적용에 한계를 가지고 있다. 본 논문에서는 도메인 조합 기반 단백질 상호작용 예측 기법을 재평가하고 상호작용하는 것으로 예측되는 복수개의 단백질 쌍들에서 이들의 상호작용 가능성들 간에 순위를 부여하는 방법을 제시한다. 순위 부여 방법은 도메인 조합에 기반한 단백질 상호작용 예측 방법의 틀 내에서 확률 식을 고안하여 제시한다. 제시된 순위 부여 기법을 사용함으로써, 상호작용을 하는 것으로 예측된 단백질 쌍들간에 상호작용 가능성이 좀 더 높은 것을 구별해 낼 수 있다. 또한 순위 부여 기법의 검증 과정에서 학습에 사용된 단백질 집단의 PIP(Primary Interaction Probability)값과 일치된 PIP값을 가지는 단백질 쌍 그룹의 경우에는, 상호작용 확률과 예측 정확도 사이에 상관관계가 존재함을 확인할 수 있었다.