• 제목/요약/키워드: 단백질간 상호 작용 추출

검색결과 32건 처리시간 0.043초

단백질 상호작용 추출을 위한 확장성을 가진 텍스트 마이닝 기법 (An Extensible Text Mining Technique for the Extraction of Protein-Protein Interaction)

  • 이현철;여은주;강희영;조완섭;김학용;유재수
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.256-258
    • /
    • 2004
  • 단백질간의 상호작용에 대한 연구는 생물학적 프로세스를 이해하기 위해 중요한 부분이다. 이러한 단백질간의 상호작용에 대한 정보는 주로 생명과학 관련 연구논문에 존재하지만 컴퓨터로 자동으로 처리하여 상호작용에 관안 정보를 추출할 수 있기 위해서는 텍스트 마이닝 기술이 적용되어야 한다 바이오 텍스트 마이닝에서 대두되고 있는 중요한 쟁점은 대용량의 연구논문에서 필요한 정보를 어떻게 효율적으로 정확하게 추출할 것인가에 대한 내용이다. 또한, 관심이 있는 단백질의 종류나 관련성을 표시하는 문장내 패턴의 다양성을 수용하기 위하여 개발하는 시스템의 확장성을 높이는 것도 소프트웨어 공학적인 측면에서 중요한 이슈이다 이 논문의 목적은 생물학적 내용을 담고 있는 연구논문으로부터 단백질간의 상호작용을 추출하는 확장성을 가진 텍스트 마이닝 기법을 제안하는데 있다.

  • PDF

생물학 관련 문헌으로부터 상호작용 정보 자동 추출 (Automatic Extraction of protein-protein interaction information from biological literature)

  • 정의헌;김민경;박현석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (2)
    • /
    • pp.808-810
    • /
    • 2003
  • 본 논문에서는 생물학 관련 문서에서 단백질 간의 상호작용을 추출하는 방법에 대한 전반적인 기술 동향을 소개하고, 현재 구현된 상호작용 정보 자동추출 시스템의 연구 결과에 대해 기술한다. 일반적으로 이미 알려진 단백질들의 관계를 추출함에 있어서는 단백질의 이름에 대한 특성 구분과 표현의 의미적 해석등에 NLP 기법을 사용하여, 사용자 정의에 따른 룰을 생성하는 방법과 데이터 마이닝 기법을 적용하여, 단백질간의 관계를 자동적으로 추출하는 방법, 또한 위의 이 두가지 방법을 병행하는 방법이 현재 연구되고 있다. 이 논문에서는 자연언어처리 기법과 머신러닝 기법(SVM)을 이용하여, 단백질간의 상호작용에 관한 일반 생물 정보 문헌에서 추출하고, 그 성능을 테스트 해 보겠다.

  • PDF

연관속성개념공간으로의 사상을 이용한 단백질 상호작용 예측 (Prediction of Protein Interactions using the Associative Feature Concept Space Mapping)

  • 엄재홍;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (A)
    • /
    • pp.73-75
    • /
    • 2006
  • 생물체 내에서 중요 생물학적 기능을 수행하는 기본 단위인 단백질 및 이들의 상호작용 대한 많은 연구가 이루어져 다양한 생물체에 대한 단백질 상호작용 데이터베이스가 구축되었다. 본 논문에서는 효모에 대해 공개되어있는 단백질 상호작용 데이터를 이용하여 새로운 단백질 상호작용을 예측하는 방법을 제안한다. 논문에서는 문헌에서 연관 정보를 효율적으로 찾아내기 위하여 제안된 연관개념공간 탐색 방법을 확장하여 단백질 상호작용 예측에 사용한다. 단백질들은 각각이 가지는 다양한 속성들의 벡터로 간주되며, 상호작용은 해당 단백질들의 연관성을 통해 이루어지는 것으로 표현된다. 상호작용하는 두 단백질들의 속성은 단어의 공동 출현과 같이 고려되어 단백질 상호작용은 두 단백질 벡터의 요소로 표현되고 벡터의 요소 속성들 간의 연관성을 표현하기 위해 연관속성개념공간으로 사상되어 공간상의 거리 기반으로 연관속성을 추출한다. 추출된 연관속성을 최대로 포함하는 단백질들 간의 상호작용을 예측하는 방식으로 단백질 상호작용을 예측한다. 논문에서 제안한 방법은 효모의 단백질 상호작용 예측에 대해 평균 약 91.8%의 예측 정확도를 보여, 연관속성개념공간을 이용한 방법이 단백질 상호작용을 예측하는 또 다른 대안으로 사용 될 수 있음을 확인하였다.

  • PDF

Convolutional Neural Network (CNN) 기반의 단백질 간 상호 작용 추출 (Extraction of Protein-Protein Interactions based on Convolutional Neural Network (CNN))

  • 최성필
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권3호
    • /
    • pp.194-198
    • /
    • 2017
  • 본 논문에서는 학술 문헌에서 표현된 단백질 간 상호 작용(Protein-Protein Interaction) 정보를 자동으로 추출하기 위한 확장된 형태의 Convolutional Neural Network (CNN) 모델을 제안한다. 이 모델은 기존에 관계 추출(Relation Extraction)을 위해 고안된 단순 자질 기반의 CNN 모델을 확장하여 다양한 전역 자질들을 추가적으로 적용함으로써 성능을 개선할 수 있는 장점이 있다. PPI 추출 성능 평가를 위해서 많이 활용되고 있는 준거 평가 컬렉션인 AIMed를 이용한 실험에서 F-스코어 기준으로 78.0%를 나타내어 현재까지 도출된 세계 최고 성능에 비해 8.3% 높은 성능을 나타내었다. 추가적으로 CNN 모델이 복잡한 언어 처리를 통한 자질 추출 작업을 하지 않고도 단백질간 상호 작용 추출에 높은 성능을 나타냄을 보였다.

단백질 상호작용 정보와 위치정보를 활용한 신호 전달 경로추출 (Signal transduction pathway extraction by information of protein-protein interaction and location)

  • Kim, Min-Kyung;Park, Hyun-Seok;Kim, Eun-Ha
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2004년도 The 3rd Annual Conference for The Korean Society for Bioinformatics Association of Asian Societies for Bioinformatics 2004 Symposium
    • /
    • pp.64-73
    • /
    • 2004
  • 세포 내에서 일어나는 신호 전달 과정은 단백질간의 상호작용을 통해 수행되고 조절된다. 단백질 상호작용 데이터를 활용하여 수행된 연구로는 단백질의 기능을 유추하거나 전체 네트워크 중 다른 지역보다 더 조밀한 상호작용을 추출하여 complex 혹은 pathway를 발견하고 진화 과정을 이해하는 바탕이 되고 있다. 본 연구에서는 신호 전달 경로에 대한 사전 정보 없이 yeast 상호작용 정보와 녹색형광단백질(GFP)을 이용하여 밝혀진 4000여 개의 yeast 단백질 위치 분포 data를 이용하여 신호전달경로를 찾는 방법을 시도했다. 기존 연구에 의해 밝혀진 yeast 내의 단백질 위치 분포 결과를 보면 21개의 category에 대해 각 단백질 상호작용 분포가 다양하게 나타나고, 특정 위치에서 상호작용 빈도수가 현저히 크다는 것을 알 수 있다. 특히 두 단백질이 같은 장소에 있을 경우 상호작용 확률이 높으며, 세포 내 소기관 사이에도 상호작용의 정도가 다양함이 알려져 있다. 따라서 이러한 분포상의 특성을 고려하여 상호작용을 기반으로 하여 세포막 단백질을 출발점으로, 핵에 있는 단백질을 도착점으로 잡고, 그 사이에 존재하는 다양한 가능 경로 중에서 단백질의 위치 정보를 가중치로 사용하여 그 중 최대 가능 경로를 찾도록 구현하였다. 이와 같은 pathway 모델링은 기존에 밝혀진 pathway와의 비교를 통해 알려지지 않은 새로운 경로를 발견하고, 이전에 경로에 참여하지 않은 단백질들을 발견할 수 있고, 이미 알려진 단백질들의 새로운 기능들에 대해서도 추론할 수 있을 것이라 기대한다.

  • PDF

계층적 군집화를 통한 이스트(Yeast) 단백질의 고차 상호작용 추출 (Extraction of higher yeast protein-protein interaction with hierarchical clustering from textual data)

  • 엄재홍;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.364-366
    • /
    • 2002
  • 본 논문에서는 텍스트 형태로 구성된 특정 생물에 대한 문헌 데이터에서 해당 생물의 주요 단백질간의 이진(binary) 관계를 추출하여 이들을 특징별로 계층적으로 군집화 함으로써 특정 현상을 나타내는 단백질간의 주요 관계를 추출하는 방법을 제시한다. 텍스트 데이터에서 단백질간의 이진관계는 기본적인 데이터마이닝 기법을 사용하여 연관규칙(association rule)의 형태로 추출하게 된다. 본 논문에서는 실험을 위해 PUBMED에서 추출한 Yeast의 주요 단백질간의 관계를 포함하고 있는 논문 데이터인 MEDLINE Abstract와 몇몇 공개 데이터베이스를 사용하였다. 실험 결과 SH3와 같이 기존에 알려진 단백질간의 단일 관계를 추출하는 것 이외에 이러한 관계들을 이용하여 클러스터링을 행한 결과 공통 현상에 작용하는 주요 단백질간의 관계들이 서로 군집화 됨을 확인 할 수 있었다. 또한 단순 이진관계가 아닌 클러스터링을 이용한 보다 상위 단계에서 단순 규칙들 간의 관계를 살펴봄으로써 단백질간의 이진관계를 추출하기 위한 데이터로 사용한 문헌 데이터에 나타나 있지 않은 1차 이상의 관계를 고찰 해 볼 수 있었다. 논문에서는 규칙 추출의 전체 과정과 함께 사용된 추출 시스템의 각 부와 데이터에 대한 설명을 다룬다.

  • PDF

서열 및 상호작용 정보를 활용한 이종간 유사 기능 단백질 추출 (Ortholog protein finding System based on protein sequence and interaction information.)

  • 설영주;김민경;유성준;박선희
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (2)
    • /
    • pp.274-276
    • /
    • 2004
  • 단백질 간 상호작용은 생물체 내에서 발생하는 모든 생명 현상을 이루는 기본 단위로써, 이를 종 수준에서 밝히고자 하는 시도가 yeast와 초파리, Worm 등에서 보고되었다. 대량으로 존재하는 상호작용 데이터들은 종래에 서열로 시도되던 유연관계 비교 및 기능 유추 등에 기본 정보로 활용되고 있다. 본 연구에서는 다른 종에 속하는 동일 기능 단백질 즉, ortholog를 찾음에 있어, 기존의 서열 접근 방식 이외에 상호작용 정보론 추가로 사용하는 시스템을 고안하여 서열방식만을 활용하던 이전의 방식이 지니는 문제점을 극복하고자 하였다.

  • PDF

S. cerevisiae 단백질간 상호작용과 세포 내 위치 정보를 활용한 MAP Kinase 신호전달경로추출 및 예측을 위한 고성능 알고리즘 연구 (High performance Algorithm for extracting and redicting MAP Kinase signaling pathways based on S. cerevisiae rotein-Protein Interaction and Protein location Information)

  • 조미경;김민경;박현석
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권3호
    • /
    • pp.193-207
    • /
    • 2009
  • 세포 내에서 일어나는 단백질 신호 전달 과정은 단백질간의 상호작용을 통해 수행되고 조절된다. Yeast 상호작용 정보와 녹색형광단백질(GFP)을 이용하여 밝혀진 약 5,000여 개의 Yeast 단백질 위치정보를 이용하여 가중치를 부여하고 신호 전달경로 추출 및 예측을 위한 고성능 LocSPF 알고리즘을 최초로 제안하였다. 가중치 알고리즘에 의해 산출된 결과 중 의미 상관도가 높은 것을 채택한 후 KEGG에서 제공하는 신호전달 경로와 같은 신호전달 경로를 추출하는지 유사도 비교를 하였다. 한편 더 나아가 아직 실험을 통해 밝혀지지 않은 단백질 신호전달 경로를 예측하여 결과를 제시함으로써 본 연구를 통해서 알려지지 않은 새로운 신호전달 경로를 발견하거나 이전 경로에 참여하지 않은 단백질들을 발견할 수 있는 가능성을 제시 하였다.

단백질 상호작용 데이터 통합 및 자료 검색 시스템 설계 (Integration of Protein-Protein Interaction Data and Design of Data Search System)

  • 최지혜;;오세종
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2010년도 춘계학술발표논문집 2부
    • /
    • pp.1197-1200
    • /
    • 2010
  • Post-genomic 시대에 접어들면서 단백질의 기능의 주석이 중요한 문제로 떠오르기 시작하였다. 이런 단백질 기능을 예측하기 위해 단백질 상호작용(Protein-Protein interaction) 데이터를 이용한 방법들이 지난 10여 년간 발표되어왔다. 단백질 상호작용(Protein-Protein interaction) 데이터는 단백질들 간의 서열 등의 특징을 이용해 상호간의 연결 관련성이 있는 단백질끼리의 관계를 네트워크로 나타낸 자료이다. 현재 이러한 단백질 상호작용(Protein-Protein interaction) 데이터들은 MIPS, DIP, BioGrid등 약 5~6군데에서 제공되고 있다. 각각의 데이터는 다른 형식을 가지고 있고, 중복되는 정보도 포함하고 있다. 여러 연구 방법에서 데이터를 사용할 때 한군데에서만 추출하기 보다는 여러 데이터에서 추출하는 경우가 많기 때문에 다른 형식의 데이터를 이용하는데 불필요한 수고가 들어가게 된다. 때문에 여러군데의 데이터를 한 가지 형식으로 맞추어 통합적으로 구축하여 연구 시 데이터 사용에 용이하도록 설계 하였다. 또한 발표된 단백질 기능 예측 방법에 대한 정리를 통해 앞으로의 연구를 하는데 있어서 필요한 자료를 얻고 열람할 수 있도록 설계하였다. 이를 통해 관련 연구를 하거나 관심이 있는 사람들의 데이터를 검색하는데 많은 도움이 될 것이다.

  • PDF

단백질 상호작용 관계의 상동성 기반 검증 (A Homology-Based Verification of Protein Interaction Relationships)

  • 최재훈;박종민;박선희
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.232-234
    • /
    • 2005
  • 본 논문에서는 생물학적 실험에 의해 추출된 특정 종의 단백질 상호작용 관계를 다른 여러 종에서 이미 밝혀진 단백질 상호작용 관계들을 통해 검증할 수 있는 방법을 제안한다. 이 검증을 위해 기본적으로 요구되는 이종간 단백질들 사이의 상동성 관계는 Swiss Prot 데이터베이스의 모든 단백질들에 대해 이름 패턴, 키워드, 서열 비교를 통해 구축된다. 즉, 특정 종에 대한 단백질 상호작용 관계를 여러 종의 단백질 상호작용 관계들로 상동화하고, 이 상동화된 관계들이 각각의 종에 어떠한 형태로 존재하는지의 여부를 판단함으로써 검증된다.

  • PDF