• Title/Summary/Keyword: 단백질 서열

Search Result 699, Processing Time 0.023 seconds

Ortholog protein finding System based on protein sequence and interaction information. (서열 및 상호작용 정보를 활용한 이종간 유사 기능 단백질 추출)

  • 설영주;김민경;유성준;박선희
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10b
    • /
    • pp.274-276
    • /
    • 2004
  • 단백질 간 상호작용은 생물체 내에서 발생하는 모든 생명 현상을 이루는 기본 단위로써, 이를 종 수준에서 밝히고자 하는 시도가 yeast와 초파리, Worm 등에서 보고되었다. 대량으로 존재하는 상호작용 데이터들은 종래에 서열로 시도되던 유연관계 비교 및 기능 유추 등에 기본 정보로 활용되고 있다. 본 연구에서는 다른 종에 속하는 동일 기능 단백질 즉, ortholog를 찾음에 있어, 기존의 서열 접근 방식 이외에 상호작용 정보론 추가로 사용하는 시스템을 고안하여 서열방식만을 활용하던 이전의 방식이 지니는 문제점을 극복하고자 하였다.

  • PDF

Signal Sequence Prediction Based on Hydrophobicity and Substitution Matrix (소수성과 치환행렬에 기반한 신호서열 예측)

  • Chi, Sang-Mun
    • Journal of KIISE:Software and Applications
    • /
    • v.34 no.7
    • /
    • pp.595-602
    • /
    • 2007
  • This paper proposes a method that discriminates signal peptide and predicts the cleavage site of the secretory proteins cleaved by the signal peptidase I. The preprocessing stage uses hydrophobicity scales of amino acids in order to predict the presence of signal sequence and the cleavage site. The preprocessing enhances the performance of the prediction method by eliminating the non-secretory proteins in the early stage of prediction. for the effective use of support vector machine for the signal sequence prediction, the biologically relevant distance between the amino acid sequences is defined by using the hydrophobicity and substitution matrix; the hydrophobicity can be used to Predict the location of amino acid in a cell and the substitution matrix represents the evolutionary relationships of amino acids. The proposed method showed 98.9% discrimination rates from signal sequences and 88% correct rate of the cleavage site prediction on Swiss-Prot release 50 protein database using the 5-fold-cross-validation. In the comparison tests, the proposed method has performed significantly better than other prediction methods.

HPV-type Prediction System using SVM and Partial Sequential Pattern (분할 순차 패턴과 SVM을 이용한 HPV 타입 예측 시스템)

  • Kim, Jinsu
    • Journal of Digital Convergence
    • /
    • v.12 no.12
    • /
    • pp.365-370
    • /
    • 2014
  • The existing system consumes a considerable amount time and cost for extracting the patterns from whole sequences or misaligned sequences. In this paper, We propose the classification system, which creates the partition sequence sections using multiple sequence alignment method and extracts the sequential patterns from these section. These extracted patterns are accumulated motif candidate sets and then used the training sets of SVM classifier. This proposed system predicts a HPV-type(high/low) using the learned knowledges from known/unknown protein sequences and shows more improved precision, recall than previous system in 30% minimum support.

Discovering Sequence Association Rules for Protein Structure Prediction (단백질 구조 예측을 위한 서열 연관 규칙 탐사)

  • Kim, Jeong-Ja;Lee, Do-Heon;Baek, Yun-Ju
    • The KIPS Transactions:PartD
    • /
    • v.8D no.5
    • /
    • pp.553-560
    • /
    • 2001
  • Bioinformatics is a discipline to support biological experiment projects by storing, managing data arising from genome research. In can also lead the experimental design for genome function prediction and regulation. Among various approaches of the genome research, the proteomics have been drawing increasing attention since it deals with the final product of genomes, i.e., proteins, directly. This paper proposes a data mining technique to predict the structural characteristics of a given protein group, one of dominant factors of the functions of them. After explains associations among amino acid subsequences in the primary structures of proteins, which can provide important clues for determining secondary or tertiary structures of them, it defines a sequence association rule to represent the inter-subsequences. It also provides support and confidence measures, newly designed to evaluate the usefulness of sequence association rules, After is proposes a method to discover useful sequence association rules from a given protein group, it evaluates the performance of the proposed method with protein sequence data from the SWISS-PROT protein database.

  • PDF

microRNA of interaction cancer related protein (암 관련 단백질과 상호작용하는 microRNA에 가중치를 부여함으로써 유용한 정보 도출)

  • Park, Byeol Na;Kim, Hak Yong
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2011.05a
    • /
    • pp.341-342
    • /
    • 2011
  • 선행연구에서 우리는 암과 관련된 단백질-단백질 상호작용 네트워크와 단백질-질병 네트워크를 통해서 핵심 단백질 60개를 추출했다. 이 단백질들을 조절하여 암을 제어하기 위한 방법으로 miRNA(microRNA)를 이용하기위해 단백질과 상호작용하는 miRNA와 miRNA 서열정보를 추출하였다. 한 단백질과 상호작용하는 miRNA의 수가 많았기 때문에 각각의 miRNA에 대해 우선순위를 주어서 가중치를 부여했는데, 기준으로는 miRNA 서열길이, 수소결합 수 등으로 잡아주었다. 이 방법을 사용함으로써 밝혀지지 않은 단백질과 miRNA의 상호작용 서열을 찾는데 이용가능 할 것이다.

  • PDF

Proteome Data Analysis of Hairy Root of Panax ginseng : Use of Expressed Sequence Tag Data of Ginseng for the Protein Identification (인삼 모상근 프로테옴 데이터 분석 : 인삼 EST database와의 통합 분석에 의한 단백질 동정)

  • Kwon, Kyung-Hoon;Kim, Seung-Il;Kim, Kyung-Wook;Kim, Eun-A;Cho, Kun;Kim, Jin-Young;Kim, Young-Hwan;Yang, Deok-Chun;Hur, Cheol-Goo;Yoo, Jong-Shin;Park, Young-Mok
    • Journal of Plant Biotechnology
    • /
    • v.29 no.3
    • /
    • pp.161-170
    • /
    • 2002
  • For the hairy root of Panax ginseng, we have got mass spectrums from MALDI/TOF/MS analysis and Tandem mass spectrums from ESI/Q-TOF/MS analysis. While mass spectrum provides the molecular weights of peptide fragments digested by protease such as trypsin, tandem mass spectrum produces amino acid sequence of digested peptides. Each amino acid sequences can be a query sequence in BLAST search to identify proteins. For the specimens of animals or plants of which genome sequences were known, we can easily identify expressed proteins from mass spectrums with high accuracy. However, for the other specimens such as ginseng, it is difficult to identify proteins with accuracy since all the protein sequences are not available yet. Here we compared the mass spectrums and the peptide amino acid sequences with ginseng expressed sequence tag (EST) DB. The matched EST sequence was used as a query in BLAST search for protein identification. They could offer the correct protein information by the sequence alignment with EST sequences. 90% of peptide sequences of ESI/Q-TOF/MS are matched with EST sequences. Comparing 68% matches of the same sequences with the nr database of NCBI, we got more matches by 22% from ginseng EST sequence search. In case of peptide mass fingerprinting from MALDI/TOF/MS, only about 19% (9 proteins of 47 spots) among peptide matches from nr DB were correlated with ginseng EST DB. From these results, we suggest that amino acid sequencing using tandem mass spectrum analysis may be necessary for protein identification in ginseng proteome analysis.

Development of an efficient sequence alignment algorithm and sequence analysis software (효율적인 복수서열정렬 최적화기법 및 서열 분석 소프트웨어 개발)

  • Hwang, Jae-Jun;Kim, Dong-Hoi;Uhmn, Saang-Yong;Kim, Jin
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10b
    • /
    • pp.847-849
    • /
    • 2003
  • 단백질들의 복수서열정렬은 단백질 서열간의 관계를 유추할 수 있는 유용한 도구이다. 최적화된 복수서열 정렬을 얻기 위해 사용되는 가장 유용한 방법인 dynamic programming은 특정한 비용함수를 사용할 수 없기 때문에 특별한 경우 최적의 복수서열정렬을 제공하지 못하는 문제점이 있어 이를 해결하기 위하여 이 논문에서는 부분정렬 개선 기법을 사용한 알고리즘을 제안하였으며, 서열정렬을 하는 사용자가 윈도우 시스템의 GUI환경을 사용하여 서열정렬을 보다 편하게 할 수 있도록 우리가 제안한 알고리즘과 다양한 서열정렬 알고리즘을 및 여러 개의 서열포맷형식을 하나의 프로그램으로 통합한 서열정렬 및 편집 프로그램을 Visual C++ 사용하여 개발하였다.

  • PDF

A Compressing Method for Genome Sequence Cluster Using Sequence Alignment (서열정렬을 이용한 유전체 서열클러스터의 압축 방법)

  • Yu, Nam-Hee;Jung, Kwang-Su;Ryu, Keun-Ho
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2008.06c
    • /
    • pp.194-197
    • /
    • 2008
  • 생물학자들은 기능이 밝혀진 단백질들로부터 치환된 몇몇의 잔기를 이용해 새로운 유용한 단백질들을 만든다. 만들어진 단백질은 높은 서열 유사성을 가지는데 우리는 이런 유사한 서열들로 구성되어 있는 클러스터를 서열 클러스터라고 정의한다. 이 논문에서는 서열정렬방법을 이용하여 서열들의 클러스터에 새로운 요약적 표현방법을 제안한다. 먼저 클러스터 안의 모든 서열들 각각의 거리에서 최소거리를 갖는 서열을 대표로 선택한다. 이 서열거리는 계산된 정렬스코어에 의해 얻을 수 있고 서열정렬의 결과에서 변환된 서열을 Edit-Script라고 불리는 보존정보에 저장한다. 대표로 선택된 서열과 각 클러스터의 Edit-Script가 데이터베이스에 저장되고 이 정보로 각 클러스터의 서열들이 보다 쉽게 만들어진다. 본 연구의 결과에서 Edit-Script의 정보를 이용하면 클러스터안의 서열들의 유사도이 55% 넘었을 때 사이즈가 감소된 것을 알 수 있다. 또한 데이터베이스에서 검색하려는 서열과 관련된 서열들을 검색할 때 데이터베이스 있는 대표서열들을 먼저 비교해 본 후 가장 거리가 가까운 대표서열을 선택하여 그 안의 클러스터 구성서열들과 검색하기 때문에 검색 시간을 단축시킬 수 있다.

  • PDF

Modelling of three Dimensional Structure in Protein based on Spatial Object Model (공간객체 모델 기반 단백질 3차 구조 모델링)

  • Han, Yu;Park, Seng-Hee;Lee, Sun-Hee;Ryu, Keun-Ho
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.73-75
    • /
    • 2002
  • PDB에서 제공하는 단백질 3차원 고분자결정 구조에 대한 플랫파일은 인자들의 좌표, 서열정보, 실험정보 및 참조 정보가 포함된다. 이러한 정보를 포함하고 있는 플랫파일로부터 필수적인 구조정보 및 서열정보 등의 효율적인 검색을 위해서는 이러한 데이터를 추출하여 데이터베이스 구축이 요구되며 이 때 단백질 구조 및 서열 정보와 실험 및 탐조 정보의 관계에 대한 모델링이 중요하다. 따라서 이 논문에서는 PDB에서 제공하는 플랫파일들의 엔트리들을 분석하고 3차원 공간 객체의 기하적 특성을 갖는 단백질 3차 구조를 공간객체로 표현하고 공간객체 모델을 적용하여 모델링한다. 이렇게 함으로써 단백질 3차 구조 분자를 구성하는 인자 및 구조 정보 검색이 가능하며 위상 및 기하 연산자글 이용하여 단백질 구조 분석에 활용할 수 있다.

  • PDF

An Efficient Method for Multiple Sequence Alignment using Subalignment Refinement (부분서열정렬 개선 기법을 사용한 효율적인 복수서열정렬에 관한 알고리즘)

  • Kim, Jin;Jung, Woo-Cheol;Uhmn, Saang-Yong
    • Journal of KIISE:Software and Applications
    • /
    • v.30 no.9
    • /
    • pp.803-811
    • /
    • 2003
  • Multiple sequence alignment is a useful tool to identify the relationships among protein sequences. Dynamic programming is the most widely used algorithm to obtain multiple sequence alignment with optimal cost. However, dynamic programming cannot be applied to certain cost function due to its drawback and cannot be used to produce optimal multiple sequence alignment. We propose sub-alignment refinement algorithm to overcome the problem of dynamic programming. Also we show proposed algorithm can solve the problem of dynamic programming efficiently.