• Title/Summary/Keyword: 단백질 시퀀스

Search Result 15, Processing Time 0.029 seconds

Predict Protein Secondary Structure based on Emerging Sequence Mining (출현 시퀀스 마이닝 기반의 단백질 2 차 구조 예측)

  • Li, Meijing;Lee, Heon Gyu;Saeed, Khalid E.K.;Shon, Ho Sun;Ryu, Keun Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.04a
    • /
    • pp.379-382
    • /
    • 2009
  • 최근 단백질 기능 예측을 위한 서열비교와 구조비교 기법들은 정확한 분류가 가능한 반면, 새로운 단백질 기능 분류를 함에 있어서 많은 복잡도가 따른다. 따라서 이 논문에서는 보다 빠른 단백질의 구조 분류 및 예측을 위하여 출현 시퀀스(emerging sequence)를 기반으로 하는 분류기법을 제안하였다. 이 기법에서는 먼저, 출현 시퀀스 마이닝 알고리즘을 이용하여 단백질 서열 데이터로부터 4 가지의 단백질 2 차 구조 출현 시퀀스를 발견하고, SVM을 이용하여 단백질의 출현 시퀀스 속성으로부터 단백질의 2 차 구조를 예측하였다.

Protein Disorder Prediction Using Neural Networks (신경회로망을 이용한 단백질 구조 예측)

  • Oh, Sang-Hoon
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2017.05a
    • /
    • pp.35-36
    • /
    • 2017
  • 단백질의 구조가 무질서한 것을 예측하는 문제는 단백질 시퀀스 구조의 비교 시간을 단축할 수 있으며 단백질 구조 분석 영역을 표시할 수 있기 때문에 중요하게 다루어진다. 이 논문에서는 단백질의 무질서한 구조 예측을 신경회로망을 이용하여 해결하고자 하였으며, 시뮬레이션 결과 일반적인 신경회로망 보다 심층신경회로망이 더 좋은 성능을 보임을 확인하였다.

  • PDF

A K-Nearest Neighbor Algorithm for Categorical Sequence Data (범주형 시퀀스 데이터의 K-Nearest Neighbor알고리즘)

  • Oh Seung-Joon
    • Journal of the Korea Society of Computer and Information
    • /
    • v.10 no.2 s.34
    • /
    • pp.215-221
    • /
    • 2005
  • TRecently, there has been enormous growth in the amount of commercial and scientific data, such as protein sequences, retail transactions, and web-logs. Such datasets consist of sequence data that have an inherent sequential nature. In this Paper, we study how to classify these sequence datasets. There are several kinds techniques for data classification such as decision tree induction, Bayesian classification and K-NN etc. In our approach, we use a K-NN algorithm for classifying sequences. In addition, we propose a new similarity measure to compute the similarity between two sequences and an efficient method for measuring similarity.

  • PDF

Searching Secondary Structure of Protein Using Fixed Pattern List (고정된 패턴 리스트를 사용한 단백질 2차 구조의 검색)

  • 나상준;박상현
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.304-306
    • /
    • 2004
  • 단백질의 1차 구조를 통하여 생성되는 단백질 2차 구조는 3가지 타입 E, H, L을 가지고 있다. 단백질 2차 구조는 선형적인 단백질 1차 구조를 공간적으로 형성한 것이며 단백질 2차 구조에 관한 연구는 단백질 기능 예측에 중요한 부분이다. 단백질 2차 구조는 3가지 타입이 각각 그룹을 이루어 나타나는 특징이 있다. 단백질 2차 구조의 이러한 특징을 이용하면 효과적인 검색이 가능하다. 기존의 연구에서는 시퀀스 전체와 질의를 스트링 기반으로 비교하는 방법과 단백질 2차 구조의 세그먼트 테이블을 이용하는 방법을 사용하였다. 하지만 이러한 방법은 검색 비용이 많이 드는 단점이 있다. 본 논문에서는 효과적인 단백질 2차 구조의 검색을 위하여 고정된 패턴을 정 의하고 고정된 패턴을 사용하는 방안을 제시한다.

  • PDF

PASS : Prediction of ${\alpha}$-Helix Transmembrane Region by Separating ER Signal Sequence (PASS : ER 시그날 시퀀스 분리를 통한 단백질의 알파헬릭스 막횡단 부위 예측)

  • Jung, Min-Ho;Seol, Young-Joo;Kim, Min-Kyung;Park, Hyun-Seok;Yoo, Seong-Joon
    • Proceedings of the Korean Society for Bioinformatics Conference
    • /
    • 2003.10a
    • /
    • pp.107-113
    • /
    • 2003
  • 이 논문에서는 ER 시그날 시퀀스 서열의 존재 여부와 단백질에의 알파헬릭스 형태의 막횡단 부위를 예측하는 통합시스템을 개발하였다. 기존의 시스템과 달리 이 두 가지 예측을 하나의 통합된 시스템에서 수행하여 예측의 정확성을 높였다. 또한 인터넷에서 이용이 가능하도록 웹 서버(http://dblab.sejong.ac.kr/pass/index.html)를 구현하였다.

  • PDF

A Clustering Algorithm for Sequence Data Using Rough Set Theory (러프 셋 이론을 이용한 시퀀스 데이터의 클러스터링 알고리즘)

  • Oh, Seung-Joon;Park, Chan-Woong
    • Journal of the Korea Society of Computer and Information
    • /
    • v.13 no.2
    • /
    • pp.113-119
    • /
    • 2008
  • The World Wide Web is a dynamic collection of pages that includes a huge number of hyperlinks and huge volumes of usage informations. The resulting growth in online information combined with the almost unstructured web data necessitates the development of powerful web data mining tools. Recently, a number of approaches have been developed for dealing with specific aspects of web usage mining for the purpose of automatically discovering user profiles. We analyze sequence data, such as web-logs, protein sequences, and retail transactions. In our approach, we propose the clustering algorithm for sequence data using rough set theory. We present a simple example and experimental results using a splice dataset and synthetic datasets.

  • PDF

Clustered Segment Indexing for Searching on the Secondary Structure of Protein (단백질 이차구조의 검색을 위한 클러스터링된 세그먼트 인덱싱)

  • 서민구;박상현
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.298-300
    • /
    • 2004
  • 바이오 인포메틱스에서의 데이터 검색은 DNA와 단백질 시퀀스에 대해서 주로 이루어지며, 지금까지의 연구는 주로 DNA와 단백질 1차 구조의 검색에 대해 이루어졌다. 단백질 2차구조는 1차구조 내 인접한 아미노산들의 공간적인 배열을 나타내며. 단백질의 기능을 예측하는데 중요한 3차구조의 지역적 아미노산의 특성을 나타낸다. 따라서 2차구조에 대한 검색은 단백질의 기능을 이해하는데 매우 중요한 역할을 한다[1]. 이 논문에서는 단백질 2차구조 및 질의 문자열을 세그먼트 단위로 나누고 검색하는 r41의 방법을 개선하여 세그먼트를 조합한 클러스터 구조 및 Look Ahead를 사용해 Exact Matching 및 Wildcard Matching 질의를 효율적으로 처리할 수 있는 기법을 제시한다.

  • PDF

Algorithm for identifying cross-linked protein subsequences (크로스 링크된 단백질 서브시퀀스를 찾는 알고리즘)

  • Kim, Sung-Kwon
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.29 no.9
    • /
    • pp.514-519
    • /
    • 2002
  • We are considering the following problem that can be used in the prediction of the structure of proteins. Given two length n arrays A, B with positive numbers and a positive number M, find all pairs of subarrays A[i]+…A[j],$1{\leq}i{\leq}j{\leq}n$ such that A[i]+…A[j]+B[k]+…B[l]=M. This paper presents an algorithm with $Ο(n^2log n+K)$ time using Ο(n) memory, where K is the number of pairs output. The previously best known one is with $Ο(n^2log +Klog n)$ time and Ο(n) memory.

Searching Algorithms for Protein Sequences and Weighted Strings (단백질 시퀀스와 가중치 스트링에 대한 탐색 알고리즘)

  • Kim, Sung-Kwon
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.29 no.8
    • /
    • pp.456-462
    • /
    • 2002
  • We are developing searching algorithms for weighted strings such as protein sequences. Let${\sum}$ be an alphabet and for each $a{\in}{\sum}$ its weight ${\mu}(a)$ is given. Given a string $A=a_1a_2…a_n\; with each ai{\in}{\sum}$, a substring<$A(i.j)=a_ia_{i+1}…a_j$ has weight ${\in}(A(i.j))={\in}(a_i)+{\in}(a_i+1)+…+{\in}(a_j)$.The problem we are dealing with is to preprocess A to build a searching structure, and later, given a query weight M, the structure is used to answer the question of whether there is a substring A(i,j) such that$M={\in}(A(i,j))$.In this paper an algorithm that improves over the previous result will be presented. The previously best known algorithm answers a query in $0(\frac{nlog\;logn}{log\; n})$time using a searching structure that requires O(n) amount of memory. Our algorithm reduces the memory requirement to $0(\frac{n}{log\; n})$ while achieving the same query answer time.

Fine-Tuned ProtBERT for Toxic Protein Classification (ProtBERT를 활용한 독성 단백질 분류)

  • Ahn, Sung-Yoon;Lee, Sang-Woong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2022.07a
    • /
    • pp.673-674
    • /
    • 2022
  • 살아있는 유기체에 의해 분비되는 독소는 대부분의 경우 인간에게 유해하다. 가령 여름철 날것이나 오래된 음식에서 쉽게 식중독에 걸릴 수 있는데, 이는 주로 Clorustidium Botulinum이 만들어낸 보툴리눔 독소가 원인이다. 유기체에 의해 생성된 모든 독소는 단백질이며 이는 아미노산 서열로 나타낼 수 있다. 이를 통해 생물정보학 분야의 많은 연구자들이 많은 머신러닝 기술을 통해 단백질의 독성을 예측할 수 있었다. 최근 몇 년 동안 SVM를 사용하는 BTXpred와 CNN을 사용하는 ToxDL과 같은 모델이 각각 박테리아와 동물 독소의 독성을 예측하기 위해 제안되었다. 시대가 변함에 따라 BERT와 같은 성능이 더욱 뛰어난 모델이 시퀀스 분류를 위해 도입되었다. 본 논문은 독성 단백질을 분류를 위해 ProtBERT를 사용할 경우 이의 성능을 보여주고자 한다.

  • PDF