• 제목/요약/키워드: 단백질 시퀀스

검색결과 15건 처리시간 0.024초

출현 시퀀스 마이닝 기반의 단백질 2 차 구조 예측 (Predict Protein Secondary Structure based on Emerging Sequence Mining)

  • ;이헌규;;손호선;류근호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 춘계학술발표대회
    • /
    • pp.379-382
    • /
    • 2009
  • 최근 단백질 기능 예측을 위한 서열비교와 구조비교 기법들은 정확한 분류가 가능한 반면, 새로운 단백질 기능 분류를 함에 있어서 많은 복잡도가 따른다. 따라서 이 논문에서는 보다 빠른 단백질의 구조 분류 및 예측을 위하여 출현 시퀀스(emerging sequence)를 기반으로 하는 분류기법을 제안하였다. 이 기법에서는 먼저, 출현 시퀀스 마이닝 알고리즘을 이용하여 단백질 서열 데이터로부터 4 가지의 단백질 2 차 구조 출현 시퀀스를 발견하고, SVM을 이용하여 단백질의 출현 시퀀스 속성으로부터 단백질의 2 차 구조를 예측하였다.

신경회로망을 이용한 단백질 구조 예측 (Protein Disorder Prediction Using Neural Networks)

  • 오성훈
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2017년도 춘계 종합학술대회 논문집
    • /
    • pp.35-36
    • /
    • 2017
  • 단백질의 구조가 무질서한 것을 예측하는 문제는 단백질 시퀀스 구조의 비교 시간을 단축할 수 있으며 단백질 구조 분석 영역을 표시할 수 있기 때문에 중요하게 다루어진다. 이 논문에서는 단백질의 무질서한 구조 예측을 신경회로망을 이용하여 해결하고자 하였으며, 시뮬레이션 결과 일반적인 신경회로망 보다 심층신경회로망이 더 좋은 성능을 보임을 확인하였다.

  • PDF

범주형 시퀀스 데이터의 K-Nearest Neighbor알고리즘 (A K-Nearest Neighbor Algorithm for Categorical Sequence Data)

  • 오승준
    • 한국컴퓨터정보학회논문지
    • /
    • 제10권2호
    • /
    • pp.215-221
    • /
    • 2005
  • 최근에는 단백질 시퀀스, 소매점 거래 데이터, 웹 로그 등과 같은 상업적이거나 과학적인 데이터의 폭발적인 증가를 볼 수 있다. 이런 데이터들은 순서적인 면을 가지고 있는 시퀀스 데이터들이다. 본 논문에서는 이런 시퀀스 데이터들을 분류하는 문제를 다룬다. 분류 기법 으로는 의사결정 나무나 베이지안 분류기, K-NN방법 등 석러 종류가 있는데, 본 연구에서는 또-U방법을 이용하여 시퀀스들을 분류한다. 또한, 시퀀스들간의 유사도를 구하기 위한 새로운 계산 방법과 효율적인 계산 방법도 제안한다.

  • PDF

고정된 패턴 리스트를 사용한 단백질 2차 구조의 검색 (Searching Secondary Structure of Protein Using Fixed Pattern List)

  • 나상준;박상현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.304-306
    • /
    • 2004
  • 단백질의 1차 구조를 통하여 생성되는 단백질 2차 구조는 3가지 타입 E, H, L을 가지고 있다. 단백질 2차 구조는 선형적인 단백질 1차 구조를 공간적으로 형성한 것이며 단백질 2차 구조에 관한 연구는 단백질 기능 예측에 중요한 부분이다. 단백질 2차 구조는 3가지 타입이 각각 그룹을 이루어 나타나는 특징이 있다. 단백질 2차 구조의 이러한 특징을 이용하면 효과적인 검색이 가능하다. 기존의 연구에서는 시퀀스 전체와 질의를 스트링 기반으로 비교하는 방법과 단백질 2차 구조의 세그먼트 테이블을 이용하는 방법을 사용하였다. 하지만 이러한 방법은 검색 비용이 많이 드는 단점이 있다. 본 논문에서는 효과적인 단백질 2차 구조의 검색을 위하여 고정된 패턴을 정 의하고 고정된 패턴을 사용하는 방안을 제시한다.

  • PDF

PASS : ER 시그날 시퀀스 분리를 통한 단백질의 알파헬릭스 막횡단 부위 예측 (PASS : Prediction of ${\alpha}$-Helix Transmembrane Region by Separating ER Signal Sequence)

  • Jung, Min-Ho;Seol, Young-Joo;Kim, Min-Kyung;Park, Hyun-Seok;Yoo, Seong-Joon
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2003년도 제2차 연례학술대회 발표논문집
    • /
    • pp.107-113
    • /
    • 2003
  • 이 논문에서는 ER 시그날 시퀀스 서열의 존재 여부와 단백질에의 알파헬릭스 형태의 막횡단 부위를 예측하는 통합시스템을 개발하였다. 기존의 시스템과 달리 이 두 가지 예측을 하나의 통합된 시스템에서 수행하여 예측의 정확성을 높였다. 또한 인터넷에서 이용이 가능하도록 웹 서버(http://dblab.sejong.ac.kr/pass/index.html)를 구현하였다.

  • PDF

러프 셋 이론을 이용한 시퀀스 데이터의 클러스터링 알고리즘 (A Clustering Algorithm for Sequence Data Using Rough Set Theory)

  • 오승준;박찬웅
    • 한국컴퓨터정보학회논문지
    • /
    • 제13권2호
    • /
    • pp.113-119
    • /
    • 2008
  • 월드 와이드 웹에는 거대한 양의 하이퍼링크들과 웹 사용 정보들을 포함하고 있는 동적인 페이지들이 모여 있다. 이러한 구조화되어 있지 않은 웹 데이터들과 온라인 정보들의 폭발적인 증가로 인해 효율적인 웹 데이터 마이닝 툴이 필요로 하게 되었다. 최근에는 웹 사용자들의 특성을 자동적으로 발견하기 위한 Web usage mining 분야에서 많은 연구가 진행되고 있다. 본 연구에서는 웹 사용자들의 방문 기록, 단백질 시퀀스, 소매점 거래 데이터 등과 같은 시퀀스 데이터를 분석하는 방법에 대하여 연구한다. 러프 셋 이론을 이용하여 시퀀스 데이터들을 클러스터링 하는 방법을 제안하고, 간단한 예제를 통하여 제안하는 절차를 소개하고 splice 데이터셋과 합성 데이터셋을 통한 실험 결과를 제시한다.

  • PDF

단백질 이차구조의 검색을 위한 클러스터링된 세그먼트 인덱싱 (Clustered Segment Indexing for Searching on the Secondary Structure of Protein)

  • 서민구;박상현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.298-300
    • /
    • 2004
  • 바이오 인포메틱스에서의 데이터 검색은 DNA와 단백질 시퀀스에 대해서 주로 이루어지며, 지금까지의 연구는 주로 DNA와 단백질 1차 구조의 검색에 대해 이루어졌다. 단백질 2차구조는 1차구조 내 인접한 아미노산들의 공간적인 배열을 나타내며. 단백질의 기능을 예측하는데 중요한 3차구조의 지역적 아미노산의 특성을 나타낸다. 따라서 2차구조에 대한 검색은 단백질의 기능을 이해하는데 매우 중요한 역할을 한다[1]. 이 논문에서는 단백질 2차구조 및 질의 문자열을 세그먼트 단위로 나누고 검색하는 r41의 방법을 개선하여 세그먼트를 조합한 클러스터 구조 및 Look Ahead를 사용해 Exact Matching 및 Wildcard Matching 질의를 효율적으로 처리할 수 있는 기법을 제시한다.

  • PDF

크로스 링크된 단백질 서브시퀀스를 찾는 알고리즘 (Algorithm for identifying cross-linked protein subsequences)

  • 김성권
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제29권9호
    • /
    • pp.514-519
    • /
    • 2002
  • 단백질의 구조를 예측하는 과정에 사용될 수 있는 다음 문제를 고려한다. 길이가 n이고 원소가 모두 양수인 두 배열 A, B와 양수 M이 주어질 때, A[i]+…A[j]+B[k]+…B[ι]=M이 되는 부배열 쌍 A[i]+…A[j],$1{\leq}i{\leq}j{\leq}n$과 B[k], …, B[l], $1{\leq}k{\leq}l{\leq}n$을 모두 찾으시오. 본 논문에서는 이 문제를 $Ο(n^2log n+K)$ 시간에 Ο(n) 메모리를 사용하여 해결하는 알고리즘을 제시한다. 단, K는 찾은 부배열 쌍의 수이다. 기존의 결과는$Ο(n^2log +Klog n)$ 시간과 Ο(n) 메모리였다.

단백질 시퀀스와 가중치 스트링에 대한 탐색 알고리즘 (Searching Algorithms for Protein Sequences and Weighted Strings)

  • 김성권
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제29권8호
    • /
    • pp.456-462
    • /
    • 2002
  • 단백질 시퀀스처럼 가중치를 가지는 스트링에 대한 탐색 알고리즘을 개발한다. ${\sum}$를 알파벳이라 하고 모든 $a{\in}{\sum}$에 대해서 무게 ${\mu}(a)$가 주어진다고 하자. 스트링 $A=a_1a_2…a_n\; 에서 (단, 모든 ai{\in}{\sum})$, 서브스트링 $A(i.j)=a_ia_{i+1}…a_j$로 정의하면, 이것의 무게는 ${\in}(A(i.j))={\in}(a_i)+{\in}(a_i+1)+…+{\in}(a_j)$가 된다. 다루고자하는 문제는 스트링 A를 사전 처리하여 탐색 자료구조를 만드는데, 이 자료구조는 나중에 질문 무게 M이 주어진 경우, $M={\in}(A(i,j))$인 서브스트링 A(i,j)가 있는가 라는 질문에 응답하는데 사용된다. 본 논문에서는 기존의 결과를 향상시키는 알고리즘을 제시한다. 기존의 알고리즘의 경우 O(n) 만큼의 메모리를 사용하는 탐색 자료구조를 이용하여 $0(\frac{nlog\;logn}{log\; n})$ 시간에 질문응답을 하였으나, 본 논문의 알고리즘은 질문 응답시간은 그대로 유지하면서 메모리만 $0(\frac{n}{log\; n})$으로 줄인다.

ProtBERT를 활용한 독성 단백질 분류 (Fine-Tuned ProtBERT for Toxic Protein Classification)

  • 안성윤;이상웅
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제66차 하계학술대회논문집 30권2호
    • /
    • pp.673-674
    • /
    • 2022
  • 살아있는 유기체에 의해 분비되는 독소는 대부분의 경우 인간에게 유해하다. 가령 여름철 날것이나 오래된 음식에서 쉽게 식중독에 걸릴 수 있는데, 이는 주로 Clorustidium Botulinum이 만들어낸 보툴리눔 독소가 원인이다. 유기체에 의해 생성된 모든 독소는 단백질이며 이는 아미노산 서열로 나타낼 수 있다. 이를 통해 생물정보학 분야의 많은 연구자들이 많은 머신러닝 기술을 통해 단백질의 독성을 예측할 수 있었다. 최근 몇 년 동안 SVM를 사용하는 BTXpred와 CNN을 사용하는 ToxDL과 같은 모델이 각각 박테리아와 동물 독소의 독성을 예측하기 위해 제안되었다. 시대가 변함에 따라 BERT와 같은 성능이 더욱 뛰어난 모델이 시퀀스 분류를 위해 도입되었다. 본 논문은 독성 단백질을 분류를 위해 ProtBERT를 사용할 경우 이의 성능을 보여주고자 한다.

  • PDF