• 제목/요약/키워드: 서열

검색결과 3,685건 처리시간 0.081초

리드 시퀀싱 시뮬레이터 비교 분석 (Analysis of Read Sequencing Simulator)

  • 탁해성;이상민;박기정;이도훈;조환규
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1203-1206
    • /
    • 2013
  • 차세대 유전자 서열 시퀀싱 기법이 등장함에 따라 참조 유전자 서열로부터 리드를 생성하는 시퀀서의 기술이 다양화 되었다. 이전 시퀀싱 방식에 비해 비용 및 시간 측면에서 효율성이 증대 되었으나, 매핑도구의 검증을 위해서 다양한 생물학적 특이성을 반영하거나 비용이 소요되지 않는 방법을 연구하는 과정에서 리드 시퀀싱 시뮬레이터가 개발되었다. 본 논문에서는 현재 사용되고 있는 리드 시퀀싱 시뮬레이터에서 반영된 시퀀싱 기법을 분석하고 시뮬레이터의 기능적 특성을 분석하고자 한다. 이는 시뮬레이터 개발에 필요한 기능 설계 및 생물학적 특성을 반영하는데 활용하고자 한다.

MODf : 대규모 단백질 DB에서 효과적이고 빠르게 PTM을 동정하는 알고리즘 (MODf : An Effective and Fast Algorithm for Identification of PTM in Large Protein Sequence Database)

  • 신성호;박희진;백은옥
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.1834-1836
    • /
    • 2010
  • 프로테오믹스는 세포 안 또는 개체 안의 모든 단백질을 총체적으로 연구하는 분야이다. 단백질 동정은 단백질이 어떤 아미노산의 서열로 구성되었는지를 확인하는 것이다. 하지만 Post-translational modification과 같은 단백질 변형을 고려하게 되면 단백질 동정은 매우 어렵게 된다. $MOD^i$ 알고리즘은 단백질 동정을 할 때 Post-translational modification의 종류나 개수에 제한 없이 단백질 동정을 정확하게 수행한다. 하지만, 대용량 단백질 서열 데이터베이스를 사용하면 수행시간이 많이 걸리는 단점이 있다. 본 논문에서는 $MOD^i$를 보완하기 위해 대용량 데이터베이스에서 후보 단백질을 선정하는 알고리즘을 통해서 개선된 $MOD^f$ 알고리즘을 제안하고 Target-decoy search strategy를 적용하여 정확성을 분석한다. 후보 단백질 선정 알고리즘과 Target-decoy search strategy 적용 결과 $MOD^f$$MOD^i$에 비해 정확도를 희생하지 않으면서 수행속도는 약 2배 향상되었다.

출현 시퀀스 마이닝 기반의 단백질 2 차 구조 예측 (Predict Protein Secondary Structure based on Emerging Sequence Mining)

  • ;이헌규;;손호선;류근호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 춘계학술발표대회
    • /
    • pp.379-382
    • /
    • 2009
  • 최근 단백질 기능 예측을 위한 서열비교와 구조비교 기법들은 정확한 분류가 가능한 반면, 새로운 단백질 기능 분류를 함에 있어서 많은 복잡도가 따른다. 따라서 이 논문에서는 보다 빠른 단백질의 구조 분류 및 예측을 위하여 출현 시퀀스(emerging sequence)를 기반으로 하는 분류기법을 제안하였다. 이 기법에서는 먼저, 출현 시퀀스 마이닝 알고리즘을 이용하여 단백질 서열 데이터로부터 4 가지의 단백질 2 차 구조 출현 시퀀스를 발견하고, SVM을 이용하여 단백질의 출현 시퀀스 속성으로부터 단백질의 2 차 구조를 예측하였다.

EP-tree 마이닝을 이용한 단백질 DISORDER/ORDER 지역 분류 (Classification of Protein DISORDER/ORDER Region Using EP-tree Mining)

  • 박홍규;이헌규;이미정
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.1274-1277
    • /
    • 2011
  • 단백질 1차 서열로부터 DISORDER와 ORDER지역을 예측하기 위해서 이 논문에서는 EP-tree에 기반한 출현패턴 발견 알고리즘을 제안하였다. EP-tree 알고리즘을 적용함으로서 기존의 단백질 특징 추출을 통한 방법과 달리 서열 자체에서 발견되는 출현패턴만을 이용하여 분류 모델을 생성하므로 기존의 신경망이나 SVM 보다 분류모델 생성 및 예측 속도가 빠르다. 또한 Disprot 4.9과 CASP7 테스트 데이터로 DISORDER/ORDER 지역을 예측한 결과, 73.4%의 높은 정확성을 보였다.