• 제목/요약/키워드: 서열

검색결과 3,677건 처리시간 0.03초

개선된 다이나믹 프로그래밍과 품질 정보 및 퍼지 추론 기법을 이용한 DNA 염기 서열 배치 알고리즘

  • Lee, Seung-Hwan;Park, Choong-Shik;Kim, Kwang-Baek
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2007년도 한국지능정보시스템학회
    • /
    • pp.341-350
    • /
    • 2007
  • DNA 염기 서열 배치 알고리즘은 분자 생물학 분야에서 단백질과 핵산 서열들의 분석에서 중요한 방법이다. 생물학적인 염기 서열들은 그들 사이의 유사성과 차이점을 나타내기 위해 정렬된다. 본 논문에서는 기존의 DNA 염기 서열 배치 방법을 개선하기 위하여 DP(Dynamic Programming) 알고리즘의 비용증가( O (nm) ) 문제를 해결하는 Quadrant 방법과 품질 정보 및 퍼지 추론시스템(fuzzy inference system)을 적용한 DNA 염기 서열 배치 알고리즘을 제안한다. 본 논문에서 제안한 DNA 염기 서열 배치 알고리즘은 Quadrant 방법을 적용하여 Needleman-Wunsch의 DP 기반 알고리즘에서의 행렬 생성 단계에서 발생하는 불필요한 정렬 계산을 제거하여 전체 수행 시간을 단축하고, 각 DNA 염기 서열 단편 각각의 길이 차이와 낮은 품질의 DNA 염기 빈도를 퍼지 추론 시스템에 적용하여 지능적으로 갭 비용(gap cost)을 동적으로 조정한다. 제안된 알고리즘의 성능 평가를 위해 NCBI (National Center for Biotechnology Information)의 실제 유전체 데이터로 성능을 분석한 결과, 제안된 알고리즘이 기존의 품질정보만을 이용한 알고리즘보다 개선된 것을 확인하였다.

  • PDF

분할 순차 패턴과 SVM을 이용한 HPV 타입 예측 시스템 (HPV-type Prediction System using SVM and Partial Sequential Pattern)

  • 김진수
    • 디지털융복합연구
    • /
    • 제12권12호
    • /
    • pp.365-370
    • /
    • 2014
  • 기존의 시스템에서는 서열 전체 혹은 정렬되지 않은 서열로부터 패턴들을 생성하기 때문에 패턴의 수가 기하급수적으로 증가하여 많은 시간과 비용이 소모된다. 본 논문에서는 단백질의 전체 서열로부터 패턴을 찾아내는 것이 아니라, 다중 서열 정렬 기법을 이용하여 단백질의 분할 서열 구간을 생성하고 분할 서열 구간의 순차 패턴을 생성하며 생성된 패턴들을 통합하여 전체 모티프 후보 집합을 만들어 SVM의 훈련 집합으로 선택 및 학습하며, 최종적으로 미지의 혹은 알려진 단백질 서열의 HPV 타입을 SVM을 통해 학습된 정보를 적용하여 예측하는 시스템을 제안한다. 제안된 시스템은 기존의 시스템에 비해 최소 지지도 30%에서 정확도와 재현율 측면에서 보다 향상된 성능을 보였다.

콜러스터링 분기를 이용한 다중 서열 정렬 알고리즘 (A Multiple Sequence Alignment Algorithm using Clustering Divergence)

  • 이병일;이종연;정순기
    • 한국컴퓨터정보학회논문지
    • /
    • 제10권5호
    • /
    • pp.1-10
    • /
    • 2005
  • 다중 서열 정렬(multiple sequence alignment, MSA)은 단백질과 핵산 서열들의 분석에 필요한 가장 중요한 도구이다. 생물학적인 서열들은 그들 사이의 유사성과 차이점을 보여주기 위하여 각각의 서열들을 수직적으로 정렬한다. 본 논문에서는 클러스터링 분기를 이용하여 두 그룹의 서열들 사이에서 정렬을 수행하는 효율적인 그룹 정렬 방법을 제안하였다. 제안한 알고리즘(Multiple Sequence Alignment using Clustering Divergence : CDMS)은 하향식 발견 방법인 트리 형태의 병합을 위해 클러스터링 방법으로 구축하였다. 클러스터링 방법은 가장 긴 거리를 가지는 서열을 두 개의 클러스터로 나눌 수 있다는 것에 기초하였다. 제안한 새로운 서열 정렬 알고리즘은 기존의 Clustal W알고리즘 보다 질적 향상과 처리 시간 단축 O($n^{3} L^{2}$)이 기대된다.

  • PDF

다염기변이 유전체에 대한 서열 정렬 툴 분석 (Analysis of sequence alignment Tools on polymorphic genomes)

  • 김유선;김종현;여윤구;김우철;박상현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (C)
    • /
    • pp.217-221
    • /
    • 2008
  • 생명공학 기술의 발달로 지놈 프로젝트를 통해 인간 초파리 등 여러 종의 유전체 정보가 밝혀 졌다. 그러나 Post-Genome 연구에 있어서 매우 중요한 생물체인 멍게(Ciona intestinalis)와 성게(Strongylocentrotus purpuratus)의 유전체 서열은 현재 공개되어 있으나 염기서열의 연속성(continuity)에는 심각한 문제점이 존재하고 있다. 이들은 염기서열에 변이가 많은 다염기변이 유전체(polymorphic genomes)로 그 특성이 반영되지 않은 전통적인 Whole Genome Shotgun Sequencing(WGSS)방법을 사용였기 때문이다. 이와 같은 다염기변이 유전체 서열 분석은 시스템 생물학이나 비교 유전체학 등의 후발 연구에 기초가 되므로 매우 중요하다. 본 논문에서는 다염기변이 유전체에 대해 알아보고 서열 조립 알고리즘의 기본이 되는 서열 정렬 툴들 중 가장 많이 사용되는 FASTA, BLAST, BLAT에 대해 분석하여 봄으로써 다염기변이 유전체에 적합한 서열 조립 전략 수립을 위해 고려해야 하는 사항들을 논의해 본다.

  • PDF

웹 기반 고성능 다중서열정렬시스템 설계 및 구현 (A Web-Based High Performance Multiple Sequence Alignment System Design and Implementation)

  • 김태경;김훈기;최치환;정승현;허보경;조완섭
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2010년도 제42차 하계학술발표논문집 18권2호
    • /
    • pp.79-82
    • /
    • 2010
  • 다중서열정렬 알고리즘은 생명정보학 분야에서 서열기반의 계통분류 분석에 가장 많이 사용되며, 가장 대표적인 공개 프로그램은 ClustalW로 사용자가 로컬시스템에 설치하여 이용할 수 있다. 그러나 실제로 사용자들이 ClustalW을 설치한 후, 서열데이터의 준비, 가공, 처리 및 타 시스템과 연동 등과 같은 작업을 하는데 여러 가지 어려움이 있다. 따라서 본 논문에서는 다중서열정렬 작업을 편리하고 빠르게 수행할 수 있는 웹기반의 고성능 다중서열정렬시스템을 제안한다. 제안된 시스템의 특징은, (1) Inter-Query 라우팅 알고리즘을 통해 다수의 PC 자원을 효율적으로 활용하여 계산 성능을 극대화하였으며, (2) 사용자 편의성을 고려한 웹인터페이스의 제공을 통해 개인화된 데이터관리, 실시간 모니터링, 데이터 편집 등을 지원하여 사용자가 손쉽게 서열데이터의 수집, 관리 및 처리할 수 있도록 지원한다.

  • PDF

GenScan을 이용한 진핵생물의 서열 패턴 분석 (Anlaysis of Eukaryotic Sequence Pattern using GenScan)

  • 정용규;임이슬;차병헌
    • 한국인터넷방송통신학회논문지
    • /
    • 제11권4호
    • /
    • pp.113-118
    • /
    • 2011
  • 서열 상동성 분석은 생명현상에 관여하는 물질을 정렬, 색인하여 데이터베이스 하는 것으로, 생명정보학의 유용성을 입증하는 분야이다. 본 논문에서는 구조가 복잡한 진핵생물의 서열 패턴을 단백질 서열로 변환하기 위해 은닉마르코프모델을 이용하는 GenScan 프로그램을 이용한다. 서열상동성 분석 중 최소거리 탐색 문제는 문제의 크기가 커지면 계산량이 기하급수적으로 증가하여 정확한 계산이 불가능해진다. 따라서 유사한 아미노산간의 치환과 상이한 아미노산간의 치환 점수를 차등화한 점수표를 적용하고, 은닉마르코프모델 등을 적용해 정교한 전이 확률모델을 적용한다. 변환된 서열을 서열 상동성 분석을 위해 사용되는 blast p를 이용하여, 은닉 마르코프 모델을 도입함으로 인해 단백질 구조 서열로 변환하는 데에 있어서 우수한 기능을 제공함을 알 수 있다.

DNA 서열을 위한 빠른 매칭 기법 (Fast Matching Method for DNA Sequences)

  • 김진욱;김은상;안융기;박근수
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제36권4호
    • /
    • pp.231-238
    • /
    • 2009
  • DNA 서열은 각 종을 나타내는 근본적인 정보이며, 다른 종 간의 DNA 서열 비교는 중요한 작업이다. DNA 서열은 길이가 매우 길며 또 종의 종류도 다양하기 때문에, DNA 서열 비교에서는 빠른 매칭 뿐만 아니라 효율적인 저장도 중요한 요소이다. 즉, 인코딩 된 DNA 서열에 적합한 빠른 문자열 매칭 방법이 필요하다. 본 논문에서는 매칭 시 디코딩이 필요하지 않은 인코딩 된 DNA 서열을 위한 빠른 매칭 알고리즘을 제시한다. 제시하는 알고리즘은 네 문자 한 바이트 인코딩을 이용하며 서픽스 기법과 다중 패턴 매칭 기법을 접목하고 있다. 실험 결과로는 본 논문에서 제시하는 방법이 AGREP보다 약 다섯배 빠름을 보이는데, 이는 알려진 알고리즘들 중에서 가장 빠른 결과이다.

염기분포와 대치 비교를 이용한 염기서열 집단의 고유 시그너쳐 추출 (Characteristic Signature Extraction using the Base Distribution Substitution Comparison)

  • 황경순;이혜리;이건명;김성수;이찬희;이성덕;윤형우
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국지능시스템학회 2007년도 추계학술대회 학술발표 논문집
    • /
    • pp.419-422
    • /
    • 2007
  • 유전자 변이가 쉽게 일어나는 바이러스 등은 변이 계통에 따라 집단을 형성하게 된다. 이러한 집단들에 대한 분석은 해당 바이러스 집단에 대한 추적, 백신 및 치료약 개발에서 필수적이다. 어떤 집단의 염기 서열의 특성을 효과적으로 표현하는 패턴을 시그너쳐라 하며, 이러한 시그너쳐는 특정 염기서열 집단의 고유한 특성을 나타내면서 다른 집단과 구별되는 정보를 포함하는 것이 바람직하다. 이 논문에서는 가능한 후보 시그너쳐들을 염기분포를 이용하여 생성해가면서, 시그너쳐 해당부위의 염기를 상대 서열집단의 공통 서열의 염기로 변환하여 집단간의 상대거리를 측정함으로써, 후보 시그너쳐에 의한 집단의 고유성질 표현능력과 집단간 차별화 능력을 고려하여 시그너쳐를 추출하는 방법을 제안한다.

  • PDF

유전 알고리즘을 이용한 DNA Microarray의 Probe 선택 (Probe Selection of DNA Microarrays Using Genetic Algorithms)

  • 김선;장병탁
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2002년도 춘계학술대회 및 임시총회
    • /
    • pp.183-187
    • /
    • 2002
  • DNA microarray는 분자생물학 및 DNA 컴퓨팅 분야에 널리 사용되고 있는 실험 도구이다. DNA microarray를 이용하는 한 예는 알려진 유전자 집합을 바탕으로 하여 hybridization을 통해 새로운 DNA 서열을 분석하는 것이다. 이를 위한 가장 간단한 방법은 알려진 유전자의 모든 서열을 DNA microarray 상에 올려놓는 것이지만 이는 결과의 정확도 및 칩 제작비용 면에서 비효율적이다. 따라서 일반적으로는 유전자 서열 정보를 파악한 후 일련의 DNA 서열을 선택하는 probe 디자인 과정을 거친다. 그러나 현재 유전자 서열을 바탕으로 최적의 probe 집합을 찾는 결정적인 방법이 존재하고 있지 않다. 이에 본 논문은 oligo DNA microarray을 이용한 DNA 서열 분석 문제에 있어서 가능한 많은 유전자를 인식하면서 최소의 probe 개수를 갖는 집합을 찾는 방법을 제안한다. 제시된 방법은 가능한 probe 집합들로 해집합을 구성한 후, 유전알고리즘을 이용한 진화 과정을 통해 목적하는 probe 집합을 찾는다. 본 논문에서는 GenBank로부터 얻은 일련의 유전자 집합을 대상으로 실험하였으며 그 결과를 분석하였다.

  • PDF

미생물 다양성 분석을 위한 웹 기반의 생물정보도구 개발 (Web-based Research Assistant Tools for Analysis of Microbial Diversity)

  • 강병철;김현진;박준형;박희경;김철민
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2004년도 춘계학술대회 학술발표 논문집 제14권 제1호
    • /
    • pp.93-96
    • /
    • 2004
  • 생태학, 환경공학, 임상진단 둥 여러 생물학 분야에서 미생물의 다양성 연구의 중요성이 대두되고 그 연구가 점증하고 있다. 특히 16S rRNA를 분자지표로한 DNA 염기서열 분석방법이 널리 사용되고 있다. 본 논문에서는 16S rRNA의 염기서열 분석과정을 각 단계별로 자동화하고, 생물학자들의 결과 판단이나 사용상의 편의를 도모하기 위하여 웹기반의 미생물 다양성 분석 어플리케이션을 개발하였다. 개발을 위하여 단계별 자동화 및 인터페이스 개발에 적합한 폴더 프로세스-필터 모델을 고안하고 적용하였다. 제공되는 생물정보분석도구는 서열입력, 서열방향교정, 다중서열정렬 및 가시화, 서열동정 등의 분석등이 있으며, 각 결과는 계통분류도구와 호환가능하도록 하였다. 또한 신생아의 장내 세균총에 대한 분석을 수행하여 개발된 도구의 유용성을 확인하였다. 개발된 웹 에플리케이션은 리눅스 시스템 상에서 Perl 과 CGI를 이용하였으며, http: //home.pusan.ac.kr/~genome/tools/rat.htm으로 접속하여 사용할 수 있다.

  • PDF