• 제목/요약/키워드: 서열검색

검색결과 173건 처리시간 0.03초

분석 비용을 줄여주는 다중 서열 수집과 번역을 위한 생물정보학 도구 (A Labor-Saving Bioinformatics Tool for Multiple Sequence Collection and Translation)

  • 이승희;이혜리;이건명;이찬희
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2007년도 춘계학술대회 학술발표 논문집 제17권 제1호
    • /
    • pp.43-47
    • /
    • 2007
  • 많은 생물학적 데이터베이스와 도구들이 네트워크 상에서 이용 가능하다. 데이터베이스와 도구를 효과적으로 활용하면, 비용을 줄이면서 우수한 품질의 분석결과를 얻을 수 있다. 이 논문에서는 서열분석시 관련된 서열을 자동으로 수집하여, 아미노산 서열로 변환하는 도구에서 대해서 소개한다. 개발된 도구는 필요한 서열을 주어진 질의를 기반으로 하나의 DNA 서열 정보와 관련된 서열을 검색하도록 하고, 분석자가 관심 있는 항목을 쉽게 선택하게 하여, 이것을 아미노산 서열로 번역하고, 찾은 ORF를 기반으로 유사한 것을 추천하고, 번역된 ORF 서열과 어울리는 관련된 모든 정보를 검색하는 분석 과정을 자동화한 것이다.

  • PDF

부분 서열 정렬을 이용한 확대축소 부분 영상 검색 기법 (Scaled Sub-image Retrieval Approach using Alignment of Sub-Sequence)

  • 김준호;장원앙;양익석;이도훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.512-515
    • /
    • 2012
  • 부분 영상 검색은 질의 영상을 입력으로 사용해서 질의 영상을 부분 영상으로 포함하는 대상 영상을 찾아낸다. 본 논문에서는 부분 영상 검색에 생물정보학에서 사용하는 정렬(Alignment)을 이용한다. 생물정보학에서는 두 DNA 서열 간에 유사도를 비교하고 시각화하는 방법으로 점 행렬을 널리 사용한다. 두 영상을 정렬하기 위해서 먼저 질의 영상과 대상 영상을 일차원 명암도 영상 서열로 변환하고 정렬하여 부분 영상 후보 영역을 찾는다. 이전 연구[1]에서 정렬하는 방법은 두 서열의 길이의 곱만큼의 메모리 공간이 필요하므로 두 서열의 길이가 길어지면 필요한 메모리 공간이 선형적으로 증가했다. 본 논문에서는 영상 데이터의 특성을 이용해서 부분 서열 정렬로 필요한 메모리 공간을 줄였고 부가적인 효과로 처리시간이 감소하고 정확도가 상향되었다.

생물학적 서열들에서 빈발한 연속 서열 패턴 마이닝 (Mining Frequent Contiguous Sequence Patterns in Biological Sequences)

  • 강태호;유재수
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 한국컴퓨터종합학술대회논문집 Vol.34 No.1 (B)
    • /
    • pp.27-31
    • /
    • 2007
  • 생물학적 서열 데이터는 크게 DNA 염기 서열과 단백질 아미노산 서열이 있다. 이들 서열은 일반적으로 많은 수의 항목들을 가지고 있어 그 길이가 매우 길다. 생물학적 데이터 서열들에는 보통 빈번하게 발생하는 부분 연속 서열들이 존재하는데 이들 서열들을 찾아내는 것은 다양한 서열 분석에서 유용하게 사용될 수 있다. 이를 위해 초기에는 Apriori 알고리즘을 기반으로 하는 순차패턴 마이닝 알고리즘들을 활용하는 방법들이 많이 제시되었다. 그중 PrefixSpan 알고리즘은 Apriori기반의 가장 효율적인 순차패턴 마이닝 기법이다. 하지만 이 알고리즘은 길이-1인 빈발 패턴들로부터 서열 패턴을 확장해나가는 방식으로 길이가 긴 연속 서열을 포함하는 생물학적 데이터 서열들에 대한 검색방법으로는 적합하지 않다. 최근에는 기존의 PrefixSpan방식을 이용하면서도 반복적인 처리과정을 줄인 MacosVSpan이 제안되었다. 하지만 이 알고리즘 또한 원본 데이터베이스보다 크기가 큰 별도의 프로젝션 데이터베이스를 사용함으로서 많은 비용부담이 발생하고 특히 길이가 긴 서열에 대해서는 더욱 효율적이지 못하다. 이에 본 논문에서 많은 양의 생물학적 데이터 서열들로부터 빈번한 연속서열을 고정길이 확장 트리를 이용하여 효과적으로 찾아내는 방법을 제안한다. 그리고 다양한 환경에서 실험을 통해 제안하는 방식이 MacosVSpan알고리즘에 비해 검색 성능이 우수함을 증명한다.

  • PDF

생물학적 데이터 서열들에서 빈번한 최대길이 연속 서열 마이닝 (Mining Maximal Frequent Contiguous Sequences in Biological Data Sequences)

  • 강태호;유재수
    • 정보처리학회논문지D
    • /
    • 제15D권2호
    • /
    • pp.155-162
    • /
    • 2008
  • DNA 염기 서열이나 단백질 아미노산 서열과 같은 생물학적 서열 데이터들은 일반적으로 많은 수의 항목들을 가지고 있다. 생물학적 데이터 서열들에는 보통 빈번하게 발생하는 수 백개의 항목으로 이루어진 연속된 서열들이 존재한다. 이들 서열들에서 빈번하게 발생하는 연속 서열을 검색하는 것은 생물학적 서열 분석에서 중요한 부분을 차지하고 있다. 이전에는 순차 패턴을 효과적으로 발견하고자 하는 많은 연구들이 수행되었으며 대부분의 기존 순차패턴 마이닝 기법들은 Apriori 알고리즘을 기반으로 한다. PrefixSpan 알고리즘은 Apriori 기반의 가장 효율적인 순차패턴 마이닝 기법이다. 하지만 이 알고리즘은 길이-1인 빈발 패턴들로 부터 서열 패턴을 확장해나가는 방식이다. 따라서 길이가 긴 연속 서열을 포함하는 생물학적 데이터서열들에 대한 검색방법으로는 적합하지 않다. 최근에는 기존의 PrefixSpan방식을 이용하면서도 반복적인 처리과정을 줄인 MacosVSpan이 제안되었다. 하지만 이 알고리즘 또한 길이가 긴 생물학적 데이터 서열들로부터 빈번하게 발생하는 연속 서열들을 검색하기에는 효율적이지 않다. 본 논문에서는 많은 양의 생물학적 데이터 서열들로부터 빈번한 연속서열을 고정길이 확장 트리를 이용하여 효과적으로 찾아내는 방법을 제안한다. 그리고 다양한 환경에서 실험을 통해 제안하는 방식이 MacosVSpan알고리즘에 비해 검색성능이 보다 우수함을 보인다.

모티프 서열에서의 특징추출 및 빈발패턴 분석 (Feature selection and frequent pattern analysis in protein motif sequence)

  • 김대성;이범주;류근호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 춘계학술발표대회
    • /
    • pp.10-13
    • /
    • 2007
  • 모티프는 진화과정을 거치면서 단백질 서열상에서 부분적으로 높게 보존된 지역을 의미한다. 이러한 모티프는 단백질의 기능과 구조를 예측하거나 생물학적으로 관련성이 있는 단백질의 공통적인 특성을 기술하는데 사용된다. 또한, 모티프와 단백질 서열의 상관관계는 생물학적 기능 예측에 필수적이며, 이러한 예측 문제는 모티프 검색을 통해 서열에 존재하는 빈발한 서열패턴과 구조패턴을 통해 단백질 서열에 대한 분석이 가능하다. 이 논문에서는 단백질 서열에 존재하는 2차 구조 특성과 빈발패턴을 검색하고 추출된 정보를 이용하여 단백질 기능 분류에 활용하고자 한다.

  • PDF

워크플로우 환경에서의 대규모 서열 유사성 검색 웹 서비스에 관한 연구 (A Study on Web Services for Sequence Similarity search in the Workflow Environment)

  • 정진영
    • 한국컴퓨터정보학회논문지
    • /
    • 제13권6호
    • /
    • pp.41-49
    • /
    • 2008
  • 최근 생물정보학에서의 워크플로우 관리 도구를 이용한 생명 현상에 대한 연구가 활발하게 진행되고 있다. 워크플로우 관리 도구는 서비스의 재사용과 공유를 통해 연구자들이 서로 협업할 수 있는 기반으로 MyGrid 프로젝트의 Taverna를 비롯하여 Kepler, BioWMS 등의 다양한 워크플로우 관리 도구들이 오픈소스로 개발되어 사용 되고 있다. 이러한 워크플로우 관리 도구는 공간적으로 떨어진 서로 다른 서비스들을 웹 서비스 기술을 기반으로 하나의 작업공간에서 연구 과정을 모델링하고 자동화 할 수 있도록 해준다. 생물정보학에서 사용되는 많은 도구와 데이터베이스들이 웹 서비스 형태로 제공되어 워크플로우 관리 도구에서 사용되고 있다. 이러한 상황에서 생물정보학에서 기본으로 사용되는 서열 유사성 검색에 대한 웹 서비스의 개발과 안정적인 서비스 제공은 생물정보학 분야에서 필수적이라 할 수 있다. 본 논문에서는 리눅스 클러스터를 기반으로 생물학 서열 데이터의 유사성 검색 속도를 향상시키는 한편, 이를 웹 서비스 형태로 개발하여 워크플로우 관리 도구와의 연동하여 단시간에 서열 유사성 검색을 가능하게 하였다.

  • PDF

MSMP 알고리즘과 RIFLE 알고리즘의 구현 및 성능비교 평가 (Implementation and Performance Evaluation of Comparing MSMP with RIFLE Algorithm)

  • 김동희;원영상;고영웅;김진
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (2)
    • /
    • pp.304-306
    • /
    • 2004
  • 생물정보학에서 서열의 유사성을 예측하는 것은 가장 중요한 문제 중의 하나이다. 염기 서열의 유사성을 검색하는 유용한 검색도구들에는 BLAST와 FASTA 등이 있으며 이러한 도구들은 새로운 유기체에 대한 실제 염기 서열을 필요로 한다. 이 경우 서열을 얻기 위한 sequencing 작업이 필요로 하며 시간적인 면에 있어서 상당한 비용을 요구한다. 본 논문에서는 sequencing 작업을 하지 않고 간단한 실험에서 얻을 수 있는 부분적인 Sequence 정보만을 대상으로 데이터 베이스에서 검색을 할 수 있는 두 개의 RIFLE(Rapid Identification of Microorganisms by Fragment Length Evaluation), MSMP(Maximum Site Matching Problem) 알고리즘을 구현하고 실험을 통해 두 알고리즘을 비교 평가한다. 실험결과 RIFLE 알고리즘이 수행 속도 면에서 빠른 반면 MSMP가 산출한 결과에 비해서 신뢰성이 떨어짐을 확인하였다.

  • PDF

단백질의 기능 예측을 위한 도메인 검색 방법 (Search method of Domain for prediction of protein function)

  • 허미영;김홍기;최진성
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 컴퓨터소사이어티 추계학술대회논문집
    • /
    • pp.239-242
    • /
    • 2003
  • 모든 생명체는 유전자의 최종 산물인 다양한 단백질들이 각각의 복잡한 기능을 수행함과 동시에 그들 사이의 긴밀한 상호작용에 의해 생명을 유지한다. 도메인 (Domain)은 단백질의 기능적 단위로서 한 개 단백질은 최대 수십 개의 도메인을 가지는데 이들 도메인에 대한 정보는 단백질의 기능을 예측하는데 도움이 될 수 있다. 본 논문에서는 종양을 억제하는 기능을 가지는 단백질과 그러한 기능을 가질 것으로 추정되어지는 단백질의 아미노산 서열, 또 기능이 밝혀지지 않은 미지의 아미노산 서열을 가지고 이미 밝혀져 있는 도메인 서열과 비교 검색하여 이들 사이에 일치하는 도메인을 통하여 표적 단백질의 기능 동정에 관한 연구에 도움이 되며, 또한 기능이 밝혀지지 않은 아미노산 서열의 도메인을 검색하여 새로운 기능을 예측함으로써 다른 실험적 방법과 비교하여 시간과 비용을 절약할 수 있는 효과적인 방법을 얻었기에 제안하고자 한다.

  • PDF

CNV 영역 검색 알고리즘 (A CNV Detection Algorithm)

  • 홍상균;홍동완;윤지희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.356-359
    • /
    • 2008
  • 최근 생물정보학 분야에서 인간 유전체에 존재하는 CNV(copy number variation)에 관한 연구가 주목 받고 있다. CNV 영역은 1kbp-3Mbp 사리의 서열이 반복되거나 결실되는 변이 영역으로 정의된다. 우리는 선행연구에서 기가 시퀀싱(giga sequencing)의 결과 산출되는 DNA 서열조각인 리드(read)를 레퍼런스 시퀀스에 서열 정렬하여 CNV 영역을 찾아내는 새로운 CNV 검색 방식을 제안하였다. 후속 연구로서 본 논문에서는 DNA 서열에 존재하는 repeat 영역 문제를 해결하기 위한 새로운 방안을 제안하고, 리드의 출현 빈도 정보를 분석하여 CNV 영역을 찾아내는 CNV 영역 검색 알고리즘을 보인다. 제안된 알고리즘 Gaussian 분포를 갖는 출현 빈도 정보로부터 통계적 유의성을 갖는 영역을 추출하여 CNV 영역후보로 하고, 다음 경제 과정을 거쳐 최종의 CNV 영역을 추출한다. 성능 평가를 위하여 프로토타임 시스템을 개발하였으며, 시뮬레이션 실험을 수행하였다. 실험 결과에 의하여 제안된 방식은 반복되거나 결실되는 형태의 CNV 영역을 효율적으로 검출하며, 또한 다양한 크기의 CNV 영역을 효율적으로 검출할 수 있음을 입증한다.

PC-Cluster 기반 병렬형 유전자 서열 검색 시스템의 개발 및 성능 평가 (Development and Performance Evaluation of Parallel Sequence Analysis System on PC-Cluster)

  • 신용원;박정선
    • 대한의용생체공학회:의공학회지
    • /
    • 제25권6호
    • /
    • pp.617-621
    • /
    • 2004
  • 최근 들어 유전자 서열의 생산량 증가에 비례하여 유전자 발현 마이크로 칩과 같은 새로운 분석방법과 기술들이 도입되면서 연구자들이 매일 수천개의 서열을 효율적으로 분석해야 할 필요성이 증대되고 있다. 이러한 생명공학분야의 급속한 발전은 대용량 유전자 서열에 대한 빠른 분석이 가능한 컴퓨팅 자원을 요구하고 있으나 IT 인프라에 대한 막대한 투자비용으로 인해 관련 연구기관에서 쉽게 이들 컴퓨팅 자원을 도입하지 못하고 있는 실정이다. 본 연구에서는 저가의 PC서버를 고속의 네트워크로 연결한 PC 클러스터를 활용하여 시스템의 안정성과 신뢰성을 보장함과 동시에 범용성을 지닌 병렬형 유전자 서열 검색 시스템을 구축하였다. 이러한 효율적인 시스템 구축을 통해 생물정보 데이터베이스 및 서열 검색 시스템을 제공하고, 대용량 서열 데이터베이스의 검색 시간을 단축하였다.