• 제목/요약/키워드: 서열정렬

검색결과 105건 처리시간 0.04초

서열정렬을 이용한 유전체 서열클러스터의 압축 방법 (A Compressing Method for Genome Sequence Cluster Using Sequence Alignment)

  • 유남희;정광수;류근호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (C)
    • /
    • pp.194-197
    • /
    • 2008
  • 생물학자들은 기능이 밝혀진 단백질들로부터 치환된 몇몇의 잔기를 이용해 새로운 유용한 단백질들을 만든다. 만들어진 단백질은 높은 서열 유사성을 가지는데 우리는 이런 유사한 서열들로 구성되어 있는 클러스터를 서열 클러스터라고 정의한다. 이 논문에서는 서열정렬방법을 이용하여 서열들의 클러스터에 새로운 요약적 표현방법을 제안한다. 먼저 클러스터 안의 모든 서열들 각각의 거리에서 최소거리를 갖는 서열을 대표로 선택한다. 이 서열거리는 계산된 정렬스코어에 의해 얻을 수 있고 서열정렬의 결과에서 변환된 서열을 Edit-Script라고 불리는 보존정보에 저장한다. 대표로 선택된 서열과 각 클러스터의 Edit-Script가 데이터베이스에 저장되고 이 정보로 각 클러스터의 서열들이 보다 쉽게 만들어진다. 본 연구의 결과에서 Edit-Script의 정보를 이용하면 클러스터안의 서열들의 유사도이 55% 넘었을 때 사이즈가 감소된 것을 알 수 있다. 또한 데이터베이스에서 검색하려는 서열과 관련된 서열들을 검색할 때 데이터베이스 있는 대표서열들을 먼저 비교해 본 후 가장 거리가 가까운 대표서열을 선택하여 그 안의 클러스터 구성서열들과 검색하기 때문에 검색 시간을 단축시킬 수 있다.

  • PDF

콜러스터링 분기를 이용한 다중 서열 정렬 알고리즘 (A Multiple Sequence Alignment Algorithm using Clustering Divergence)

  • 이병일;이종연;정순기
    • 한국컴퓨터정보학회논문지
    • /
    • 제10권5호
    • /
    • pp.1-10
    • /
    • 2005
  • 다중 서열 정렬(multiple sequence alignment, MSA)은 단백질과 핵산 서열들의 분석에 필요한 가장 중요한 도구이다. 생물학적인 서열들은 그들 사이의 유사성과 차이점을 보여주기 위하여 각각의 서열들을 수직적으로 정렬한다. 본 논문에서는 클러스터링 분기를 이용하여 두 그룹의 서열들 사이에서 정렬을 수행하는 효율적인 그룹 정렬 방법을 제안하였다. 제안한 알고리즘(Multiple Sequence Alignment using Clustering Divergence : CDMS)은 하향식 발견 방법인 트리 형태의 병합을 위해 클러스터링 방법으로 구축하였다. 클러스터링 방법은 가장 긴 거리를 가지는 서열을 두 개의 클러스터로 나눌 수 있다는 것에 기초하였다. 제안한 새로운 서열 정렬 알고리즘은 기존의 Clustal W알고리즘 보다 질적 향상과 처리 시간 단축 O($n^{3} L^{2}$)이 기대된다.

  • PDF

그래프 기반 분산 시스템을 이용한 염기 서열 정렬 (DNA Sequence Alignment Using a Graph-based Distributed System)

  • 이준수;안재균;여윤구;노홍찬;박상현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 춘계학술발표대회
    • /
    • pp.894-897
    • /
    • 2013
  • 서열 정렬(sequence alignment)은 유전학(genomic)에서 널리 사용되는 도구 중 하나이다. 최근에는 차세대 시퀀싱 기술(NGS)이 발달함에 따라 데이터의 생산량이 크게 증가했고, 이에 따라 높은 처리량(throughput)을 가진 서열 정렬 알고리즘의 필요성이 증가하였다. 본 논문에서 제안하는 염기 서열 정렬 알고리즘은 시퀀스(sequence)데이터를 그래프 형태로 변형시킨 다음, 마이크로소프트사의 그래프 기반인 메모리(in-memory) 분산시스템(distributed system) 트리니티(Trinity)를 이용해 서열 정렬을 수행한다. 본 논문의 알고리즘은 트리니티 시스템에서 시뮬레이션 염기 데이터를 성공적으로 정렬하였으며, 슬레이브의 개수가 늘어날수록 빠른 속도를 나타내어 확장성(scalability)을 입증했다.

다중서열정렬에 기반한 종의 차이 (Differences between Species Based on Multiple Sequence Alignment Analysis)

  • 권혁주;김상진;김근무
    • 한국전자통신학회논문지
    • /
    • 제19권2호
    • /
    • pp.467-472
    • /
    • 2024
  • 다중서열정렬(MSA : multiple sequence alignment)은 다양한 생명체에서 같은 기능을 하는 여러 개의 단백질 서열이나 핵산 서열을 한 번에 모아서 서로 정렬하는 방법이다. 바이오파이썬을 이용하여 인간이 다른 동물과 어떻게 다른지 조사하였다. 대표적인 다중서열정렬 알고리즘인 clustalW는 열의 위치별로 정렬된 정도를 비교한다. 또한, 웹로고와 계통수를 만들어서 보존서열을 가시화하여 이해도를 향상한다. 인간과 다른 동물의 차이점을 확인하는 예를 제시하고 바이오파이썬을 활용도를 제시한다.

복수 서열 정렬을 위한 시스템 개발에 관한 연구 (A study of system development for multiple sequence alignment)

  • 김동회;김진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (중)
    • /
    • pp.1027-1030
    • /
    • 2003
  • 유전체 서열결정이 폭발적으로 증가해 가고 있다. 인간 유전체사업(Human genome project)의 궁극적인 목적은 인간 염색체에 있는 30억개의 뉴클레오티드와 10만개의 유전자를 밝혀내는 것이고 생의학에서 새로운 발견이나 옹용을 위한 정보로 이용하는 것이다. 이 사업은 1980년대 후반에 시작되었고 현재 서열의 결정이 완료된 상태이다. 본 논문에서는 인간 유전체 사업에서 파생된 가장 중요한 문제 중의 하나인 복수 염기서열 정렬 문제와 복수 염기서열 정렬 시스템의 구현에 대하여 논한다.

  • PDF

웹 기반 고성능 다중서열정렬시스템 설계 및 구현 (A Web-Based High Performance Multiple Sequence Alignment System Design and Implementation)

  • 김태경;김훈기;최치환;정승현;허보경;조완섭
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2010년도 제42차 하계학술발표논문집 18권2호
    • /
    • pp.79-82
    • /
    • 2010
  • 다중서열정렬 알고리즘은 생명정보학 분야에서 서열기반의 계통분류 분석에 가장 많이 사용되며, 가장 대표적인 공개 프로그램은 ClustalW로 사용자가 로컬시스템에 설치하여 이용할 수 있다. 그러나 실제로 사용자들이 ClustalW을 설치한 후, 서열데이터의 준비, 가공, 처리 및 타 시스템과 연동 등과 같은 작업을 하는데 여러 가지 어려움이 있다. 따라서 본 논문에서는 다중서열정렬 작업을 편리하고 빠르게 수행할 수 있는 웹기반의 고성능 다중서열정렬시스템을 제안한다. 제안된 시스템의 특징은, (1) Inter-Query 라우팅 알고리즘을 통해 다수의 PC 자원을 효율적으로 활용하여 계산 성능을 극대화하였으며, (2) 사용자 편의성을 고려한 웹인터페이스의 제공을 통해 개인화된 데이터관리, 실시간 모니터링, 데이터 편집 등을 지원하여 사용자가 손쉽게 서열데이터의 수집, 관리 및 처리할 수 있도록 지원한다.

  • PDF

효율적인 복수서열정렬 최적화기법 (An efficient optimization method for multiple sequence alignment)

  • 김진;정우철;엄상용
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.368-370
    • /
    • 2003
  • 단백질들의 복수서열정렬은 단백질 서열간의 관계를 유추할 수 있는 유용한 도구이다. 최적화된 복수서열정렬을 얻기 위해 사용되는 가장 유용한 방법은 dynamic programming이다. 그러나 dynamic programming은 특정한 비용함수를 사용할 수 없기 때운에 특별한 경우 최적의 복수서열정렬을 제공하지 못하는 문제점이 있다. 우리는 이러한 문제점을 해결하기 위하여 부분정렬개선기법을 사용한 알고리즘을 제안하였으며, 이 알고리즘이 dynamic programming의 문제점을 효과적으로 해결함을 보였다.

  • PDF

서열 정렬 기법을 이용한 악성코드 유사도 분석의 성능 개선 (Improvement of Performance of Malware Similarity Analysis by the Sequence Alignment Technique)

  • 조인겸;임을규
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권3호
    • /
    • pp.263-268
    • /
    • 2015
  • 변종 악성코드는 그 기능에 있어 차이가 없으나 구조적인 차이가 존재하는 악성코드로, 같은 그룹으로 분류하여 처리하는 것이 유용하다. 변종 악성코드 분석을 위해 본 논문에서는 바이오인포매틱스 분야에서 사용하는 서열 정렬 기법을 사용하여 악성코드들의 API 호출 정보 간의 공통부분을 찾고자 하였다. 서열 정렬 기법은 API 호출 정보의 길이에 대해 의존적인 성능을 가지며, API 호출 정보의 길이가 커짐에 따라 성능이 매우 떨어진다. 따라서 본 논문에서는 서열 정렬 기법 적용 이전에 API 호출 정보에서 발견되는 반복 패턴을 제거하는 방법을 적용함으로써 성능이 보장될 수 있도록 하였다. 최종적으로 서열 정렬 기법을 통한 악성코드 간의 유사도를 구하는 방법에 대하여 논하였다. 또한 실제 악성코드 샘플에 대한 실험 결과를 제시하였다.

복수 염기서열 정렬을 위한 휴리스틱에 관하여 (On heuristics for multiple sequence alignment)

  • 김진;장연아;최홍식
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (1)
    • /
    • pp.661-663
    • /
    • 1999
  • 복수 염기서열 정렬(multiple sequence alignment)은 염기서열들 사이의 진화관계, 단백질의 구조와 기능에 관한 연구에 필수적인 도구이다. 다이나믹 프로그래밍(dynamic programming) 방법은 대부분의 경우에 있어 최적의 염기서열 정렬 결과를 제공할 수 있다. 그러나 그것이 사용하는 갭 비용함수 때문에 특별한 경우에 최적의 염기서열 정렬을 만들어 내지 못한다. 본 논문에서는 다이나믹 프로그래밍에 의해 획득된 염기서열을 개선하기 위한 휴리스틱 방법을 제안한 후, 실제 단백질 데이터를 가지고 성능 분석을 한다.

  • PDF

단백질 서열 정렬을 통한 구조 분류정보 추출 (Extracting Information on Structural Classification through Protein Sequence Alignment)

  • 변상희;김진홍;안건태;이명준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (A)
    • /
    • pp.884-886
    • /
    • 2003
  • 인간 지놈 프로젝트가 완료된 이후로 여러 지놈 프로젝트가 수행되었으며 이로 인해 데이터베이스에 수록되는 서열수가 기하급수적으로 증가하고 있다. 최근에는 단순한 서열 분석뿐만 아니라 이미 밟혀진 단백질 정보를 이용하여 새로운 단백질의 기능을 예측하는 연구가 보다 활발히 진행되고 있다. 단백질 기능은 단백질의 삼차구조에 의해 결정된다. 따라서 단백질의 서열을 분석하여 삼차구조를 알아내고 어떤 분류에 속하는지 알아낸다면 단백질의 기능을 예측할 수 있다. 본 논문에서는 단백질 서열 정렬을 통하여 보다 빠르고 효과적으로 단백질 구조 정보를 추출하는 기법에 대하여 기술한다. 개발된 단백질 구조 추출 기법은 Pfam 데이터베이스에서 제공하는 단백질 서열의 샘플링 결과를 기반으로 서열 정렬을 수행퇴고, 선정뭔 서열을 대상으로 SCOP 데이터베이스에서 단백질 구조 분류정보(family 및 fold)를 추출함으로써 구조 분류정보 추출 과정의 성능을 향상시키고자 한다.

  • PDF