• 제목/요약/키워드: sequence alignment

검색결과 350건 처리시간 0.033초

스트링 B-트리를 이용한 게놈 서열 분석 시스템 (An Analysis System for Whole Genomic Sequence Using String B-Tree)

  • 최정현;조환규
    • 정보처리학회논문지A
    • /
    • 제8A권4호
    • /
    • pp.509-516
    • /
    • 2001
  • 생명 과학의 발전과 많은 게놈(genome) 프로젝트의 결과로 여러 종의 게놈 서열이 밝혀지고 있다. 생물체의 서열을 분석하는 방법은 전역정렬(global alignment), 지역정렬(local alignment) 등 여러 가지 방법이 있는데, 그 중 하나가 k-mer 분석이다. k-mer는 유전자의 염기 서열내의 길이가 k인 연속된 염기 서열로서 k-mer 분석은 염기서열이 가진 k-mer들의 빈도 분포나 대칭성 등을 탐색하는 것이다. 그런데 게놈의 염기 서열은 대용량 텍스트이고 k가 클 때 기존의 온메모리 알고리즘으로는 처리가 불가능하므로 효율적인 자료구조와 알고리즘이 필요하다. 스트링 B-트리는 패턴 일치(pattern matching)에 적합하고 외부 메모리를 지원하는 좋은 자료구조이다. 본 논문에서는 스트링 B-트리(string B-tree)를 k-mer 분석에 효율적인 구조로 개선하여, C. elegans 외의 30개의 게놈 서열에 대해 분석한다. k-mer들의 빈도 분포와 대칭성을 보여주기 위해 CGR(Chaotic Game Representation)을 이용한 가시화 시스템을 제시한다. 게놈 서열과 매우 유사한 서열 상의 어떤 부분을 시그니쳐(signature)라 하고, 높은 유사도를 가지는 최소 길이의 시그니쳐를 찾는 알고리즘을 제시한다.

  • PDF

Optimized and Portable FPGA-Based Systolic Cell Architecture for Smith-Waterman-Based DNA Sequence Alignment

  • Shah, Hurmat Ali;Hasan, Laiq;Koo, Insoo
    • Journal of information and communication convergence engineering
    • /
    • 제14권1호
    • /
    • pp.26-34
    • /
    • 2016
  • The alignment of DNA sequences is one of the important processes in the field of bioinformatics. The Smith-Waterman algorithm (SWA) performs optimally for aligning sequences but is computationally expensive. Field programmable gate array (FPGA) performs the best on parameters such as cost, speed-up, and ease of re-configurability to implement SWA. The performance of FPGA-based SWA is dependent on efficient cell-basic implementation-unit design. In this paper, we present an optimized systolic cell design while avoiding oversimplification, very large-scale integration (VLSI)-level design, and direct mapping of iterative equations such as previous cell designs. The proposed design makes efficient use of hardware resources and provides portability as the proposed design is not based on gate-level details. Our cell design implementing a linear gap penalty resulted in a performance improvement of 32× over a GPP platform and surpassed the hardware utilization of another implementation by a factor of 4.23.

복수 염기서열 정렬을 위한 한 유용성 알고리즘 (An effcient algorithm for multiple sequence alignment)

  • 김진;송민동
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (2)
    • /
    • pp.51-53
    • /
    • 1998
  • 3개 이상의 DNA 혹은 단백질의 염기서열을 정렬하는 복수 염기서열 정렬(multiple sequence alignment)방법은 염기서열들 사이의 진화관계, gene regulation, 단백질의 구조와 기능에 관한 연구에 필수적인 도구이다. 복수 염기서열 정렬문제는 NP-complete 문제군에 속하며, 이 문제를 해결하기 위하여 가장 유용하게 사용되는 알고리즘으로는 dynamic programming이 있다. Dynamic programming은 주어진 입력 염기서열 군들에 대한 최적의 정렬을 생산할 수 있다. 그러나 dynamic programming의 단점은 오랜 실행시간이 요구되며, 때로는 dynamic programming의 속성 때문에 이 알고리즘을 사용하여도 주어진 입력 염기서열 군들에 대한 최적의 정렬을 얻어내지 못하는 경우가 있다. 본 연구에서는 이러한 dynamic programming의 문제를 해결하기 위하여 genetic algorithm을 복수 염기서열 정렬문제에 적용하였다. 본 논문에서는 genetic algorithm의 design과 적용방법을 기술하였다. 본 연구에서 제안된 genetic algorithm을 사용하여 dynamic programming의 단점이었던 오랜 실행시간을 줄일 수 있었으며, dynamic programming이 제공하지 못하는 최적의 염기서열 정렬을 제공할 수 있었다.

  • PDF

다중서열정렬을 이용한 변형단어집합의 분류 기법 (A Classification Method for Deformed Words Using Multiple Sequence Alignment)

  • 김성환;조환규
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(B)
    • /
    • pp.264-266
    • /
    • 2012
  • 인터넷 상에서의 변형 단어들을 처리하는 문제는 정보 검색, 기계 번역, 웹 마이닝, 욕설 및 스팸 필터링과 같은 다양한 분야에서 사용될 수 있다. 특히 단어의 변형 추이를 파악하는 등 데이터 수집 및 분석을 위해서는 주어진 단어가 어떤 변형 단어의 집합으로 이루어진 부류에 포함되는지 여부를 파악해야 할 필요성이 있다. 본 논문에서는 같은 부류에 속한 변형 단어 집합에 대하여 다중 서열 정렬(multiple sequence alignment)을 수행함으로써 해당 집합을 하나의 대표 문자열로 취급하는 변환 기법을 제안하고, 이를 이용해 주어진 단어가 해당 부류에 속하는지 여부를 효과적으로 분류하는 기법을 소개한다. 실험결과 제안 기법의 분류 성능은 민감도 93.4% 수준에서 89.1%의 특이도를 보여 전수 비교를 통한 분류에 비하여 결코 성능은 하락하지 않으면서 분류 속도는 16.5배 향상되었음을 확인할 수 있었다.

복수 염기서열 정렬을 위한 휴리스틱에 관하여 (On heuristics for multiple sequence alignment)

  • 김진;장연아;최홍식
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (1)
    • /
    • pp.661-663
    • /
    • 1999
  • 복수 염기서열 정렬(multiple sequence alignment)은 염기서열들 사이의 진화관계, 단백질의 구조와 기능에 관한 연구에 필수적인 도구이다. 다이나믹 프로그래밍(dynamic programming) 방법은 대부분의 경우에 있어 최적의 염기서열 정렬 결과를 제공할 수 있다. 그러나 그것이 사용하는 갭 비용함수 때문에 특별한 경우에 최적의 염기서열 정렬을 만들어 내지 못한다. 본 논문에서는 다이나믹 프로그래밍에 의해 획득된 염기서열을 개선하기 위한 휴리스틱 방법을 제안한 후, 실제 단백질 데이터를 가지고 성능 분석을 한다.

  • PDF

3차원 복원을 위하여 특정 투사각도에서 획득한 TEM 영상열의 정렬 (Alignment of Tilted TEM Images for 3D Reconstruction)

  • 이준호;이지호;김동식
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2007년도 하계종합학술대회 논문집
    • /
    • pp.207-208
    • /
    • 2007
  • In this paper, the tilted image sequence, which is obtained the transmission electron microscopy (TEM) for a 3D reconstruction, is aligned based on the fiducial marker method. A direct correlation method is also conducted between adjacent tilted images for the performance comparison. Using real TEM tilted images, we can successfully perform the alignment.

  • PDF

그리드 컴퓨팅을 이용한 BLAST 성능개선 및 유전체 서열분석 시스템 구현 (Performance Improvement of BLAST using Grid Computing and Implementation of Genome Sequence Analysis System)

  • 김동욱;최한석
    • 한국콘텐츠학회논문지
    • /
    • 제10권7호
    • /
    • pp.81-87
    • /
    • 2010
  • 본 논문에서는 현재 생물정보학 연구에서 가장 많이 사용하고 있는 BLAST의 문제점을 분석하고 이에 따른 해결책을 제시하기 위하여 그리드 컴퓨팅을 이용한 G-BLAST(Grid Computing을 이용한 Basic Local Alignment Search Tool)를 제안한다. 본 연구에서 제안하고 있는 G-BLAST을 이용한 시스템은 이기종 분산 환경에서 수행이 가능한 서열분석 통합 소프트웨어 패키지이며 기존 서열분석 서비스의 취약점인 검색 성능을 개선하여 BLAST 검색 기능을 강화 하였다. 또한, BLAST 결과를 사용자가 관리 및 분석이 용이하도록 데이터베이스 및 유전체 서열분석 서비스 시스템을 구현하였다. 본 논문에서는 G-BLAST시스템의 성능확인을 위하여 병렬컴퓨팅 성능테스트 기법을 도입하여 구현된 시스템을 기존 BLAST와 속도 및 효율부분에서 비교하여 성능개선을 확인하였으며 서열결과 분석에 필요한 자료를 사용자관점에서 제공해주고 있다.

Cloning and characterization of a cDNA encoding a paired box protein, PAX7, from black sea bream, Acanthopagrus schlegelii

  • Choi, Jae Hoon;Han, Dan Hee;Gong, Seung Pyo
    • 한국동물생명공학회지
    • /
    • 제36권4호
    • /
    • pp.314-322
    • /
    • 2021
  • Paired box protein, PAX7, is a key molecule for the specification, maintenance and skeletal muscle regeneration of muscle satellite cells. In this study, we identified and characterized the cDNA and amino acid sequences of PAX7 from black sea bream (Acanthopagrus schlegelii) via molecular cloning and sequence analysis. A. schlegelii PAX7 cDNA was comprised of 1,524 bp encoding 507 amino acids and multiple sequence alignment analysis of the translated amino acids showed that it contained three domains including paired DNA-binding domain, homeobox domain and OAR domain which were well conserved across various animal species investigated. Pairwise Sequence Alignment indicated that A. schlegelii PAX7 had the same amino acid sequences with that of yellowfin seabream (A. latus) and 99.8% identity and similarity with that of gilt-head bream (Sparus aurata). Molecular phylogenetic analysis confirmed that A. schlegelii PAX7 formed a monophyletic group with those of teleost and most closely related with those of the fish that belong to Sparidae family including A. latus and S. aurata. In the investigation of its tissue specific mRNA expression, the expression was specifically identified in skeletal muscle tissue and a weak expression was also shown in gonad tissue. The cultured cells derived from skeletal muscle tissues expressed PAX7 mRNA at early passage but the expression was not observed after several times of subculture.

Sequence Alignment 기법을 활용한 화물 통행의 Trip Chain 분석 (An Analysis of Trip Chain of Freight Travel using Sequence Alignment Methods)

  • 조창현
    • 한국경제지리학회지
    • /
    • 제14권4호
    • /
    • pp.540-552
    • /
    • 2011
  • 화물차량의 통행패턴은 여객통행에 비해 연구 성과의 누적이 상대적으로 적은 분야이다. 그럼에도 불구하고 도시 내 통행에서 화물차가 차지하는 중요성에 대한 인식이 증가하고 있으며, 자가용 화물 차주들의 능동적 사업 비율이 증가하고 있어 이 분야에 대한 더 많은 연구의 필요성이 대두된다. 본 연구는, 여객통행에서의 활동기반 수요추정 이론의 발달에 부합하는 화물통행에서의 의사결정 원리에 대한 연구의 기초로서, 화물차량 통행실태 조사의 자료를 분석하여 화물차량 톤급별 평균 통행 특성, 운행효율성, 도착지-도착지유형-적재품목 통행연쇄의 특성을 확인하였다. 분석 결과 이들 화물차량 통행 특성들은 톤급별로 분명한 차이가 있음을 확인하였으며, 그 자체 화물차의 톤급별 특징을 잘 보여주었다. 연구 결과는 화물차량 통행 관련 교통정책 수단 개발에 긍정적 기여를 할 수 있을 것으로 기대된다.

  • PDF

대용량 순차 데이터베이스에서 근사 순차패턴 탐색 (Mining Approximate Sequential Patterns in a Large Sequence Database)

  • 금혜정;장중혁
    • 정보처리학회논문지D
    • /
    • 제13D권2호
    • /
    • pp.199-206
    • /
    • 2006
  • 순차패턴 탐색은 다양한 응용 분야에서 매우 중요한 데이터 마이닝 작업으로 간주된다. 그러나 기존의 순차패턴 탐색 방법들은 길이가 긴 순차패턴이나 노이즈 정보를 다수 포함한 데이터베이스에 대한 마이닝에서는 한계가 있다. 해당 방법들은 매우 짧고 사소한 패턴들은 탐색하지만 다수의 순차 정보들에서 공유되는 중요 패턴들을 분석하는데 어려움을 겪는다. 본 논문에서는 이러한 문제를 해결하기 위한 방법으로 대용량 데이터베이스에 대한 근사 순차패턴 탐색 방법을 제안한다. 근사 순차패턴은 다수의 순차 정보들에서 근사적으로 공유되는 순차패턴을 의미한다. 제안된 방법은 두 과정으로 구분된다. 하나는 유사도에 따라 분석 대상 순차 정보들을 몇 개의 군집으로 나누는 과정이며, 다른 하나는 다중 정렬 방식을 적용하여 각 군집으로부터 대표 패턴을 찾는 과정이다. 이를 위해서 다수의 순차 정보들을 하나로 표현할 수 있는 가중치 순차패턴을 제시하며, 다수의 순차 정보들은 가중치 순차패턴 형태로 통합된다. 이렇게 통합된 정보를 가진 각 가중치 순차패턴을 이용하여 여러 순차 정보와 근사한 하나의 대표 패턴을 생성한다. 끝으로, 다양한 실험을 통해서 제안된 방법의 유용성을 검증한다.