• Title/Summary/Keyword: 다중 서열 정렬

Search Result 24, Processing Time 0.024 seconds

Algorithm of Clustering-based Multiple Sequence Alignment (클러스터링 기반 다중 서열 정렬 알고리즘)

  • Lee, Byung-Il;Lee, Jong-Yun;Jung, Soon-Key
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.05a
    • /
    • pp.27-30
    • /
    • 2005
  • 3개 이상의 DNA 혹은 단백질의 염기서열을 정렬하는 다중 서열 정렬(multiple sequence alignment, MSA)은 서열들 사이의 진화관계, 단백질의 구조와 기능에 관한 연구에 필수적인 도구이다. 최적화된 다중서열 정렬을 얻기 위해 사용되는 가장 유용한 방법은 동적 프로그래밍이다. 그러나 동적프로그래밍은 정렬하고자 하는 서열의 수가 증가함에 따라 시간도 지수함수($O(n^k)$)로 증가하기 때문에 다중 서열 정렬에는 효율적이지 못하다. 따라서, 본 논문에서는 최적의 MSA 문제를 해결하기 위해 클러스터링 기반의 새로운 다중 서열 정렬 (Clustering-based Multiple Sequence Alignment, CMSA) 알고리즘을 제안한다. 결과적으로 제안한 CMSA 알고리즘의 기여도는 다중 서열 정렬의 질적 향상과 처리 시간 단축($O(n^3L^2)$)이 기대된다.

  • PDF

A Web-Based High Performance Multiple Sequence Alignment System Design and Implementation (웹 기반 고성능 다중서열정렬시스템 설계 및 구현)

  • Kim, Tae-Kyung;Kim, Hun-Gi;Choi, Chi-Hwan;Jung, Seung-Hyun;Hou, Bo-Kyeng;Cho, Wan-Sup
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2010.07a
    • /
    • pp.79-82
    • /
    • 2010
  • 다중서열정렬 알고리즘은 생명정보학 분야에서 서열기반의 계통분류 분석에 가장 많이 사용되며, 가장 대표적인 공개 프로그램은 ClustalW로 사용자가 로컬시스템에 설치하여 이용할 수 있다. 그러나 실제로 사용자들이 ClustalW을 설치한 후, 서열데이터의 준비, 가공, 처리 및 타 시스템과 연동 등과 같은 작업을 하는데 여러 가지 어려움이 있다. 따라서 본 논문에서는 다중서열정렬 작업을 편리하고 빠르게 수행할 수 있는 웹기반의 고성능 다중서열정렬시스템을 제안한다. 제안된 시스템의 특징은, (1) Inter-Query 라우팅 알고리즘을 통해 다수의 PC 자원을 효율적으로 활용하여 계산 성능을 극대화하였으며, (2) 사용자 편의성을 고려한 웹인터페이스의 제공을 통해 개인화된 데이터관리, 실시간 모니터링, 데이터 편집 등을 지원하여 사용자가 손쉽게 서열데이터의 수집, 관리 및 처리할 수 있도록 지원한다.

  • PDF

Differences between Species Based on Multiple Sequence Alignment Analysis (다중서열정렬에 기반한 종의 차이)

  • Hyeok-Zu Kwon;Sang-Jin Kim;Geun-Mu Kim
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.19 no.2
    • /
    • pp.467-472
    • /
    • 2024
  • Multiple sequence alignment (MSA) is a method of collecting and aligning multiple protein sequences or nucleic acid sequences that perform the same function in various organisms at once. clustalW, a representative multiple sequence alignment algorithm using BioPython, compares the degree of alignment by column position. In addition, a web logo and phylogenetic tree are created to visualize conserved sequences in order to improve understanding. An example was given to confirm the differences between humans and other species, and applications of BioPython are presented.

Implementation and Application of Multiple Local Alignment (다중 지역 정렬 알고리즘 구현 및 응용)

  • Lee, Gye Sung
    • The Journal of the Convergence on Culture Technology
    • /
    • v.5 no.3
    • /
    • pp.339-344
    • /
    • 2019
  • Global sequence alignment in search of similarity or homology favors larger size of the sequence because it keeps looking for more similar section between two sequences in the hope that it adds up scores for matched part in the rest of the sequence. If a substantial size of mismatched section exists in the middle of the sequence, it greatly reduces the total alignment score. In this case a whole sequence would be better to be divided into multiple sections. Overall alignment score over the multiple sections of the sequence would increase as compared to global alignment. This method is called multiple local alignment. In this paper, we implement a multiple local alignment algorithm, an extension of Smith-Waterman algorithm and show the experimental results for the algorithm that is able to search for sub-optimal sequence.

An Algorithm for multiple local alignment with Normalized Local Alignment Algorithm (정규화된 지역 정렬 알고리즘을 적용한 다중 지역 정렬 알고리즘)

  • Jang, Suk-Bong;Lee, Gye-Sung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.05b
    • /
    • pp.1019-1022
    • /
    • 2003
  • 두 서열을 비교하여 유사성(similarity)이나 상동성(homology)를 찾기 위한 서열 정렬 방법 중에서 지역 정렬에 많이 사용되는 Smith-Waterman 알고리즘의 제한점인 Mosaic effect와 Shadow effect를 극복하기 위한 효율적인 방법을 살펴보고, 하나의 최대 값이 아닌 다수개의 최대 값을 찾아 다수개를 정렬함으로써 서열내에 존재 할 수 있는 다수개의 지역 정렬을 찾고 Normalized sequence alignment 알고리즘을 이용하여 서열 정렬된 결과들의 우선 순위를 매겨본다.

  • PDF

A Multiple Sequence Alignment Algorithm using Clustering Divergence (콜러스터링 분기를 이용한 다중 서열 정렬 알고리즘)

  • Lee Byung-ll;Lee Jong-Yun;Jung Soon-Key
    • Journal of the Korea Society of Computer and Information
    • /
    • v.10 no.5 s.37
    • /
    • pp.1-10
    • /
    • 2005
  • Multiple sequence alignment(MSA) is a fundamental technique of DNA and Protein sequence analysis. Biological sequences are aligned vertically in order to show the similarities and differences among them. In this Paper, we Propose an effcient group alignment method, which is based on clustering divergency, to Perform the alignment between two groups of sequences. The Proposed algorithm is a clustering divergence(CDMS)-based multiple sequence alignment and a top-down approach. The algorithm builds the tree topology for merging. It is so based on the concept that two sequences having the longest distance should be spilt into two clusters. We expect that our sequence alignment algorithm improves its qualify and speeds up better than traditional algorithm Clustal-W.

  • PDF

An Algorithm for multiple local alignment (다중 지역 정렬을 위한 알고리즘)

  • Jang, Suk-Bong;Lee, Gye-Sung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11c
    • /
    • pp.2337-2340
    • /
    • 2002
  • 본 연구는 생물정보학(Bioinformatics)의 가장 기초적인 분야중 하나인, 새롭게 밝혀진 유전자 서열과 이미 밝혀진 유전자 서열 사이의 유사성(similarity)이나 상동성(homology)을 찾기 위한 방법에 대한 연구 중 지역 서열정렬로 사용하는 알고리즘인 Smith-Waterman 알고리즘이 갖고 있는 문제를 파악한다. 긴 서열에 대한 선호를 막고 대신 부분적인 지역 정렬을 다수 개 찾아 정렬시키는 알고리즘을 제안하기로 한다.

  • PDF

Malware Family Recommendation using Multiple Sequence Alignment (다중 서열 정렬 기법을 이용한 악성코드 패밀리 추천)

  • Cho, In Kyeom;Im, Eul Gyu
    • Journal of KIISE
    • /
    • v.43 no.3
    • /
    • pp.289-295
    • /
    • 2016
  • Malware authors spread malware variants in order to evade detection. It's hard to detect malware variants using static analysis. Therefore dynamic analysis based on API call information is necessary. In this paper, we proposed a malware family recommendation method to assist malware analysts in classifying malware variants. Our proposed method extract API call information of malware families by dynamic analysis. Then the multiple sequence alignment technique was applied to the extracted API call information. A signature of each family was extracted from the alignment results. By the similarity of the extracted signatures, our proposed method recommends three family candidates for unknown malware. We also measured the accuracy of our proposed method in an experiment using real malware samples.

HPV-type Prediction System using SVM and Partial Sequential Pattern (분할 순차 패턴과 SVM을 이용한 HPV 타입 예측 시스템)

  • Kim, Jinsu
    • Journal of Digital Convergence
    • /
    • v.12 no.12
    • /
    • pp.365-370
    • /
    • 2014
  • The existing system consumes a considerable amount time and cost for extracting the patterns from whole sequences or misaligned sequences. In this paper, We propose the classification system, which creates the partition sequence sections using multiple sequence alignment method and extracts the sequential patterns from these section. These extracted patterns are accumulated motif candidate sets and then used the training sets of SVM classifier. This proposed system predicts a HPV-type(high/low) using the learned knowledges from known/unknown protein sequences and shows more improved precision, recall than previous system in 30% minimum support.

A Classification Method for Deformed Words Using Multiple Sequence Alignment (다중서열정렬을 이용한 변형단어집합의 분류 기법)

  • Kim, Sung-Hwan;Cho, Hwan-Gue
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06b
    • /
    • pp.264-266
    • /
    • 2012
  • 인터넷 상에서의 변형 단어들을 처리하는 문제는 정보 검색, 기계 번역, 웹 마이닝, 욕설 및 스팸 필터링과 같은 다양한 분야에서 사용될 수 있다. 특히 단어의 변형 추이를 파악하는 등 데이터 수집 및 분석을 위해서는 주어진 단어가 어떤 변형 단어의 집합으로 이루어진 부류에 포함되는지 여부를 파악해야 할 필요성이 있다. 본 논문에서는 같은 부류에 속한 변형 단어 집합에 대하여 다중 서열 정렬(multiple sequence alignment)을 수행함으로써 해당 집합을 하나의 대표 문자열로 취급하는 변환 기법을 제안하고, 이를 이용해 주어진 단어가 해당 부류에 속하는지 여부를 효과적으로 분류하는 기법을 소개한다. 실험결과 제안 기법의 분류 성능은 민감도 93.4% 수준에서 89.1%의 특이도를 보여 전수 비교를 통한 분류에 비하여 결코 성능은 하락하지 않으면서 분류 속도는 16.5배 향상되었음을 확인할 수 있었다.