• Title/Summary/Keyword: 서열 유사성

Search Result 467, Processing Time 0.026 seconds

An Efficient Algorithm for Similarity Search using Positional Information of DNA Sequences (DNA 서열의 위치 정보를 이용한 효율적인 유사성 검색 알고리즘)

  • Jeong In-Seon;Park Kyoung-Wook;Lim Hyeong-Seok
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11a
    • /
    • pp.970-972
    • /
    • 2005
  • 유전자 데이터베이스의 서열의 길이가 수백만에서 수백억 정도의 대용량 텍스트이기 때문에 기존의 Smith-waterman 알고리즘으로 정확한 서열의 유사성을 검색하는 것은 매우 비효율적이다. 따라서 빠른 유사성 검색을 위해 데이터베이스에 저장된 문자열에 대해 특정 길이의 모든 부분문자열에 나타나는 문자의 출현 빈도를 이용한 휴리스틱 방법들이 제안되었다. 이러한 방법들은 질의 서열과 일치될 가능성이 높은 후보들만을 추출한 후 이들 각각에 대하여 질의 서열과의 일치 여부를 조사하므로 빠르게 유사성 검색을 할 수 있다. 그러나 이 방법은 문자의 출현 빈도만을 사용하므로 서로 다른 서열을 같은 서열로 취급하는 단점이 있어 정확도가 Smith-Waterman 알고리즘에 비해 떨어진다. 본 논문에서는 문자가 부분문자열에 나타나는 위치 정보를 포함하여 문자의 출현빈도를 인덱싱함으로써 질의 처리를 효율적으로 수행하는 알고리즘을 제안한다. 실험결과 제안된 알고리즘은 문자 빈도만을 사용하는 알고리즘에 비해 $5\~15\%$정도 정확성이 향상되었다.

  • PDF

Experiment and Performance Evaluation of RIFLE Algorithm (RIFLE 알고리즘에 대한 실험 및 성능평가)

  • Kim Dong-Hoi;Won Young-Sang;Ko Young-woong;Kim Jin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2004.11a
    • /
    • pp.697-700
    • /
    • 2004
  • 서열의 유사성 검색에 잘 알려진 도구로는 BLAST 와 FASTA 가 있으며 이들 알고리즘은 알려지지 않은 유기체를 sequencing 작업을 통하여 얻어진 염기서열과 유전자 데이터베이스를 대상으로 유사성을 검색한다. 이때 서열의 유사성을 검색하기에 앞서 선행 되어야만 하는 sequencing작업은 시간적인 면에서 상당한 비용을 요구한다. 반면 sequencing 작업을 하기 않고도 간단한 실험에 의해 얻을 수 있는 부분적인 서열정보만을 대상으로 데이터베이스에서 검색 할 수 있는 알고리즘으로 RIFLE가 있다. 본 논문에서는 RIFLE 알고리즘을 구현하고 실험데이터를 생성하여 성능에 대한 분석 평가를 하고자 한다. 성능평가 결과 RIFLE 알고리즘은 시간복잡도 $O(n^2)$으로 빠른 반면 일부 서열에 있어서 실제 유사도에 비해 정확도가 낮게 평가되는 결과가 산출되었다.

  • PDF

Comparison of External Information Performance Predicting Subcellular Localization of Proteins (단백질의 세포내 위치를 예측하기 위한 외부정보의 성능 비교)

  • Chi, Sang-Mun
    • Journal of KIISE:Software and Applications
    • /
    • v.37 no.11
    • /
    • pp.803-811
    • /
    • 2010
  • Since protein subcellular location and biological function are highly correlated, the prediction of protein subcellular localization can provide information about the function of a protein. In order to enhance the prediction performance, external information other than amino acids sequence information is actively exploited in many researches. This paper compares the prediction capabilities resided in amino acid sequence similarity, protein profile, gene ontology, motif, and textual information. In the experiments using PLOC dataset which has proteins less than 80% sequence similarity, sequence similarity information and gene ontology are effective information, achieving a classification accuracy of 94.8%. In the experiments using BaCelLo IDS dataset with low sequence similarity less than 30%, using gene ontology gives the best prediction accuracies, 93.2% for animals and 86.6% for fungi.

Building of Protein 3-D Structure Database and Similarity Search System (3D 단백질 구조 데이터베이스 및 유사성 검색 시스템 구축)

  • Li, Rong-Hua;Park, Sung-Hee;Ryu, Keun-Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.04a
    • /
    • pp.79-82
    • /
    • 2002
  • 단백질 3차 구조 정보는 PDB에서 플랫화일 형태로 제공되고 있으며 이러한 플랫화일 각각의 엔트리들은 단백질 3차 분자 구조를 구성하는 원자들의 공간좌표정보, 서열정보, 실험정보 및 참조정보 등으로 구성된다. 이러한 정보들을 포함하고 있는 플랫파일로부터 필수적인 구조정보 및 서열정보 등의 효율적 검색을 위해서는 플랫파일을 데이터베이스로 구축함과 동시에, 구축된 데이터베이스를 위한 유사성 검색시스템 구축이 요구된다. 따라서, 이 논문에서는 Protein DataBank에서 제공하는 플랫파일을 공간객체 모델링기법에 기반한 관계형 데이터베이스로 구축하고 PSI-BLAST를 적용하여 단백질 서열 유사성 검색 시스템을 구축한다. 이렇게 함으로써 단백질 3자 구조 분자를 구성하는 원자에 대한 검색과 구조에 대한 서열 유사성 검색을 통하여 단백질 3차 구조 분류 및 구조 예측 시스템 구축에 활용할 수 있다.

  • PDF

Design and Implementation of Advanced Sequence Analysis System using the Stand -Alone BLAST (Stand-Alone BLAST를 이용한 향상된 통합 서열분석시스템의 설계 및 구현)

  • 박춘구;허정호;최지인;박윤주;정동수;남홍길
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10c
    • /
    • pp.268-270
    • /
    • 2002
  • 오늘날 급속하게 발전하는 유전자 분석기술은 유전자 서열(sequence), 단백질의 기능(function) 및 구조(structure)정보와 같은 생명현상의 연구에 필수적인 정보들을 제공하게 되었다. 특히, 인간 유전체 프로젝트의 완성 이후 염기 및 단백질의 서열데이터를 이용하여 유사한 서열데이터의 검색 및 관련 단백질의 기능, 구조 정보들과 같은 생물정보의 종합적인 검색이 요구되고 있다. 하지만 기존 대부분의 통합서열분석시스템들은 단지 관련 정보를 포함하는 데이터 베이스들에 접근하며 서열유사성을 분석한 후, 그 결과를 단순히 디스플레이 하는 것이 대부분 이였다. 부연하면, 기존 통합 서열분석시스템들은 각 데이터베이스로부터 검색된 결과들 간의 명확한 관계를 설명하지 못하여 종합적인 생물정보를 제공하지 못하고 있다. 따라서 본 논문에서는 염기 및 단백질의 서열데이터로부터 서열유사성 검색 및 관련 단백질의 기능, 구조정보에 해당하는 종합적 인 생물정보를 효과적으로 검색, 서비스 할 수 있는 통합 서열분석시스템의 설계, 구현에 관해 기술한다.

  • PDF

A Compressing Method for Genome Sequence Cluster Using Sequence Alignment (서열정렬을 이용한 유전체 서열클러스터의 압축 방법)

  • Yu, Nam-Hee;Jung, Kwang-Su;Ryu, Keun-Ho
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2008.06c
    • /
    • pp.194-197
    • /
    • 2008
  • 생물학자들은 기능이 밝혀진 단백질들로부터 치환된 몇몇의 잔기를 이용해 새로운 유용한 단백질들을 만든다. 만들어진 단백질은 높은 서열 유사성을 가지는데 우리는 이런 유사한 서열들로 구성되어 있는 클러스터를 서열 클러스터라고 정의한다. 이 논문에서는 서열정렬방법을 이용하여 서열들의 클러스터에 새로운 요약적 표현방법을 제안한다. 먼저 클러스터 안의 모든 서열들 각각의 거리에서 최소거리를 갖는 서열을 대표로 선택한다. 이 서열거리는 계산된 정렬스코어에 의해 얻을 수 있고 서열정렬의 결과에서 변환된 서열을 Edit-Script라고 불리는 보존정보에 저장한다. 대표로 선택된 서열과 각 클러스터의 Edit-Script가 데이터베이스에 저장되고 이 정보로 각 클러스터의 서열들이 보다 쉽게 만들어진다. 본 연구의 결과에서 Edit-Script의 정보를 이용하면 클러스터안의 서열들의 유사도이 55% 넘었을 때 사이즈가 감소된 것을 알 수 있다. 또한 데이터베이스에서 검색하려는 서열과 관련된 서열들을 검색할 때 데이터베이스 있는 대표서열들을 먼저 비교해 본 후 가장 거리가 가까운 대표서열을 선택하여 그 안의 클러스터 구성서열들과 검색하기 때문에 검색 시간을 단축시킬 수 있다.

  • PDF

A Visualization Tool for Similarity Estimation of Sequence Data (서열 정보의 유사성 검사를 위한 가시화 도구)

  • 황미녕;강영민;조환규
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10b
    • /
    • pp.559-561
    • /
    • 2000
  • 현재 활발한 연구가 진행중인 유전자 분석과 같은 분야에서는 유전자 염기 서열과 같은 대규모 서열 정보들에 대한 효과적인 분석기술을 요구하고 있다. 본 논문은 이러한 서열 정보들 사이의 유사도를 측정하고 분석하는 작업을 효과적으로 지원하기 위한 가시화 도구의 개발을 다룬다. 본 논문에서 사용하는 유사도 가시화 기법은 유전자 정보의 유사도 가시화를 위해 제안되었던 시각적 점-행렬 도면(Graphical Dot-Matrix Plots) 기법을 이용하는데, 이 시각적 점-행렬 도면 기법은 비교 대상이 되는 서열 정보의 크기가 커지면 효율적으로 가시화하기가 힘들다는 단점을 가진다. 본 논문은 시각적 점-행렬 도면 기법의 이러한 문제를 해결하기 위해 서열 정보 유사도 비교 결과를 화면의 해상도 내에서 표현할 수 있도록 데이터를 영역별로 분할하고 각 영역별 일치도를 이분 그래프(bipartite graph)의 최대 평면 일치(maximal planar matching)를 이용하여 결정하고 이를 하나의 화소(pixel)로 출력하는 기법을 제안한다.

  • PDF

Implementation and Performance Evaluation of Comparing MSMP with RIFLE Algorithm (MSMP 알고리즘과 RIFLE 알고리즘의 구현 및 성능비교 평가)

  • 김동희;원영상;고영웅;김진
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10b
    • /
    • pp.304-306
    • /
    • 2004
  • 생물정보학에서 서열의 유사성을 예측하는 것은 가장 중요한 문제 중의 하나이다. 염기 서열의 유사성을 검색하는 유용한 검색도구들에는 BLAST와 FASTA 등이 있으며 이러한 도구들은 새로운 유기체에 대한 실제 염기 서열을 필요로 한다. 이 경우 서열을 얻기 위한 sequencing 작업이 필요로 하며 시간적인 면에 있어서 상당한 비용을 요구한다. 본 논문에서는 sequencing 작업을 하지 않고 간단한 실험에서 얻을 수 있는 부분적인 Sequence 정보만을 대상으로 데이터 베이스에서 검색을 할 수 있는 두 개의 RIFLE(Rapid Identification of Microorganisms by Fragment Length Evaluation), MSMP(Maximum Site Matching Problem) 알고리즘을 구현하고 실험을 통해 두 알고리즘을 비교 평가한다. 실험결과 RIFLE 알고리즘이 수행 속도 면에서 빠른 반면 MSMP가 산출한 결과에 비해서 신뢰성이 떨어짐을 확인하였다.

  • PDF

Genomic Sequence alignments and its application for Computing Linear Structure Similarity

  • 조환규;황미녕;강은미;이미경
    • Proceedings of the Korean Society for Bioinformatics Conference
    • /
    • 2002.06a
    • /
    • pp.64-88
    • /
    • 2002
  • 생물체의 유전자 서열들간의 유사성을 서로 비교해보는 일은(sequence alignment)는 분자생물학 연구에서 아주 기본적인 작업에 속한다. 이 작업은 컴퓨터 과학적 입장에서 살퍼보면 일종의 스트링 분석작업인데, 그 과정에는 매우 복잡한 생물학적인 가정이 내포되어 있다. 본 발표의 목적은 크게 두가지인데 하나는 컴퓨터과학 연구자들에게 서열정렬(sequence alignment)이 가지는 분자생물학적 의미에 대하여 개략적인 이해를 돕도록 하는 것이며, 다른 한편으로 분자생물학자들에게는 스트링처리방법을 이용한 서열정렬 문제에서 어떤 기술적인 한계가 있으며 그 한계를 극복하기 위한 새로운 방법론에 대하여 소개하여 컴퓨터과학적 이해의 폭을 넓히는 것이다. 그리고 생물체의 서열정보의 정렬과 매우 유사한 개념으로 각종 선형구조체(linear object)를 추상화 할 수 있른데, 그들간의 유사성도 같은 분자생물학적 방법론을 차용하여 분석할 수 있음을 보인다. 동시에 이것을 이용하여 각종 인터넷 문서나 프로그램, 등의 표절과 무단도용 등을 추적할 수 있는 방법론을 기존의 genomic sequence alignment tool을 차용해서 매우 효율적으로 할 수 있음을 보인다.

  • PDF

An Algorithm for multiple local alignment (다중 지역 정렬을 위한 알고리즘)

  • Jang, Suk-Bong;Lee, Gye-Sung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11c
    • /
    • pp.2337-2340
    • /
    • 2002
  • 본 연구는 생물정보학(Bioinformatics)의 가장 기초적인 분야중 하나인, 새롭게 밝혀진 유전자 서열과 이미 밝혀진 유전자 서열 사이의 유사성(similarity)이나 상동성(homology)을 찾기 위한 방법에 대한 연구 중 지역 서열정렬로 사용하는 알고리즘인 Smith-Waterman 알고리즘이 갖고 있는 문제를 파악한다. 긴 서열에 대한 선호를 막고 대신 부분적인 지역 정렬을 다수 개 찾아 정렬시키는 알고리즘을 제안하기로 한다.

  • PDF