• Title/Summary/Keyword: 서열화

Search Result 428, Processing Time 0.027 seconds

Improving Weaknesses of Local Chaining Algorithms (Local chaining 알고리즘의 단점 및 개선 방법)

  • 이선호;박근수
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04a
    • /
    • pp.976-978
    • /
    • 2004
  • Chaining 알고리즘은 주어진 match 정보로부터 좋은 match 조합을 찾아내는 일종의 alignment 알고리즘으로 유전체 서열을 비교하는데 다양하게 응용되고 있다. 특히 서열 전체를 비교하는 대신 부분 서열을 비교할 때 사용할 수 있는 local chaining 알고리즘이 제안되었는데 본 논문은 이 기본적인 알고리즘이 Smith-waterman 알고리즘과 유사하며 따라서 비슷한 단점을 가지고 있음을 지적한다. 그리고 이를 해결하기 위해 X-drop과 정규화 된 정수를 고려하는 두 가지 기법을 적용하고 실험을 통해 개선 효과를 보인다.

  • PDF

Efficient Sequence Association Rule Mining for Discovering Protein Relations (단백질 서열 연관 규칙 마이닝을 위한 효율적인 알고리즘 설계)

  • Kim, Hyun-Min;Kim, Ji-Hye;Ramakrishna, R.S.
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.04b
    • /
    • pp.1183-1186
    • /
    • 2002
  • DNA 의 염기서열 탐색을 위한 유전체학의 다음 세대인 구조유전체학은 유전체 사업으로 인한 인간 게놈지도의 완성과 축적된 생물정보를 이용한 생물정보학의 발달과 함께 급속한 성장을 계속하고 있다. 포스트 게놈 시대를 맞이하여 생명현상에 대한 궁극적인 이해를 위한 노력으로 단백질의 구조와 기능에 대한 연구가 주목을 받게 되었다. 다양한 구조 규명을 위한 도구들과 단백질 정보를 관리하기 위한 데이터베이스 구축에 따른 관련 기술의 발전은, 앞으로 다가올 생물정보의 방대함을 감안할 때, 가치 있는 지식정보를 얻기 위한 데이터 마이닝 기법들을 통해서만 가능하다. 본 논문은 데이터 마이닝의 근간 기술인 연관규칙 마이닝을 응용한 효율적인 서열 연관 규칙 알고리즘을 제안하며, 단백질 구조의 예측을 위한 단백질 서열 및 DNA 서열간의 패턴 비교 및 연관성을 목적으로 한다. 또한, 공간적 시간적 복잡성을 CMS-tree 라는 자료구조를 통해 알고리즘의 확장성 및 병렬화의 기본 알고리즘으로 사용하도록 개발하였다.

  • PDF

Analysis of DNA Methylation Motif for Aging Related Genes Based on Networks (네트워크 기반 노화 관련 유전자의 DNA 메틸화 모티프 분석)

  • Cho, sung-jin;Ryu, jea-woon;Kim, hak-yong
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2012.05a
    • /
    • pp.133-134
    • /
    • 2012
  • 후성유전은 DNA 염기서열이 변화하지 않고 DNA의 메틸화(methylation)및 히스톤 단백질의 변형(modification)등의 후천적 과정에 의해 유전자 발현이 조절되는 현상이다. 특히 DNA 메틸화 정도에 대한 분석은 후성유전을 이해하는 중요한 접근방법 중 하나이다. DNA 메틸화 패턴 분석을 위하여 노화관련 109개 유전자들의 단백질 상호작용 네트워크를 구축하였으며 -3000bp ~ +200bp 사이에 있는 DNA 염기서열 정보를 추출하여 기존에 알려진 메틸화 저항성 (Methylation resistant) 모티프를 네트워크로 구축하였다. 메틸화 모티프기반 단백질 네트워크에서는 기존 단백질 네트워크보다 더 복잡한 구조를 이루고 있었다. 이러한 구조는 동일한 메틸화 모티프들이 여러 유전자들의 활성을 조절할 것으로 추측되며 복잡한 모티프들을 분석하기 위한 방법으로 이용될 수 있을 것이다.

  • PDF

Study on MPI-based parallel sequence similarity search in the LINUX cluster (클러스터 환경에서의 MPI 기반 병렬 서열 유사성 검색에 관한 연구)

  • Hong, Chang-Bum;Cha, Jeoung-Ho;Lee, Sung-Hoon;Shin, Seung-Woo;Park, Keun-Joon;Park, Keun-Young
    • Journal of the Korea Society of Computer and Information
    • /
    • v.11 no.6 s.44
    • /
    • pp.69-78
    • /
    • 2006
  • In the field of the bioinformatics, it plays an important role in predicting functional information or structure information to search similar sequence in biological DB. Biolrgical sequences have been increased dramatically since Human Genome Project. At this point, because the searching speed for the similar sequence is highly regarded as the important factor for predicting function or structure, the SMP(Sysmmetric Multi-Processors) computer or cluster is being used in order to improve the performance of searching time. As the method to improve the searching time of BLAST(Basic Local Alighment Search Tool) being used for the similarity sequence search, We suggest the nBLAST algorithm performing on the cluster environment in this paper. As the nBLAST uses the MPI(Message Passing Interface), the parallel library without modifying the existing BLAST source code, to distribute the query to each node and make it performed in parallel, it is possible to easily make BLAST parallel without complicated procedures such as the configuration. In addition, with the experiment performing the nBLAST in the 28 nodes of LINUX cluster, the enhanced performance according to the increase in the number of the nodes has been confirmed.

  • PDF

Method of Image Similarity Analysis Using Sequence Alignment of Colors (색상 서열 비교를 통한 영상의 유사도 분석 기법)

  • Jung, In-Joon;Woo, Gyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.04a
    • /
    • pp.426-429
    • /
    • 2011
  • 영상처리를 이용한 영상간의 유사도 비교 기법은 영상의 검색 및 영상의 자동 인식 등을 위한 연구로 최근 각광받고 있다. 최근 영상 처리 기법은 화소의 질적 향상 및 처리시간 최적화, 효율적인 특정 요소의 추출 등 다양한 방법으로 시도되고 있다. 특히, 영상의 유사도 비교는 유사 영상 검색과 같은 경우에 많이 쓰인다. 영상의 유사도를 비교하기 위한 기법으로는 영상 데이터의 특징에 따라 대상 영역을 여러 영역으로 나누는 영역분할 기법과 군집화, 퍼지, 유전자 알고리즘 등이 있다. 본 논문에서는 영상을 HSV 색공간으로 변환한 후 색상 값에 대하여 전역 정렬 기법을 사용하는 유사도 측정 방법을 제시한다. 전역 정렬 기법은 유전자 서열 비교 기법 중 하나로서 두 유전체의 유사도를 측정하는데 사용된다. 유사도 측정 효율을 높이기 위해 색상 값을 8단계로 양자화하여 영상의 서열을 생성하였다. 실험결과 제시한 방법을 영상 회전이나 대칭, 글자 삽입 등의 간단한 연산에 크게 영향을 받지 않는 것으로 드러났다.

A Polymorphism Analysis and Visualization Tool for Specific Variation Pattern Identification in Groups of Nucleotide Sequences (특정변화패턴 식별을 위한 염기서열 집단간의 다형성 분석 및 시각화 도구)

  • Lee, Il Seop;Lee, Keon Myung
    • Journal of Convergence for Information Technology
    • /
    • v.8 no.6
    • /
    • pp.201-207
    • /
    • 2018
  • A genome contains all genetic information of an organism. Within a specific species, unique traits appear for each individual, which can be identified by analyzing nucleotide sequences. Many Genome-Wide Associations Studies have been carried out to find genetic associations and cause of diseases from slightly different base among the individuals. It is important to identify occurrence of slight variations for polymorphisms of individuals. In this paper, we introduce an analysis and visualization tool for specific variation pattern identification of polymorphisms in nucleotide sequences and show the validity of the tool by applying it to analyzing nucleotide sequences of subcultured pOka strain of varicella-zoster virus. The tool is expected to help efficiently explore allele frequency variations and genetic factors within a species.

Motif-Based Protein Clustering (Motif 기반의 단백질 군집화)

  • Jin, Hoon;Kim, Hyun-Sik; Kim, In-Chul
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10d
    • /
    • pp.235-237
    • /
    • 2002
  • motif란 기능적으로 유사한 단백질 군의 아마노산 서열들에 공통적으로 나타나는 일정한 패턴이나 부분서열을 말한다. 본 논문에서는 motif들로 각 단백질의 특성을 표현한 다음, 이것을 기초로 유사성을 비교하여 단백질들을 기능적으로 유사한 여러개의 계층적 군으로 나누는 군집화 방법을 소개하였다. 영역 특성상 확장성과 계층성을 가지는 신경망 GHSOM을 군집화 알고리즘으로 사용하였고, 실제 307 개의 단백질들에 대한 군집화 실험을 통해 그 효과를 확인해보았다.

  • PDF

Generalization of the Stream Network by the Geographic Hierarchy of Landform Data (지형자료의 계층화를 이용한 하계망 일반화)

  • Kim Nam-Shin
    • Journal of the Korean Geographical Society
    • /
    • v.40 no.4 s.109
    • /
    • pp.441-453
    • /
    • 2005
  • This study aims to generalize the stream network developing algorithm of the geographic hierarchy Stream networks with hierarchy system should be spatially hierarchized in linear features. The generalization procedure of the stream networks are composed of the hierarchy of stream, selection and elimination, and algorithm. Working of stream networks is composed by the decision of direction on stream networks, ranking of stroke segments, and ordering by the strahler method, using geographic data query for controlling selection and elimination of the linear feature by scale. Improved Simoo algorithm was effective in enhancement and decreasing curvature of linear features. Resultantly, it is expected to improve generalization of features with various spatial hierarchy.

Identifying Statistically Significant Gene-Sets by Gene Set Enrichment Analysis Using Fisher Criterion (Fisher Criterion을 이용한 Gene Set Enrichment Analysis 기반 유의 유전자 집합의 검출 방법 연구)

  • Kim, Jae-Young;Shin, Mi-Young
    • Journal of the Institute of Electronics Engineers of Korea CI
    • /
    • v.45 no.4
    • /
    • pp.19-26
    • /
    • 2008
  • Gene set enrichment analysis (GSEA) is a computational method to identify statistically significant gene sets showing significant differences between two groups of microarray expression profiles and simultaneously uncover their biological meanings in an elegant way by employing gene annotation databases, such as Cytogenetic Band, KEGG pathways, gene ontology, and etc. For the gone set enrichment analysis, all the genes in a given dataset are first ordered by the signal-to-noise ratio between the groups and then further analyses are proceeded. Despite of its impressive results in several previous studies, however, gene ranking by the signal-to-noise ratio makes it difficult to consider highly up-regulated genes and highly down-regulated genes at the same time as the candidates of significant genes, which possibly reflect certain situations incurred in metabolic and signaling pathways. To deal with this problem, in this article, we investigate the gene set enrichment analysis method with Fisher criterion for gene ranking and also evaluate its effects in Leukemia related pathway analyses.

A Local Alignment Algorithm using Normalization by Functions (함수에 의한 정규화를 이용한 local alignment 알고리즘)

  • Lee, Sun-Ho;Park, Kun-Soo
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.34 no.5_6
    • /
    • pp.187-194
    • /
    • 2007
  • A local alignment algorithm does comparing two strings and finding a substring pair with size l and similarity s. To find a pair with both sufficient size and high similarity, existing normalization approaches maximize the ratio of the similarity to the size. In this paper, we introduce normalization by functions that maximizes f(s)/g(l), where f and g are non-decreasing functions. These functions, f and g, are determined by experiments comparing DNA sequences. In the experiments, our normalization by functions finds appropriate local alignments. For the previous algorithm, which evaluates the similarity by using the longest common subsequence, we show that the algorithm can also maximize the score normalized by functions, f(s)/g(l) without loss of time.