Proceedings of the Korean Society for Bioinformatics Conference (한국생물정보학회:학술대회논문집)
Korean Society for Bioinformatics (ksbsb)
- 기타
2004.11a
-
Grid system has the potential to resolve the current need of bioinformatics for super-computing environment inexpensively. There are already several Grid applications of bioinformatics tools. To solve the real-world bioinformatics problems, however, the various integration of each tool is necessary in addition to the implementation of more basic tools. Workflow based problem solving environment can be the efficient solution for this type of software development. There are still heavy overhead, however, to develop and implement workflow model on current Grid system. He re we propose a model of simple problem solving environment that enables component based workflow design of integrated bioinformatics applications on Grid environment by using Condor functionalities. We realized this model for practical bioinformatics solutions of a genome sequence analysis and a comparative genome analysis. We implemented necessary bioinformatics tools and interfacing tools as the components, and combine them in the workflow model of each solution by using the tools presented in Condor.
-
Park, Jun-Hyung;Kang, Byeong-Chul;Park, Hee-Kyung;Jang, Hyun-Jung;Song, Eun-Sil;Lee, Seung-Won;Kim, Hyun-Jin;Kim, Cheol-Min 21
모든 생명체의 genetic information에는 보존적 염기서열과 다형적 염기서열이 존재한다. 다형적 염기서열과 보존적 염기서열은 하나의 종(species)을 감별하거나, 여러 종류의 종을 동시에 감별할 수 있는 genotyping의 표지자로 각각 이용될 수 있다. 본 논문은 병원성 감염질환 세균, 식중독 유발 세균, 생물의약품 오염 유발 세균 및 환경오염 세균 등 세균의 존재 유무와 속과 종 감별을 위해 대부분 세균 종의 보존적 염기서열과 다형적인 염기서열을 포함하고 있는 23S rDNA 유전자의 표적 염기 서열로부터 고안된 세균 특이적(bacterial-specific), 속 특이적(genus-specific), 종 특이적(species-specific) 올리고 뉴클레오티드프로브와 프라이머를 디자인하는 시스템을 소개한다. 시스템을 통해서 얻어진 프로브와 프라이머들은 PCR을 통한 검증단계를 거쳐서 디자인 결과의 정확성을 확인하였다. 본 시스템의 이용으로 프로브와 프라이머를 디자인하는데 몇 주가 소요되는 시간을 몇 일 내로 줄일 수 있었으며, 체계적인 데이터의 관리로 결과의 정확성을 높일 수 있었다. -
유방암 환자의 임상정보(clinical features)와 cDNA microarray 기술을 이용하여 얻은 유전자 발현 프로파일은 유방암 예후 인자를 찾는 데에 매우 중요하다. 본 논문에서는 임상정보와 유전자 발현 정보를 접목해서 분석하는 방법으로써 주성분 분석(Principal Component Analysis)을 이용하였다. 이 방법은 다변량 자료의 차원을 줄이는 방법으로써, 대용량 실험 데이터로 인해 발생하는 문제점을 해결하기 위하여 많이 쓰이고 있다. 본 연구에서는 주성분 분석을 이용하여 먼저 한국인 유방암 환자 73명의 cDNA microarray 데이터 차원을 줄이고, 이를 통해 얻어진 주성분(Principal Components)과 임상정보 데이터와의 상관관계를 보았다. One-way ANOVA를 이용한 상관관계 분석 결과의 P-value는 permutation test를 통해 검증하였다. 동일한 방법을 estrogen receptor(ER)(+) 환자 20명과 ER(-) 환자 31명에 적용해본 결과, ER(-) 환자 중에서 재발과 관련된 유전자를 찾을 수 있었다. 주성분 분석을 molecular phenotypic profiles of clinical features에 이용한 결과 발견된 유전자는 유방암의 재발과 관련된 예후 인자로서 의미가 있다.
-
When there is a lack of detailed kinetic information, dFBA(dynamic flux balance analysis) has correctly predicted cellular behavior under given environmental conditions with FBA and different ial equations. However, until now, dFBA has centered on substrate concentration, cell growth, and gene on/off, but a detailed hierarchical structure of a regulatory network has not been taken into account. For this reason, the dFBA has limited the represen tation of interactions between specific regulatory proteins and genes and the whole transcriptional regulation mechanism with environmental change. Moreover, to calculate optimal metabolic flux distribution which maximizes the growth flux and predict the b ehavior of cell system, linear programming package(LINDO) and spreadsheet package(EXCEL) have been used simultaneously. thses two software package have limited in the visual representation of simulation results and it can be difficult for a user to look at the effects of changing inputs to the models. Here, we descirbes the construction of hierarchical regulatory network with defined symbolsand the development of an integrated system that can predict the total control mechanism of regulatory elements (opero ns, genes, effectors, etc.), substrate concentration, growth rate, and optimal flux distribution with time. All programming procedures were accoplished in a visual programming environment (LabVIEW).
-
Bifurcation analysis of cell cycle regulation in the budding yeast is performed basedon the mathematical model by Chen et al [Molecular biology of cell, 11:369-391, 2000]. On the bifurcation diagram, locations of both stable and unstable solutions of the nonlinear differential equations are presented by taking the mass of cell as a controlparameter. Based on the bifurcation diagram, dynamic mechanism underlying the 'start' transition, initiation of a new round of cell cycle, and the 'finish' transition, completion of cell cycle and returning back to the initial state, is discussed: the 'start' transition is a transition from a stable fixed solution for a small mass and to an oscillatory state for a large mass, and the 'finish' transition is a switching back to the stable fixed solution from the oscillatory state. To understand the role of the genes during the cell cycle regulation, bifurcation diagrams for the mutants are compared with that of the wild type.
-
본 연구에서는 3차원 심근조직에서의 회귀성파동에 대한 수치적 해석결과를 제시한다. 심근 조직에서의 회귀성파동은 심실세동(ventricular fibrillation)의 원인으로 지목되고 있으며 심근세포 이온채널 또는 전기전도시스템 등과 같은 여러 가지 요소들이 관련된 복합적 현상으로 생각되고 있다. 지금까지 이에 관한 많은 연구가 전기생리학적 모델을 이용하여 이루어진바 있으며, 주로 동물 심근세포모델에 기반으로 균일한 2차원 또는 3차원 모델에서의 전기전도 현상 해석을 한 바 있다. 그러나 실제 심장조직의 경우, 두께를 가진 3차원적 형상을 지니고 있으며 층을 따라서 전기생리학적으로 상이한 특성을 가진 세포들로 구성된다. 즉 심근은 층을 가로질러 Epi-cardiac, mid-cardiac, endo-cardiac cell들로 구성되며 각기 다른 APD(action potential duration)을 가지고 있다. 따라서 본 연구에서는 이러한 세가지 종류의 인체 심근세포모델을 사용한 3차원 심근조직에서의 활동전위 전도현상에 대한 결과를 제시한다. 이를 위하여 기존의 인체 3가지 종류의 심근세포 모델을 구현하여 그 타당성을 검토한다. 그리고 이를 바탕으로 3차원 조직모델을 구현하는데, simplified bidomain방법을 사용하였다. 3차원 공간상에서 심근세포에 의한 활동전위 전달현상을 해석하기 위하여 유한요소법을 도입한다. 최종적으로는 3가지의 심근세포층을 가진 3차원 심근조직을 구성하고, 여기에 회귀성 파동을 유도한다. 그리고 단일층으로 이루어진 3차원조직에서의 결과와 비교 분석하여 다세포층에 의한 불균일 효과를 분석하였다.
-
세포 내에서 일어나는 신호 전달 과정은 단백질간의 상호작용을 통해 수행되고 조절된다. 단백질 상호작용 데이터를 활용하여 수행된 연구로는 단백질의 기능을 유추하거나 전체 네트워크 중 다른 지역보다 더 조밀한 상호작용을 추출하여 complex 혹은 pathway를 발견하고 진화 과정을 이해하는 바탕이 되고 있다. 본 연구에서는 신호 전달 경로에 대한 사전 정보 없이 yeast 상호작용 정보와 녹색형광단백질(GFP)을 이용하여 밝혀진 4000여 개의 yeast 단백질 위치 분포 data를 이용하여 신호전달경로를 찾는 방법을 시도했다. 기존 연구에 의해 밝혀진 yeast 내의 단백질 위치 분포 결과를 보면 21개의 category에 대해 각 단백질 상호작용 분포가 다양하게 나타나고, 특정 위치에서 상호작용 빈도수가 현저히 크다는 것을 알 수 있다. 특히 두 단백질이 같은 장소에 있을 경우 상호작용 확률이 높으며, 세포 내 소기관 사이에도 상호작용의 정도가 다양함이 알려져 있다. 따라서 이러한 분포상의 특성을 고려하여 상호작용을 기반으로 하여 세포막 단백질을 출발점으로, 핵에 있는 단백질을 도착점으로 잡고, 그 사이에 존재하는 다양한 가능 경로 중에서 단백질의 위치 정보를 가중치로 사용하여 그 중 최대 가능 경로를 찾도록 구현하였다. 이와 같은 pathway 모델링은 기존에 밝혀진 pathway와의 비교를 통해 알려지지 않은 새로운 경로를 발견하고, 이전에 경로에 참여하지 않은 단백질들을 발견할 수 있고, 이미 알려진 단백질들의 새로운 기능들에 대해서도 추론할 수 있을 것이라 기대한다.
-
A significant portion (about 8% in human genome) of mammalian mRNA sequences contains AU(Adenine and Uracil) rich elements or AREs at their 3' untranslated regions (UTR). These mRNA sequences are usually stable. ARE motifs are assorted into three classes. The importance of AREs in biology is that they make certain mRNA unstable. We analyzed the occurrences of AREs and Alu, and propose a possible mechanism on how human mRNA could acquire and keep A REs at its 3' UTR originated from Alu repeats. Interspersed in the human genome, Alu repeats occupy 5% of the 3' UTR of mRNA sequences. Alu has poly-adenine (poly-A) regions at the end that lead to poly -thymine (poly-T) regions at the end of its complementary Alu. It has been discovered that AREs are present at the poly -T regions. In the all ARE's classes, 27-40% of ARE repeats were found in the poly -T region of Alu with mismatch allowed within 10% of ARE's length from the 3' UTRs of the NCBI's reference m RNA sequence database. We report that Alu, which has been reported as a junk DNA element, is a source of AREs. We found that one third of AREs were derived from the poly -T regions of the complementary Alu.
-
계산을 통한 단백질 상호작용 예측 기법의 중요성이 제기되면서 많은 단백질 상호 작용 예측 기법이 제안되고 있다. 하지만 이러한 기법들이 일반 사용자가 손쉽게 사용할 수 있는 서비스 형태로 제공되고 있는 경우는 드물다. 본 논문에서는 현재까지 알려진 단백질 상호작용 예측 기법 중 예측 기법의 완성도가 높고 상대적으로 예측 정확도가 높은 것으로 알려진 도메인 조합 기반 단백질 상호 작용 예측 기법을 PreSPI(Prediction System for Protein Interaction)라는 서비스 시스템으로 설계하고 구현하였다. 구현된 시스템이 제공하는 기능은 크게 도메인 조합 기반 단백질 상호 작용 예측 기법을 서비스 형태로 만들어 제공하는 기능으로 입력 단백질 쌍에 대한 상호작용 예측이 중심이 된 핵심기능과, 핵심 기능으로부터 파생되는 기능인 부가 기능, 그리고 주어진 단백질에 대한 도메인 정보검색 기능과 같이 단백질 상호작용에 관하여 연구하는 연구자에게 도움이 되는 일반적인 기능으로 구성되어 있다. 계산을 통해 단백질 상호 작용을 예측하는 시스템은 대규모계산이 요구되는 경우가 많아 좋은 성능을 갖추는 것이 중요하다. 본 논문에서 구현된 PreSPI 시스템은 서비스에 따라 적절히 그 처리를 병렬화 함으로써 시스템의 성능 향상을 도모하였고, PreSPI 가 제공하는 기능을 웹 서비스 API 로 Deploy 하여 시스템의 개방성을 지원하고 있다. 또한 인터넷 환경에서 변화되는 단백질 상호 작용 및 도메인에 관한 정보를 유연하게 반영할 수 있도록 시스템을 계층 구조로 설계하였다. 본 논문에서는 PreSPI 가 제공하는 몇 가지 대표적인 서비스에 관하여 사용자 인터페이스를 중심으로 상술함으로써 초기 PreSPI 사용자가 PreSPI 가 제공하는 서비스를 이해하고 사용하는 데에도 도움이 되도록 하였다.있어서 자각증상, 타각소견(他覺所見)과 함께 이상(異常)은 확인되지 않았으며 부작용도 없었다. 이상의 결과로부터, ‘펩타이드 음료’는 경증고혈압 혹은 경계역고혈압자(境界域高血壓者)의 혈압을, 자각증상 및 혈액
${\cdot}$ 뇨검사에도 전혀 영향을 미치지 않고 저하시킨다고 결론지었다.이병엽을 염색하여 흰가루 병균의 균사생장과 포자형성 등을 관찰한 결과 균사가 용균되는 것을 볼 수 있었으며, 균사의 용균정도와 분생포자형성 억제 정도는 병 방제효과와 일치하는 경향을 보였다.을 의미한다. IV형은 가장 후기에 포획된 유체포유물이며, 광산 주변에 분포하는 석회암체 등의 변성퇴적암류로부터$CO_{2}$ 성분과 다양한 성분의 유체가 공급되어 생성된 것으로 여겨진다. 정동이 발달하고 있지 않으며, 백운모를 함유하고 있는 대유페그마타이트는 변성작용에 의한 부분용융에 의해 형성된 멜트에서 결정화되었으며, 상당히 높은 압력의 환경에서 대유페그마타이트의 결정화작용 과정에서 용리한 유체의 성분이 전기석에 포획되어 있다. 이때 용리된 유체는 다양한 성분을 지니고 있었으며, 매우 낮은 공융온도와 다양한 딸결정은 포유물 내에 NaCl, KCl 이외에 적어도$CaCl_{2},\;MgCl_{2}$ 와 같은 성분을 포함하고 있음을 지시한다. 유체의 용리는 적어도$2.7{\sim}5.3$ kbar 이상의 압력과$230{\sim}328^{\circ}C$ 이상의 온도에서 시작되었다.없었다. 결론적으로 일부 한방제와 생약제제는 육계에서 항생제를 대체하여 사용이 가능하며 특히 혈액의 성분에 유의한 영향을 미치는 것으로 사료된다. 실증연구가 필요할 것으로 사료된다.trip과 Sof-Lex disc로 얻어진 표면은 레진전색제의 사용으로 표면조도의 개선 -
Subcellular localization is a key functional char acteristic of proteins. With the number of sequences entering databanks rapidly increasing, the importance of developing a powerful tool to identify protein subcellular location has become self-evident. In this paper, we introduce a novel method for predic ting protein subcellular locations from protein sequences. The main idea was motivated from the observation that amino acid pair composition data is redundant. By classifying from multiple feature subsets and using many kinds of amino acid pair composition s, we forced the classifiers to make uncorrelated errors. Therefore when we combined the predictors using a voting scheme, the prediction accuracy c ould be improved. Experiment was conducted on several data sets and significant improvement has been achieve d in a jackknife test.
-
The advent of microarray technologies gives an opportunity to moni tor the expression of ten thousands of genes, simultaneously. Such microarray data can be deteriorated by experimental errors and image artifacts, which generate non-negligible outliers that are estimated by 15% of typical microarray data. Thus, it is an important issue to detect and correct the se faulty probes prior to high-level data analysis such as classification or clustering. In this paper, we propose a systematic procedure for the detection of faulty probes and its proper correction in Genechip array based on multivariate statistical approaches. Principal component analysis (PCA), one of the most widely used multivariate statistical approaches, has been applied to construct a statistical correlation model with 20 pairs of probes for each gene. And, the faulty probes are identified by inspecting the squared prediction error (SPE) of each probe from the PCA model. Then, the outlying probes are reconstructed by the iterative optimization approach minimizing SPE. We used the public data presented from the gene chip project of human fibroblast cell. Through the application study, the proposed approach showed good performance for probe correction without removing faulty probes, which may be desirable in the viewpoint of the maximum use of data information.
-
마이크로어레이 (microarray) 기술이 개발된 후로 연관된 유전자 클러스터 (cluster)를 찾는 문제는 깊이 연구되어왔다. 이 문제는 핵심적인 과제 중 하나는 생물학적으로 타당한 클러스터의 수를 결정하는 데 있다. 본 논문은 최적의 클러스터 수를 결정하는 기준을 제시하고, non-negative factorization (NMF)를 이용해 클러스터 centroid의 패턴을 찾는 방법을 제안한다. NMF에 의해 발견된 각각의 패턴은 생물학적 프로세스의 특정 부분으로 해석될 수 있다. NMF는 factor matrix의 entity를 non-negative로 제약 (constraint)하고, 이 제약은 오직 additive combination만 허용하기 때문에 이러한 부분적인 패턴을 찾아낼 수 있다. NMF의 유용성은 이미지 분석과 텍스트 분석에서 이미 입증되어 있다. 본 논문에서 제안한 방법에 의해 위의패턴과 유사한 발현 패턴을 갖는 유전자를 모을 수 있었다. 제안된 방법은 human fibroblast데이터와 yeast cell cycle 데이터에 적용해 성능을 입증하였다.
-
Microarray expression datasets are incessantly cumulated with the aid of recent technological advances. One of the first steps for analyzing these data under various experimental conditions is determining differentially expressed genes (DEGs) in each condition. Reasonable choices of thresholds for determining differentially expressed genes are used for the next -step-analysis with suitable statistical significances. We present a model for identifying DEGs using pathway information based on the global connectivity structure. Pathway information can be regarded as a collection of biological knowledge, thus we are tying to determine the optimal threshold so that the consequential connectivity structure can be the most compatible with the existing pathway information. The significant feature of our model is that it uses established knowledge as a reference to determine the direction of analyzing microarray dataset. In the most of previous work, only intrinsic information in the miroarray is used for the identifying DEGs. We hope that our proposed method could contribute to construct biologically meaningful network structure from microarray datasets.
-
Kim, Sang-Cheol;Park, Chan-Hee;Seo, Min-Young;Jeong, Ha-Jin;Kim, In-Young;Chung, Hyun-Cheol;Rha, Sun-Young 131
DNA 단계에서의 유전자의 증폭과 소실은 종양의 발생과 진행에 중요한 역할을 한다. 유전자의 변화를 관찰하기 위해서 Comparative Genomic Hybridization(CGH) 기술이 많이 이용되어져 왔다. 최근에는 이러한 CGH 기술을 응용하여 cDNA microarray 를 이용한 고밀도 CGH(Microarray-CGH) 기술이 보고 되고 있다. Microarray-CGH 에서 유전자별 변화 정도를 유전자의 log-비의 값의 변화 정도와 염색체 위치 정보를 이용하여 DNA 단계에서의 유전자의 변화 정도를 확인 할 수 있다. 또한 동일한 유전자의 칩을 사용하여 RNA단계에서의 발현 양상과 직접 비교할 수 있는 장점이 있다. 현재 microarray 분석법은 많이 개발되고 실용화 되고 있으나 Microarray-CGH 분석을 위한 프로그램들은 아직 초보 단계며, 생물학자들이 사용하기 힘들고, 프로그램에 분석 자료를 적용하기 어려운 경향이 있다. 위와 같은 단점을 보완하기 위해서 개발된 CAMVS(V1.0) 프로그램은 S-plus(2000)을 기반으로 개발하였고, 복잡한 분석보다는 모든 결과들을 이미지화 할 수 있으며 파일로 결과를 쉽게 확인할 수 있도록 디자인하였다. CAMVS(V1.0)는 전체 염색체를 각 실험별로 비교 분석하는 부분, 특정 염색체를 특정 실험별로 비교 분석하는 부분과 실험간의 차이를 통계적으로 비교 분석하는 3 가지 카테고리로 구성되어 있다. 쉬운 알고리즘과 사용의 편리함, 분석결과의 다양한 그래픽, 새로운 알고리즘 추가의 용이성 등이 CAMVS(V1.0)가 가지고 있는 장점이며, Microarray-CGH를 분석하는데 아주 유용한 분석 도구이다. -
In this study, we analyzed the gene expression data of Saccharomyces cerevisiae obtained from Holstege et al. 1998 to understand the relationship between expression level and nucleotide sequence of a gene. First, the correlation between gene expression and percent composition of each type of nucleotide was computed. It was observed that nucleotide 'G' and 'C' show positive correlation (r
${\geq}$ 0.15), 'A' shows negative correlation (r${\approx}$ -0.21) and 'T' shows no correlation (r${\approx}$ 0.00) with gene expression. It was also found that 'G+C' rich genes express more in comparison to 'A+T' rich genes. We observed the inverse correlation between composition of a nucleotide at genome level and level of gene expression. Then we computed the correlation between dinucleotides (e.g. AA, AT, GC) composition and gene expression and observed a wide variation in correlation (from r = -0.45 for AT to r = 0.35 for GT). The dinucleotides which contain 'T' have wide range of correlation with gene expression. For example, GT and CT have high positive correlation and AT have high negative correlation. We also computed the correlation between trinucleotides (or codon) composition and gene expression and again observed wide range of correlation (from r = -0.45 for ATA r = 0.45 for GGT). However, the major codons of a large number of amino acids show positive correlation with expression level, but there are a few amino acids whose major codons show negative correlation with expression level. These observations clearly indic ate the relationship between nucleotides composition and expression level. We also demonstrate that codon composition can be used to predict the expression of gene in a given condition. Software has been developed for calculating correlation between expression of gene and codon usage. -
microRNA (miRNA)는 21-25 nucleotide (nt)의 single-stranded RNA 분자로서 mRNA의 3' untranslated region (3' UTR)에 상보적으로 결합하여 유전자 발현을 제어하는 새로운 조절물질이다. 지금까지 실험을 통해 수백 개의 miRNA가 알려져 있으나, miRNA에 의해 조절되는 target 유전자는 실험상의 어려움으로 아직까지 거의 알려지지 않았다. miRNA는 서열의 길이가 짧고 target과 느슨한 상보적 결합을 하기 때문에 기존의 서열 비교 방법으로 miRNA의 target을 찾는 것은 쉬운 일이 아니다. 본 논문은 신경망을 이용하여 Caenorhabditis elegans mRNA의 3' UTR에서 miRNA가 결합하는 영역을 예측하였다. 신경망은 복잡한 비선형 데이터를 잘 분리해내고 불완전하고 잡음이 많은 입력에 강하기 때문에 miRNA target 예측에 적합하다. miRNA와 mRNA의 결합 영역을 다양하게 분석하였고 민감도 0.59, 특수도 0.99의 성능을 갖는 신경망을 구현하였다. 신경망 입력 값을 달리하여 각각의 특성이 결과에 미치는 영향을 분석하였고 기존 예측 방법에 의한 결과와 비교하여 성능을 평가하였다.
-
Predicting the destination of a protein in a cell gives valuable information for annotating the function of the protein. Recent technological breakthroughs have led us to develop more accurate methods for predicting the subcellular localization of proteins. The most important factor in determining the accuracy of these methods, is a way of extracting useful features from protein sequences. We propose a new method for extracting appropriate features only from the sequence data by computing pairwise sequence alignment scores. As a classifier, support vector machine (SVM) is used. The overall prediction accuracy evaluated by the jackknife validation technique reach 94.70% for the eukaryotic non-plant data set and 92.10% for the eukaryotic plant data set, which show the highest prediction accuracy among methods reported so far with such data sets. Our numerical experimental results confirm that our feature extraction method based on pairwise sequence alignment, is useful for this classification problem.
-
본 논문에서는 LC/MS 데이터로부터 동위 원소 패턴(isotope pattern)을 찾는 새로운 방법을 제시하고자 한다. 기존의 분석 방법에서는 LC/MS 데이터를 1차원적으로 분석하고 있기 때문에 2차원에서 적용할 수 있는 알고리즘을 적용하기가 어렵다. LC/MS 데이터를 2차원 영상으로 가시화해 본 결과, 하나의 동위 원소 패턴에 속하는 단일 동위 원소 피크(single isotope peak)는 모양, 크기와 같은 2차원 형태적 특징들도 유사함을 알 수 있다. 따라서, 기존의 방법들이 질량 스펙트럼과 같은 1차원 신호를 분석하는 것에 중점을 둔 것에 비해, 본 논문에서는 LC/MS 데이터를 2차원 신호 즉, 영상(image)으로 간주하고 영상 처리 방법과 객체 인식 방법을 적용하였다. 실험 결과 같은 동위 원소 패턴에 속하는 각각의 단일 동위원소 피크들 사이에 peak maxima position 뿐만 아니라 skewness, variance등도 유사였으며 이러한 유사도를 기반으로 동위 원소 패턴을 찾을 수 있었다.
-
Nam, Ky-Youb;Cho, Yong-Kee;Lee, Chang-Joon;Shin, Jae-Hong;Choi, Jung-Won;Gil, Joon-Min;Park, Hark-Soo;Hwang, Il-Sun;No, Kyoung-Tai 181
The docking and in silico ligand screening procedures can select small sets of lead -like candidates from large libraries of either commercially or synthetically available compounds; however, the vast number of such molecules make the potential size of this task enormous. To accelerate the discovery of drugs to inhibit several targets, we have exploited massively distributed computing to screen compound libraries virtually. The Korea@HOME project was launched in Feb. 2002, and one year later, more than 1200 PC's have been recruited. This has created a 31 -gigaflop machine that has already provided more than 1400 hours of CPU time. It has all owed databases of millions of compounds to be screened against protein targets in a matter of days. Now, the virtual screening software suitable for distributed environments is developed by BMD. It has been evaluated in terms of the accuracy of the scoring function and the search algorithm for the correct binding mode. -
;Choi, Yeon-Joo;Kim, Ju-Young;Heo, Mi-Young;Kim, Sun-Woo;Kim, Sun-Ho;Kim, Sung-Soo;Chae, Chong-Hak 191
한국화합물은행(KCB)에서 보유중인 12만 개의 화합물을 주요 골격에 따라 분류하고, 4 가지 protease 작용점에 대한 활성도와 골격사이의 관계를 조사하였다. 화합물들은 합성기관의 합성 목적과 주요 고리골격 등을 고려하여 분류되었으며, 이를 이용하여 scaffold 분류를 위한 분류 계통도를 작성하였다. 화합물들은 이 계통도에 따라 7 가지의 race, 168 tribe, 493 parent, 439 child, 325 grandchild 등 1,087개의 scaffold로 분류되었으며, 각 race 및 scaffold 별 골격의 개수는 고르게 분포되었다. 골격별 분류 시스템을 이용하여 4 가지의 protease에 대한 활성도와 골격 간의 상관관계를 조사한 결과, Protease C에 대하여 몇 가지 골격이 활성이 뛰어남을 보였다. -
Molecular docking using Lamarckian genetic algorithm of AutoDock 3.0 (AD3) was employed to understand in retrospect the selectivity of phenylaminopyrimidine (PAP) derivatives against the kinase domain c-Abl, implicated in chronic myelogenous leukemia (CML). The energetics of protein-ligand complex was scored using AD3 to identify active drug conformations while Ligplot and ligand protein contact (LPC) programs were used to probe schematic molecular recognition of the bound inhibitor to the protein. Results signify correlation between model and crystal structures of STI-571 compound or Imatinib (IM), a PAP derivative and now clinically proven for its efficacy in CML. A prospect active form Abl inhibitor scaffold from matlystatin class of compounds will be published elsewhere.
-
Poly(ADP-ribose)polymerase-1 (PARP-1) is a nuclear enzyme involved in various physical functions related to genomic repair, and PARP inhibitors have therapeutic application in a variety of neurological diseases. Docking and the QSAR (quantitative structure-activity relationships) studies for 52 PARP-1 inhibitors were conducted using FlexX algorithm, comparative molecular field analysis (CoMFA), and hologram quantitative structure-activity relationship analysis (HQSAR). The resultant FlexX model showed a reasonable correlation (r
$^{2}$ = 0.701) between predicted activity and observed activity. Partial least squares analysis produced statistically significant models with q$^{2}$ values of 0.795 (SDEP=0.690, r$^{2}$ =0.940, s=0.367) and 0.796 (SDEP=0.678, r$^{2}$ = 0.919, s=0.427) for CoMFA and HQSAR, respectively. The models for the entire inhibitor set were validated by prediction test and scrambling in both QSAR methods. In this work, combination of docking, CoMFA with 3D descriptors and HQSAR based on molecular fragments provided an improved understanding in the interaction between the inhibitors and the PARP. This can be utilized for virtual screening to design novel PARP-1 inhibitors. -
Molecular docking falls into the general category of global optimization problems since its main purpose is to find the most stable complex consisting of a receptor and its ligand. Conformational space annealing (CSA), a powerful global optimization method, is incorporated with the Tinker molecular modeling package to perform molecular docking simulations of six receptor-ligand complexes (3PTB, 1ULB, 2CPP, 1STP, 3CPA and 1PPH) from the Protein Data Bank. In parallel, Monte Carlo with minimization (MCM) method is also incorporated into the Tinker package for comparison. The energy function, consisting of electrostatic interactions, van der Waals interactions and torsional energy terms, is calculated using the AMBER94 all-atom empirical force field. Rigid docking simulations for all six complexes and flexible docking simulations for three complexes (1STP, 3CPA and 1PPH) are carried out using the CSA and the MCM methods. The simulation results show that the docking procedures using the CSA method generally find the most stable complexes as well as the native -like complexes more efficiently and accurately than those using the MCM, demonstrating that CSA is a promising search method for molecular docking problems.
-
단백질-단백질 상호작용(PPI :Protein-Protein Interaction) 데이터는 생물체가 어떠한 메커니즘으로 생명을 유지하는지에 대한 정보를 담고 있다. 최근에는 생물학자들의 실험에 의해 많은 데이터가 축적되어 있으며, 데이터베이스로 구축되어 인터넷에 공개되어 있다. PPI 데이터는 단백질를 노드(node)로, 상호작용은 에지(edge)로 갖는 그래프(Graph) 구조로 표현 가능하다. 본 논문에서는 사용자가 PPI 데이터를 쉽게 가공하고 분석할 수 있도록 그래프 이론 기반에 기반하여 구현한 Proteinca(PROTEin INteraction CAbaret) 시스템에 대해 소개한다. Proteinca에 대한 자세한 정보는 http://jade.cs.pusan.ac.kr/
${\sim}$ proten에서 볼 수 있다. -
There have been many attempts to predict the secondary structure content of a protein from its primary sequence, which serves as the first step in a series of bioinformatics processes to gain knowledge of the structure and function of a protein. Most of them assumed that prediction relying on the information of the amino acid composition of a protein can be successful. Several approaches expanded the amount of information by including the pair amino acid composition of two adjacent residues. Recent methods achieved a remarkable improvement in prediction accuracy by using this expanded composition information. The overall average errors of two successful methods were 6.1% and 3.4%. This work was motivated by the observation that evolutionarily related proteins share the similar structure. After manipulating the values of the frequency matrix obtained by running PSI-BLAST, inputs of an artificial neural network were constructed by taking the ratio of the amino acid composition of the evolutionarily related proteins with a query protein to the background probability. Although we did not utilize the expanded composition information of amino acid pairs, we obtained the comparable accuracy, with the overall average error being 3.6%.
-
A novel method for ab initio prediction of protein tertiary structures, PROFESY (PROFile Enumerating SYstem), is introduced. This method utilizes secondary structure prediction information and fragment assembly. The secondary structure prediction of proteins is performed with the PREDICT method which uses PSI-BLAST to generate profiles and a distance measure in the pattern space. In order to predict the tertiary structure of a protein sequence, we assemble fragments in the fragment library constructed as a byproduct of PREDICT. The tertiary structure is obtained by minimizing the potential energy using the conformational space annealing method which enables one to sample diverse low lying minima of the energy function. We apply PROFESY for prediction of some proteins with known structures, which shows good performances. We also participated in CASP5 and applied PROFESY to new fold targets for blind predictions. The results were quite promising, despite the fact that PROFESY was in its early stage of development. In particular, the PROFESY result is the best for the hardest target T0161.
-
The interaction network of protein -protein plays an important role to understand the various biological functions of cells. Currently, the high -throughput experimental techniques (two -dimensional gel electrophoresis, mass spectroscopy, yeast two -hybrid assay) provide us with the vast amount of data for protein-protein interaction at the proteome scale. In order to recognize the role of each protein in their network, the efficient bioinformatical and computational analysis methods are required. We propose a systematic and mathematical method which can analyze the protein -protein interaction network rigorously and enable us to capture the biological and physical essence of a topological character and stability of protein -protein network, and sensitivity of each protein along the biological pathway of their network. We set up a Laplacian matrix of spectral graph theory based on the protein-protein network of yeast proteome, and perform an eigenvalue analysis and apply a perturbation method on a Laplacian matrix, which result in recognizing the center of protein cluster, the identity of hub proteins around it and their relative sensitivities. Identifying the topology of protein -protein network via a Laplacian matrix, we can recognize the important relation between the biological pathway of yeast proteome and the formalism of master equation. The results of our systematic and mathematical analysis agree well with the experimental findings of yeast proteome. The biological function and meaning of each protein cluster can be explained easily. Our rigorous analysis method is robust for understanding various kinds of networks whether they are biological, social, economical...etc
-
Recently, Pepe et al. (2003) employed the receiver operating characteristic (ROC) approach to rank candidate genes from a microarray experiment that can be used for the biomarker development with the ultimate purpose of the population screening of a cancer, In the cancer microarray experiment based on n patients the researcher often wants to compare the tumor tissue with the normal tissue within the same individual using a common reference RNA. This design is referred to as a reference design or an indirect design. Ideally, this experiment produces n pairs of microarray data, where each pair consists of two sets of microarray data resulting from reference versus normal tissue and reference versus tumor tissue hybridizations. However, for certain individuals either normal tissue or tumor tissue is not large enough for the experimenter to extract enough RNA for conducting the microarray experiment, hence there are missing values either in the normal or tumor tissue data. Practically, we have
$n_1$ pairs of complete observations,$n_2$ 'normal only' and$n_3$ 'tumor only' data for the microarray experiment with n patients, where n=$n_1$ +$n_2$ +$n_3$ . We refer to this data set as a mixed data set, as it contains a mix of fully observed and partially observed pair data. This mixed data set was actually observed in the microarray experiment based on human tissues, where human tissues were obtained during the surgical operations of cancer patients. Pepe et al. (2003) provide the rationale of using ROC approach based on two independent samples for ranking candidate gene instead of using t or Mann -Whitney statistics. We first modify ROC approach of ranking genes to a paired data set and further extend it to a mixed data set by taking a weighted average of two ROC values obtained by the paired data set and two independent data sets. -
In the disease association study, the tagSNP selection problem is important at the view of time and cost. We developed the new tagSNP selection system that has also facilities for the haplotype reconstruction and missing data processing. In our system, we improved biological meanings using LD coefficients as well as dynamic programming method. And our system has capability of processing large -scale dataset, such as the total SNPs on a chromosome. We have tested our system with various dataset from daly et al., patil et al., HapMap Project, artificial dataset, and so on.
-
생물학적으로 의미 있는 결과를 도출하기 위해서는 많은 실험 데이터가 필요하다. 최근에는 마이크로 어레이 실험 기술이 발달함에 따라 대량의 데이터를 얻을 수 있게 되었고, 이로 인해서 데이터를 체계적으로 관리하고 필요한 정보를 습득할 수 있는 시스템이 필요하게 되었다. LIMS(Laboratory Information Management System) 는 이러한 요구 조건을 충족시키기 위한 시스템으로 기존의 파일 시스템에 의존해서 비효율적으로 실험 데이터를 관리해 오던 것을 체계적이고 효율적으로 관리해 주기 위한 시스템이다. 대량의 유전자 발현 데이터의 생산은 유전자의 조절 네트워크 예측을 가능하게 하였다. 유전자간의 상호 작용을 분석하는 것은 세포의 활동을 이해하는데 매우 중요한 요소라고 할 수 있다. 본 논문에서는 기존의 LIMS 기능과 유전자 조절 네트워크 분석 시스템을 통합하여 사용자가 쉽게 데이터를 공유 및 습득할 수 있으며 편리한 사용자 인터페이스를 이용하여 컴퓨터에 익숙하지 않은 실험들도 쉽게 사용할 수 있는 GELIM(an Integrated system with GEnetic network analyzer and LIMs) 을 소개한다.
-
LC/MS를 이용하여 펩타이드 혹은 단백질 같은 물질을 분석하는 실험이 급격히 늘어남에 따라 LC/MS 데이터를 자동으로 처리하는 기술에 대한 요구가 커지고 있다. 이러한 LC/MS 데이터의 자동 분석 기술에 대한 연구는 현재 활발히 진행되어 왔고, 이를 직접 구현한 여러 상용 소프트웨어들이 개발되어 있는 상태이다. LC/MS 데이터는 noise 제거, background 데이터 제거, deconvolution 알고리즘을 적용한 분자량(molecular weight) 할당 등의 작업을 거쳐 분석하게 된다. 이러한 과정을 거쳐 얻어진 분자량에 대한 데이터가 올바른 값인지 검증하는 작업이 필요하다. 본 논문에서는 이러한 검증 작업과 관련하여 Peak Clustering and Fitting(이하 PC&F)에 대한 알고리즘을 제안한다. PC&F은 peak 데이터들이 지니고 있는 속성에 대한 Mahalanobis distance를 이용하여 peak 데이터를 각 retention time에 따라 clustering 분석을 하는 작업이다. 본 논문에서 제안하는 PC&F 알고리즘을 Microsoft Visual C++ 6.0 MFC 환경에서 직접 개발한 소프트웨어(PeakClusterFitLCMS)로 실험하였다. 실험결과 PC&F 작업을 통해 동일한 구성물질로부터 발생한 peak 데이터를 모아서 보다 신뢰할 수 있는 분자량을 구할 수 있었고, 구성물질에 의해 발생되지 않은 noise peak 데이터를 찾아 제거시킬 수 있음을 확인할 수 있었다.