• Title/Summary/Keyword: 유전자 발현 데이터

Search Result 190, Processing Time 0.031 seconds

Generating Rank-Comparison Decision Rules with Variable Number of Genes for Cancer Classification (순위 비교를 기반으로 하는 다양한 유전자 개수로 이루어진 암 분류 결정 규칙의 생성)

  • Yoon, Young-Mi;Bien, Sang-Jay;Park, Sang-Hyun
    • The KIPS Transactions:PartD
    • /
    • v.15D no.6
    • /
    • pp.767-776
    • /
    • 2008
  • Microarray technology is extensively being used in experimental molecular biology field. Microarray experiments generate quantitative expression measurements for thousands of genes simultaneously, which is useful for the phenotype classification of many diseases. One of the two major problems in microarray data classification is that the number of genes exceeds the number of tissue samples. The other problem is that current methods generate classifiers that are accurate but difficult to interpret. Our paper addresses these two problems. We performed a direct integration of individual microarrays with same biological objectives by transforming an expression value into a rank value within a sample and generated rank-comparison decision rules with variable number of genes for cancer classification. Our classifier is an ensemble method which has k top scoring decision rules. Each rule contains a number of genes, a relationship among involved genes, and a class label. Current classifiers which are also ensemble methods consist of k top scoring decision rules. However these classifiers fix the number of genes in each rule as a pair or a triple. In this paper we generalized the number of genes involved in each rule. The number of genes in each rule is in the range of 2 to N respectively. Generalizing the number of genes increases the robustness and the reliability of the classifier for the class prediction of an independent sample. Also our classifier is readily interpretable, accurate with small number of genes, and shed a possibility of the use in a clinical setting.

Prediction of promoter by Backpropagation (Backpropagation을 이용한 Promoter 예측 방법)

  • 허미영;김홍기;최진성
    • Proceedings of the IEEK Conference
    • /
    • 2003.07d
    • /
    • pp.1569-1572
    • /
    • 2003
  • 최근 생명공학 분야의 기술이 혁신적으로 발달함에 따라 게놈 프로젝트가 본래 계획보다 2년 앞당겨져 2003 년 4 월 인간 유전자의 완전한 서열을 밝히고 성공적으로 완료됨으로서 관련 연구자들은 인간의 유전자에 대한 대량의 서열 데이터를 얻게 되었다. 그래서 게놈 프로젝트의 다음 단계로서 엄청난 양의서열 정보 분석으로부터 유전자의 기능을 파악하고자 하는 연구들이 이미 세계적으로 활발히 진행되고 있다. 이러한 연구들의 최종적 목표는 질병 치료와 생명연장의 실현이라고 볼 수 있다. 유전자 연구를 위해선 우선 일차적으로 유전자 부위를 파악해야 한다. 유전자는 구조적으로 다시 여러 부분으로 나뉘는데 유전자 발현의 개시에 매우 중요한 요소 중 하나가 바로 프로모터 (Promoter) 이다. 프로모터 내에는 TATA box 가 있는데 이는 프로모터의 핵심 요소이다. 프로모터는 생명체의 종 그리고 RNA 중합효소의 종류에 따라 다르다. 이 논문에서는 다양한 신경망 알고리즘 중의 하나인 Backtpropagation 을 이용하여 밝혀지지 알은 서열에서 인간을 포함하는 원핵생물의 프로모터 서열을 예측할 수 있는 방법을 얻었기에 소개하고자 한다.

  • PDF

Classification of Gene Expression Profiles Using Common Features Selected (공통 선택된 특징을 이용한 유전 발현 데이터의 분류)

  • Park, Chan-Ho;Cho, Sung-Bae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11a
    • /
    • pp.351-354
    • /
    • 2002
  • 최근 생명공학 기술과 분석화학 기술의 발달로 생물 유전 데이터를 대량으로 얻는 것이 가능하게 되었다. 아울러 이렇게 얻어진 데이터를 적절하게 처리하고 분석하는 방법들도 여러 가지가 소개되어 왔다. 본 논문에서는 DNA 마이크로어레이 정보를 분류하기 위하여 세 가지 데이터에 대하여 여러 가지 특징 전혀 방법으로 선택된 유전자들을 사용하여 신경망 분류기에 적용시켜 보았다. 실험 결과 백혈병 데이터의 경우 피어슨 상관계수를 이용한 분류가 97.1%로 가장 높은 인식률을 보여주었다. 한편 여러 가지 특징 선택 방법에 의하여 공통적으로 선택된 유전자를 사용하여 분류하면 더 높은 인식률이 나올 것 같았지만 실제로는 기대에 못 미치는 성과를 보여주었다. 따라서 무조건 여러 번 선택된 특징을 선택하기 보다는 특징들끼리의 상관관계를 고려하여 선택하는 방법이 필요할 것이다.

  • PDF

Development of Local Animal BLAST Search System Using Bioinformatics Tools (생물정보시스템을 이용한 Local Animal BLAST Search System 구축)

  • Kim, Byeong-Woo;Lee, Geun-Woo;Kim, Hyo-Seon;No, Seung-Hui;Lee, Yun-Ho;Kim, Si-Dong;Jeon, Jin-Tae;Lee, Ji-Ung;Jo, Yong-Min;Jeong, Il-Jeong;Lee, Jeong-Gyu
    • Bioinformatics and Biosystems
    • /
    • v.1 no.2
    • /
    • pp.99-102
    • /
    • 2006
  • The Basic Local Alignment Search Tool (BLAST) is one of the most established software in bioinformatics research and it compares a query sequence against the libraries of known sequences in order to investigate sequence similarity. Expressed Sequence Tags (ESTs) are single-pass sequence reads from mRNA (or cDNA) and represent the expression for a given cDNA library and the snapshot of genes expressed in a given tissue and/or at a given developmental stage. Therefore, ESTs can be very valuable information for functional genomics and bioinformatics researches. Although major bio database (DB) websites including NCBI are providing BLAST services and EST data, local DB and search system is demanding for better performance and security issue. Here we present animal EST DBs and local BLAST search system. The animal ESTs DB in NCBI Genbank were divided by animal species using the Perl script we developed. and we also built the new extended DB search systems fur the new data (Local Animal BLAST Search System: http://bioinfo.kohost.net), which was constructed on the high-capacity PC Cluster system fur the best performance. The new local DB contains 650,046 sequences for Bos taurus(cattle), 368,120 sequences for Sus scrofa (pig), 693,005 sequences for Gallus gallus (fowl), respectively.

  • PDF

Multi-class Cancer Classification by Integrating OVR SVMs based on Subsumption Architecture (포섭 구조기반 OVR SVM 결합을 통한 다중부류 암 분류)

  • Hong Jin-Hyuk;Cho Sung-Bae
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06a
    • /
    • pp.37-39
    • /
    • 2006
  • 지지 벡터 기계(Support Vector Machine; SVM)는 기본적으로 이진분류를 위해 고안되었지만, 최근 다양한 분류기 생성전략과 결합전략이 고안되어 다중부류 분류에도 적용되고 있다. 본 논문에서는 OVR(One-Vs-Rest) 전략으로 생성된 SVM을 NB(Naive Bayes) 분류기를 이용하여 동적으로 구성함으로써, OVR SVM을 이용한 다중부류 분류 시스템에서 자주 발생하는 동점을 효과적으로 해결하는 방법은 제안한다. 이 방법을 유전발현 데이터를 이용한 다중부류 암 분류에 적용하였는데, 고차원의 데이터로부터 NB 분류기 구축에 유용한 유전자를 선택하기 위해 Pearson 상관계수를 사용하였다. 14개의 암 유형과 16,063개의 유전발현 수준을 가지는 대표적인 다중부류 암 분류 데이터인 GCM 암 데이터에 적용하여 제안하는 방법의 유용성을 확인하였다.

  • PDF

Data Analysis Methods for Quantitative Proteomics Research

  • Gwon Kyeong-Hun
    • Proceedings of the Korean Society for Bioinformatics Conference
    • /
    • 2006.02a
    • /
    • pp.38-44
    • /
    • 2006
  • 프로테오믹스는 생물체 안에 포함되어 있는 단백질을 통합적으로 연구하는 학문이다. 단백질을 동정(Protein identification)하고, 단백질의 상태를 분석(Protein characterization)하며, 단백질의 양적 변화를 관찰(Protein quantitation)한다. 유전자로부터 mRNA 로 복제되고 codon 의 규칙에 따라 합성되는 단백질이 세포 내에 얼만큼 존재하는가라는 단백질의 양적인 변화는 세포 내의 환경에 따라 시시각각 변화할 수 있으며, 이러한 변화의 추적은 단백질의 기능을 밝히는 기초자료로서 중요성을 가진다. 특히 질병의 조기 진단을 위한 바이오마커를 발굴하기 위한 스크리닝 역할로서, 단백질의 발현 양상을 비교하는 프로테오믹스는 기대를 모으고 있다. 단백질에 대한 분석, 특히 질량분석기에 의해 초고속으로 대량의 단백질 데이터를 생산하는 프로테오믹스의 연구는 정량적인 단백질 발현양상 분석의 정확도를 높이기 위해 다양한 실험기법과 데이터 분석기법을 동원하고 있다. 이번 발표에서는 프로테오믹스에서 단백질의 양을 측정하기 위한 실험 방법들과 그에 따른 데이터 분석 방법들을 소개하고자 한다. 프로테오믹스 연구의 초창기부터 사용되어온 2차원 전기영동법에 의해 생성되는 2D-gel image 에서의 spot 분석법으로부터, 탄뎀 질량분석기를 사용하는 ICAT, iTRAQ 등의 labeling 방법에 의한 정량분석, 그리고 질량분석기의 정확도를 최대한으로 활용하는 label-free 방법에 대한 기본 개념을 살펴보고 데이터 분석 기술의 적용 방법을 알아본다.

  • PDF

Analysis of the Gene Expression by Laser Capture Microdissection(II) : Differential Gene Expression between Primordial and Primary Follicles (Laser Capture Microdissection을 이용한 유전자 발현 연구(II) : 원시난포와 1차난포 유전자 발현의 차이에 대한 분석)

  • 박창은;고정재;이숙환;차광렬;김격진;이경아
    • Development and Reproduction
    • /
    • v.6 no.2
    • /
    • pp.89-96
    • /
    • 2002
  • The present study was conducted to elucidate genes involved in the primordial-primary follicular transition. By using suppression subtractive hybridization, day1- and day5-subtracted cDNA libraries were obtained with the forward and reverse subtraction method, respectively. In toto, 357 clones were sequenced and analyzed by BLAST and RIKEN program. Sequences of 330 clones significantly matched database entries while 27 clones were novel. Forty-two and 47 genes with known functions were different between day1 and day5 ovaries. Four genes, GDF8, lats2, septin2, and wee1, from the day1 subtracted cDNA library, and 6 genes, HSP84, laminin2, MATER, MTi7, PTP, and wrn, from day5-subtracted cDNA library were chosen, and their differential expression was evaluated using RNAs from whole ovaries as well as captured primordial and primary follicles by laser captured microdissection. Results from the present study would provide insight for the future study on the mechanisms involved in primordial-primary follicle transition in the mouse in addition to the human ovary.

  • PDF

Functional Analysis of Expressed Sequence Tags from Hanwoo (Korean Cattle) cDNA Libraries (한우 cDNA 라이브러리에서 발현된 ESTs의 기능분석)

  • Lim, Da-Jeong;Byun, Mi-Jeong;Cho, Yong-Min;Yoon, Du-Hak;Lee, Seung-Hwan;Shin, Youn-Hee;Im, Seok-Ki
    • Journal of Animal Science and Technology
    • /
    • v.51 no.1
    • /
    • pp.1-8
    • /
    • 2009
  • We generated 57,598 expressed sequence tags (ESTs) from 3 cDNA libraries of Hanwooo (Korean Cattle), fat, loin, liver. Liver, intermuscular fat and longissimus dorsi tissues were obtained from a 24-month-old Hanwoo steer immediately after slaughter. cDNA library was constructed according to the oligocapped method. The EST data were clustered and assembled into unique sequences, 4,759 contigs and 7,587 singletons. To carry out functional analysis, Gene Ontology annotation and identification of significant leaf nodes were performed that were detected by searching significant p-values from $2^{nd}$ level GO terms to leaf nodes using Bonferroni correction. We found that 13, 26 and 8 significant leaf nodes are unique in the transcripts according to 3 GO categories, molecular function, biological process and cellular component. Also digital gene expression profiling using the Audic's test was performed and tissue specific genes were detected in the above 3 libraries.

Isolation and Identification of a New Gene Related to Salt Tolerance in Chinese Cabbage (배추에서 신규 염 저항성 관련 유전자 분리 및 검정)

  • Yu, Jae-Gyeong;Park, Young-Doo
    • Horticultural Science & Technology
    • /
    • v.31 no.6
    • /
    • pp.748-755
    • /
    • 2013
  • This study was conducted to find a salt tolerance gene in Brassica rapa. In order to meet this objective, we analyzed data from a KBGP-24K oligo chip [BrEMD (Brassica rapa EST and microarray database)] of the B. rapa ssp. pekinensis 'Chiifu' under salt stress (250 mM NaCl). From the B. rapa KBGP-24K microarray chip analysis, 202 salt-responsive unigenes were primarily selected under salt stress. Of these, a gene with unknown function but known full-length sequence was chosen to closely investigate the gene function. The selected gene was named BrSSR (B. rapa salt stress resistance). BrSSR contains a 285 bp open reading frame encoding a putative 94-amino acid protein, and a DUF581 domain. The pSL94 vector was designed to over-express BrSSR, and was used to transform tobacco plants for salt tolerance analysis. T1 transgenic tobacco plants that over-expressed BrSSR were selected by PCR and DNA blot analyses. Quantitative real-time RT PCR revealed that the expression of BrSSR in transgenic tobacco plants increased by approximately 3.8-fold. Similar results were obtained by RNA blot analysis. Phenotypic characteristics analysis showed that transgenic tobacco plants with over-expressed BrSSR were more salt-tolerant than the wild type control under 250 mM NaCl for 5 days. Based on these results, we hypothesized that the over-expression of BrSSR may be closely related to the enhancement of salt tolerance.

Optimal Classifier Ensemble for Lymphoma Cancer Using Genetic Algorithm (유전자 알고리즘을 이용한 림프종 암의 최적 분류기 앙상블)

  • 박찬호;조성배
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.356-358
    • /
    • 2003
  • DNA microarray기술의 발달로 한꺼번에 수천 개 유전자의 발현 정보를 얻는 것이 가능해졌는데, 이렇게 얻어진 데이터를 효과적으로 분류하는 시스템을 만들어놓으면 새로운 샘플이 정상상태인지, 질병을 가진 상태인지 예측할 수 있다. 분류 시스템을 위하여 여러 가지 특징선택방법들과 분류기법들을 사용할 수 있는데, 모든 상황에서 항상 뛰어난 성능을 보이는 특징선택법이나 분류기를 찾기는 힘들다. 안정되고 개선된 성능을 내기 위해서 특징-분류기의 앙상블을 이용할 수 있는데, 앙상블에 이용될 수 있는 특징선택 방법이나 분류기의 수가 많다면, 앙상블을 만들 수 있는 조합이 많아지기 때문에, 모든 조합에 대하여 앙상블 결과를 구하기는 거의 불가능하다. 이를 해결하기 위하여 본 논문에서는 유전자알고리즘을 이용하여 모든 앙상블 결과를 계산하지 않으면서 최적의 앙상블을 찾아내는 방법을 제안하였으며, 실제로 림프종 암 데이터에 적용한 결과 100%의 결합결과를 보이는 최적의 앙상블을 효과적으로 찾아내었다.

  • PDF