• Title/Summary/Keyword: 유전자 분류

Search Result 744, Processing Time 0.023 seconds

Classification of Gene Expression Data by Ensemble of Bayesian Networks (앙상블 베이지안망에 의한 유전자발현데이터 분류)

  • 황규백;장정호;장병탁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.434-436
    • /
    • 2003
  • DNA칩 기술로 얻어지는 유전자발현데이터(gene expression data)는 생채 조직이나 세포의 수천개에 달하는 유전자의 발현량(expression level)을 측정한 것으로, 유전자발현양상(gene expression pattern)에 기반한 암 종류의 분류 등에 유용하다. 본 논문에서는 확률그래프모델(probabilistic graphical model)의 하나인 베이지안망(Bayesian network)을 발현데이터의 분류에 적응하며, 분류 성능을 높이기 위해 베이지안망의 앙상블(ensemble of Bayesian networks)을 구성한다. 실험은 실제 암 조직에서 추출된 유전자발현데이터에 대해 행해졌다 실험 결과, 앙상블 베이지안망의 분류 정확도는 단일 베이지안망보다 높았으며, naive Bayes 분류기, 신경망, support vector machine(SVM) 등과 대등한 성능을 보였다.

  • PDF

Suggestion Method of Classific System of Abnormal Genetic using EP (진화프로그래밍을 이용한 이상 유전자 분류 방법 제안)

  • Kim, Young-Gie;Bae, Sang-Hyun
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2008.05a
    • /
    • pp.776-779
    • /
    • 2008
  • It is expect that Microarray technique be direct classification and diagnosis of Genetic data have abnomal data value because DNA technique. It is necessary that many noses that is abnomal data in sampling genetic data. So in this paper reported sampling method in exiting study then suggests new data classific system and modeling method using EP by Matlab about three dataset.

  • PDF

Feature Selection by Genetic Algorithm and Information Theory (유전자 알고리즘과 정보이론을 이용한 속성선택)

  • Jo, Jae-Hun
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2007.11a
    • /
    • pp.108-111
    • /
    • 2007
  • 속성선택(Feature Selection)은 패턴분류 문제에서 분류기들의 성능을 향상시킬 수 있는 중요한 부분으로 다양한 기법들이 연구되어지고 있다. 특히, 많은 변수와 속성들을 가지는 데이터를 패턴분류 하는 과정에서 주요 속성부분집합을 추출하여 이용함으로써 분류기의 연산속도 및 정확도를 향상시킬 수 있다. 본 논문에서는 유전자 알고리즘과 정보이론의 상호정보량을 이용하여 속성선택을 하는 기법을 제안하였다. 제안된 기법의 성능을 평가하기 위하여 패턴분류 문제에 적용하고 그 성능이 우수함을 확인하였다.

  • PDF

Rule Discovery for Cancer Classification using Genetic Programming based on Arithmetic Operators (산술 연산자 기반 유전자 프로그래밍을 이용한 암 분류 규칙 발견)

  • 홍진혁;조성배
    • Journal of KIISE:Software and Applications
    • /
    • v.31 no.8
    • /
    • pp.999-1009
    • /
    • 2004
  • As a new approach to the diagnosis of cancers, bioinformatics attracts great interest these days. Machine teaming techniques have produced valuable results, but the field of medicine requires not only highly accurate classifiers but also the effective analysis and interpretation of them. Since gene expression data in bioinformatics consist of tens of thousands of features, it is nearly impossible to represent their relations directly. In this paper, we propose a method composed of a feature selection method and genetic programming. Rank-based feature selection is adopted to select useful features and genetic programming based arithmetic operators is used to generate classification rules with features selected. Experimental results on Lymphoma cancer dataset, in which the proposed method obtained 96.6% test accuracy as well as useful classification rules, have shown the validity of the proposed method.

Genetic Algorithm to find Classification Rule for Classifier Systems (분류시스템의 분류 규칙 발견을 위한 유전자 알고리즘)

  • Kim Dae-Hee;Park Sahng Ho
    • Journal of Korea Society of Industrial Information Systems
    • /
    • v.9 no.4
    • /
    • pp.16-25
    • /
    • 2004
  • A Classifier System is a system based on rules to invent new rules from the present useful ones. In this paper, Genetic Algorithms are proposed to find good classification rule of Classifier System which can extract useful information from huge database. The proposed scheme is applied to the real problems such as the car insurance problem to evaluate the performance of Genetic Algorithm based classifier systems.

  • PDF

Searching for Optimal Ensemble of Feature-classifier Pairs in Gene Expression Profile using Genetic Algorithm (유전알고리즘을 이용한 유전자발현 데이타상의 특징-분류기쌍 최적 앙상블 탐색)

  • 박찬호;조성배
    • Journal of KIISE:Software and Applications
    • /
    • v.31 no.4
    • /
    • pp.525-536
    • /
    • 2004
  • Gene expression profile is numerical data of gene expression level from organism, measured on the microarray. Generally, each specific tissue indicates different expression levels in related genes, so that we can classify disease with gene expression profile. Because all genes are not related to disease, it is needed to select related genes that is called feature selection, and it is needed to classify selected genes properly. This paper Proposes GA based method for searching optimal ensemble of feature-classifier pairs that are composed with seven feature selection methods based on correlation, similarity, and information theory, and six representative classifiers. In experimental results with leave-one-out cross validation on two gene expression Profiles related to cancers, we can find ensembles that produce much superior to all individual feature-classifier fairs for Lymphoma dataset and Colon dataset.

Classification of Lymphoma Dataset with Combinatorially Correlated Feature Set (통합 상관된 특징 집합을 이용한 림프종 데이터의 분류)

  • Park, Chan-Ho;Cho, Sung-Bae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.05a
    • /
    • pp.321-324
    • /
    • 2003
  • 근래, DNA microarray와 관련된 기술의 발달은 한번에 수천 개 이상의 유전자발현데이터를 얻을 수 있게 해주었고, 많은 연구기관에서 이를 이용한 질병 분류에 관하여 연구를 진행하고 있다. 하지만 수천 개의 유전자 모두가 암에 관계된 것은 아니기 때문에, 관련 유전자의 선별 작업을 먼저 수행하는 것이 필요하며, 이를 위하여 통계기반 방법, 정보이론기반 방법 등 다양한 방법이 사용되고 있다. 본 논문에서는 의미 있는 유전자를 선택하는 방법으로서, 일반적인 순위-기반 방법이 양의 상관관계만 이용한다는 점을 보완하여, 유전자와 학습데이터 사이의 음의 상관관계까지도 고려한 방법을 제시하였다. 제안한 방법의 성능을 검증하고자 잘 알려진 암 관련 유전자발현데이터이인 림프종 데이터에 대하여, MLP와 KNN을 이용한 분류를 해 보았다. 실험 걸과 총합 상관관계를 가지는 특징 집합이 일반적인 순위-기반 방식의 특징 집합에 비하여 높은 분류 인식률을 보여주었다.

  • PDF

The Design and Implement on Tumor Classification Model Based on Microarray (마이크로어레이 기반 종양 분류 모델 설계와 구현)

  • Park, Su-Young;Jung, Chai-Yeoung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.11a
    • /
    • pp.713-716
    • /
    • 2007
  • 오늘날 인간 프로젝트와 같은 종합적인 연구의 궁극적 목적을 달성하기 위해서는 이들 연구로부터 획득한 대량의 관련 데이터에 대해 새로운 현실적 의미를 부여할 수 있어야 한다. 따라서 현재의 마이크로어레이 기술을 이용해서 효과적으로 종양을 분류하기 위해서는 특정 종양 분류와 밀접하게 관련이 있는 정보력 있는 유전자를 선택하는 과정이 필수적이다. 본 논문에서는 암에 걸린 흰쥐 외피 기간 세포 분화 실험에서 얻어진 3840 유전자의 마이크로어레이 cDNA를 이용해 데이터의 정규화를 거쳐 유사성 척도 방법으로 정보력 있는 유전자들을 추출한 후, DT, NB, SVM, MLP 알고리즘을 이용하여 클래스 분류 모델을 구축하고, 성능을 비교분석하였다. 피어슨 적률 상관 계수를 이용하여 선택된 50 유전자들을 멀티퍼셉트론 분류기로 분류한 결과 94.8%의 정확도를 보여 가장 최적의 조합을 보였다.

An Intelligent System of Marker Gene Selection for Classification of Cancers using Microarray Data (마이크로어레이 데이터를 이용한 암 분류 표지 유전자 선별 시스템)

  • Park, Su-Young;Jung, Chai-Yeoung
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.14 no.10
    • /
    • pp.2365-2370
    • /
    • 2010
  • The method of cancer classification based on microarray could contribute to being accurate cancer classification by finding differently expressing gene pattern statistically according to a cancer type. Therefore, the process to select a closely related informative gene with a particular cancer classification to classify cancer using present microarray technology with effect is essential. In this paper, the system can detect marker genes to likely express the most differentially explaining the effects of cancer using ovarian cancer microarray data. And it compare and analyze a performance of classification of the proposed system with it of established microarray system using multi-perceptron neural network layer. Microarray data set including marker gene that are selected using ANOVA method represent the highest classification accuracy of 98.61%, which show that it improve classification performance than established microarray system.

The Specific Gene Characteristics of Chloroplast Genome in Viola (제비꽃종류에서 나타나는 엽록체 DNA 게놈의 특이 유전자 특징)

  • Ah-reum Go;Ki-Oug Yoo
    • Proceedings of the Plant Resources Society of Korea Conference
    • /
    • 2023.04a
    • /
    • pp.19-19
    • /
    • 2023
  • 제비꽃속 34분류군의 61개체를 대상으로 엽록체 DNA 게놈 특이 유전자의 특징을 알아보고자 하였다. 61개체의 엽록체 게놈 전체 길이는 155,535~158,940 bp 로 모두 전형적인 사분할 구조였다. 지역별로는 LSC 지역이 84,826~87,250 bp, SSC 지역이 16,338~18,654 bp, 그리고 IR 지역이 26,029~27,192 bp 였다. 유전자 개수는 131개로 84개 protein coding-gene, 37개 tRNA 유전자, 8개 rRNA유전자, 그리고 2개의 유사유전자인 𝜓rps19, 𝜓ycf1으로 구성되어 있었다. LSC/IRa 경계에 위치한 rps19 유전자 길이는 279 bp로 모든 분류군에서 동일하였으며, 𝜓rps19의 길이는 다양했으나 유전자 개수에는 영향을 미치지 않았다. SSC/IRb 경계에 위치한 ycf1 유전자 길이는 약 5,600 bp 였으나, V. japonica (MZ151699) 1개체에서는 다른 종에 비해 약 1,000 bp 위치에서 발생한 점돌연변이로 인해 종결 코돈이 나타나는 특징을 보였다. 한편 13분류군의 23개체에서는 𝜓ycf1의 길이가 650 bp 정도 짧은 것을 확인하였는데, 이 종류들은 원예종인 V. tricolor (ON262802) 이외에는 모두 줄기가 없는 분류군들로 IR 지역의 확장과 SSC 지역의 수축에 의한 것으로 판단된다. ndhF는 대체로 SSC 지역에 위치하나, V. inconspicua (MZ065354), V. mongolica (MW802534, ON548135), V. yunnanfuensis (MW802541) 등 4개체에서는 IRa/SSC 경계에 위치하면서 유사유전자가 발생하였고, 그 결과 다른 제비꽃 종류에 비해 유전자 개수가 132개로 차이를 보였다. 또한, V. collina (OP271831), V. mirabilis (MH256000), V. tricolor (ON262802) 등 3분류군에서는 SSC 지역이 inversion 되어 엽록체 이성질체가 존재함을 확인하였다. 이상의 결과를 종합하면, 제비 꽃속 엽록체 게놈 61개체의 ycf1, 𝜓ycf1, ndhF, 𝜓ndhF 등은 유전자 길이와 개수 등에 차이를 보이는 것으로 나타났으며, 제비꽃속에서도 엽록체 이성질체가 존재함을 확인할 수 있었다.

  • PDF