• Title/Summary/Keyword: 유전자 선택

Search Result 614, Processing Time 0.064 seconds

Cancer Classification with Gene Expression Profiles using Forward Selection Method (전진 선택법을 이용한 유전자 발현정보 기반의 암 분류)

  • Yoo, Si-Ho;Cho, Sung-Bae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.05a
    • /
    • pp.293-296
    • /
    • 2003
  • 유전 발현 데이터는 생명체의 특정 조직에서 채취한 샘플을 microarray상에서 측정한 것으로 유전자들의 발현 정도가 수치로 나타난 데이터이다. 일반적으로 정상조직과 이상조직에서 관련 유전자들의 발현 정도는 차이를 보이기 때문에, 유전발현 데이터를 통하여 암을 분류할 수 있다. 하지만 분류에 모든 유전자가 관여하지는 않으므로 관련성 있는 유전자만을 선별해내는 작업인 특징 선택방법이 필요하다. 본 논문에서는 회귀분석의 변수선택방법중 하나인 전진 선택법(forward selection method)을 사용하여 유전자들을 선택하고 분류하는 방법을 제안한다. 실험데이터는 대장암 데이트를 사용하였고, 분류기는 KNN을 사용하였다. 이 방법과 상관계수를 이용한 특징 선택 방법인 피어슨 상관계수와 스피어맨 상관계수방법과 비교해본 결과 전진 선택법에 의한 특징 선택방법이 암의 분류에 있어서 더 효과적인 유전자 선택을 한다는 사실을 확인하였다. 실험결과 90.3%의 높은 인식률을 보였다.

  • PDF

Incremental Gene Selection-based Cancer Classification Using Microarray Data (마이크로어레이 데이터를 이용한 점증적 유전자 선택기반 암 분류)

  • Kown, Hyung-Tae;Hong, Jin-Hyuk;Cho, Sung-Bae
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.10b
    • /
    • pp.7-10
    • /
    • 2007
  • 마이크로어레이 데이터는 매우 많은 수의 유전자로 구성되며, 암 분류 성능을 높이기 위해서는 대상 암과 관련된 유용한 유전자를 선택해야 한다. 기존 필터 기반 유전자 선택 기법은 유전자를 개별적으로 평가하여 암 분류에 사용하기 때문에, 유전자 사이의 관계나 분류기와의 상관성을 고려하지 않으며, 비슷한 특성의 유전자를 중복해서 선택하는 경향이 있다. 본 논문에서는 필터와 래퍼 방식을 결합하여 분류결과를 반복적으로 반영하며 유전자를 선택하는 기법을 제안한다. 필터 기법으로 유전자의 순위를 계산할 때 이전 분류에서 틀린 샘플의 가중치가 높도록 설계하고, 분류를 반복하면서 각 단계에서 유용한 유전자를 추가로 선택한다. 제안하는 방법을 대표적 암 분류 데이터인 림포마 암과 대장암 데이터에 적용하여 유용성을 검증하였다.

  • PDF

Gene Selection based on Class Information (클래스 정보에 기반한 유전자 선택)

  • Lee Hyunjin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2004.11a
    • /
    • pp.469-472
    • /
    • 2004
  • 여러 분류 문제에 다층퍼셉트론이 적용되어 좋은 성능을 보이고 있다. 하지만, 암 분류를 위한 분류기로 사용되는데 있어서 문제점은 샘플데이터 수에 비해 입력으로 사용되는 유전자의 수가 너무 많기 때문에 좋은 성능을 기대하기 힘들다는 점이다. 또한 많은 입력노드로 인해 가중치 파라메터들의 수가 증가하기 때문에 학습시에 계산량의 부담을 가중시킨다. 따라서 본 논문에서는 많은 유전자중에서 암분류에 중요한 영향을 끼치는 유전자를 선택하는 방법을 제안한다. 이러한 유전자 선택을 위하여 클래스의 정보를 나타내는 척도를 분석하고 이를 기반으로 하여 분류율을 향상시킬 수 있는 유전자를 선택하는 방법을 제안한다. 이렇게 선택된 유전자를 입력으로 하여 분류기를 구성하여, 제안하는 방법의 우수성을 검증한다.

  • PDF

Classifying Cancer Using Partially Correlated Genes Selected by Forward Selection Method (전진선택법에 의해 선택된 부분 상관관계의 유전자들을 이용한 암 분류)

  • 유시호;조성배
    • Journal of the Institute of Electronics Engineers of Korea SP
    • /
    • v.41 no.3
    • /
    • pp.83-92
    • /
    • 2004
  • Gene expression profile is numerical data of gene expression level from organism measured on the microarray. Generally, each specific tissue indicates different expression levels in related genes, so that we can classify cancer with gene expression profile. Because not all the genes are related to classification, it is needed to select related genes that is called feature selection. This paper proposes a new gene selection method using forward selection method in regression analysis. This method reduces redundant information in the selected genes to have more efficient classification. We used k-nearest neighbor as a classifier and tested with colon cancer dataset. The results are compared with Pearson's coefficient and Spearman's coefficient methods and the proposed method showed better performance. It showed 90.3% accuracy in classification. The method also successfully applied to lymphoma cancer dataset.

A review of gene selection methods based on machine learning approaches (기계학습 접근법에 기반한 유전자 선택 방법들에 대한 리뷰)

  • Lee, Hajoung;Kim, Jaejik
    • The Korean Journal of Applied Statistics
    • /
    • v.35 no.5
    • /
    • pp.667-684
    • /
    • 2022
  • Gene expression data present the level of mRNA abundance of each gene, and analyses of gene expressions have provided key ideas for understanding the mechanism of diseases and developing new drugs and therapies. Nowadays high-throughput technologies such as DNA microarray and RNA-sequencing enabled the simultaneous measurement of thousands of gene expressions, giving rise to a characteristic of gene expression data known as high dimensionality. Due to the high-dimensionality, learning models to analyze gene expression data are prone to overfitting problems, and to solve this issue, dimension reduction or feature selection techniques are commonly used as a preprocessing step. In particular, we can remove irrelevant and redundant genes and identify important genes using gene selection methods in the preprocessing step. Various gene selection methods have been developed in the context of machine learning so far. In this paper, we intensively review recent works on gene selection methods using machine learning approaches. In addition, the underlying difficulties with current gene selection methods as well as future research directions are discussed.

A New Tournament Selection Technique for Fast Convergence in Genetic Algorithms (유전자 알고리즘에서 수렴속도 향상을 위한 새로운 토너먼트 선택 기법)

  • Lee Yong-Chae;Shon Jin-Gon
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06b
    • /
    • pp.139-141
    • /
    • 2006
  • 유전자 알고리즘에서 좋은 염색체(chromosome)를 선택하는 방법은 알고리즘의 성능을 향상시키는데 매우 중요한 핵심 요소이다. 이러한 선택 기법 중에는 비례 선택 기법, 순위기반 선택 기법, 토너먼트 선택기법 등이 잘 알려져 있다. 이 중 가장 성능이 좋은 토너먼트 선택 기법은 열성 염색체중 우성인 유전자를 포함하는 열성 염색체가 선택에서 배제되어 지역적 최적해(local minima)를 구할 가능성, 열성 염색체가 다음 세대 진화를 방해할 가능성 등의 문제점을 가지고 있다. 본 논문에서는 토너먼트 선택 기법의 문제점을 해결하기 위해서 토너먼트-교배 선택 기법을 제안하였다. 이 방법은 토너먼트 선택 기법을 기반으로 하되 열성 염색체가 선택되었을 경우 그 안에 들어 있는 우성 유전자를 알고리즘 진화에 반영시키고자 교배 단계를 추가한 기법이다. 제안된 토너먼트-교배 선택 기법을 이용하면 기존의 토너먼트 선택 기법보다 평균수행시간이 짧아져 해에 수렴하는 속도가 향상된다.

  • PDF

Rank-based Multiclass Gene Selection for Cancer Classification with Naive Bayes Classifiers based on Gene Expression Profiles (나이브 베이스 분류기를 이용한 유전발현 데이타기반 암 분류를 위한 순위기반 다중클래스 유전자 선택)

  • Hong, Jin-Hyuk;Cho, Sung-Bae
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.35 no.8
    • /
    • pp.372-377
    • /
    • 2008
  • Multiclass cancer classification has been actively investigated based on gene expression profiles, where it determines the type of cancer by analyzing the large amount of gene expression data collected by the DNA microarray technology. Since gene expression data include many genes not related to a target cancer, it is required to select informative genes in order to obtain highly accurate classification. Conventional rank-based gene selection methods often use ideal marker genes basically devised for binary classification, so it is difficult to directly apply them to multiclass classification. In this paper, we propose a novel method for multiclass gene selection, which does not use ideal marker genes but directly analyzes the distribution of gene expression. It measures the class-discriminability by discretizing gene expression levels into several regions and analyzing the frequency of training samples for each region, and then classifies samples by using the naive Bayes classifier. We have demonstrated the usefulness of the proposed method for various representative benchmark datasets of multiclass cancer classification.

DNA Chip Gene Selection Method Research using Genetic Algorithm and Neural Network (유전자 알고리즘과 신경망을 이용한 DNA Chip유전자 선택 방법 연구)

  • Lee Ho Il;Choi Yo Han;Yoon Kyong Oh;Kim Myoung Sun;Hang Youn Soo;Park Hyun Seok
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.289-291
    • /
    • 2005
  • 최근 유전자 칩의 발전으로 다양하고 방대한 양의 유전자 정보를 이용한 정확하고 신뢰성 높은 분류, 군집 및 질병을 예측하는 분석 기법이 증가하고 있다. 하지만 특징적인 유전자를 선택하는 Gene Selection 기법의 종류는 많지가 않으며 주로 통계적인 방법에 의존하여 유전자를 선택하는 기법을 많이 사용하고 있다. 본 논문에서는 유전자 알고리즘과 신경망의 결합을 통한 데이터마이닝을 기반으로 신뢰성 높은 특징적인 유전자를 선택하는 Gene Selection 기법에 대하여 연구을 진행하였다.

  • PDF

Time Control Microarray 자료의 군집 분석에 관한 고찰

  • Son, In-Seok;Lee, Jae-Won
    • Proceedings of the Korean Statistical Society Conference
    • /
    • 2003.05a
    • /
    • pp.299-304
    • /
    • 2003
  • 생물학자들은 시간 패턴에 따라 발현 수준이 변화하는 유전자의 군집화를 시도하고 있다. 지금까지는 군집 방법의 비교 연구가 주로 진행되어 왔으나, 군집화 이전의 유전선택 방법에 따라 군집화 결과가 달라지기 때문에 유전자 선택 단계도 같이 고려되어야 한다. 따라서 본 연구에서는 Time Control Microarray 자료를 가지고 군집 분석을 하는데 있어서 유전자 선택, 군집분석 방법의 선택, Validation 방법의 선택 등 3가지 요인별로 보다 폭 넓은 비교 연구를 하였다.

  • PDF

The Method of Gene Selection for Machine Learning Classifiers In Career Classification (암 분류를 목적으로 하는 기계 학습 분류기를 위한 효과적인 유전자 선택 방법)

  • 박형근;이수정;이일병
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10a
    • /
    • pp.205-207
    • /
    • 2004
  • 유전자 발현 분석 시스템에 있어서 microarray 기술의 발전은 유전 질환 진단의 정확성과 신뢰도를 향상시키는 데에 큰 기여를 하였다. 다양한 microarray기술을 통해 얻은 대량의 유전자 발현 정보는 기계 학습분류기를 이용한 암의 분류와 진단, 예측 분야에도 효과적으로 이용될 수 있다. 이 과정에서 종류에 따른 암의 정확한 분류를 위해서는 되도록 해당 암 클래스와의 직접적인 연관이 있는 유전자만을 선택하여 활용하는 것이 효과적이다. 본 논문에서는 이러한 정보력 있는 유전자(informative gene)를 효과적으로 선택 할 수 있는 유전자 선택 방법을 제시하고, 이를 이용하여 세 가지 벤치마크 암 데이터에 대하여 체계적인 실험을 하였다. 그 결과 향상된 분류 성능을 확인할 수 있었다.

  • PDF