• 제목/요약/키워드: 유전자 선택

검색결과 614건 처리시간 0.03초

전진 선택법을 이용한 유전자 발현정보 기반의 암 분류 (Cancer Classification with Gene Expression Profiles using Forward Selection Method)

  • 유시호;조성배
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (상)
    • /
    • pp.293-296
    • /
    • 2003
  • 유전 발현 데이터는 생명체의 특정 조직에서 채취한 샘플을 microarray상에서 측정한 것으로 유전자들의 발현 정도가 수치로 나타난 데이터이다. 일반적으로 정상조직과 이상조직에서 관련 유전자들의 발현 정도는 차이를 보이기 때문에, 유전발현 데이터를 통하여 암을 분류할 수 있다. 하지만 분류에 모든 유전자가 관여하지는 않으므로 관련성 있는 유전자만을 선별해내는 작업인 특징 선택방법이 필요하다. 본 논문에서는 회귀분석의 변수선택방법중 하나인 전진 선택법(forward selection method)을 사용하여 유전자들을 선택하고 분류하는 방법을 제안한다. 실험데이터는 대장암 데이트를 사용하였고, 분류기는 KNN을 사용하였다. 이 방법과 상관계수를 이용한 특징 선택 방법인 피어슨 상관계수와 스피어맨 상관계수방법과 비교해본 결과 전진 선택법에 의한 특징 선택방법이 암의 분류에 있어서 더 효과적인 유전자 선택을 한다는 사실을 확인하였다. 실험결과 90.3%의 높은 인식률을 보였다.

  • PDF

마이크로어레이 데이터를 이용한 점증적 유전자 선택기반 암 분류 (Incremental Gene Selection-based Cancer Classification Using Microarray Data)

  • 권형태;홍진혁;조성배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 가을 학술발표논문집 Vol.34 No.2 (B)
    • /
    • pp.7-10
    • /
    • 2007
  • 마이크로어레이 데이터는 매우 많은 수의 유전자로 구성되며, 암 분류 성능을 높이기 위해서는 대상 암과 관련된 유용한 유전자를 선택해야 한다. 기존 필터 기반 유전자 선택 기법은 유전자를 개별적으로 평가하여 암 분류에 사용하기 때문에, 유전자 사이의 관계나 분류기와의 상관성을 고려하지 않으며, 비슷한 특성의 유전자를 중복해서 선택하는 경향이 있다. 본 논문에서는 필터와 래퍼 방식을 결합하여 분류결과를 반복적으로 반영하며 유전자를 선택하는 기법을 제안한다. 필터 기법으로 유전자의 순위를 계산할 때 이전 분류에서 틀린 샘플의 가중치가 높도록 설계하고, 분류를 반복하면서 각 단계에서 유용한 유전자를 추가로 선택한다. 제안하는 방법을 대표적 암 분류 데이터인 림포마 암과 대장암 데이터에 적용하여 유용성을 검증하였다.

  • PDF

클래스 정보에 기반한 유전자 선택 (Gene Selection based on Class Information)

  • 이현진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 추계학술발표논문집(상)
    • /
    • pp.469-472
    • /
    • 2004
  • 여러 분류 문제에 다층퍼셉트론이 적용되어 좋은 성능을 보이고 있다. 하지만, 암 분류를 위한 분류기로 사용되는데 있어서 문제점은 샘플데이터 수에 비해 입력으로 사용되는 유전자의 수가 너무 많기 때문에 좋은 성능을 기대하기 힘들다는 점이다. 또한 많은 입력노드로 인해 가중치 파라메터들의 수가 증가하기 때문에 학습시에 계산량의 부담을 가중시킨다. 따라서 본 논문에서는 많은 유전자중에서 암분류에 중요한 영향을 끼치는 유전자를 선택하는 방법을 제안한다. 이러한 유전자 선택을 위하여 클래스의 정보를 나타내는 척도를 분석하고 이를 기반으로 하여 분류율을 향상시킬 수 있는 유전자를 선택하는 방법을 제안한다. 이렇게 선택된 유전자를 입력으로 하여 분류기를 구성하여, 제안하는 방법의 우수성을 검증한다.

  • PDF

전진선택법에 의해 선택된 부분 상관관계의 유전자들을 이용한 암 분류 (Classifying Cancer Using Partially Correlated Genes Selected by Forward Selection Method)

  • 유시호;조성배
    • 대한전자공학회논문지SP
    • /
    • 제41권3호
    • /
    • pp.83-92
    • /
    • 2004
  • 유전 발현 데이터는 생명체의 특정 조직에서 채취한 샘플을 마이크로어레이상에서 측정한 것으로, 유전자들의 발현 정도가 수치로 나타난 데이터이다. 일반적으로 정상조직과 이상조직에서 관련 유전자들의 발현 정도는 차이를 보이기 때문에 유전 발현 데이터를 통하여 암을 분류할 수 있다. 그러나 분류에 모든 유전자가 관여하지는 않으므로 효율적인 암의 분류를 위해서는 관련성 있는 소수의 유전자만을 선별해내는 작업인 특징선택 방법이 필요하다. 본 논문에서는 회귀분석의 변수선택방법중 하나인 전진 선택법(forward selection method)을 사용하여 유전자들을 선하고 분류하는 방법을 제안한다. 이 방법은 선택되는 유전자들의 중복된 정보를 최소화시켜 암의 분류에 있어 보다 효과적인 유전자 선택을 한다. 실험데이터는 대장암 데이터(Colon cancer dataset)를 사용하였고, 분류기는 k-최근접 이웃(KNN)을 사용하였다. 이 방법과 상관계수를 이용한 특징 선택방법인 피어슨 상관계수와 스피어맨 상관계수방법과 비교해본 결과 전진 선택법에 의한 특징선택 방법이 암의 분류에 있어서 더 효과적인 유전자 선택을 한다는 사실을 확인하였다. 실험결과 90.3%의 높은 인식률을 보였다. 추가적으로 림프종 데이터에 대한 실험을 하였고, 그 결과 전진 선택법의 유용성을 확인할 수 있었다.

기계학습 접근법에 기반한 유전자 선택 방법들에 대한 리뷰 (A review of gene selection methods based on machine learning approaches)

  • 이하정;김재직
    • 응용통계연구
    • /
    • 제35권5호
    • /
    • pp.667-684
    • /
    • 2022
  • 유전자 발현 데이터는 각 유전자에 대해 mRNA 양의 정도를 나타내고, 그러한 유전자 발현량에 대한 분석은 질병 발생에 대한 메커니즘을 이해하고 새로운 치료제와 치료 방법을 개발하는데 중요한 아이디어를 제공해오고 있다. 오늘날 DNA 마이크로어레이와 RNA-시퀀싱과 같은 고출력 기술은 수천 개의 유전자 발현량을 동시에 측정하는 것을 가능하게 하여 고차원성이라는 유전자 발현 데이터의 특징을 발생시켰다. 이러한 고차원성으로 인해 유전자 발현 데이터를 분석하기 위한 학습 모형들은 과적합 문제에 부딪히기 쉽고, 이를 해결하기 위해 차원 축소 또는 변수 선택 기술들이 사전 분석 단계로써 보통 사용된다. 특히, 사전 분석 단계에서 우리는 유전자 선택법을 이용하여 부적절하거나 중복된 유전자를 제거할 수 있고 중요한 유전자를 찾아낼 수도 있다. 현재까지 다양한 유전자 선택 방법들이 기계학습의 맥락에서 개발되어왔다. 본 논문에서는 기계학습 접근법을 사용하는 최근의 유전자 선택 방법들을 집중적으로 살펴보고자 한다. 또한, 현재까지 개발된 유전자 선택 방법들의 근본적인 문제점과 앞으로의 연구 방향에 대해 논의하고자 한다.

유전자 알고리즘에서 수렴속도 향상을 위한 새로운 토너먼트 선택 기법 (A New Tournament Selection Technique for Fast Convergence in Genetic Algorithms)

  • 이용채;손진곤
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (B)
    • /
    • pp.139-141
    • /
    • 2006
  • 유전자 알고리즘에서 좋은 염색체(chromosome)를 선택하는 방법은 알고리즘의 성능을 향상시키는데 매우 중요한 핵심 요소이다. 이러한 선택 기법 중에는 비례 선택 기법, 순위기반 선택 기법, 토너먼트 선택기법 등이 잘 알려져 있다. 이 중 가장 성능이 좋은 토너먼트 선택 기법은 열성 염색체중 우성인 유전자를 포함하는 열성 염색체가 선택에서 배제되어 지역적 최적해(local minima)를 구할 가능성, 열성 염색체가 다음 세대 진화를 방해할 가능성 등의 문제점을 가지고 있다. 본 논문에서는 토너먼트 선택 기법의 문제점을 해결하기 위해서 토너먼트-교배 선택 기법을 제안하였다. 이 방법은 토너먼트 선택 기법을 기반으로 하되 열성 염색체가 선택되었을 경우 그 안에 들어 있는 우성 유전자를 알고리즘 진화에 반영시키고자 교배 단계를 추가한 기법이다. 제안된 토너먼트-교배 선택 기법을 이용하면 기존의 토너먼트 선택 기법보다 평균수행시간이 짧아져 해에 수렴하는 속도가 향상된다.

  • PDF

나이브 베이스 분류기를 이용한 유전발현 데이타기반 암 분류를 위한 순위기반 다중클래스 유전자 선택 (Rank-based Multiclass Gene Selection for Cancer Classification with Naive Bayes Classifiers based on Gene Expression Profiles)

  • 홍진혁;조성배
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제35권8호
    • /
    • pp.372-377
    • /
    • 2008
  • 최근 활발히 연구가 진행 중인 유전발현 데이타를 이용한 다중클래스 암 분류는 DNA 마이크로어레이로부터 획득된 대규모의 유전자 정보를 분석하여 암의 종류를 판단한다. 수집된 유전발현 데이타에는 대상 암과 관련이 없는 유전자도 포함되어 있기 때문에 높은 성능의 분류 결과를 얻기 위해서 유용한 유전자를 선택하는 것이 필요하다. 기존의 순위기반 유전자 선택은 이진클래스를 대상으로 고안되었고 이상표식 유전자(Ideal marker gene)를 이용하기 때문에 다중클래스 암 분류에 직접 적용하기에는 한계가 있다. 본 논문에서는 이상표식 유전자를 사용하지 않고 유전발현 수준의 분포를 직접 분석하는 순위기반 다중클래스 유전자 선택 기법을 제안한다. 유전발현 수준을 이산화하고 학습 데이타로부터 빈도를 계산하여 클래스 간 분별력을 측정한 후, 선택된 유전자를 이용하여 나이브 베이즈 분류기를 사용해 다중 암 분류를 수행한다. 제안하는 방법을 다수의 다중클래스 암 분류 데이타에 적용하여 기존 유전자 선택 방법에 비해 우수함을 확인하였다.

유전자 알고리즘과 신경망을 이용한 DNA Chip유전자 선택 방법 연구 (DNA Chip Gene Selection Method Research using Genetic Algorithm and Neural Network)

  • 이호일;최요한;윤경오;김명선;강연수;박현석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.289-291
    • /
    • 2005
  • 최근 유전자 칩의 발전으로 다양하고 방대한 양의 유전자 정보를 이용한 정확하고 신뢰성 높은 분류, 군집 및 질병을 예측하는 분석 기법이 증가하고 있다. 하지만 특징적인 유전자를 선택하는 Gene Selection 기법의 종류는 많지가 않으며 주로 통계적인 방법에 의존하여 유전자를 선택하는 기법을 많이 사용하고 있다. 본 논문에서는 유전자 알고리즘과 신경망의 결합을 통한 데이터마이닝을 기반으로 신뢰성 높은 특징적인 유전자를 선택하는 Gene Selection 기법에 대하여 연구을 진행하였다.

  • PDF

Time Control Microarray 자료의 군집 분석에 관한 고찰

  • 손인석;이재원
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2003년도 춘계 학술발표회 논문집
    • /
    • pp.299-304
    • /
    • 2003
  • 생물학자들은 시간 패턴에 따라 발현 수준이 변화하는 유전자의 군집화를 시도하고 있다. 지금까지는 군집 방법의 비교 연구가 주로 진행되어 왔으나, 군집화 이전의 유전선택 방법에 따라 군집화 결과가 달라지기 때문에 유전자 선택 단계도 같이 고려되어야 한다. 따라서 본 연구에서는 Time Control Microarray 자료를 가지고 군집 분석을 하는데 있어서 유전자 선택, 군집분석 방법의 선택, Validation 방법의 선택 등 3가지 요인별로 보다 폭 넓은 비교 연구를 하였다.

  • PDF

암 분류를 목적으로 하는 기계 학습 분류기를 위한 효과적인 유전자 선택 방법 (The Method of Gene Selection for Machine Learning Classifiers In Career Classification)

  • 박형근;이수정;이일병
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (1)
    • /
    • pp.205-207
    • /
    • 2004
  • 유전자 발현 분석 시스템에 있어서 microarray 기술의 발전은 유전 질환 진단의 정확성과 신뢰도를 향상시키는 데에 큰 기여를 하였다. 다양한 microarray기술을 통해 얻은 대량의 유전자 발현 정보는 기계 학습분류기를 이용한 암의 분류와 진단, 예측 분야에도 효과적으로 이용될 수 있다. 이 과정에서 종류에 따른 암의 정확한 분류를 위해서는 되도록 해당 암 클래스와의 직접적인 연관이 있는 유전자만을 선택하여 활용하는 것이 효과적이다. 본 논문에서는 이러한 정보력 있는 유전자(informative gene)를 효과적으로 선택 할 수 있는 유전자 선택 방법을 제시하고, 이를 이용하여 세 가지 벤치마크 암 데이터에 대하여 체계적인 실험을 하였다. 그 결과 향상된 분류 성능을 확인할 수 있었다.

  • PDF