• Title/Summary/Keyword: 유전자 발현 데이터

Search Result 190, Processing Time 0.032 seconds

Conditional Variational Autoencoder-based Generative Model for Gene Expression Data Augmentation (유전자 발현량 데이터 증대를 위한 Conditional VAE 기반 생성 모델)

  • Hyunsu Bong;Minsik Oh
    • Journal of Broadcast Engineering
    • /
    • v.28 no.3
    • /
    • pp.275-284
    • /
    • 2023
  • Gene expression data can be utilized in various studies, including the prediction of disease prognosis. However, there are challenges associated with collecting enough data due to cost constraints. In this paper, we propose a gene expression data generation model based on Conditional Variational Autoencoder. Our results demonstrate that the proposed model generates synthetic data with superior quality compared to two other state-of-the-art models for gene expression data generation, namely the Wasserstein Generative Adversarial Network with Gradient Penalty based model and the structured data generation models CTGAN and TVAE.

Screening and Clustering for Time-course Yeast Microarray Gene Expression Data using Gaussian Process Regression (효모 마이크로어레이 유전자 발현데이터에 대한 가우시안 과정 회귀를 이용한 유전자 선별 및 군집화)

  • Kim, Jaehee;Kim, Taehoun
    • The Korean Journal of Applied Statistics
    • /
    • v.26 no.3
    • /
    • pp.389-399
    • /
    • 2013
  • This article introduces Gaussian process regression and shows its application with time-course microarray gene expression data. Gene screening for yeast cell cycle microarray expression data is accomplished with a ratio of log marginal likelihood that uses Gaussian process regression with a squared exponential covariance kernel function. Gaussian process regression fitting with each gene is done and shown with the nine top ranking genes. With the screened data the Gaussian model-based clustering is done and its silhouette values are calculated for cluster validity.

The gene prediction method considering stages of cancer, obtained by integrating gene expression, genetic interaction data and document (문헌정보와 유전자 발현 및 상호 작용 데이터를 통합, 암의 단계를 고려한 질병 유전자 예측 방법)

  • Kim, Jungrim;Yeu, Yunku;Park, Sanghyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.11a
    • /
    • pp.1113-1116
    • /
    • 2013
  • 유전체에 대한 관심이 크게 증가하면서, 이에 따른 다양한 연구가 이루어졌다. 그 결과 유전체와 관련된 다양한 종류의 데이터가 얻어졌으며, 그것을 해석하고 다른 데이터와 통합하는 것이 중요한 연구과제 중 하나가 되었다. 본 논문은 유전자 상호작용(genetic interaction) 데이터, 유전자 발현 데이터, 문헌으로부터 텍스트마이닝 기술을 통해 얻은 이종(heterogeneous) 데이터를 통합하여 암과 관련이 있는 유전자를 찾는 실험을 수행하였다. 또한, 단순히 질병(disease)-정상(normal)의 대조가 아니라 암의 단계(stage)를 고려한 실험을 수행하였다. 데이터를 통합하지 않거나 암의 단계를 고려하지 않았을 경우에 비하여 제안하는 방법이 더 높은 유전자 예측 성능을 나타냈다.

Gene filtering based on fuzzy pattern matching for whole genome micro array data analysis (마이크로어레이 데이터의 게놈수준 분석을 위한 퍼지 패턴 매칭에 의한 유전자 필터링)

  • Lee, Sun-A;Lee, Keon-Myung;Lee, Seung-Joo;Kim, Wun-Jea;Kim, Yong-June;Bae, Suk-Cheol
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.18 no.4
    • /
    • pp.471-475
    • /
    • 2008
  • Microarray technology in biological science enables molecular level observations and analyses on the biological phenomina by allowing to measure the RNA expression profiles in cells. Microarray data analysis is applied in various purposes such as identifying significant genes which react to drug treatment, understanding the genome scale phenomina. In drug response experiments, the microarray-based gene expression analysis could provide meaningful information. It is sometimes needed to identify the genes which shows different expression behavior for treatment group and normal group each other. When the normal group shows the medium level expression, it is not easy to discriminate the group just by expression level comparison. This paper proposes a method which selects group-wise representative values for each gene and sets the value range of the groups in order to filter out the genes with specific pattern. It also shows some experiment results.

Feature Selection and Classification Methods for Tumor Classification (종양 분류를 위한 특징 추출 및 분류 기법)

  • Park, Yun-Jung;Lee, Min-Su;Park, Seung-Soo
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.799-801
    • /
    • 2005
  • 현재 마이크로어레이 기술은 대량의 유전자 발현 데이터 특히 종양과 관련한 데이터들을 쏟아내고 있다. 이 데이터를 기반으로 종양의 종류에 따른 유전자들의 차별적 발현 양상을 분석하고 발현량의 변화가 두드러지는 유전자들에 기반하여 종양을 분별할 수 있는 분류 모델을 구축한 후, 이것을 종양을 진단하거나 예측하는데 이용할 수 있다. 대부분의 종양은 생성 매커니즘에 따라 세부 부류로 나눌 수 있고 세부 부류에 따라 치료 방법이나 예후가 달라지므로, 정확하게 종양의 세부 부류를 진단하는 것이 매우 중요하다. 본 논문에서는 종양의 종류에 따라 발현량이 민감하게 변화하는 유전자들을 뽑아내기 위한 특징 추출 방법들과 추출된 특징들에 기반해서 종양의 종류를 분별할 수 있는 기계학습 알고리즘들의 조합들의 성능을 비교분석 하였다.

  • PDF

Classifying Cancer Using Partially Correlated Genes Selected by Forward Selection Method (전진선택법에 의해 선택된 부분 상관관계의 유전자들을 이용한 암 분류)

  • 유시호;조성배
    • Journal of the Institute of Electronics Engineers of Korea SP
    • /
    • v.41 no.3
    • /
    • pp.83-92
    • /
    • 2004
  • Gene expression profile is numerical data of gene expression level from organism measured on the microarray. Generally, each specific tissue indicates different expression levels in related genes, so that we can classify cancer with gene expression profile. Because not all the genes are related to classification, it is needed to select related genes that is called feature selection. This paper proposes a new gene selection method using forward selection method in regression analysis. This method reduces redundant information in the selected genes to have more efficient classification. We used k-nearest neighbor as a classifier and tested with colon cancer dataset. The results are compared with Pearson's coefficient and Spearman's coefficient methods and the proposed method showed better performance. It showed 90.3% accuracy in classification. The method also successfully applied to lymphoma cancer dataset.

Constructing Gene Regulatory Networks using Temporal Relation Rules from 3-Dimensional Gene Expression Data (3차원 유전자 발현 데이터에서의 시간 관계 규칙을 이용한 유전자 상호작용 조절 네트워크 구축)

  • Meijing Li;Jin Hyoung Park;Heon Gyu Lee;Keun Ho Ryu
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2008.11a
    • /
    • pp.340-343
    • /
    • 2008
  • 유전자들은 복잡한 상호작용을 통해 세포의 기능이 조절된다. 상호작용하는 유전자 그룹들을 유전자 조절 네트워크라고 한다. 기존의 유전자 조절 네트워크는 2D microarray 데이터를 이용하여 시간의 흐름에 따른 유전자간의 상호작용을 알 수가 없었다. 이 논문에서는 시간의 변화에 따른 유전자들 간의 조절관계를 살펴 볼 수 있는 조절네트워크 모델링의 방법을 제시한다. 유전자의 발현양을 표시하기 위해 이진 이산화 방법을 사용하였고 3D microarray 데이터에서 유전자 발현 패턴을 찾기 위해 Cube mining 알고리즘을 적용하였고, 유전자간의 관계를 밝히기 위해 시간 관계 규칙탐사 기법을 사용하여 유전자들 간의 시간 관계를 포함한 유전자 조절네트워크를 구축하였다. 이 연구는 시간의 흐름에 따른 유전자간의 상호작용을 알 수 있으며, 모델링된 조절 네트워크를 이용하여 기능이 아직 발견되지 않은 유전자들의 기능을 예측 할 수 있다.

Candidate Significant Gene Recommendation with Symbolic Encoding of Microarray Data (마이크로어레이 데이터의 기호코딩을 통한 유의한 후보 유전자 검출)

  • Lee, Geon-Myeong;Lee, Hye-Ri;Kim, Won-Jae;Yun, Seok-Jung;Kim, Yong-Jun;Jeong, Pil-Du;Kim, Eun-Jeong
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2007.04a
    • /
    • pp.417-420
    • /
    • 2007
  • 마이크로어레이는 생명과학 분야에서 사용되는 대규모의 유전자 발현정도를 동시에 측정할 수 있는 도구이다. 마이크로어레이 실험은 많은 양의 데이터를 생성하기 때문에, 자동화된 효과적인 분석기법이 필요하다. 이 논문에서는 약물의 영향 분석을 위해 약물의 투여량 및 투여후의 시간대별로 샘플을 추출하여, 마이크로어레이를 이용하여 유전자의 발현량을 분석하는 경우에, 약물에 대해서 반응하는 유전자를 추출하는 데이터 마이닝 기법을 제안한다. 제안한 방법에서는 유전자의 발현정도값을 이전 시간의 값을 기준값으로 하여 증가, 감소, 답보에 해당하는 기호로 매핑하여, 분석자가 원하는 패턴을 보이는 유전자를 추천한다. 한편, 유전자의 상호간에 많은 영향을 주고 받기 때문에 특정 약물을 투여할 때, 이에 직접적인 영향을 받는 것도 있지만, 이와는 전혀 상관없이 동작하는 것도 있기 때문에, 제안한 방법에서는 이러한 약물 투여와 유의성이 있을 가능성이 있는 유전자만을 전처리과정을 통해서 필터링하는 기법을 활용한다. 제안한 방법은 실제 약물 투여 실험 샘플에 대한 마이크로어레이 데이터에 적용하여 활용가능성을 확인하였다.

  • PDF

Fuzzy Clustering Algorithm to Predict Cancer Class Using Gene Expression Data (유전자 발현 데이터를 이용한 암의 클래스 예측을 위한 퍼지 클러스터링 알고리즘)

  • 원홍희;유시호;조성배
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10b
    • /
    • pp.757-759
    • /
    • 2003
  • 암의 치료법은 같은 종류의 암이라 해도 그 하부 클래스에 따라 매우 다르기 때문에 암의 클래스를 예측하는 것은 그 정확한 치료를 위하여 매우 중요하다. 유전자 발현 데이터를 이용한 암의 분류에 있어 기존의 연구들은 각 데이터를 하나의 클러스터에 소속시키는 하드 분할(hard partition)에 의한 분할 방식을 사용하는 하드 클러스터링을 사용하였다. 하지만 일반적으로 유전자 발현 암 데이터와 같은 실세계의 데이터는 쉽게 나뉘어지기 힘들거나 클러스터 간의 경계가 분명하지 않기 때문에 하드 클러스터링 기법은 주어진 데이터의 성질을 손실시킬 수 있는데 반해, 퍼지 클러스터링 기법은 각 데이터가 소속 정도에 따라 여러 개의 클러스터에 속할 수 있도록 분할하기 때문에 이러한 손실을 최소화할 수 있다. 따라서 본 논문에서는 퍼지 클러스터링의 대표적인 방법인 fuzzy c-means 클러스터링을 적용하여 암의 클래스를 예측하고, 다양한 하드 클러스터링 방법과 비교함으로써 퍼지 클러스터링의 성능을 검증하였다.

  • PDF

Classification of Lymphoma Dataset with Combinatorially Correlated Feature Set (통합 상관된 특징 집합을 이용한 림프종 데이터의 분류)

  • Park, Chan-Ho;Cho, Sung-Bae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.05a
    • /
    • pp.321-324
    • /
    • 2003
  • 근래, DNA microarray와 관련된 기술의 발달은 한번에 수천 개 이상의 유전자발현데이터를 얻을 수 있게 해주었고, 많은 연구기관에서 이를 이용한 질병 분류에 관하여 연구를 진행하고 있다. 하지만 수천 개의 유전자 모두가 암에 관계된 것은 아니기 때문에, 관련 유전자의 선별 작업을 먼저 수행하는 것이 필요하며, 이를 위하여 통계기반 방법, 정보이론기반 방법 등 다양한 방법이 사용되고 있다. 본 논문에서는 의미 있는 유전자를 선택하는 방법으로서, 일반적인 순위-기반 방법이 양의 상관관계만 이용한다는 점을 보완하여, 유전자와 학습데이터 사이의 음의 상관관계까지도 고려한 방법을 제시하였다. 제안한 방법의 성능을 검증하고자 잘 알려진 암 관련 유전자발현데이터이인 림프종 데이터에 대하여, MLP와 KNN을 이용한 분류를 해 보았다. 실험 걸과 총합 상관관계를 가지는 특징 집합이 일반적인 순위-기반 방식의 특징 집합에 비하여 높은 분류 인식률을 보여주었다.

  • PDF