• Title/Summary/Keyword: 마이크로어레이 데이터

Search Result 103, Processing Time 0.022 seconds

Comparison of clustering with yeast microarray gene expression data (효모 마이크로어레이 유전자발현 데이터에 대한 군집화 비교)

  • Lee, Kyung-A;Kim, Jae-Hee
    • Journal of the Korean Data and Information Science Society
    • /
    • v.22 no.4
    • /
    • pp.741-753
    • /
    • 2011
  • We accomplish clustering analyses for yeast cell cycle microarray expression data. We compare model-based clustering, K-means, PAM, SOM and hierarchical Ward method with yeast data. As the validity measure for clustering results, connectivity, Dunn Index and silhouette values are computed and compared.

Performance Comparison of Multiclass Classification Methods for cancer Classification (암 분류를 위한 분류기법의 성능비교)

  • Park Yun-Jung;Park Seung-Soo
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06b
    • /
    • pp.220-222
    • /
    • 2006
  • 현재 마이크로어레이 기술은 대량의 유전자 발현 데이터 특히 암과 관련한 데이터들을 쏟아내고 있다. 이 데이터를 기반으로 암의 종류에 따른 유전자들의 차별적 발현 양상을 분석하고 발현량의 변화가 두드러지는 유전자들에 기반하여 암을 분별할 수 있는 분류 모델을 구축한 후, 이것을 암을 진단하거나 예측하는데 이용할 수 있다. 본 논문에서는 마이크로어레이 데이터를 사용해 특징추출방법과 분류를 위한 Naive Bayes, k-Nearest Neighborhood, Decision Tree, Support Vector Machine, Neural Network 알고리즘을 이용하여 최적의 조합을 찾고 어떤 알고리즘이 가장 효과적인지 실험을 통해 분석해보고 성능평가 하는 것을 목표로 한다.

  • PDF

Incremental Gene Selection-based Cancer Classification Using Microarray Data (마이크로어레이 데이터를 이용한 점증적 유전자 선택기반 암 분류)

  • Kown, Hyung-Tae;Hong, Jin-Hyuk;Cho, Sung-Bae
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.10b
    • /
    • pp.7-10
    • /
    • 2007
  • 마이크로어레이 데이터는 매우 많은 수의 유전자로 구성되며, 암 분류 성능을 높이기 위해서는 대상 암과 관련된 유용한 유전자를 선택해야 한다. 기존 필터 기반 유전자 선택 기법은 유전자를 개별적으로 평가하여 암 분류에 사용하기 때문에, 유전자 사이의 관계나 분류기와의 상관성을 고려하지 않으며, 비슷한 특성의 유전자를 중복해서 선택하는 경향이 있다. 본 논문에서는 필터와 래퍼 방식을 결합하여 분류결과를 반복적으로 반영하며 유전자를 선택하는 기법을 제안한다. 필터 기법으로 유전자의 순위를 계산할 때 이전 분류에서 틀린 샘플의 가중치가 높도록 설계하고, 분류를 반복하면서 각 단계에서 유용한 유전자를 추가로 선택한다. 제안하는 방법을 대표적 암 분류 데이터인 림포마 암과 대장암 데이터에 적용하여 유용성을 검증하였다.

  • PDF

A Method of Identifying Disease-related Significant Pathways Using Time-Series Microarray Data (시간열 마이크로어레이 데이터를 이용한 질병 관련 유의한 패스웨이 유전자 집합의 검출)

  • Kim, Jae-Young;Shin, Mi-Young
    • Journal of the Institute of Electronics Engineers of Korea CI
    • /
    • v.47 no.5
    • /
    • pp.17-24
    • /
    • 2010
  • Recently the study of identifying bio-markers for disease diagnosis and prognosis has been actively performed. In particular, lots of attentions have been paid to the finding of pathway gene-sets differentially expressed in disease patients rather than the finding of individual gene markers. In this paper we propose a novel method to identify disease-related pathway gene-sets based on time-series microarray data. For this purpose, we firstly compute individual gene scores by the using maSigPro (microarray Significant Profiles) and then arrange all the genes in the decreasing order of the corresponding gene scores. The rank of each gene in the entire list is used to evaluate the statistical significance of candidate gene-sets with Wilcoxson rank sum test. For the generation of candidate gene-sets, MSigDB (Molecular Signatures Database) pathway information has been employed. The experiment was conducted with prostate cancer time-series microarray data and the results showed the usefulness of the proposed method by correctly identifying 6 out of 7 biological pathways already known as being actually related to prostate cancer.

Gene Expression Data Analysis Using Seed Clustering (시드 클러스터링 방법에 의한 유전자 발현 데이터 분석)

  • Shin Myoung
    • Journal of the Institute of Electronics Engineers of Korea CI
    • /
    • v.42 no.1
    • /
    • pp.1-7
    • /
    • 2005
  • Cluster analysis of microarray data has been often used to find biologically relevant Broups of genes based on their expression levels. Since many functionally related genes tend to be co-expressed, by identifying groups of genes with similar expression profiles, the functionalities of unknown genes can be inferred from those of known genes in the same group. In this Paper we address a novel clustering approach, called seed clustering, and investigate its applicability for microarray data analysis. In the seed clustering method, seed genes are first extracted by computational analysis of their expression profiles and then clusters are generated by taking the seed genes as prototype vectors for target clusters. Since it has strong mathematical foundations, the seed clustering method produces the stable and consistent results in a systematic way. Also, our empirical results indicate that the automatically extracted seed genes are well representative of potential clusters hidden in the data, and that its performance is favorable compared to current approaches.

Identification of Contrasting Local Clusters (대조적인 지역 클러스터 식별)

  • Lee, Keon-Myung;Lee, Sun-A;Hwang, Kyung-Soon;Lee, Chan-Hee
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2008.04a
    • /
    • pp.286-287
    • /
    • 2008
  • 마이크로어레이 데이터는 여러 샘플들의 대량의 유전자들에 대한 발현정보를 표현하며, 이에 대한 분석을 통해서 생명현상에 대한 이해와 분석이 이루어지고 있다. 생명현상이 유전자의 발현에 많은 영향을 받는 것이 알려져있기 때문에 실험 샘플 집단내에서 또는 실험 샘플 집단간에서 발현 특성이 대조적으로 나타나는 유전자의 집단을 추출하는 것이 유용한 경우가 있다. 이 논문에서 관심영역으로 선택된 영역에 대해서 대조적인 패턴을 갖는 집단을 알고리즘적으로 선택하는 방법을 제안한다.

  • PDF

Clustering gene expression data using Non -Negative matrix factorization (Non-negative matrix factorization 을 이용한 마이크로어레이 데이터의 클러스터링)

  • Lee, Min-Young;Cho, Ji-Hoon;Lee, In-Beum
    • Proceedings of the Korean Society for Bioinformatics Conference
    • /
    • 2004.11a
    • /
    • pp.117-123
    • /
    • 2004
  • 마이크로어레이 (microarray) 기술이 개발된 후로 연관된 유전자 클러스터 (cluster)를 찾는 문제는 깊이 연구되어왔다. 이 문제는 핵심적인 과제 중 하나는 생물학적으로 타당한 클러스터의 수를 결정하는 데 있다. 본 논문은 최적의 클러스터 수를 결정하는 기준을 제시하고, non-negative factorization (NMF)를 이용해 클러스터 centroid의 패턴을 찾는 방법을 제안한다. NMF에 의해 발견된 각각의 패턴은 생물학적 프로세스의 특정 부분으로 해석될 수 있다. NMF는 factor matrix의 entity를 non-negative로 제약 (constraint)하고, 이 제약은 오직 additive combination만 허용하기 때문에 이러한 부분적인 패턴을 찾아낼 수 있다. NMF의 유용성은 이미지 분석과 텍스트 분석에서 이미 입증되어 있다. 본 논문에서 제안한 방법에 의해 위의패턴과 유사한 발현 패턴을 갖는 유전자를 모을 수 있었다. 제안된 방법은 human fibroblast데이터와 yeast cell cycle 데이터에 적용해 성능을 입증하였다.

  • PDF

Biomarker Detection on Aptamer-based Biochip Data by Potential SVM (Potential SVM을 이용한 압타머칩에서의 바이오마커 탐색)

  • Kim, Byoung-Hee;Kim, Sung-Chun;Zhang, Byoung-Tak
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10a
    • /
    • pp.22-27
    • /
    • 2006
  • 압타머칩은 혈청(serum) 내의 지정된 단백질의 상대적 양을 직접 측정할 수 있는 바이오칩으로서, 의학적 질병 진단에 유용하게 사용할 수 있는 툴이다. 압타머칩 데이터 분석에는 기존의 마이크로어레이 분석기법을 그대로 적용할 수 있다. 본 논문에서는 Potential SVM(PSVM)을 이용하여, 심혈관질환 샘플 기반의 압타머칩 데이터에서 바이오마커 후보 단백질을 선정한 결과를 정리한다. PSVM은 분류 알고리즘으로서 뿐만 아니라 자질 선택(feature selection)에서도 우수한 성능을 보이는 알고리즘으로 알려져 있다. 심혈관 질환의 단계에 따라 구분한 4개 클래스, 135개 샘플로 구성된 3K 압타머칩 데이터에 대해 PSVM을 적용하여 자질을 선택하고 분류성능을 측정한 결과, 마이크로어레이에서의 자질 선택에 많이 사용되는 Gain Ratio 기법과 비교하여 보다 적은 수의 단백질 정보로 보다 나은 분류 성능을 보임을 확인하였다. 더불어, PSVM을 이용해 선택한 단백질군을 심혈관 질환 진단을 위한 바이오마커 후보로 제시한다.

  • PDF

Inference of Gene Regulatory Program using Local Alignment (지역정렬을 이용한 유전자 발현 조절 프로그램 예측)

  • Lee, Ji-Yeon;Jin, Hee-Jeong;Cho, Hwan-Gue
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10a
    • /
    • pp.11-16
    • /
    • 2006
  • 세포의 활동은 단순히 하나의 유전자의 발현으로 설명되기보다 여러 유전자와 그로 인해 생성된 단백질의 상호 작용에 의해 나타난다. 또한 마이크로어레이 실험을 통해 세포 내의 유전자 발현에 대한 정보를 알 수 있게 되고, Chromatin IP 마이크로어레이 실험을 통해 신뢰도가 높은 유전자 발현 조절 관계 데이터를 얻을 수 있게 되면서, 유사한 기능과 유사한 발현 패턴을 보이는 유전자들을 그룹으로 묶어 유전자 모듈로 규정하고 이를 하나의 유전자 조절 네트워크로 구성하고, 분석하는 연구들이 진행되고 있다. 본 논문에서는 ChIP 실험 데이터와 유전자 발현 데이터를 이용하여 지역 정렬을 수행해 하나의 유전자 모듈을 조절하는 조절 프로그램을 예측하는 알고리즘에 대해 기술한다. 조절 프로그램은 유전자 조절 모듈을 조절하는 조절자들의 역할 및 발현 여부에 따른 유전자 조절 모듈 내 유전자들의 발현을 설명할 수 있는 것이다.

  • PDF

Clustering of Time-Course Microarray Data Using Pharmacokinetic Parameter (약동학적 파라미터를 이용한 시간경로 마이크로어레이 자료의 군집분석)

  • Lee, Hyo-Jung;Kim, Peol-A;Park, Mi-Ra
    • The Korean Journal of Applied Statistics
    • /
    • v.24 no.4
    • /
    • pp.623-631
    • /
    • 2011
  • A major goal of time-course microarray data analysis is the detection of groups of genes that manifest similar expression patterns over time. The corresponding numerous cluster algorithms for clustering time-course microarray data have been developed. In this study, we proposed a clustering method based on the primary pharmacokinetic parameters in the pharmacokinetics study for assessment of pharmaceutical equivalents between two drug products. A real data and a simulation data was used to demonstrate the usefulness of the proposed method.