• 제목/요약/키워드: Microarray Data

검색결과 471건 처리시간 0.019초

Bayesian Variable Selection in the Proportional Hazard Model

  • Lee, Kyeong-Eun
    • Journal of the Korean Data and Information Science Society
    • /
    • 제15권3호
    • /
    • pp.605-616
    • /
    • 2004
  • In this paper we consider the proportional hazard models for survival analysis in the microarray data. For a given vector of response values and gene expressions (covariates), we address the issue of how to reduce the dimension by selecting the significant genes. In our approach, rather than fixing the number of selected genes, we will assign a prior distribution to this number. To implement our methodology, we use a Markov Chain Monte Carlo (MCMC) method.

  • PDF

DNA 마이크로어레이 데이타의 클러스터링 알고리즘 및 도구 개발 (Development of Clustering Algorithm and Tool for DNA Microarray Data)

  • 여상수;김성권
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제30권10호
    • /
    • pp.544-555
    • /
    • 2003
  • DNA 마이크로어레이 실험으로 나오는 데이타는 아주 많은 양의 유전자 발현 정보를 담고 있기 때문에 적절한 분석 방법이 필요하다. 대표적인 분석 방법은 계층적 클러스터링(hierarchical clustering) 방법이다. 본 논문에서는 계층적 클러스터링의 결과로 나오게 되는 덴드로그램(dendrogram)에 대해서 후처리(post-Processing)를 시행함으로써 DNA 마이크로어레이 데이타 분석을 더 용이하게 해주는 리프오더링(leaf-ordering)에 대해서 연구하였다. 먼저, 기존의 리프오더링 알고리즘들을 분석하였고, 리프오더링 알고리즘의 새로운 접근 방식을 제안하였다. 또한 이에 대한 성능을 실험하고 분석하기 위해서 계층적 클러스터링과 몇 가지 리프오더링 알고리즘들, 그리고 제안된 접근 방식을 직접 구현한 HCLO (Hierarchical Clustering & Leaf-Ordering Tool)에 대해서 소개하였다.

선별 시스템 기반 표지 유전자를 포함한 난소암 마이크로어레이 데이터 분류 (Classification of Ovarian Cancer Microarray Data based on Intelligent Systems with Marker gene)

  • 박수영;정채영
    • 한국정보통신학회논문지
    • /
    • 제15권3호
    • /
    • pp.747-752
    • /
    • 2011
  • 마이크로어레이 분류는 전형적으로 분류기 디자인과 에러 추정이 현저하게 작은 샘플에 기반한다는 것과 교차 검증 에러 추정이 대다수의 논문에 사용된다는 주목할 만한 두 가지 특징을 소유한다. 마이크로어레이 난소 암 데이터는 수 만개의 유전자 발현으로 구성되어 있고, 이러한 정보를 동시에 분석하기 위한 어떤 체계적인 절차도 없다. 본 논문에서는, 통계에 따라 유전자의 우선순위를 정함으로써 표지유전자를 선택하였고, 널리 보급되어 있는 분류 규칙인 선형 분류 분석, 3-nearest-neighbor와 결정 트리 알고리즘은 표지 유전자를 선택한 데이터와 선택하지 않는 데이터의 분류 정확도 비교를 위해 사용되어졌다. ANOVA를 이용하여 선택된 표지 유전자를 포함하는 마이크로어레이 데이터 셋에 선영 분류분석 규칙을 적용한 결과 97.78%의 가장 높은 분류 정확도와 가장 낮은 예측 에러 추정치를 나타내었다.

마이크로어레이 발현 데이터 분류를 위한 베이지안 검증 기법 (A Bayesian Validation Method for Classification of Microarray Expression Data)

  • 박수영;정종필;정채영
    • 한국정보통신학회논문지
    • /
    • 제10권11호
    • /
    • pp.2039-2044
    • /
    • 2006
  • 생물정보는 사람의 능력을 넘어 섰으며 데이터 마이닝과 같은 인공지능기법이 필수적으로 요구된다. 한번에 수천 개의 유전자 발현 정보를 획득할 수 있는 DNA마이크로어레이 기술은 대량의 생물정보를 가진 대표적인 신기술로 질병의 진단 및 예측에 있어 새로운 분석방법들과 연계하여 많은 연구가 진행 중이다. 이러한 새로운 기술들을 이용하여 유전자의 메 커니즘을 규명하는 것은 질병의 치료 및 신약의 개발에 많은 도움을 줄 것으로 기대 된다. 본 논문에서는 마이크로어레이 실험에서 다양한 원인에 의해 발생하는 잡음(noise)을 줄이 거나 제거하는 과정인 표준화과정을 거쳐 표준화 방법들의 성능 비교를 위해 특징 추출방법 인 베이지안(Bayesian) 방법을 이용하여 마이크로어레이 데이터의 분류 정확도를 비교 평가하여 Lowess 표준화 후 95.89%로 분류성능을 향상시킬 수 있음을 보였다.

Cluster Analysis of Incomplete Microarray Data with Fuzzy Clustering

  • Kim, Dae-Won
    • 한국지능시스템학회논문지
    • /
    • 제17권3호
    • /
    • pp.397-402
    • /
    • 2007
  • In this paper, we present a method for clustering incomplete Microarray data using alternating optimization in which a prior imputation method is not required. To reduce the influence of imputation in preprocessing, we take an alternative optimization approach to find better estimates during iterative clustering process. This method improves the estimates of missing values by exploiting the cluster Information such as cluster centroids and all available non-missing values in each iteration. The clustering results of the proposed method are more significantly relevant to the biological gene annotations than those of other methods, indicating its effectiveness and potential for clustering incomplete gene expression data.

Supervised Model for Identifying Differentially Expressed Genes in DNA Microarray Gene Expression Dataset Using Biological Pathway Information

  • Chung, Tae Su;Kim, Keewon;Kim, Ju Han
    • Genomics & Informatics
    • /
    • 제3권1호
    • /
    • pp.30-34
    • /
    • 2005
  • Microarray technology makes it possible to measure the expressions of tens of thousands of genes simultaneously under various experimental conditions. Identifying differentially expressed genes in each single experimental condition is one of the most common first steps in microarray gene expression data analysis. Reasonable choices of thresholds for determining differentially expressed genes are used for the next-stap-analysis with suitable statistical significances. We present a supervised model for identifying DEGs using pathway information based on the global connectivity structure. Pathway information can be regarded as a collection of biological knowledge, thus we are trying to determine the optimal threshold so that the consequential connectivity structure can be the most compatible with the existing pathway information. The significant feature of our model is that it uses established knowledge as a reference to determine the direction of analyzing microarray dataset. In the most of previous work, only intrinsic information in the miroarray is used for the identifying DEGs. We hope that our proposed method could contribute to construct biologically meaningful structure from microarray datasets.

서로 다른 플랫폼의 마이크로어레이 연구 통합 분석 (Cross Platform Data Analysis in Microarray Experiment)

  • 이장미;이선호
    • 응용통계연구
    • /
    • 제26권2호
    • /
    • pp.307-319
    • /
    • 2013
  • 마이크로어레이 실험의 특성상 표본의 수가 많지 않는 단점을 보완하고 분석 결과를 일반화하기 위하여 공개 저장소에 축적된 자료 중에 연구 목적이 동일한 여러 연구들을 통합하여 분석하려는 시도가 활발하다. 그러나 실험에서 사용한 플랫폼이 서로 다른 경우에는 유전자 관찰값의 분포가 달라지기 때문에 통합이 어렵고 최상의 통합 방법이 제시되어 있지 않다. 본 논문에서는 순위 기반 중위수, 분위수 이산화와 표준화를 각각 이용하여 변환한 자료값을 직접 합치거나 메타분석을 하여 연구 결과를 합치는 방법을 알아 보았다. 또한 GEO에서 다운받은 실제 자료들을 이용하여 네 가지 방법의 장단점과 효과를 비교하였고 서로 다른 연구 자료를 통합하는 것의 영향을 알아보았다.

Learning Graphical Models for DNA Chip Data Mining

  • Zhang, Byoung-Tak
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2000년도 International Symposium on Bioinformatics
    • /
    • pp.59-60
    • /
    • 2000
  • The past few years have seen a dramatic increase in gene expression data on the basis of DNA microarrays or DNA chips. Going beyond a generic view on the genome, microarray data are able to distinguish between gene populations in different tissues of the same organism and in different states of cells belonging to the same tissue. This affords a cell-wide view of the metabolic and regulatory processes under different conditions, building an effective basis for new diagnoses and therapies of diseases. In this talk we present machine learning techniques for effective mining of DNA microarray data. A brief introduction to the research field of machine learning from the computer science and artificial intelligence point of view is followed by a review of recently-developed learning algorithms applied to the analysis of DNA chip gene expression data. Emphasis is put on graphical models, such as Bayesian networks, latent variable models, and generative topographic mapping. Finally, we report on our own results of applying these learning methods to two important problems: the identification of cell cycle-regulated genes and the discovery of cancer classes by gene expression monitoring. The data sets are provided by the competition CAMDA-2000, the Critical Assessment of Techniques for Microarray Data Mining.

  • PDF

Transcriptional profiles of rock bream iridovirus (RBIV) using microarray approaches

  • Myung-Hwa, Jung;Jun-Young, Song;Sung-Ju, Jung
    • 한국어병학회지
    • /
    • 제35권2호
    • /
    • pp.141-155
    • /
    • 2022
  • Rock bream iridovirus (RBIV) causes high mortality and economic losses in the rock bream (Oplegnathus fasciatus) aquaculture industry in Korea. Viral open reading frames (ORFs) expression profiling at different RBIV infection stages was investigated using microarray approaches. Rock bream were exposed to the virus and held for 7 days at 23 ℃ before the water temperature was reduced to 17 ℃. Herein, 28% mortality was observed from 24 to 35 days post infection (dpi), after which no mortality was observed until 70 dpi (end of the experiment). A total of 27 ORFs were significantly up- or down-regulated after RBIV infection. In RBIV-infected rock bream, four viral genes were expressed after 2 dpi. Most RBIV ORFs (26 genes, 96.2%) were significantly elevated between 7 and 20 dpi. Among them, 12 ORF (44.4%) transcripts reached their peak expression intensity at 15 dpi, and 14 ORFs (51.8%) were at peak expression intensity at 20 dpi. Expression levels began to decrease after 25 dpi, and 92.6% of ORFs (25 genes) were expressed below 1-fold at 70 dpi. From the microarray data, in addition to the viral infection, viral gene expression profiles were categorized into three infection stages, namely, early (2 dpi), middle (7 to 20 dpi), and recovery (25 and 70 dpi). RBIV ORFs 009R, 023R, 032L, 049L, and 056L were remarkably expressed during RBIV infection. Furthermore, six ORFs (001L, 013R, 052L, 053L, 058L, and 061L) were significantly expressed only at 20 dpi. To verify the cDNA microarray data, we performed quantitative real-time PCR, and the results were similar to that of the microarray. Our results provide novel observations on broader RBIV gene expression at different stages of infection and the development of control strategies against RBIV infection.