• Title/Summary/Keyword: Microarray Data

Search Result 473, Processing Time 0.03 seconds

A hybrid method to compose an optimal gene set for multi-class classification using mRMR and modified particle swarm optimization (mRMR과 수정된 입자군집화 방법을 이용한 다범주 분류를 위한 최적유전자집단 구성)

  • Lee, Sunho
    • The Korean Journal of Applied Statistics
    • /
    • v.33 no.6
    • /
    • pp.683-696
    • /
    • 2020
  • The aim of this research is to find an optimal gene set that provides highly accurate multi-class classification with a minimum number of genes. A two-stage procedure is proposed: Based on minimum redundancy and maximum relevance (mRMR) framework, several statistics to rank differential expression genes and K-means clustering to reduce redundancy between genes are used for data filtering procedure. And a particle swarm optimization is modified to select a small subset of informative genes. Two well known multi-class microarray data sets, ALL and SRBCT, are analyzed to indicate the effectiveness of this hybrid method.

Classification of Midinfrared Spectra of Colon Cancer Tissue Using a Convolutional Neural Network

  • Kim, In Gyoung;Lee, Changho;Kim, Hyeon Sik;Lim, Sung Chul;Ahn, Jae Sung
    • Current Optics and Photonics
    • /
    • v.6 no.1
    • /
    • pp.92-103
    • /
    • 2022
  • The development of midinfrared (mid-IR) quantum cascade lasers (QCLs) has enabled rapid high-contrast measurement of the mid-IR spectra of biological tissues. Several studies have compared the differences between the mid-IR spectra of colon cancer and noncancerous colon tissues. Most mid-IR spectrum classification studies have been proposed as machine-learning-based algorithms, but this results in deviations depending on the initial data and threshold values. We aim to develop a process for classifying colon cancer and noncancerous colon tissues through a deep-learning-based convolutional-neural-network (CNN) model. First, we image the midinfrared spectrum for the CNN model, an image-based deep-learning (DL) algorithm. Then, it is trained with the CNN algorithm and the classification ratio is evaluated using the test data. When the tissue microarray (TMA) and routine pathological slide are tested, the ML-based support-vector-machine (SVM) model produces biased results, whereas we confirm that the CNN model classifies colon cancer and noncancerous colon tissues. These results demonstrate that the CNN model using midinfrared-spectrum images is effective at classifying colon cancer tissue and noncancerous colon tissue, and not only submillimeter-sized TMA but also routine colon cancer tissue samples a few tens of millimeters in size.

지노믹트리 Microarray 토탈솔루션

  • O Tae-Jeong
    • Proceedings of the Korean Society for Bioinformatics Conference
    • /
    • 2006.02a
    • /
    • pp.46-55
    • /
    • 2006
  • (주)지노믹트리는 DNA 마이크로어레이 기술을 기반으로 하는 분자진단회사로서, 다음의 세가지 사업에 전력하고 있다. 첫째는 독창적이며 특화된 바이오마커 발굴기술 (MAGIC system)을 바탕으로 각종 암진단을 위한 바이오마커 개발연구 두 번째는 당사의 원천 기술인 다중동시검출 시스템을 이용한 질병 진단 시스템 및 증폭시스템 세 번째는 마이크로어레이 기술을 이용한 유전자 발현 분석, Array CGH, DNA 메틸레이션 분석 그리고 miRNA 검출 등의 지노믹스시대의 연구를 위한 토탈솔루션을 제공하고 있다. 지난 5년간의 마이크로어레이 기반기술을 이용한 자체연구 활동을 수행하면서 축적된 마이크로어레이 관련기술 노-하우들을 국내 마이크로어레이 연구자들에게 공급하기 위하여 노력하고 있다. 특히 당사의 지노믹서비스 부문은 유전자 발현 분석 솔루션 제공을 위해서 자체적으로 제작하여 공급하고 있는 human cDNA(17K/25K) 및 rat cDNA (5.0K) 마이크로어레이, Human (22K) 및 mouse (10K) 올리고뉴클레오타이드 마이크로 어레이 그리고 미생물 연구를 위한 대장균 (6K) 및 폐렴균 (2.2K) 올리고뉴클레오타이드 마이크로어레이 제공 및 이를 이용한 유전자 발현 분석 서비스를 제공하고 있다. 체적으로 제작되는 마이크로어레이 서비스는 2001년 도입한 ISO9001 품질인증시스템의 기반하에서 제작부터 생산까지의 엄격한 품질관리 과정을 거쳐서 고품질의 마이크로어레이를 이용한 분석서비스를 제공 하고 있다. 또한 고객요구형 서비스를 위하여 국외 유수의 마이크로어레이 회사 (Agilent, Microarray Inc, TIGR, Eurogentec 등)의 whole genome 기반의 마이크로어레이 제품을 이용한 분석서비스를 제공하고 있으며 마이크로어레이 실험을 위해서 필수적으로 이용되고 있는 시약 (labeling kit), 마이크로어레이 hybridization을 위한 hardware (hybridization chamber, hnay centrifuge)등을 자체적으로 개발하여 공급하고 있다. DNA copy number 측정을 위한 Array CGH 분석을 위해서는 자체적으로 제작공구하고 있는 human cDNA 마이크로어레이 (17K/25K) 그기고 rat (5.0K) 마이크로어레이를 이용한 분석서비스 및 whole genome 기반의 Agilent 올리고뉴클레오타이드 CGH 어레이 (44K, 35Kb resolution)를 이용한 분석서비스를 제공하고 있다. Epigenetic study를 하는 연구자들을 위한 메틸레이션 마이크로어레이 분석 서비스를 제공하고 있다. 기존분석법인 Bisulfite 처리기반의 분석이 아닌 enzyme digestion후 PCR 증폭방법을 이용한 분석방법을 이용함으로써, bisulfite 처리에 의한 DNA 손실문제를 최소화 하였다. 현재 50개의 문헌을 통해 잘 보고된 메틸레이션 유전자들에 대한 분석서비스를 제공하고 있으며, 지속적으로 표적컨텐츠의 숫자를 증가시킬 예정이다. 최근 많은 연구자들의 관심을 끌고 있는 micro RNA 검출을 위한 DNA 마이크로어레이 서비스를 제공할 예정이다 (2006년 3월 출시). 현재 까지 알려진 약 320개의 모든 miRNA를 탑재하고 있는 소형 DNA 마이크로어레이를 이용한 분석서비스로서 1장의 마이크로어레이 실험을 통하여 알려진 모든 miRNA의 비교분석이 가능하다. 마이크로어레이 실험 뿐만 아니라 data 분석을 위한 software도 상당히 중요한 비중을 차지하고 있다 이를 위하여 (주)지노믹트리는 Agilent에서 개발한 GeneSpring GX (유전자 발현 분석), Signet (마이크로어레이 database) 및 GeneSpring GT (SNP 분석)를 공급하고 있다. 통계적인 기반 지식의 없은 일반 user들을 위한 간편하면서도 종합적인 기능을 포함하고 있는 우수한 프로그램으로 이미 국제적으로 많은 인정을 받고 있다. (주)지노믹트리는 국내외 많은 연구자들의 경제적, 시간적 연구여건을 고려한 마이크로어레이 토탈솔루션을 제공하고 있으며, 실험 분석에서 data 마이닝 그리고 마이크로어레이 실험 디자인에 이르는 토탈솔루션을 제공하고 있다.

  • PDF

Missing values imputation for time course gene expression data using the pattern consistency index adaptive nearest neighbors (시간경로 유전자 발현자료에서 패턴일치지수와 적응 최근접 이웃을 활용한 결측값 대치법)

  • Shin, Heyseo;Kim, Dongjae
    • The Korean Journal of Applied Statistics
    • /
    • v.33 no.3
    • /
    • pp.269-280
    • /
    • 2020
  • Time course gene expression data is a large amount of data observed over time in microarray experiments. This data can also simultaneously identify the level of gene expression. However, the experiment process is complex, resulting in frequent missing values due to various causes. In this paper, we propose a pattern consistency index adaptive nearest neighbors as a method of missing value imputation. This method combines the adaptive nearest neighbors (ANN) method that reflects local characteristics and the pattern consistency index that considers consistent degree for gene expression between observations over time points. We conducted a Monte Carlo simulation study to evaluate the usefulness of proposed the pattern consistency index adaptive nearest neighbors (PANN) method for two yeast time course data.

Constructing Gene Regulatory Networks using Frequent Gene Expression Pattern and Chain Rules (빈발 유전자 발현 패턴과 연쇄 규칙을 이용한 유전자 조절 네트워크 구축)

  • Lee, Heon-Gyu;Ryu, Keun-Ho;Joung, Doo-Young
    • The KIPS Transactions:PartD
    • /
    • v.14D no.1 s.111
    • /
    • pp.9-20
    • /
    • 2007
  • Groups of genes control the functioning of a cell by complex interactions. Such interactions of gene groups are tailed Gene Regulatory Networks(GRNs). Two previous data mining approaches, clustering and classification, have been used to analyze gene expression data. Though these mining tools are useful for determining membership of genes by homology, they don't identify the regulatory relationships among genes found in the same class of molecular actions. Furthermore, we need to understand the mechanism of how genes relate and how they regulate one another. In order to detect regulatory relationships among genes from time-series Microarray data, we propose a novel approach using frequent pattern mining and chain rules. In this approach, we propose a method for transforming gene expression data to make suitable for frequent pattern mining, and gene expression patterns we detected by applying the FP-growth algorithm. Next, we construct a gene regulatory network from frequent gene patterns using chain rules. Finally, we validate our proposed method through our experimental results, which are consistent with published results.

Candidate Marker Identification from Gene Expression Data with Attribute Value Discretization and Negation (속성값 이산화 및 부정값 허용을 하는 의사결정트리 기반의 유전자 발현 데이터의 마커 후보 식별)

  • Lee, Kyung-Mi;Lee, Keon-Myung
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.21 no.5
    • /
    • pp.575-580
    • /
    • 2011
  • With the increasing expectation on personalized medicine, it is getting importance to analyze medical information in molecular biology perspective. Gene expression data are one of representative ones to show the microscopic phenomena of biological activities. In gene expression data analysis, one of major concerns is to identify markers which can be used to predict disease occurrence, progression or recurrence in the molecular level. Existing markers candidate identification methods mainly depend on statistical hypothesis test methods. This paper proposes a search method based decision tree induction to identify candidate markers which consist of multiple genes. The propose method discretizes numeric expression level into three categorical values and allows candidate markers' genes to be expressed by their negation as well as categorical values. It is desirable to have some number of genes to be included in markers. Hence the method is devised to try to find candidate markers with restricted number of genes.

A review of gene selection methods based on machine learning approaches (기계학습 접근법에 기반한 유전자 선택 방법들에 대한 리뷰)

  • Lee, Hajoung;Kim, Jaejik
    • The Korean Journal of Applied Statistics
    • /
    • v.35 no.5
    • /
    • pp.667-684
    • /
    • 2022
  • Gene expression data present the level of mRNA abundance of each gene, and analyses of gene expressions have provided key ideas for understanding the mechanism of diseases and developing new drugs and therapies. Nowadays high-throughput technologies such as DNA microarray and RNA-sequencing enabled the simultaneous measurement of thousands of gene expressions, giving rise to a characteristic of gene expression data known as high dimensionality. Due to the high-dimensionality, learning models to analyze gene expression data are prone to overfitting problems, and to solve this issue, dimension reduction or feature selection techniques are commonly used as a preprocessing step. In particular, we can remove irrelevant and redundant genes and identify important genes using gene selection methods in the preprocessing step. Various gene selection methods have been developed in the context of machine learning so far. In this paper, we intensively review recent works on gene selection methods using machine learning approaches. In addition, the underlying difficulties with current gene selection methods as well as future research directions are discussed.

Endo-sulfatase Sulf-1 Protein Expression is Down-regulated in Gastric Cancer

  • Gopal, Gopisetty;Shirley, Sundersingh;Raja, Uthandaraman Mahalinga;Rajkumar, Thangarajan
    • Asian Pacific Journal of Cancer Prevention
    • /
    • v.13 no.2
    • /
    • pp.641-646
    • /
    • 2012
  • In our recent report on gene expression in gastric cancer we identified the endo-sulfatase Sulf-1 gene to be up-regulated in gastric tumors relative to apparently normal (AN), and paired normal (PN) gastric tissue samples. In the present report we investigate the protein expression levels of Sulf-1 gene in gastric tumors, AN and PN samples using tissue microarray (TMA) and immunohistochemistry. Expression data was collected from two sets of TMA's containing replicate sections of tissue samples. Scoring data from TMA set-1 revealed a significant difference in Sulf-1 immunoreactivity between tumors and "normals" (PN and AN) (p-value = 0.001928). Also, Sulf-1 expression in tumors was also significantly different from either PN (p-value = 0.019) or AN (p-value = 0.006) samples. Similar results were obtained from analysis of scoring data from the second set of arrays. Comparison of mRNA expression and protein expression in gastric tumor tissues revealed that in 6/20 (30%) tumor samples showed up-regulated protein expression concordant with over-expression of mRNA. However, a discord with mRNA being over-expressed relative to down regulated protein expression was observed in majority 14/20 (70%) of tumor samples. Our study indicates down regulation of Sulf-1 protein expression in gastric tumors relative to PN and AN samples which is discordant with mRNA over-expression seen in tumors.

Identification of Heterogeneous Prognostic Genes and Prediction of Cancer Outcome using PageRank (페이지랭크를 이용한 암환자의 이질적인 예후 유전자 식별 및 예후 예측)

  • Choi, Jonghwan;Ahn, Jaegyoon
    • Journal of KIISE
    • /
    • v.45 no.1
    • /
    • pp.61-68
    • /
    • 2018
  • The identification of genes that contribute to the prediction of prognosis in patients with cancer is one of the challenges in providing appropriate therapies. To find the prognostic genes, several classification models using gene expression data have been proposed. However, the prediction accuracy of cancer prognosis is limited due to the heterogeneity of cancer. In this paper, we integrate microarray data with biological network data using a modified PageRank algorithm to identify prognostic genes. We also predict the prognosis of patients with 6 cancer types (including breast carcinoma) using the K-Nearest Neighbor algorithm. Before we apply the modified PageRank, we separate samples by K-Means clustering to address the heterogeneity of cancer. The proposed algorithm showed better performance than traditional algorithms for prognosis. We were also able to identify cluster-specific biological processes using GO enrichment analysis.

A gene filtering method based on fuzzy pattern matching for whole genome microarray data analysis (마이크로어레이 데이터의 게놈수준 분석을 위한 퍼지 패턴 매칭에 의한 유전자 필터링 방법)

  • Lee, Seon-A;Lee, Geon-Myeong;Lee, Seung-Ju;Kim, Won-Jae;Kim, Yong-Jun;Bae, Seok-Cheol
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2007.11a
    • /
    • pp.145-148
    • /
    • 2007
  • 생명과학분야에서 마이크로어레이 기술은 세포에서의 RNA 발현 프로파일을 관찰할 수 있도록 함으로써 생명현상의 규명 및 약물개발 둥에서 분자수준의 생명현상에 대한 관찰과 분석이 가능 해지고 있다. 마이크로어레이 데이터분석에서는 특정한 처리나 과정에서 현저한 특성을 보이는 유전자를 식별하기 위한 분석뿐만 아니라 유전자 전체인 게놈수준에서의 분석도 이루어진다. 최근 유전자의 발현이 다양한 조절, 신호전달 및 대사경로에 의해서 영향을 받고 있다는 관점에서 게놈수준의 분석에 관심이 증가하고 있다. 약물반응 실험에서는 약물에 대한 게놈수준의 발현 프로파일을 관찰하는 것도 많은 정보를 제공할 수 있다. 약물실험에서는 대조군과 실험군들간에 관심 있는 상대적인 발현특성을 갖는 유전자군을 전체적으로 추출하는 것이 필요한 경우가 있다. 예를 들면 정상군은 두개의 실험군에 대해서 중간청도의 발현정도를 갖는 유전자군을 식별하는 분석을 하는 경우, 생물학적인 데이터의 특성상 절대값을 비교하는 방법으로는 유용한 유전자들을 효과적으로 식별해 낼 수 없다. 이 논문에서는 정상군과 실험군들의 발현정도값의 경향을 판단하기 위해서 각 유전자에 대해서 집단별 대표값을 선정하여 퍼지집합으로 집단의 값의 범위를 결정하고, 이를 이용하여 특정 패턴을 갖는 유전자들을 식별해내는 방법을 제안하고, 실제 데이터를 통해서 실험한 결과를 보인다.

  • PDF