• 제목/요약/키워드: Significant gene-sets

검색결과 58건 처리시간 0.024초

Fisher Criterion을 이용한 Gene Set Enrichment Analysis 기반 유의 유전자 집합의 검출 방법 연구 (Identifying Statistically Significant Gene-Sets by Gene Set Enrichment Analysis Using Fisher Criterion)

  • 김재영;신미영
    • 전자공학회논문지CI
    • /
    • 제45권4호
    • /
    • pp.19-26
    • /
    • 2008
  • Gene set enrichment analysis (GSEA)는 두 개의 클래스를 가지는 마이크로어레이 실험 데이터 분석을 위해 생물학적 특징을 기반으로 구성된 다양한 유전자-집합 중에서 두 클래스의 발현값들이 통계적으로 중요한 차이를 나타내는 유의한 유전자-집합을 추출하기 위한 분석 방법이다. 특히, 유전자에 대한 다양한 생물학적인 정보를 지닌 유전자 주석 데이터베이스(Cytogenetic Band, KEGG pathway, Gene Ontology 등)를 이용하여 마이크로어레이 실험에 사용된 전체 유전자 중 특정 기능을 가지는 유전자들을 그룹화하여 다양한 유전자-집합을 발굴하고, 각 유전자-집합 내에서 두 클래스간에 발현값의 차이를 참조하여 유의한 유전자들을 결정하여, 이를 기반으로 통계적으로 유의한 유전자-집합들을 최종 검출하는 방법이다. 본 논문에서는 GSEA 분석 과정에서 현재 주로 사용되고 있는 signal-to-noise ratio 기반 유전자 서열화(gene ranking) 방법 대신에, Fisher criterion을 이용한 유전자 서열화 방법을 적용함으로써 기존의 GSEA 방법에서 추출하지 못한 생물학적으로 의미 있는 새로운 유의 유전자-집합을 추출하는 방법을 제안하고자 한다. 또한, 제안한 방법의 성능을 고찰하기 위하여 공개된 Leukemia 관련 마이크로어레이 실험 데이터 분석에 적용하였으며, 기존의 알려진 결과와 비교 분석함으로써 제안한 방법의 유용성을 검증하고자 하였다.

유전자집합분석에서 순열검정의 대안 (A study on alternatives to the permutation test in gene-set analysis)

  • 이선호
    • 응용통계연구
    • /
    • 제31권2호
    • /
    • pp.241-251
    • /
    • 2018
  • 마이크로어레이 자료의 유전자집합분석은 개별유전자분석에 비해 검정력도 높일 수 있고 결과 해석이 쉬워서 이에 대한 연구가 활발히 진행되어 왔다. 표현형에 따라 유의한 차이를 보이는 유전자집합의 검색은 검정통계량들이 유도된 배경에 따라 결과에 차이를 보이지만 대체적으로 t-통계량의 제곱합을 이용한 순열검정이 제일 무난한 방법으로 여겨진다. 그러나 유전자집합분석에서 다중검정은 필수이고 많은 집합들의 유의성에 변별력을 주기 위해서는 순열검정에서 생성하는 치환표본의 수가 많이 필요하고 시간이 오래 걸린다는 문제점이 있다. 순열검정을 대신할 모수적 방법들을 검토한 결과, 적률을 이용한 근사가 각 집합의 유의확률 계산시간도 훨씬 단축하며 순열검정에서 구한 유의확률과 크기와 순위가 거의 일치함을 확인하였다.

시간열 마이크로어레이 데이터를 이용한 질병 관련 유의한 패스웨이 유전자 집합의 검출 (A Method of Identifying Disease-related Significant Pathways Using Time-Series Microarray Data)

  • 김재영;신미영
    • 전자공학회논문지CI
    • /
    • 제47권5호
    • /
    • pp.17-24
    • /
    • 2010
  • 최근 특정 질병의 진단이나 예후 예측을 위해 마이크로어레이 실험 데이터를 이용한 질병 관련 바이오마커 검출 연구가 활발히 진행되고 있다. 특히 정상인에 비해 질병 환자군에서 특이하게 발현되는 개별 유전자를 바이오 마커로 이용하는 기존의 방식과는 달리 동일한 생물학적 패스웨이에 관여하는 유전자 집합의 변화를 분석하여 특이하게 발현되는 패스웨이 유전자 집합을 바이오 마커로 사용하는 유전자 집합 분석(Gene-set analysis) 연구가 주목받고 있다. 본 논문에서는 다양한 실험 조건 요인을 가지는 시간열 마이크로어레이 실험 데이터를 이용한 유의한 패스웨이 유전자 집합을 검출하는 방법에 대해 제안한다. 시간열 마이크로어레이 데이터을 이용하여 유전자 집합 분석을 수행하기 위해서는 시간에 따른 유전자 발현값의 변화에 따라 개별 유전자의 유의성을 나타내는 스코어를 maSigPro (microarray Significant Profiles)를 이용하여 계산한 후, 이를 기반으로 전체 유전자의 순위를 결정하여 후보 유전자 집합에 대한 유의성 검증을 윌콕슨 순위합 검증을 통해 수행한다. 후보 유전자 집합의 생성을 위해서는 MSigDB (Molecular Signatures Database)의 패스웨이 정보를 이용하였으며, 본 논문에서 제안한 방법의 검증을 위해 공개된 전립선 암 관련 시간열 마이크로어레이 실험 데이터에 적용한 결과 실제로 전립선암과 관련된 것으로 밝혀진 7개의 패스웨이 중 6개의 패스웨이를 정확하게 검출할 수 있었다.

Comparison of Univariate and Multivariate Gene Set Analysis in Acute Lymphoblastic Leukemia

  • Soheila, Khodakarim;Hamid, AlaviMajd;Farid, Zayeri;Mostafa, Rezaei-Tavirani;Nasrin, Dehghan-Nayeri;Syyed-Mohammad, Tabatabaee;Vahide, Tajalli
    • Asian Pacific Journal of Cancer Prevention
    • /
    • 제14권3호
    • /
    • pp.1629-1633
    • /
    • 2013
  • Background: Gene set analysis (GSA) incorporates biological with statistical knowledge to identify gene sets which are differentially expressed that between two or more phenotypes. Materials and Methods: In this paper gene sets differentially expressed between acute lymphoblastic leukaemia (ALL) with BCR-ABL and those with no observed cytogenetic abnormalities were determined by GSA methods. The BCR-ABL is an abnormal gene found in some people with ALL. Results: The results of two GSAs showed that the Category test identified 30 gene sets differentially expressed between two phenotypes, while the Hotelling's $T^2$ could discover just 19 gene sets. On the other hand, assessment of common genes among significant gene sets showed that there were high agreement between the results of GSA and the findings of biologists. In addition, the performance of these methods was compared by simulated and ALL data. Conclusions: The results on simulated data indicated decrease in the type I error rate and increase the power in multivariate (Hotelling's $T^2$) test as increasing the correlation between gene pairs in contrast to the univariate (Category) test.

절대치와 절삭을 이용한 유전자 집단 분석 (Gene Set Analysis - Absolute and Trim)

  • 이광현;이선호
    • 응용통계연구
    • /
    • 제21권3호
    • /
    • pp.523-535
    • /
    • 2008
  • 본 연구의 목적은 마이크로어레이 자료로부터 암 또는 질병에 유의한 유전자집단을 찾아내는 보다 효과적인 방법을 제안하고자 하는 것이다. 유전자 집단 분석의 대표적 방법인 PAGE와 GSEA의 한계점을 살펴보고, 그것을 보완하기 위한 GSA-AT라는 방법을 제안하였다. 모의실험과 실제자료실험을 통해 분석해 본 결과 본 연구에서 제안한 GSA-AT 방법에서 더 의미 있는 결과를 도출하였다.

특이발현과 특이공발현을 고려한 유의한 유전자 집단 탐색 (Identifying statistically significant gene sets based on differential expression and differential coexpression)

  • 이선호
    • 응용통계연구
    • /
    • 제29권3호
    • /
    • pp.437-448
    • /
    • 2016
  • 서로 상관있는 유전자들의 발현조절이 질병이나 종양의 발생에 영향을 미치기 때문에 단일유전자 분석 대신 공통의 생물학적 요소를 지닌 유전자 집단 분석이 각광을 받게 되었고 생물학적으로 좀더 설명하기 쉬운 결과를 얻게 되었다. 표현형에 따라 유의한 차이를 보이는 유전자 집단을 찾는 여러 방법들이 있지만, 대부분의 방법들이 집단에 속한 유전자들의 표현형에 따른 발현의 차이를 탐색하거나 유전자들 사이의 공발현 구조가 다른지 탐색하는 것이다. 본 연구에서는 특이발현과 특이공발현의 차이를 모두 고려하는 탐색방법을 제시하였고 p53이란 유전자 자료와 모의자료를 이용하여 제시한 방법의 성능을 알아 보았다.

Significant Gene Selection Using Integrated Microarray Data Set with Batch Effect

  • Kim Ki-Yeol;Chung Hyun-Cheol;Jeung Hei-Cheul;Shin Ji-Hye;Kim Tae-Soo;Rha Sun-Young
    • Genomics & Informatics
    • /
    • 제4권3호
    • /
    • pp.110-117
    • /
    • 2006
  • In microarray technology, many diverse experimental features can cause biases including RNA sources, microarray production or different platforms, diverse sample processing and various experiment protocols. These systematic effects cause a substantial obstacle in the analysis of microarray data. When such data sets derived from different experimental processes were used, the analysis result was almost inconsistent and it is not reliable. Therefore, one of the most pressing challenges in the microarray field is how to combine data that comes from two different groups. As the novel trial to integrate two data sets with batch effect, we simply applied standardization to microarray data before the significant gene selection. In the gene selection step, we used new defined measure that considers the distance between a gene and an ideal gene as well as the between-slide and within-slide variations. Also we discussed the association of biological functions and different expression patterns in selected discriminative gene set. As a result, we could confirm that batch effect was minimized by standardization and the selected genes from the standardized data included various expression pattems and the significant biological functions.

Possibility of the Use of Public Microarray Database for Identifying Significant Genes Associated with Oral Squamous Cell Carcinoma

  • Kim, Ki-Yeol;Cha, In-Ho
    • Genomics & Informatics
    • /
    • 제10권1호
    • /
    • pp.23-32
    • /
    • 2012
  • There are lots of studies attempting to identify the expression changes in oral squamous cell carcinoma. Most studies include insufficient samples to apply statistical methods for detecting significant gene sets. This study combined two small microarray datasets from a public database and identified significant genes associated with the progress of oral squamous cell carcinoma. There were different expression scales between the two datasets, even though these datasets were generated under the same platforms - Affymetrix U133A gene chips. We discretized gene expressions of the two datasets by adjusting the differences between the datasets for detecting the more reliable information. From the combination of the two datasets, we detected 51 significant genes that were upregulated in oral squamous cell carcinoma. Most of them were published in previous studies as cancer-related genes. From these selected genes, significant genetic pathways associated with expression changes were identified. By combining several datasets from the public database, sufficient samples can be obtained for detecting reliable information. Most of the selected genes were known as cancer-related genes, including oral squamous cell carcinoma. Several unknown genes can be biologically evaluated in further studies.

Meta- and Gene Set Analysis of Stomach Cancer Gene Expression Data

  • Kim, Seon-Young;Kim, Jeong-Hwan;Lee, Heun-Sik;Noh, Seung-Moo;Song, Kyu-Sang;Cho, June-Sik;Jeong, Hyun-Yong;Kim, Woo Ho;Yeom, Young-Il;Kim, Nam-Soon;Kim, Sangsoo;Yoo, Hyang-Sook;Kim, Yong Sung
    • Molecules and Cells
    • /
    • 제24권2호
    • /
    • pp.200-209
    • /
    • 2007
  • We generated gene expression data from the tissues of 50 gastric cancer patients, and applied meta-analysis and gene set analysis to this data and three other stomach cancer gene expression data sets to define the gene expression changes in gastric tumors. By meta-analysis we identified genes consistently changed in gastric carcinomas, while gene set analysis revealed consistently changed biological themes. Genes and gene sets involved in digestion, fatty acid metabolism, and ion transport were consistently down-regulated in gastric carcinomas, while those involved in cellular proliferation, cell cycle, and DNA replication were consistently up-regulated. We also found significant differences between the genes and gene sets expressed in diffuse and intestinal type gastric carcinoma. By gene set analysis of cytogenetic bands, we identified many chromosomal regions with possible gross chromosomal changes (amplifications or deletions). Similar analysis of transcription factor binding sites (TFBSs), revealed transcription factors that may have caused the observed gene expression changes in gastric carcinomas, and we confirmed the overexpression of one of these, E2F1, in many gastric carcinomas by tissue array and immunohistochemistry. We have incorporated the results of our meta- and gene set analyses into a web accessible database (http://human-genome.kribb.re.kr/stomach/).

Relationship between angiotensin-converting enzyme gene polymorphism and muscle damage parameters after eccentric exercise

  • Kim, Jooyoung;Kim, Chang-Sun;Lee, Joohyung
    • 운동영양학회지
    • /
    • 제17권2호
    • /
    • pp.25-34
    • /
    • 2013
  • This study was conducted to investigate the relationship between ACE gene polymorphism and muscle damage parameters after eccentric exercise. 80 collegiate males were instructed to take an eccentric exercise with the elbow flexor muscle through the modified preacher curl machine for 2 sets of 25 cycles (total 50 cycles). The maximal isometric strength, muscle soreness, creatine kinase (CK), and myoglobin (Mb) were measured before exercise, and 0, 24, 48, 72, and 96 hrs after exercise. The result showed that after the eccentric exercise, the maximal isometric strength significantly decreased by more than 50% (p < 0.001) and the muscle soreness, CK, and Mb significantly increased compared to those before the exercise (p < 0.001). The ACE gene polymorphism of the subjects was classified using real-time polymerase chain reaction (real-time PCR). The result showed that it consisted of 38 cases of type II (46.4%), 33 cases of type ID (43.4%), and 9 cases of type DD (10.2%). The Hardy-Weinberg equilibrium for ACE gene polymorphism was shown to have p = 0.653, which showed that each allele was evenly distributed. Although significant differences in the changes in the maximal isometric strength, muscle soreness, CK, and Mb were found according to time course (p < 0.001), no significant differences in the changes in the maximal isometric strength, muscle soreness, CK, and Mb were found according to ACE gene polymorphism. Furthermore, no significant difference in the changes in the muscle damage parameters was found according to interaction between ACE gene polymorphism and time course (p > 0.05). In conclusion, the level of the muscle damage parameters changed in the injured muscle after eccentric exercise, but these changes in the muscle damage parameters were not affected by ACE gene polymorphism. The result of this study indicates that ACE gene is not a candidate gene that explains muscle damage.