A Comparative Study of Parametric Methods for Significant Gene Set Identification Depending on Various Expression Metrics

유전자 발현 메트릭에 기반한 모수적 방식의 유의 유전자 집합 검출 비교 연구

  • 김재영 (경북대학교 전자전기컴퓨터학부) ;
  • 신미영 (경북대학교 전자전기컴퓨터학부)
  • Published : 2010.01.15

Abstract

Recently lots of attention has been paid to gene set analysis for identifying differentially expressed gene-sets between two sample groups. Unlike earlier approaches, the gene set analysis enables us to find significant gene-sets along with their functional characteristics. For this reason, various novel approaches have been suggested lately for gene set analysis. As one of such, PAGE is a parametric approach that employs average difference (AD) as an expression metric to quantify expression differences between two sample groups and assumes that the distribution of gene scores is normal. This approach is preferred to non-parametric approach because of more effective performance. However, the metric AD does not reflect either gene expression intensities or variances over samples in calculating gene scores. Thus, in this paper, we investigate the usefulness of several other expression metrics for parametric gene-set analysis, which consider actual expression intensities of genes or their expression variances over samples. For this purpose, we examined three expression metrics, WAD (weighted average difference), FC (Fisher's criterion), and Abs_SNR (Absolute value of signal-to-noise ratio) for parametric gene set analysis and evaluated their experimental results.

최근 마이크로어레이 데이터를 기반으로 두 개의 샘플 그룹간에 유의한 발현 차이를 나타내는 생물학적 기능 그룹을 검출하기 위한 유전자 집합 분석(gene set analysis) 연구가 많은 주목을 받고 있다. 기존의 유의 유전자 검출 연구와는 달리, 유전자 집합 분석 연구는 유의한 유전자 집합과 이들의 기능적 특징을 함께 검출할 수 있다는 장점이 있다. 이러한 이유로 최근에는 PAGE, GSEA 등과 같은 다양한 통계적 방식의 유전자 집합 분석 방법들이 소개되고 있다. 특히, PAGE의 경우 두 샘플 그룹간의 유전자 발현 차이를 나타내는 스코어의 분포가 정규 분포임을 가정하는 모수적 접근 방식을 취하고 있다. 이러한 방법은 GSEA 등과 같은 비모수적 방식에 비해 계산량이 적고 성능이 비교적 우수한 장점이 있다. 하지만, PAGE에서 유전자 발현 차이를 정량화하기 위한 메트릭으로 사용하고 있는 AD(average difference)의 경우, 두 그룹간에 절대적 평균 발현 차이만을 고려하기 때문에 실제 유전자의 발현값 크기나 분산의 크기에 따른 상대적 중요성을 반영하지 못하는 문제가 있다. 본 논문에서는 이를 보완하기 위해 실제 유전자의 발현값 크기나 그룹 내 샘플들의 분산 정보 등을 스코어 계산에 함께 반영하는 WAD(weighted average difference), FC(Fisher's criterion), 그리고 Abs_SNR(Absolute value of signal-to-noise ratio)을 모수적 방식의 유전자 집합 분석에 적용하고 이에 따른 유의 유전자 집합 검출 결과를 실험을 통해 비교 분석하였다.

Keywords

References

  1. Nam, D., Kim, S. Y., "Gene-set approach for expression pattern analysis," Briefings in bioinformatics, vol.9, no.3, pp.189-197, May 2008. https://doi.org/10.1093/bib/bbn001
  2. Subramanian, A., Tamayo, P., Mootha, V. K., Mukherjee, S., Ebert, B. L., Gillette, M. A., Paulovich, A., Pomeroy, S. L., Golub, T. R., Lander, E. S., Mesirov, J. P., "Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles," Proceedings of the National Academy of Sciences of the United States of America, vol.102, no.43, pp.15545-12250, Oct. 2005. https://doi.org/10.1073/pnas.0506580102
  3. Kanehisa, M., Goto, S., Kawashima, S., Nakaya, A., "The KEGG databases at GenomeNet," Nucleic Acids Res., vol.30, no.1, pp.42-46, Jan. 2002. https://doi.org/10.1093/nar/30.1.42
  4. Efron, B. and Tibshirani, R. On testing the significance of sets of genes. Stanford tech report rep, Available: http://www-stat.stanford.edu/ tibs/ ftp/GSA.pdf, 2006.
  5. Kim, S. Y., Volsky, D. J., "PAGE: parametric analysis of gene set enrichment," BMC Bioinformatics, vol.8, no.6, pp.144, Jun. 2005.
  6. Barry, W. T., Nobel, A. B., Wright, F. A., "Significance analysis of functional categories in gene expression studies: a structured permutation approach," Bioinformatics, vol.21, no.9, pp.1943-1949., May 2005. https://doi.org/10.1093/bioinformatics/bti260
  7. Dinu, I., Potter, J. D., Mueller, T., Liu, Q., Adewale, A. J., Jhangri, G. S., Einecke, G., Famulski, K. S., Halloran, P., Yasui, Y., "Improving gene set analysis of microarray data by SAM-GS," BMC Bioinformatics, vol.5, no.8, pp.242, Jul. 2007.
  8. Hummel, M., Meister, R., Mansmann, U., "Global- ANCOVA: exploration and assessment of gene group effects," Bioinformatics, vol.24, no.1, pp.78-85, Jan. 2008. https://doi.org/10.1093/bioinformatics/btm531
  9. Oron, A. P., Jiang, Z., Gentleman, R., "Gene set enrichment analysis using linear models and diagnostics," Bioinformatics, vol.24, no.22, pp.2586- 2591, Nov. 2008. https://doi.org/10.1093/bioinformatics/btn465
  10. Golub, T. R., Slonim, D. K., Tamayo, P., Huard., C., Gaasenbeek, M., Mesirov, J. P., Coller, H., Loh, M. L., Downing, J. R., Caligiuri, M. A., Bloomfield, C. D., Lander, E. S., "Molecular classification of cancer: class discovery and class prediction by gene expression monitoring," Science, vol.286, no.5439, pp.531-537, Oct. 1999. https://doi.org/10.1126/science.286.5439.531
  11. Singh, D., Febbo, P. G., Ross, K., Jackson, D. G., Manola, J., Ladd, C., Tamayo, P., Renshaw, A. A., D'Amico, A. V., Richie, J. P., Lander, E.S., Loda, M., Kantoff, P. W., Golub, T. R., Sellers, W. R., "Gene expression correlates of clinical prostate cancer behavior," Cancer Cell, vol.1, no.2, pp.203-209, Mar. 2002. https://doi.org/10.1016/S1535-6108(02)00030-2
  12. Hogg, R. V., Craig, A. T., Mckean, J., Introduction to Mathematical Statistics, 6th ed., Pearson Education, 2005.
  13. Alberto, L. G., Probability, Statistics, and Random Processes for Electrical Engineering, 3rd Ed., Pearson Education, 2009.
  14. Kadota, K., Nakai, Y., Shimizu, K., "A weighted average difference method for detecting differentially expressed genes from microarray data," Algorithms for molecular biology, vol.26, no.3, pp.8, Jun. 2008.
  15. Bishop, C., Neural Networks for Pattern Recognition, Oxford University Press, 1995.
  16. Blum, A., Langley, P., "Selection of relevant features and example in machine learning," Artificial intelligence, vol.97, pp.245-271, Dec. 1997. https://doi.org/10.1016/S0004-3702(97)00063-5
  17. Bradley, P., Mangasarian O., Street W., "Feature selection via mathematical programming," Technical report to appear in INFORMS Journal on computing, vol.10, no.2, pp.209-217, Feb. 1998.
  18. Trajkovski, I., Lavrac, N., Tolar, J., "SEGS: search for enriched gene sets in microarray data," Journal of biomedical informatics, vol.41, no.4, pp.588-601, Aug. 2008. https://doi.org/10.1016/j.jbi.2007.12.001
  19. Potten, C., Wilson J., Apoptosis, Cambridge University Press, 2005.
  20. Knudsen, S., Cancer Diagnostics with DNA Microarrays, John Wiley & Sons, Inc., 2006.
  21. Weinberg, R. A., The biology of CANCER, Carland Science, 2007.
  22. The Genetic Association Database, Available: http: //geneticassociationdb.nih.gov/
  23. Huang, D., Chow, T. W., "Identifying the biologically relevant gene categories based on gene expression and biological data: an example on prostate cancer," Bioinformatics, vol.23, no.12, pp.1503-1510. Jun. 2007. https://doi.org/10.1093/bioinformatics/btm141
  24. "KEGG(Kyoto Encyclopedia of Genes and Genomes) PATHWAY Database," Available: http://www.genome. ad.jp/kegg/pathway.html
  25. Tan, P. N., Steinbach, M., Kumar, V., INTRODUCTION TO DATA MINING, Pearson Education, Inc., 2006