DOI QR코드

DOI QR Code

Mining of Subspace Contrasting Sample Groups in Microarray Data

마이크로어레이 데이터의 부공간 대조 샘플집단 마이닝

  • 이경미 (충북대학교 컴퓨터과학과, PT-ERC) ;
  • 이건명 (충북대학교 컴퓨터과학과, PT-ERC)
  • Received : 2011.09.02
  • Accepted : 2011.10.12
  • Published : 2011.10.25

Abstract

In this paper, we introduce the subspace contrasting group identification problem and propose an algorithm to solve the problem. In order to identify contrasting groups, the algorithm first determines two groups of which attribute values are in one of the contrasting ranges specified by the analyst, and searches for the contrasting groups while increasing the dimension of subspaces with an association rule mining strategy. Because the dimension of microarray data is likely to be tens of thousands, it is burdensome to find all contrasting groups over all possible subspaces by query generation. It is very useful in the sense that the proposed method allows to find those contrasting groups without analyst's involvement.

이 논문에서는 마이크로어레이 데이터에 대한 분석 문제로서 부공간 대조집단 식별 문제를 소개하고, 이를 해결하는 방법을 제안한다. 제안한 방법은 부공간에서 속성값이 대조적인 집단의 쌍들을 식별하기 위해, 먼저 각 속성에 대해서 분석자가 지정한 대조영역의 값을 갖는 두 개의 샘플집단을 선택한 다음, 연관규칙 마이닝과 유사한 형태의 방법으로 부공간의 차원을 점진적으로 확대해 가면서 대조집단을 추출한다. 마이크로어레이 데이터는 수천개 이상의 유전자에 대한 발현정보를 포함할 수 있는 다차원 데이터이기 때문에, 대조적인 발현특성을 갖는 유전자집합에 대한 샘플집단의 쌍을 모두 부차원에 대해서 질의를 통해 식별하는 것은 부담이 되지만, 제안한 방법을 사용하면 분석자가 지정한 대조영역 값의 범위를 기준으로 하여 모든 가능한 부공간에서의 대조집단을 효과적으로 추출할 수 있다.

Keywords

References

  1. The Human Genome at Ten, Nature, Vol. 464, pp.649-650, Apr. 2010. https://doi.org/10.1038/464649a
  2. T. A. Brown, Genomes, John Wiley & Sons, 1999.
  3. S. Draghici, Data Analysis Tools for DNA Microarrays, Chapman & Hall/CRC, (2003).
  4. L. Parsons, E. Haque, H. Liu, "Subspace Clsutering for High Dimensional Data: A Review," SIGKDD Explorations, Vol.6, No. 10, pp.90-105, 2004. https://doi.org/10.1145/1007730.1007731
  5. K. M. Lee, K. S. Hwang, C. H. Lee, "Fuzzy Set-based Microarray Data Analysis Techniques for Interesting Block Identification," Proc. of FUZZ-IEEE 2009, 2009.
  6. R. Aggrawal, T. Imielinski, A. Swami, "Mining Association Rules between Sets of Items in Large Databases," SIGMOD, Vol. 22, No. 2, pp.207-216, 1993. https://doi.org/10.1145/170036.170072
  7. R. Aggrawal, J. Gehrke, D. Gunopulos, P. Raghavan, "Automatic subspace clustering of high dimensional data for data mining applications," Proc. of the 1998 ACM SIGMOD, pp.94-105, ACM Press, 1998.
  8. S. Goil, H. Nagesh, A. Choudhary, "Mafia: Efficient and scalable subspace clustering for very large data sets," Technical Report CPDC-TR-9906-010, Northwe stern University, 1999.
  9. C. C. Aggrawal, J. L. Wolf, P. S. Yu, C. Procopiuc, J. S. Park, "Fast algorithms for projected clustering," Proc. of the 1999 ACM SIGMOD, pp.61-72, ACM Press, 1999.
  10. J. H. Friedman, J. J. Meulman. Clustering objects on subsets of attributes, http:// citeseer.nj.n ec.com/friedman02clustering.html, 2002.
  11. 황경순, 이건명, 이찬희, "마이크로어레이 데이터에 대한 퍼지 경계 지역 클러스터링," 한국지능시스템학회 춘계학술대회논문지, 2009.
  12. M. Hegland, "The Apriori Algorithm-a Tutorial," Mathem atics and Computation in Imaging Science and Information Processing, pp.209-262, World Scientific, 2007.
  13. 박대훈, 김연태, 김성신, 이춘환, "마이크로어레이 데이터에 적용된 2단계 K-means 클러스터링의 소개," 한국지능시스템학회 논문지, 17권, 2호, pp.167-172, 2007.
  14. T. H. Cormen, C. E. Leiserson, R. L. Rivest, C. Stein, Introduction to Algorithms, The MIT Press, 2001.

Cited by

  1. A R&D strategies for development using structured association map vol.26, pp.3, 2016, https://doi.org/10.5391/JKIIS.2016.26.3.190