DOI QR코드

DOI QR Code

Design of Efficient Storage Exploiting Structural Similarity in Microarray Data

마이크로어레이 데이터의 구조적 유사성을 이용한 효율적인 저장 구조의 설계

  • 윤종한 (세종대학교 검퓨터공학과) ;
  • 신동규 (세종대학교 컴퓨터공학과) ;
  • 신동일 (세종대학교 컴퓨터공학과)
  • Published : 2009.10.31

Abstract

As one of typical techniques for acquiring bio-information, microarray has contributed greatly to development of bioinformatics. Although it is established as a core technology in bioinformatics, it has difficulty in sharing and storing data because data from experiments has huge and complex type. In this paper, we propose a new method which uses the feature that microarray data format in MAGE-ML, a standard format for exchanging data, has frequent structurally similar patterns. This method constructs compact database by simplifying MAGE-ML schema. In this method, Inlining techniques and newly proposed classification techniques using structural similarity of elements are used. The structure of database becomes simpler and number of table-joins is reduced, performance is enhanced using this method.

생명정보 대량 획득기술의 하나인 마이크로어레이(microarray)는 DNA와 각종 유전자 연구에 사용되는 도구로 확립되면서, 생명정보학(Bioinformatics)분야의 발전에 크게 기여하였다. 그러나 마이크로어레이는 생명정보학분야의 핵심기술 중 하나로 발전하였음에도 불구하고 실험으로 생성되는 데이터는 형태가 다양하고 매우 복잡한 형태를 갖기 때문에 데이터의 공유나 저장에서 많은 어려움을 겪고 있다. 본 논문에서는 마이크로어레이 데이터의 관리를 원활하게 하기위한 XML 기반의 표준 포맷인 MAGE-ML스키마에서 구조적으로 유사한 엘리먼트가 반복적으로 나타나는 특징과 대다수의 엘리먼트들이 특정 엘리먼트의 자식으로만 온다는 구조적 특징을 이용하여, MAGE-ML의 스키마를 단순화 하고 저장구조를 효율적으로 설계하는 방법을 제안한다. 이 방법에서 인라인 기법(Inlining Technique)을 이용한 스키마의 단순화와 새롭게 제시하는 엘리먼트의 구조적 형태를 기준으로 분류하는 기법을 이용한다. 이를 통하여 데이터베이스 스키마는 간략화 되며 테이블조인의 횟수가 줄어들고 성능은 향상된다.

Keywords

References

  1. Randy Z. Wu, Steve N. Bailey and David M. Sabatini, “Cell-biological applications of transfected-cell microarrays”, TrendsinCellBiology12, pp.485-488, 2002, https://doi.org/10.1016/S0962-8924(02)02354-1
  2. P. T. Spellman, et al, “Design and implementation of microarray gene expression markup language (MAGE-ML)”, GenomeBiol233(9)RESEARCH.1-0046. 9, 2002. https://doi.org/10.1186/gb-2002-3-9-research0046
  3. J. Shanmugasundaram, K. Tufte, G. He, C. Zhang, D. Detwitz and J. Naughton, "Relational databases for querying xml documents: Limitations and opportunities", In Proc. Intl. Conf. on 25th VLDB, 1999.
  4. U. Sarkans, H. Parkinson, G. G. Lara, A. Oezcimen, A. Sharma, N. Abeygunawardena, S. Contrino,E. Holloway, P. Rocca-Serra, G. Mukherjee, M. Shojatalab, M. Kapushesky, S. A. Sansone, A. Farne, T. Rayner, A. Brazma, "The ArrayExpress gene expression database: a software engineering and implementation perspective", Bioinformatics. 21(8), pp.495-501, 2005. https://doi.org/10.1093/bioinformatics/bti157
  5. A. Catherine Bal1, A. B. Ihab. Awad, Janos Demeter, Jeremy Gollub, Joan M. Hebert, Tina Hernandez-Boussard, Heng Jin, C. Matese John , Michael Nitzberg, Farrell Wymore, K. Zachariah, O. Patrick Brown and Gavin Sherlock. "The Stanford Microarray Database accommodates additional microarray platforms and data formats", Nucleic Acids Research, pp.33, 2005. https://doi.org/10.1093/nar/gki006
  6. W. Martin, R.M. Horton, Magebuilder, "A schema translation tool for generating MAGE-ML from tabular microarray data", Bioinformatics Conference, CSB 2003, pp.431-432, 2003. https://doi.org/10.1109/CSB.2003.1227359
  7. S. Abiteboul, P. Buneman, D. Suciu, 1st ED. “Data on the web”, MorganKaufmann, 2000.
  8. H. Schoning, "Tamino - A DBMS designed for XML", In Proceedings of the 17th International Conference on Data E ngineering 2-6, pp.149-154, 2001. https://doi.org/10.1109/ICDE.2001.914823
  9. I. Tatarinov and S. Viglas, "Storing and Querying Ordered XML Using a Relational Database System", In Proceedings of the 2002 ACM SIGMOD international conference on Management of data, pp.204-215, 2001. https://doi.org/10.1145/564691.564715
  10. K. Runapongsa and J. M. Patel, "Storing and Querying XML Data in Object-Relational DBMS", In EDBT 2002 Workshop on XML-Based Data Management and Multimedia Engineering, LNCS 2490, pp.266-285, 2002. https://doi.org/10.1007/3-540-36128-6_15
  11. S. Ambler, D. A. Chapam, "Agile Database Techniques: Effective Strategies for the Agile Software Developer", WILEY, 2003.
  12. JAXB (Java Architecture for XML Binding), http://java.sun. com/xml/downloads/jaxb.html
  13. XSLT (XML Stylesheet Language Transformations), http://www.w3.org/Style/XSL/