DOI QR코드

DOI QR Code

Genome Analysis Pipeline I/O Workload Analysis

유전체 분석 파이프라인의 I/O 워크로드 분석

  • 임경열 (한양대학교 전자컴퓨터통신과) ;
  • 김동오 (한국전자통신연구원) ;
  • 김홍연 (한국전자통신연구원) ;
  • 박기한 (한양대학교 전자컴퓨터통신과) ;
  • 최민석 (한양대학교 전자컴퓨터통신과) ;
  • 원유집 (한양대학교 전자컴퓨터통신공학과)
  • Received : 2013.01.08
  • Accepted : 2013.01.17
  • Published : 2013.02.28

Abstract

As size of genomic data is increasing rapidly, the needs for high-performance computing system to process and store genomic data is also increasing. In this paper, we captured I/O trace of a system which analyzed 500 million sequence reads data in Genome analysis pipeline for 86 hours. The workload created 630 file with size of 1031.7 Gbyte and deleted 535 file with size of 91.4 GByte. What is interesting in this workload is that 80% of all accesses are from only two files among 654 files in the system. Size of read and write request in the workload was larger than 512 KByte and 1 Mbyte, respectively. Majority of read write operations show random and sequential patterns, respectively. Throughput and bandwidth observed in each processing phase was different from each other.

최근 유전체 데이터의 급격한 증가로 인해 이를 처리하기 위한 고성능 컴퓨팅 시스템이 필요로 하게 되었으며 대량의 유전체 데이터를 저장 관리할 수 있는 고성능 저장 시스템이 필요하게 되었다. 본 논문에서는 대략 5억 개 정도의 시퀀스 리드 데이터를 분석하는 유전체 분석 파이프라인의 I/O워크로드를 수집 및 분석하였다. 실험은 86시간 동안 수행되었다. 1031.7 GByte 크기의 630개 파일이 생성되었으며 91.4 GByte 크기의 535개의 파일이 삭제되었다. 전체 654개의 파일 중 0.3%인 2개의 파일이 전체 접근 빈도의 80%를 차지하여 전체 파일 중 일부분의 파일이 대부분의 I/O를 발생시킨다는 것을 알 수 있다. 요청 크기 단위로는 읽기에서 주로 512 KByte 크기 이상의 요청이 발생했고 쓰기에서 주로 1 MByte 크기 이상의 요청이 발생했다. 파일이 열려있는 동안의 접근 패턴은 읽기와 쓰기 연산에서 각각 임의와 순차패턴을 보였다. IOPS와 대역폭은 각 단계마다 고유한 패턴을 보였다.

Keywords

References

  1. J. Kang, H. Jo, J. Kim, and J. Lee, "A superblock-based flash translation layer for nand flash memory," pp.161-170, 2006.
  2. C. Bell, R. Dixon, A. Farmer, R. Flo-res, J. Inman, R. Gonzales, M. Harri-son, N. Paiva, A. Scott, J. Weller, et al., "The medicago genome initiative: a model legume database," Nucleic Acids Research, Vol.29, No.1, pp.114-117, 2001. https://doi.org/10.1093/nar/29.1.114
  3. L. Matukumalli, J. Grefenstette, D. Hyten, I. Choi, P. Cregan, and C. Van Tassell, "Snp-phage-high throughput snp discov-ery pipeline," BMC bioinformatics, Vol.7, No.1, pp.468, 2006. https://doi.org/10.1186/1471-2105-7-468
  4. Seon-Hee Park, "IT based Bioinformatics," kiise, Vol.21, No.6, pp.20-26, 2003.
  5. Ik-Young Choi, "A review of the technology of genome & expression analysis," TiBMB, Vol.30, No.2, pp.25-35, 2010.
  6. E. Lander, L. Linton, B. Birren, C. Nus-baum, M. Zody, J. Baldwin, K. Devon, K. Dewar, M. Doyle, W. FitzHugh, et al., "Initial sequencing and analysis of the hu-man genome," Nature, Vol.409, No.6822, pp.860-921, 2001. https://doi.org/10.1038/35057062
  7. A. McKenna, M. Hanna, E. Banks, A. Sivachenko, K. Cibulskis, A. Kernytsky, K. Garimella, D. Altshuler, S. Gabriel, M. Daly, et al., "The genome analysis toolkit: a mapreduce framework for an-alyzing next-generation dna sequencing data," Genome research, Vol.20, No.9, pp.1297-1303, 2010. https://doi.org/10.1101/gr.107524.110
  8. H. Li and R. Durbin, "Fast and accu-rate short read alignment with burrows-wheeler transform," Bioinformatics, Vol.25, No.14, pp.1754-1760, 2009. https://doi.org/10.1093/bioinformatics/btp324
  9. H. Li, B. Handsaker, A. Wysoker, T. Fen-nell, J. Ruan, N. Homer, G. Marth, G. Abecasis, R. Durbin, et al., "The se-quence alignment/map format and sam-tools," Bioinformatics, Vol.25, No.16, pp.2078-2079, 2009. https://doi.org/10.1093/bioinformatics/btp352
  10. FUSE, "Filesystem in userspace." http://fuse.sourceforge.net/.