• Title/Summary/Keyword: Genome Sequence Data Preprocessing

Search Result 2, Processing Time 0.02 seconds

Parallelization of Genome Sequence Data Pre-Processing on Big Data and HPC Framework (빅데이터 및 고성능컴퓨팅 프레임워크를 활용한 유전체 데이터 전처리 과정의 병렬화)

  • Byun, Eun-Kyu;Kwak, Jae-Hyuck;Mun, Jihyeob
    • KIPS Transactions on Computer and Communication Systems
    • /
    • v.8 no.10
    • /
    • pp.231-238
    • /
    • 2019
  • Analyzing next-generation genome sequencing data in a conventional way using single server may take several tens of hours depending on the data size. However, in order to cope with emergency situations where the results need to be known within a few hours, it is required to improve the performance of a single genome analysis. In this paper, we propose a parallelized method for pre-processing genome sequence data which can reduce the analysis time by utilizing the big data technology and the highperformance computing cluster which is connected to the high-speed network and shares the parallel file system. For the reliability of analytical data, we have chosen a strategy to parallelize the existing analytical tools and algorithms to the new environment. Parallelized processing, data distribution, and parallel merging techniques have been developed and performance improvements have been confirmed through experiments.

An Efficient Parallelization Mechanism for Preprocessing of Genome Sequence Data on HPC environment (고성능 클러스터와 분산 병렬 파일 시스템을 이용한 유전체데이터 전처리 작업의 효율적인 병렬화 기법)

  • Byun, Eun-Kyu;Mun, Ji-hyeob;Kwak, Jae-Hyuck
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.10a
    • /
    • pp.50-53
    • /
    • 2018
  • 차세대 염기서열 분석법이 생성한 유전체 원시 데이터를 기존의 방식대로 하나의 서버에서 분석하기 위해서는 수십 시간이 필요할 수 있고 이러한 시간을 최대한 줄여야 하는 응급 상황도 존재한다. 따라서 본 연구에서는 고속의 네트워크로 연결되고 병렬 파일 시스템을 공유하는 서버 클러스터를 활용하여 분석 시간을 크게 단축 시킬 수 있는 유전체 데이터 분석의 전처리 프로세스의 병렬화 방법을 제안한다. 기존의 검증된 분석도구를 기반으로 프로세스의 병렬화, 데이터의 분배 및 병렬 병합 기법을 개발하였고 실험을 통해 성능을 향상 시킬 수 있음을 증명하였다.