• Title/Summary/Keyword: 분산 병렬 처리

Search Result 411, Processing Time 0.03 seconds

An Efficient Parallelization Mechanism for Preprocessing of Genome Sequence Data on HPC environment (고성능 클러스터와 분산 병렬 파일 시스템을 이용한 유전체데이터 전처리 작업의 효율적인 병렬화 기법)

  • Byun, Eun-Kyu;Mun, Ji-hyeob;Kwak, Jae-Hyuck
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.10a
    • /
    • pp.50-53
    • /
    • 2018
  • 차세대 염기서열 분석법이 생성한 유전체 원시 데이터를 기존의 방식대로 하나의 서버에서 분석하기 위해서는 수십 시간이 필요할 수 있고 이러한 시간을 최대한 줄여야 하는 응급 상황도 존재한다. 따라서 본 연구에서는 고속의 네트워크로 연결되고 병렬 파일 시스템을 공유하는 서버 클러스터를 활용하여 분석 시간을 크게 단축 시킬 수 있는 유전체 데이터 분석의 전처리 프로세스의 병렬화 방법을 제안한다. 기존의 검증된 분석도구를 기반으로 프로세스의 병렬화, 데이터의 분배 및 병렬 병합 기법을 개발하였고 실험을 통해 성능을 향상 시킬 수 있음을 증명하였다.

Implementation of Tiering Storage to Support High-Performance I/O (고성능 I/O 지원을 위한 계층형 스토리지 구현)

  • Junweon Yoon;Taeyeong Hong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.50-52
    • /
    • 2023
  • ML/DL과 같은 AI의 연구가 HPC 환경에서 수행되면서 데이터 병렬화, 분산 학습 및 대규모 데이터 세트를 처리를 위한 요구사항이 급격히 증가하였다. 또한, 병렬처리 연산에 특화된 가속기 기반 이기종 아키텍처 환경 변화로 I/O 처리에 고대역폭, 저지연의 스토리지 기술을 필요로 하고 있다. 본 논문에서는 고집적의 병렬 컴퓨팅 환경에 고성능 HPC, AI 애플리케이션을 처리하기 위한 티어링 스토리지 기술을 논한다. 나아가 실제 고성능 NVMe 기반의 플래시 티어링 계층 구성에서 액세스 패턴에 따른 데이터 처리 환경을 구축하고 성능을 검증한다. 이로써 다양한 사용자 어플리케이션의 I/O 패턴을 특성에 맞게 지원할 수 있다.

Visualization Method of Social Networks Service using Message correlations based on Distributed Parallel Processing (메시지의 상관관계를 이용한 분산병렬처리 기반의 소셜 네트워크 서비스 시각화 방법)

  • Kim, Yong-Il;Park, Sun;Ryu, Gab-Sang
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.17 no.5
    • /
    • pp.1168-1173
    • /
    • 2013
  • This paper proposes a new visualization method based on cloud technique which uses internal relationship of user correlation and external relation of social network to visualize user relationship hierarchy. The visualization method of this paper can well represent user-focused relationship hierarchy on social networks by a correlation matrix. The importance of a access node reflects into user relationship hierarchy by exploiting external relation of social network. Users of the method can well understand user relationships on account of representing user relationship hierarchy from social networks. In addition, the method use hadoop and hive for distribution storing and parallel processing which the result of calculation visualizes hierarchy graph using D3.

Term Clustering and Interleaving for Parallel Information Retrieval (색인어 군집화를 이용한 효율적인 병렬정보검색시스템)

  • 강재호;양재완;정성원;류광렬;권혁철;정상화
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2002.05a
    • /
    • pp.401-409
    • /
    • 2002
  • 인터넷과 같은 대량의 정보에 대응할 수 있는 고성능 정보검색시스템을 구축하기 위해서는 지금까지 고가의 중대형 컴퓨터를 주로 활용하여 왔으나, 최근 가격대 성능비가 높은 PC 클러스터 시스템을 활용하는 방안이 경제적인 대안으로 떠오르고 있다. PC 클러스터 상에서의 병렬정보검색시스템을 효율적으로 운영하기 위해서는 사용자가 입력한 질의를 처리하는데 요구되는 개별 PC의 디스크 I/O 및 검색관련 연산을 모든 PC에 가능한 균등하게 분배할 필요가 있다. 본 논문에서는 같은 질의에 동시에 등장할 가능성이 높은 색인어들끼리 군집 화하고 생성된 군집을 활용하여 색인어들을 각 PC에 분산저장함으로써 보다 높은 수준의 병렬화를 달성할 수 있는 방안을 제시한다. 대용량 말뭉치를 활용한 실험결과 본 논문에서 제시하는 분산저장기법이 충분한 효율성을 가지고 있음을 확인하였다.

  • PDF

The Bigdata Processing Environment Building for the Learning System (학습 시스템을 위한 빅데이터 처리 환경 구축)

  • Kim, Young-Geun;Kim, Seung-Hyun;Jo, Min-Hui;Kim, Won-Jung
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.9 no.7
    • /
    • pp.791-797
    • /
    • 2014
  • In order to create an environment for Apache Hadoop for parallel distributed processing system of Bigdata, by connecting a plurality of computers, or to configure the node, using the configuration of the virtual nodes on a single computer it is necessary to build a cloud fading environment. However, be constructed in practice for education in these systems, there are many constraints in terms of cost and complex system configuration. Therefore, it is possible to be used as training for educational institutions and beginners in the field of Bigdata processing, development of learning systems and inexpensive practical is urgent. Based on the Raspberry Pi board, training and analysis of Big data processing, such as Hadoop and NoSQL is now the design and implementation of a learning system of parallel distributed processing of possible Bigdata in this study. It is expected that Bigdata parallel distributed processing system that has been implemented, and be a useful system for beginners who want to start a Bigdata and education.

Implementation of Parallel Local Alignment Method for DNA Sequence using Apache Spark (Apache Spark을 이용한 병렬 DNA 시퀀스 지역 정렬 기법 구현)

  • Kim, Bosung;Kim, Jinsu;Choi, Dojin;Kim, Sangsoo;Song, Seokil
    • The Journal of the Korea Contents Association
    • /
    • v.16 no.10
    • /
    • pp.608-616
    • /
    • 2016
  • The Smith-Watrman (SW) algorithm is a local alignment algorithm which is one of important operations in DNA sequence analysis. The SW algorithm finds the optimal local alignment with respect to the scoring system being used, but it has a problem to demand long execution time. To solve the problem of SW, some methods to perform SW in distributed and parallel manner have been proposed. The ADAM which is a distributed and parallel processing framework for DNA sequence has parallel SW. However, the parallel SW of the ADAM does not consider that the SW is a dynamic programming method, so the parallel SW of the ADAM has the limit of its performance. In this paper, we propose a method to enhance the parallel SW of ADAM. The proposed parallel SW (PSW) is performed in two phases. In the first phase, the PSW splits a DNA sequence into the number of partitions and assigns them to multiple nodes. Then, the original Smith-Waterman algorithm is performed in parallel at each node. In the second phase, the PSW estimates the portion of data sequence that should be recalculated, and the recalculation is performed on the portions in parallel at each node. In the experiment, we compare the proposed PSW to the parallel SW of the ADAM to show the superiority of the PSW.

Parallel View Consistency Maintenance Using Referential Integrity Constraints in Data Warehouse Environment (데이터 웨어하우스에서 참조 무결성 제약 조건을 이용한 병렬 뷰 일관성 관리 기법)

  • 이병숙;김진호;옥수호;이우기
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.40-42
    • /
    • 2002
  • 데이터 웨어하우스는 물리적으로 여러 사이트에 위치한 분산된 데이터 소스로부터 추출한 온라인 분석 정보를 유지하는 실체 뷰 의 집합으로 구성된다. 따라서 데이터 소스에 변경 사항이 발생하면 데이터 웨어하우스와 일관성을 유지하기 위해 뷰에도 그 변경사항을 반영하는 뷰 관리가 필요하다 동시에 변경되는 여러 데이터 소스와 뷰의 상태 사이에 일관성을 보장하기 위해서는 각 소스의 변경 사항을 순서대로 뷰에 반영해야 한다. 이때 각 소스의 변경 사항을 뷰 정의와 관련된 다른 소스들과 조인을 수행해야 하는 등 뷰 갱신을 위해 많은 비용이 소요된다. 이러한 뷰 갱신 비용을 줄이는 방법중의 하나로 병렬처리 기법을 활용하는 연구가 시도되고 있다. 따라서 이 논문에서는 뷰의 일관성을 보장하기 위해 수행해야 하는 서브질의론 병렬로 처리하는 알고리즘을 제시하였다. 이 방법에서는 서브질의의 조인 연산들을 소스 렐레이션들 간의 참조 무결성 제약 조건을 이용하여 병렬로 처리한다. 질의의 조인 처리를 병렬화 하기 위해 소스 릴레이션간의 참조 무결성 제약조건의 툭송울 이용하여, 여러 릴레이션을 참조하는 릴레이션에서 발생하는 변경 사항에 대해 참조하는 릴레이션의 수만큼 병렬로 조인 연산을 수행하는 알고리즘을 제시하였다. 이렇게 함으로써 여러 소스 릴레이션의 조인으로 구성된 실체 뷰를 갱신하는 시간을 크게 단축하여 효율적으로 뷰를 관리하도록 하였으며, 소스의 증가에 따른 뷰 갱신 시간의 증가를 줄일 수 있도록 하였다.

  • PDF

Implementation of Multicore-Aware Load Balancing on Clusters through Data Distribution in Chapel (클러스터 상에서 다중 코어 인지 부하 균등화를 위한 Chapel 데이터 분산 구현)

  • Gu, Bon-Gen;Carpenter, Patrick;Yu, Weikuan
    • The KIPS Transactions:PartA
    • /
    • v.19A no.3
    • /
    • pp.129-138
    • /
    • 2012
  • In distributed memory architectures like clusters, each node stores a portion of data. How data is distributed across nodes influences the performance of such systems. The data distribution scheme is the strategy to distribute data across nodes and realize parallel data processing. Due to various reasons such as maintenance, scale up, upgrade, etc., the performance of nodes in a cluster can often become non-identical. In such clusters, data distribution without considering performance cannot efficiently distribute data on nodes. In this paper, we propose a new data distribution scheme based on the number of cores in nodes. We use the number of cores as the performance factor. In our data distribution scheme, each node is allocated an amount of data proportional to the number of cores in it. We implement our data distribution scheme using the Chapel language. To show our data distribution is effective in reducing the execution time of parallel applications, we implement Mandelbrot Set and ${\pi}$-Calculation programs with our data distribution scheme, and compare the execution times on a cluster. Based on experimental results on clusters of 8-core and 16-core nodes, we demonstrate that data distribution based on the number of cores can contribute to a reduction in the execution times of parallel programs on clusters.

Concurrent blockchain architecture with small node network (소규모 노드로 구성된 고속 병렬 블록체인 아키텍처)

  • Joi, YongJoon;Shin, DongMyung
    • Journal of Software Assessment and Valuation
    • /
    • v.17 no.2
    • /
    • pp.19-29
    • /
    • 2021
  • Blockchain technology fulfills the reliance requirement and is now entering a new stage of performance. However, the current blockchain technology has significant disadvantages in scalability and latency because of its architecture. Therefore, to adopt blockchain technology to real industry, we must overcome the performance issue by redesigning blockchain architecture. This paper introduces several element technologies and a novel blockchain architecture TPAC, that preserves blockchain's technical advantage but shows more stable and faster transaction processing performance and low latency.