• 제목/요약/키워드: parallel architecture

검색결과 888건 처리시간 0.033초

Accelerating Group Fusion for Ligand-Based Virtual Screening on Multi-core and Many-core Platforms

  • Mohd-Hilmi, Mohd-Norhadri;Al-Laila, Marwah Haitham;Hassain Malim, Nurul Hashimah Ahamed
    • Journal of Information Processing Systems
    • /
    • 제12권4호
    • /
    • pp.724-740
    • /
    • 2016
  • The performance issues of screening large database compounds and multiple query compounds in virtual screening highlight a common concern in Chemoinformatics applications. This study investigates these problems by choosing group fusion as a pilot model and presents efficient parallel solutions in parallel platforms, specifically, the multi-core architecture of CPU and many-core architecture of graphical processing unit (GPU). A study of sequential group fusion and a proposed design of parallel CUDA group fusion are presented in this paper. The design involves solving two important stages of group fusion, namely, similarity search and fusion (MAX rule), while addressing embarrassingly parallel and parallel reduction models. The sequential, optimized sequential and parallel OpenMP of group fusion were implemented and evaluated. The outcome of the analysis from these three different design approaches influenced the design of parallel CUDA version in order to optimize and achieve high computation intensity. The proposed parallel CUDA performed better than sequential and parallel OpenMP in terms of both execution time and speedup. The parallel CUDA was 5-10x faster than sequential and parallel OpenMP as both similarity search and fusion MAX stages had been CUDA-optimized.

A Study on Efficient Executions of MPI Parallel Programs in Memory-Centric Computer Architecture

  • Lee, Je-Man;Lee, Seung-Chul;Shin, Dongha
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권1호
    • /
    • pp.1-11
    • /
    • 2020
  • 본 논문에서는 프로세서 중심 컴퓨터 구조에서 개발된 MPI 병렬 프로그램을 수정하지 않고 메모리 중심 컴퓨터 구조에서 더 효율적으로 수행시키는 기술을 제안한다. 본 연구에서 제안하는 기술은 메모리 중심 컴퓨터 구조가 가지는 빠른 대용량 공유 메모리 특징을 이용하여 MPI 표준 라이브러리 함수가 수행하는 네트워크 통신을 통한 느린 데이터 전달을 공유 메모리를 통한 빠른 데이터 전달로 대체하여 효율성을 얻는다. 본 연구에서 제안한 기술은 두 개의 프로그램에 구현되었다. 첫 번째 프로그램은 MC-MPI-LIB라고 불리는 수정된 MPI 라이브러리인데 이는 기존 MPI 표준 라이브러리 함수의 의미를 유지하면서 메모리 중심 컴퓨터 구조에서 더 효율적으로 수행한다. 두 번째 프로그램은 MC-MPI-SIM이라고 불리는 시뮬레이션 프로그램인데 이는 프로세서 중심 컴퓨터 구조 상에서 메모리 중심 컴퓨터 구조의 수행을 시뮬레이션한다. 본 논문에서 제안한 기술은 도커 가상화 상에서 구현된 분산 시스템 환경에서 개발하고 시험하였다. 다수의 MPI 병렬 프로그램을 이용하여 제안한 기술의 성능을 측정한 결과 메모리 중심 컴퓨터 구조에서 더 높은 성능으로 수행 가능함을 보였으며, 특히 통신 오버헤드 비율이 높은 MPI 병렬 프로그램의 경우 매우 높은 성능으로 수행 가능하다는 점을 확인하였다.

병렬 연역 데이타베이스에서 확장된 평가 알고리즘 (An Extended Evaluation Algorithm in Parallel Deductive Database)

  • 조우현;김항준
    • 한국정보처리학회논문지
    • /
    • 제3권7호
    • /
    • pp.1680-1686
    • /
    • 1996
  • 연역 데이타베이스가 병렬 컴퓨터 구조에 분할 적재될 때, 내포 술어에 대한 갱신이 결정적일 필요가 있으며, 이 결과를 이용한 내포 술어의 병렬 평가 알고리즘이 요구된 다. 본 논문에서는 병렬 연역 데이타베이스의 내포 술어에 대한 삽입과 삭제가 결정적 인 방법을 제안하고 병렬 영역 데이타베이스를 휘한 병렬 컴퓨터 구도에서 갱신 방 법이 고려된 확장된 병렬 평가 알고리즘을 제안한다. 연역 데이타베이스는 외연적 데이타베이스 즉 사실들의 집합과, 내포적 데이타베이스 즉 규칙들의 집합으로 구성된다. 이 집합들을 여러개의 처리기에 분산 적재 하였을 때, 각각의 처리기에서 갱신 방법과 그 결과를 이용한 병렬 평가방법을 연구한다. 각각의 처리기는 자신의 지역 기억장치를 가지며 연결망을 통하여 서로 메세지를 교환함으로써 통신한다.

  • PDF

센서네트워크 활용을 위한 경량 병렬 BCH 디코더 설계 (Design of Lightweight Parallel BCH Decoder for Sensor Network)

  • 최원정;이제훈
    • 센서학회지
    • /
    • 제24권3호
    • /
    • pp.188-193
    • /
    • 2015
  • This paper presents a new byte-wise BCH (4122, 4096, 2) decoder, which treats byte-wise parallel operations so as to enhance its throughput. In particular, we evaluate the parallel processing technique for the most time-consuming components such as syndrome generator and Chien search owing to the iterative operations. Even though a syndrome generator is based on the conventional LFSR architecture, it allows eight consecutive bit inputs in parallel and it treats them in a cycle. Thus, it can reduce the number of cycles that are needed. In addition, a Chien search eliminates the redundant operations to reduce the hardware complexity. The proposed BCH decoder is implemented with VHDL and it is verified using a Xilinx FPGA. From the simulation results, the proposed BCH decoder can enhance the throughput as 43% and it can reduce the hardware complexity as 67% compared to its counterpart employing parallel processing architecture.

Design and Implementation of a Massively Parallel Multithreaded Architecture: DAVRID

  • Sangho Ha;Kim, Junghwan;Park, Eunha;Yoonhee Hah;Sangyong Han;Daejoon Hwang;Kim, Heunghwan;Seungho Cho
    • Journal of Electrical Engineering and information Science
    • /
    • 제1권2호
    • /
    • pp.15-26
    • /
    • 1996
  • MPAs(Massively Parallel Architectures) should address two fundamental issues for scalability: synchronization and communication latency. Dataflow architecture faces problems of excessive synchronization overhead and inefficient execution of sequential programs while they offer the ability to exploit massive parallelism inherent in programs. In contrast, MPAs based on von Neumann computational model may suffer from inefficient synchronization mechanism and communication latency. DAVRID (DAtaflow/Von Neumann RISC hybrID) is a massively parallel multithreaded architecture which takes advantages of von Neumann and dataflow models. It has good single thread performance as well as tolerates synchronization and communication latency. In this paper, we describe the DAVRID architecture in detail and evaluate its performance through simulation runs over several benchmarks.

  • PDF

병렬 자구성 계층 신경망 (PSHINN)의 구조 (Architectures of the Parallel, Self-Organizing Hierarchical Neural Networks)

  • 윤영우;문태현;홍대식;강창언
    • 전자공학회논문지B
    • /
    • 제31B권1호
    • /
    • pp.88-98
    • /
    • 1994
  • A new neural network architecture called the Parallel. Self-Organizing Hierarchical Neural Network (PSHNN) is presented. The new architecture involves a number of stages in which each stage can be a particular neural network (SNN). The experiments performed in comparison to multi-layered network with backpropagation training and indicated the superiority of the new architecture in the sense of classification accuracy, training time,parallelism.

  • PDF

직·병렬 하이브리드 충전 구조를 사용한 배터리 균형 충전 (Battery Cell Balancing with Hybrid Architecture of Serial and Parallel Charging)

  • 정의한;양창주;한승호;김형석
    • KEPCO Journal on Electric Power and Energy
    • /
    • 제2권4호
    • /
    • pp.609-613
    • /
    • 2016
  • 전기자동차 배터리 셀들 간의 불균형 충전 문제를 해결하기 위해, 직병렬 하이브리드 충전 구조를 개발하였다. 이 방법은 직렬 부분에 의해 주 충전이 수행되며 병렬 부분에 의해 밸런싱이 수행되는데, 이 때, 직렬 부분은 부피가 크고 무겁지만 병렬 부분은 직렬 부분보다 작고 가볍다. 개별 배터리 셀 전압을 측정하기 위한 센서 어레이, 듀티비 제어를 포함한 IGBT, 그리고 배터리 관리 시스템은 제안된 시스템의 핵심 요소이다.

실시간 멀티미디어 시스템을 위한 새로운 고속 병렬곱셈기 (New High Speed Parallel Multiplier for Real Time Multimedia Systems)

  • 조병록;이명옥
    • 정보처리학회논문지A
    • /
    • 제10A권6호
    • /
    • pp.671-676
    • /
    • 2003
  • 본 논문에서는 고속 병렬 곱셈기에서 속도향상을 위해 부분 곱을 가산하는 과정에 구성되는 CSA(Carry Select Adder) 트리에 새로운 압축기를 적용한 새로운 첫 번째 부분 곱가산(First Partial Product Addition : FPA)를 제안하여 기존의 전가산기를 이용한 병렬가산기보다 부분곱을 계산하는 속도를 약 20% 개선할 수 있게 했다. 새로운 회로는 새로운 FPA 구조를 사용하여 최종 합 CLA 비트를 N/2로 줄인다. 2.5v 0.25um CMOS 기술을 이용하여 제작된 16${\times}$16 곱셈기는 5.14nS의 곱셈 고속을 얻었다. 이 곱셈기의 구조는 파이프라인 설계에 용이하며 고성능을 낸다.

GPU 하드웨어 아키텍처 기반 sub-warp 단위 병렬 프리픽스(prefix) 연산의 정확한 구현 (Correct Implementation of Sub-warp Parallel Prefix Operations based on GPU Hardware Architecture)

  • 박태정
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권3호
    • /
    • pp.613-619
    • /
    • 2017
  • 본 논문에서는 대규모 데이터를 길이가 32 미만인 로컬 세그먼트 단위로 구분하고 이 로컬 세그먼트 내에서 정확한 GPU 병렬 프리픽스(prefix) 연산 결과를 출력하는 CUDA (Compute Unified Device Architecture) 코드를 제시한다. 이미 Mark Harris와 Michael Garland가 이러한 목적을 수행하기 위한 CUDA 코드를 이미 발표한 바 있으나 본 논문에서는 로컬 세그먼트의 길이가 32 미만일 때 기존 코드의 결과가 정확하지 않다는 사실을 살펴 보고 그 원인을 논의한 후, 정확한 결과를 출력하는 코드를 제안한다. 본 논문에서 다루는 로컬 세그먼트 단위의 병렬 프리픽스 연산은 최인접 요소 탐색(k-nearest neighbor search) 등은 물론 다양한 대규모 병렬 처리 알고리즘을 구성하는 기본 연산으로 활용 가능하다.

이완 결합형 다중 프로세서 시스템을 사용한 데이터 플로우 컴퓨터 구조의 병렬 에뮬레이션에 관 한 연구 (A Parallel Emulation Scheme for Data-Flow Architecture on Loosely Coupled Multiprocessor Systems)

  • 이용두;채수환
    • 한국통신학회논문지
    • /
    • 제18권12호
    • /
    • pp.1902-1918
    • /
    • 1993
  • 노이만 계산 모델의 병렬처리 구조는 구조 속성상의 취약성으로 인해 대량 병렬처리 구조로서는 한계가 있다. 데이터 플로우 계상 모델은 소프트웨어적 고 프로그램성과 하드웨어적 높은 개발 가능성을 갖고 있다. 그러나 실제 데이터 플로우 구조에서는 프로그래밍과 실험을 행하고자 할때, 노이만 방식의 기계는 많지만 실제 데이터 플로우 컴퓨터가 없으므로 대단히 어렵다. 본 논문에서는 일반적 재래 병렬처리기계중 하나인 이완결합 다중프로세서 시스템위에서 데이터 플로우 방식의 계산을 수행시킬 수 있는 프로그래밍 환경을 제시하였다. 에뮬레이터는 iPSC/2 하이퍼 큐프를 이용하여 Tagged Token 데이터 플로우 구조를 구축하였다. 본 에뮬레이터는 iPSC/2시스템에서 소프트웨어적 박층 실험으로 프로그래머의 입장에서는 iPSC/2 시스템이 데이터 플로우 주고로서 농작하는 것으로 간주한다. 여러 가지 수치 혹은 비수치 알고리즘을 데이터 플로우 어셈블리어로 구현하여 재래식 C 언어에 의한 것과 프로그램의 성능을 비교하였다. 이로써, 재래식 병렬처리 기계상의 에뮬레이터를 통한 실험적 데이터 플로우 계산을 행할 때 이 프로그래밍 환경의 효율성에 대하여도 검정하였다.

  • PDF