• 제목/요약/키워드: Parallel Computing and Communications

검색결과 44건 처리시간 0.029초

Performance Optimization of Parallel Algorithms

  • Hudik, Martin;Hodon, Michal
    • Journal of Communications and Networks
    • /
    • 제16권4호
    • /
    • pp.436-446
    • /
    • 2014
  • The high intensity of research and modeling in fields of mathematics, physics, biology and chemistry requires new computing resources. For the big computational complexity of such tasks computing time is large and costly. The most efficient way to increase efficiency is to adopt parallel principles. Purpose of this paper is to present the issue of parallel computing with emphasis on the analysis of parallel systems, the impact of communication delays on their efficiency and on overall execution time. Paper focuses is on finite algorithms for solving systems of linear equations, namely the matrix manipulation (Gauss elimination method, GEM). Algorithms are designed for architectures with shared memory (open multiprocessing, openMP), distributed-memory (message passing interface, MPI) and for their combination (MPI + openMP). The properties of the algorithms were analytically determined and they were experimentally verified. The conclusions are drawn for theory and practice.

FPGA 상에서 OpenCL을 이용한 병렬 문자열 매칭 구현과 최적화 방향 (Parallel String Matching and Optimization Using OpenCL on FPGA)

  • 윤진명;최강일;김현진
    • 전기학회논문지
    • /
    • 제66권1호
    • /
    • pp.100-106
    • /
    • 2017
  • In this paper, we propose a parallel optimization method of Aho-Corasick (AC) algorithm and Parallel Failureless Aho-Corasick (PFAC) algorithm using Open Computing Language (OpenCL) on Field Programmable Gate Array (FPGA). The low throughput of string matching engine causes the performance degradation of network process. Recently, many researchers have studied the string matching engine using parallel computing. FPGA's vendors offer a parallel computing platform using OpenCL. In this paper, we apply the AC and PFAC algorithm on DE1-SoC board with Cyclone V FPGA, where the optimization that considers FPGA architecture is performed. Experiments are performed considering global id, local id, local memory, and loop unrolling optimizations using PFAC algorithm. The performance improvement using loop unrolling is 129 times greater than AC algorithm that not adopt loop unrolling. The performance improvements using loop unrolling are 1.1, 0.2, and 1.5 times greater than those using global id, local id, and local memory optimizations mentioned above.

클라우드컴퓨팅에서 메시지패싱방식 응용프로그램의 효율적인 체크포인트 알고리즘 (Efficient Checkpoint Algorithm for Message-Passing Parallel Applications on Cloud Computing)

  • Le, Duc Tai;Dao, Manh Thuong Quan;Ahn, Min-Joon;Choo, Hyun-Seung
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.156-157
    • /
    • 2011
  • In this work, we study the checkpoint/restart problem for message-passing parallel applications running on cloud computing environment. This is a new direction which arises from the trend of enabling the applications to run on the cloud computing environment. The main objective is to propose an efficient checkpoint algorithm for message-passing parallel applications considering communications with external systems. We further implement the novel algorithm by modifying gSOAP and OpenMPI (the open source libraries) which support service calls and checkpoint message-passing parallel programs, especially. The simulation showed that additional costs to the executing and checkpointing application of the algorithm are negligible. Ultimately, the algorithm supports efficiently the checkpoint/restart service for message-passing parallel applications, that send requests to external services.

Heterogeneous 멀티 코어 환경의 Thick Client에서 VDI 성능 최적화를 위한 혼합 병렬 처리 기법 연구 (VDI Performance Optimization with Hybrid Parallel Processing in Thick Client System under Heterogeneous Multi-Core Environment)

  • 김명섭;허의남
    • 한국통신학회논문지
    • /
    • 제38B권3호
    • /
    • pp.163-171
    • /
    • 2013
  • 최근 HD급 동영상이나 3D 어플리케이션과 같은 이전보다 저사양, 모바일 단말에서는 구동하기 힘든 프로그램들에 대한 이용 요구가 확대되면서 처리해야 할 콘텐츠 데이터들이 고용량화 되고 있다. 클라우드 기반의 VDI(Virtual Desktop Infrastructure) 서비스는 이를 처리하기 위해 효율적인 데이터 처리 능력이 필요해졌으며 QoE(Quality of Experience) 보장을 위한 성능 개선 연구가 이슈가 되고 있다. 본 논문에서는 H/W 성능이 향상되어 CPU와 GPU를 탑재한 Thick Client기반의 3가지 Thick-Thin간 VDI 자원 공유 및 위임이 가능한 VDI 서비스에 대해 제안하며, VDI 서비스 성능의 개선을 위해 CPU와 GPU가 혼합된 Heterogeneous 멀티코어 환경에서 CPU와 GPU 병렬 처리 기법인 OpenMP와 CUDA를 활용하여 VDI 서비스 최적화 방안을 제안하고 기존의 VDI와 비교한 성능을 거론한다.

DMRUT-MCDS: Discovery Relationships in the Cyber-Physical Integrated Network

  • Lu, Hongliang;Cao, Jiannong;Zhu, Weiping;Jiao, Xianlong;Lv, Shaohe;Wang, Xiaodong
    • Journal of Communications and Networks
    • /
    • 제17권6호
    • /
    • pp.558-567
    • /
    • 2015
  • In recent years, we have seen a proliferation of mobile-network-enabled smart objects, such as smart-phones and smart-watches, that form a cyber-physical integrated network to connect the cyber and physical worlds through the capabilities of sensing, communicating, and computing. Discovery of the relationship between smart objects is a critical and nontrivial task in cyber-physical integrated network applications. Aiming to find the most stable relationship in the heterogeneous and dynamic cyber-physical network, we propose a distributed and efficient relationship-discovery algorithm, called dynamically maximizing remaining unchanged time with minimum connected dominant set (DMRUT-MCDS) for constructing a backbone with the smallest scale infrastructure. In our proposed algorithm, the impact of the duration of the relationship is considered in order to balance the size and sustain time of the infrastructure. The performance of our algorithm is studied through extensive simulations and the results show that DMRUT-MCDS performs well in different distribution networks.

병렬 분산 처리를 이용한 영상 기반 실내 위치인식 시스템의 프레임워크 구현 (Framework Implementation of Image-Based Indoor Localization System Using Parallel Distributed Computing)

  • 권범;전동현;김종유;김정환;김도영;송혜원;이상훈
    • 한국통신학회논문지
    • /
    • 제41권11호
    • /
    • pp.1490-1501
    • /
    • 2016
  • 본 논문에서는 인메모리(In-memory) 병렬 분산 처리 시스템 Apache Spark(이하 Spark)를 활용하여 사용자에게 실시간 측위 정보를 제공할 수 있는 영상 기반 실내 위치인식 시스템을 제안한다. 제안하는 시스템에서는 사용자에게 실시간 측위 정보를 제공하기 위해서, Spark를 이용한 영상 특징점 추출 알고리즘의 병렬 분산화를 통해 알고리즘 연산 시간을 단축시킨다. 하지만 기존의 Spark 플랫폼에서는 영상 처리를 위한 인터페이스가 존재하지 않아, 영상 처리와 관련된 연산을 수행하는 것이 불가능하였다. 이에 본 논문에서는 Spark 영상 입출력 인터페이스를 구현하여 측위 연산을 위한 영상 처리를 Spark에서 수행 가능하게 하였다. 또한 무손실 압축(lossless compression)기법을 이용하여 특징점 기술자(descriptor)를 압축된 형태로 데이터베이스에 저장하여, 대용량의 실내 지도 데이터를 효율적으로 저장 및 관리하는 방법을 소개한다. 측위 실험은 실제 실내 환경에서 수행하였으며, 싱글 코어(Single-core) 시스템과의 성능 비교를 통해 제안하는 시스템이 최대 약 3.6배 단축된 시간으로 사용자에게 측위 정보를 제공 할 수 있다는 것을 입증하였다.

멀티 매니징 기법을 이용한 웹기반 분산 병렬 컴퓨팅 환경 (Web-based Distributed Parallel Computing Environment with Multi-Managing Method)

  • 맹혜선;한탁돈;김신덕
    • 한국정보처리학회논문지
    • /
    • 제6권7호
    • /
    • pp.1777-1788
    • /
    • 1999
  • 자바 언어를 이용하여 이질적인 컴퓨팅 자원으로 구성된 컴퓨팅 환경에서 효율적으로 분산 병렬 처리를 수행할 수 있도록 하는 웹컴퓨팅 방법이 제시되었다. 본 연구에서는 인트라넷상의 유휴 컴퓨팅 자원을 활용하는 '협력하는 웹컴퓨팅 환경(Cooperative Web Computing Environment : CWCE)'을 구축하였다. 이 환경은 특히 협력하는 병렬 프로그램을 효율적으로 수행할 수 있도록 한다. CWCE 컴퓨터들 사이의 통신 집중 감소를 위해 복수 개의 매니저 컴퓨터를 운용할 수 있는 방법을 제공한다. 또한 최적화 된 수행을 지원하기 위해 필요한 매니저 컴퓨터의 개수를 결정할 수 있는 '매니징 레벨 결정 함수'를 제공한다. 본 연구에서는 동기화 된 통신을 요구하는 응용 프로그램이 CWCE 환경에서 복수 개의 매니저 컴퓨터를 이용함으로써 보다 효율적으로 수행될 수 있음을 분석과 실험을 통해서 보이도록 하였다.

  • PDF

OpenCL을 활용한 이기종 파이프라인 컴퓨팅 기반 Spark 프레임워크 (Spark Framework Based on a Heterogenous Pipeline Computing with OpenCL)

  • 김대희;박능수
    • 전기학회논문지
    • /
    • 제67권2호
    • /
    • pp.270-276
    • /
    • 2018
  • Apache Spark is one of the high performance in-memory computing frameworks for big-data processing. Recently, to improve the performance, general-purpose computing on graphics processing unit(GPGPU) is adapted to Apache Spark framework. Previous Spark-GPGPU frameworks focus on overcoming the difficulty of an implementation resulting from the difference between the computation environment of GPGPU and Spark framework. In this paper, we propose a Spark framework based on a heterogenous pipeline computing with OpenCL to further improve the performance. The proposed framework overlaps the Java-to-Native memory copies of CPU with CPU-GPU communications(DMA) and GPU kernel computations to hide the CPU idle time. Also, CPU-GPU communication buffers are implemented with switching dual buffers, which reduce the mapped memory region resulting in decreasing memory mapping overhead. Experimental results showed that the proposed Spark framework based on a heterogenous pipeline computing with OpenCL had up to 2.13 times faster than the previous Spark framework using OpenCL.

병렬처리를 통한 정규혼합분포의 추정 (Parallel Implementations of the Self-Organizing Network for Normal Mixtures)

  • 이철희;안성만
    • Communications for Statistical Applications and Methods
    • /
    • 제19권3호
    • /
    • pp.459-469
    • /
    • 2012
  • 본 연구에서는 자기조직화 신경망이 필요한 노드만을 가지고 최적화하여 정규혼합분포를 추정하는 모형(Ahn과 Kim, 2011)을 Java언어에서 제공하는 스레드(thread)를 기반으로, 멀티코어 컴퓨팅환경에서 병렬처리방식으로 구현하여 순차처리방식에 비해 짧은 연산시간으로 정규혼합모형의 추정이 가능함을 보이려고 한다. 이를 위하여 Ahn과 Kim이 제안한 모형을 바탕으로 두 가지의 병렬처리 방법을 제안하고 그 성능을 평가하였다. 병렬처리 방법은 Java의 멀티스레드를 이용하여 구현되었으며, 모의실험을 통하여 제안한 모형이 순차처리방식과 비교하여 수렴속도가 빠름을 확인하였다.