• Title/Summary/Keyword: 병렬 라이브러리

Search Result 172, Processing Time 0.026 seconds

Lock-free unique identifier allocation for parallel macro expansion

  • Son, Bum-Jun;Ahn, Ki Yung
    • Journal of the Korea Society of Computer and Information
    • /
    • v.27 no.4
    • /
    • pp.1-8
    • /
    • 2022
  • In this paper, we propose a more effective unique identifier allocation method for macro expansion in a single-process multicore parallel computing environment that does not require locks. Our key idea for such an allocation method is to remove sequential dependencies using the remainder operation. We confirmed that our lock-free method is suitable for improving the performance of parallel macro expansion through the following benchmark: we patched an existing library, which is based on a sequential unique identifier allocation, with our proposed method, and compared the performances of the same program but using two different versions of the library, before and after the patch.

A Study on Efficient Executions of MPI Parallel Programs in Memory-Centric Computer Architecture

  • Lee, Je-Man;Lee, Seung-Chul;Shin, Dongha
    • Journal of the Korea Society of Computer and Information
    • /
    • v.25 no.1
    • /
    • pp.1-11
    • /
    • 2020
  • In this paper, we present a technique that executes MPI parallel programs, that are developed on processor-centric computer architecture, more efficiently on memory-centric computer architecture without program modification. The technique we present here improves performance by replacing low-speed data communication over the network of MPI library functions with high-speed data communication using the property called fast large shared memory of memory-centric computer architecture. The technique we present in the paper is implemented in two programs. The first program is a modified MPI library called MC-MPI-LIB that runs MPI parallel programs more efficiently on memory-centric computer architecture preserving the semantics of MPI library functions. The second program is a simulation program called MC-MPI-SIM that simulates the performance of memory-centric computer architecture on processor-centric computer architecture. We developed and tested the programs on distributed systems environment deployed on Docker based virtualization. We analyzed the performance of several MPI parallel programs and showed that we achieved better performance on memory-centric computer architecture. Especially we could see very high performance on the MPI parallel programs with high communication overhead.

Parallel Information Retrieval using Document Clustering Techniques (문서 클러스터링 기법을 활용한 병렬 정보 검색)

  • 강유경;박세진;류광렬;정상화
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10a
    • /
    • pp.750-752
    • /
    • 1998
  • 본 논문은 고품질의 정보를 신속하게 제공할 수 있으며, cost-effective 한 medium-grained 병렬 정보 검색 시스템을 제시하고 있다. 본 검색 시스템은 병렬 모델의 효율을 극대화하는 방안으로 문서 라이브러리를 작은 단위의 클러스터로 세분화하고 검색 시 클러스터 단위로 프로세서에 할당될 수 있게 하여 할당될 작업의 단위를 적절히 중규모화하였을 뿐만 아니라, 각 클러스터마다 독립적인 염색인 파일을 별도로 두어 순위 부여 계산시 통신을 최소화 할 수 있도록 하였다. 또한, 기계 학습 기법을 이용하여 가능한 한 유사한 문서군이 되도록 클러스터링 함으로써 불필요한 크러스터가 검색될 가능성을 최소화하여 성능을 높였다. 본 검색 시스템은 분산메모리 MIMD 구조의 트랜스퓨터에서 구현되었으며, Connection machine에서 사용되는 Stanfill방법과의 비교 실험을 통하여 계층적인 접근법의 성능을 비교, 평가하였다. 그리고 random클러스터링 기법과 비교하여 기계학습을 통한 클러스터링 접근방법이 우수함을 보이고 있다.

  • PDF

An Application-Level Fault Tolerant System For Synchronous Parallel Computation (동기 병렬연산을 위한 응용수준의 결함 내성 연산시스템)

  • Park, Pil-Seong
    • Journal of Internet Computing and Services
    • /
    • v.9 no.5
    • /
    • pp.185-193
    • /
    • 2008
  • An MTBF(mean time between failures) of large scale parallel systems is known to be only an order of several hours, and large computations sometimes result in a waste of huge amount of CPU time, However. the MPI(Message Passing Interface), a de facto standard for message passing parallel programming, suggests no possibility to handle such a problem. In this paper, we propose an application-level fault tolerant computation system, purely on the basis of the current MPI standard without using any non-standard fault tolerant MPI library, that can be used for general scientific synchronous parallel computation.

  • PDF

Design of Parallel Inverse Quantization and Inverse Transform Architecture for High Performance H.264/AVC Decoder (고성능 H.264/AVC 복호기를 위한 병렬 역양자화 및 역변환 구조 설계)

  • Jung, Hong-Kyun;Ryoo, Kwang-Ki
    • Proceedings of the KAIS Fall Conference
    • /
    • 2011.12b
    • /
    • pp.434-437
    • /
    • 2011
  • 본 논문에서는 H.264/AVC 복호기의 성능을 향상시키기 위해 병렬 역양자화 구조와 역변환 구조를 제안한다. 제안하는 역양자화 구조는 공통 연산기를 사용하여 계산 복잡도를 감소시키고, 4개의 공통연산기를 사용하여 역양자화 수행 사이클 수를 1 사이클로 감소시킨다. 제안하는 역변환 구조는 4개의 변환 연산기를 사용하여 역변환 연산을 수행하는데 2 사이클이 소요된다. 또한 제안하는 구조는 역양자화 연산과 수평 역변환 연산을 동시에 수행하는 병렬 구조를 채택하여 역양자화 및 역변환 수행 사이클 수를 2 사이클로 감소시킨다. 제안하는 구조를 Magnachip 0.18um CMOS 공정 라이브러리를 이용하여 합성한 결과 1.5MHz의 동작 주파수에서 게이트 수는 14,173이고, 표준 참조 소프트웨어 JM 9.4에서 추출한 데이터를 이용하여 성능을 측정한 결과 제안하는 구조의 수행 사이클 수가 기존 구조 대비 38.74% 향상되었다.

  • PDF

A Design of High Performance Parallel CRC Using A Simple Logic Optimization (논리 최적화 기법을 이용한 병렬 CRC 회로 설계)

  • Yi Hyunbean;Kim Jusub;Park Sungju;Park Changwon
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07a
    • /
    • pp.460-462
    • /
    • 2005
  • 본 논문은 통신 시스템에서 오류 검출을 위해 널리 사용되고 있는 Cyclic Redundancy Check (CRC)회로의 병렬 구현을 위한 최적화 알고리즘을 제시한다. 논리 단을 최소로 하면서 가능한 않은 공유 텀을 찾아 매핑 함으로써 속도 및 게이트 수를 줄인다. 본 논문에서는 이더넷의 32비트 CRC를 병렬로 구현하여 성능평가를 하였다. FPGA 및 표준 셀 라이브러리를 이용하여 합성하였으며, 기존의 방식에 비해 속도와 면적 모두 향상되었음을 보여준다.

  • PDF

The Design and Implementation of the ParaC Language (ParaC 언어의 설계 및 구현)

  • Lee, Kyoung-Seok;Woo, Young-Choon;Kim, Jin-Mee;Chi, Dong-Hae
    • The Transactions of the Korea Information Processing Society
    • /
    • v.4 no.11
    • /
    • pp.2903-2913
    • /
    • 1997
  • This paper describes the design and implementation of the ParaC language that supports parallel programming on the shared memory and distributed memory parallel machine. The ParaC language is designed for the effective use of system resources of scalable parallel systems. The goal is achieved by adding parallel and synchronization constructs for shared address spaces, and remote task constructs for distributed address spaces. This paper also shows the translation method, and we implement the translator and the run-time library for parallel execution of extended constructs.

  • PDF

Developing Reinforcement Learning based Job Allocation Model by Using FlexSim Software (FlexSim 소프트웨어를 이용한 강화학습 기반 작업 할당 모형 개발)

  • Jin-Sung Park;Jun-Woo Kim
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2023.01a
    • /
    • pp.311-313
    • /
    • 2023
  • 병렬 기계 작업장에서 자원을 효율적으로 활용하기 위해서는 처리할 작업을 적절한 기계에 할당해야 한다. 특정 작업을 처리할 기계를 선택할 때 휴리스틱을 사용할 수도 있으나, 특정 작업장에 맞춤화된 휴리스틱을 개발하는 것은 쉽지 않다. 반면, 본 논문에서는 이종 병렬 기계 작업장을 위한 작업 할당 모형을 개발하는데 강화학습을 응용하고자 한다. 작업 할당 모형을 학습하는데 필요한 에피소드들은 상용 시뮬레이션 소프트웨어인 FlexSim을 이용하여 생성하였다. 아울러, stable-baseline3 라이브러리를 이용하여 강화학습 알고리즘을 생성된 에피소드들에 적용하였다. 실험 결과를 통해 시뮬레이션과 강화학습이 작업장 운영관리에 유용함을 알 수 있었다.

  • PDF

Parallel Computation on the Three-dimensional Electromagnetic Field by the Graph Partitioning and Multi-frontal Method (그래프 분할 및 다중 프론탈 기법에 의거한 3차원 전자기장의 병렬 해석)

  • Kang, Seung-Hoon;Song, Dong-Hyeon;Choi, JaeWon;Shin, SangJoon
    • Journal of the Korean Society for Aeronautical & Space Sciences
    • /
    • v.50 no.12
    • /
    • pp.889-898
    • /
    • 2022
  • In this paper, parallel computing method on the three-dimensional electromagnetic field is proposed. The present electromagnetic scattering analysis is conducted based on the time-harmonic vector wave equation and the finite element method. The edge-based element and 2nd -order absorbing boundary condition are used. Parallelization of the elemental numerical integration and the matrix assemblage is accomplished by allocating the partitioned finite element subdomain for each processor. The graph partitioning library, METIS, is employed for the subdomain generation. The large sparse matrix computation is conducted by MUMPS, which is the parallel computing library based on the multi-frontal method. The accuracy of the present program is validated by the comparison against the Mie-series analytical solution and the results by ANSYS HFSS. In addition, the scalability is verified by measuring the speed-up in terms of the number of processors used. The present electromagnetic scattering analysis is performed for a perfect electric conductor sphere, isotropic/anisotropic dielectric sphere, and the missile configuration. The algorithm of the present program will be applied to the finite element and tearing method, aiming for the further extended parallel computing performance.

Efficient Parallel CUDA Random Number Generator on NVIDIA GPUs (NVIDIA GPU 상에서의 난수 생성을 위한 CUDA 병렬프로그램)

  • Kim, Youngtae;Hwang, Gyuhyeon
    • Journal of KIISE
    • /
    • v.42 no.12
    • /
    • pp.1467-1473
    • /
    • 2015
  • In this paper, we implemented a parallel random number generation program on GPU's, which are known for high performance computing, using LCG (Linear Congruential Generator). Random numbers are important in all fields requiring the use of randomness, and LCG is one of the most widely used methods for the generation of pseudo-random numbers. We explained the parallel program using the NVIDIA CUDA model and MPI(Message Passing Interface) and showed uniform distribution and performance results. We also used a Monte Carlo algorithm to calculate pi(${\pi}$) comparing the parallel random number generator with cuRAND, which is a CUDA library function, and showed that our program is much more efficient. Finally we compared performance results using multi-GPU's with those of ideal speedups.