• 제목/요약/키워드: Parallelization method

검색결과 92건 처리시간 0.026초

5G NR 셀 탐색과 동기화를 위한 교차상관관계 기반 PSS 검출기 구조 (Hardware Structure of Cross Correlation based PSS Detector for Cell Search and Synchronization of 5G NR Systems)

  • 이진
    • 한국정보통신학회논문지
    • /
    • 제26권3호
    • /
    • pp.412-421
    • /
    • 2022
  • 5G NR 모든 기기는 기지국과 통신을 위해 가장 먼저 셀 탐색 및 동기화 과정을 진행해야 한다. 이 과정에서 PSS 검출이 제일 먼저 성공적으로 수행되어야 하므로, PSS 검출은 5G NR 통신에서 가장 중요하고 어려운 문제 중 하나이다. 다양한 PSS 검출 방법 중 본 논문에서는 교차상관관계 기반의 검출 방법에 대해 소개하고 복잡도와 검출 속도를 고려한 하드웨어 구조에 대해서 설명한다. 또한, PSS 검출기를 포함하는 시스템 구성을 위해 필요한 인터페이스와 효율적이고 유연한 동작을 위한 구동 소프트웨어 동작도 제안하고, 이를 구현하였을 때 Xilinx사의 UltraScale+ FPGA의 자원 사용량을 다양한 구조에 따라 비교 분석한다.

전자장문제를 위한 Davidson 방번의 병렬화 (A Parallel Algorithm of Davidson Method for Solving and Electomagnetic Problem)

  • 김형중;주욱
    • 산업기술연구
    • /
    • 제17권
    • /
    • pp.255-260
    • /
    • 1997
  • The analysis of eigenvalue and eigenvector is a crucial procedure for many electromagnetic computation problems. Although it is always the case in practice that only selected eigenpairs are needed, computation of eigenpair still seems to be a time-consuming task. In order to compute the eigenpair more quickly, there are two resorts: one is to select a good algorithm with care and another is to use parallelization technique to improve the speed of the computing. In this paper, one of the best eigensolver, the Davidson method, is parallelized on a cluster of workstations. We apply this scheme to a ridged waveguide design problem and obtain promising linear speedup and scalability.

  • PDF

예조건화 기법의 병렬화를 이용한 압축기 유동해석 (Computation of Compressor Flows Using Parallel Implementation of Preconditioning Method)

  • 이기수;최정열;김귀순
    • 한국전산유체공학회:학술대회논문집
    • /
    • 한국전산유체공학회 2000년도 추계 학술대회논문집
    • /
    • pp.155-162
    • /
    • 2000
  • In this paper, preconditioning method is parallelized on fast-ethernet PC cluster. The algorithm is based on scaling the pressure terms in the momemtum equations and preconditioning the conservation equations to circumvent numerical difficulties at low Mach numbers. Parallelization is performed using a domain decomposition technique(DDT) and message passing between sub-domains are taken from the MPI library. The results are shown to have good convergence properties at all Mach number on the circular arc Bump and are capable of reasonable predicting two-dimensional turbulent flows on DCA compressor cascade.

  • PDF

개선된 세포 외곽선 추출 알고리즘의 병렬화 (Improved Parallelization of Cell Contour Extraction Algorithm)

  • 유숙현;조우현;권희용
    • 한국멀티미디어학회논문지
    • /
    • 제20권5호
    • /
    • pp.740-747
    • /
    • 2017
  • A fast cell contour extraction method using CUDA parallel processing technique is presented. The cell contour extraction is one of important processes to analyze cell information in pathology. However, conventional sequential contour extraction methods are slow for a huge high-resolution medical image, so they are not adequate to use in the field. We developed a parallel morphology operation algorithm to extract cell contour more quickly. The algorithm can create an inner contour and fail to extract the contour from the concave part of the cell. We solved these problems by subdividing the contour extraction process into four steps: morphology operation, labeling, positioning and contour extraction. Experimental results show that the proposed method is four times faster than the conventional one.

HEVC 복호기에서의 타일, 슬라이스, 디블록킹 필터 병렬화 방법 (Tile, Slice, and Deblocking Filter Parallelization Method in HEVC)

  • 손소희;백아람;최해철
    • 방송공학회논문지
    • /
    • 제22권4호
    • /
    • pp.484-495
    • /
    • 2017
  • 최근 디스플레이 기기의 발전과 기가 네트워크 등의 전송 대역폭 확대로 인해 대형 파노라마 영상, 4K Ultra High-Definition 방송, Ultra-Wide Viewing 영상 등 2K 이상의 초고해상도 영상의 수요가 폭발적으로 증가하고 있다. 이러한 초고해상도 영상은 데이터양이 매우 많기 때문에 부호화 효율이 가장 높은 High Efficiency Video Coding(HEVC) 비디오 부호화 표준을 사용하는 추세이다. HEVC는 가장 최신의 비디오 부호화 표준으로 다양한 부호화 툴을 이용하여 높은 부호화 효율을 제공하지만 복잡도 또한 이전 부호화 표준과 비교하여 매우 높다. 특히 초고해상도 영상을 HEVC 복호기로 실시간 복호화 하는 것은 매우 높은 복잡도를 요구한다. 따라서 본 논문에서는 고해상도 및 초고해상도 영상에 대한 HEVC 복호기의 복호화 속도를 개선시키고자 HEVC에서 지원하는 슬라이스(Slice)와 타일(Tile) 부호화 툴을 사용하여 각 슬라이스 혹은 타일을 동시에 처리하며 디블록킹 필터 과정에서도 소정의 블록 크기만큼 동시에 처리하는 데이터-레벨 병렬 처리 방법을 소개한다. 이는 독립 복호화가 가능한 타일, 슬라이스, 혹은 디블록킹 필터에서 동일 연산을 다중 스레드에 분배하는 방법으로 복호화 속도를 향상 시킬 수 있다. 실험에서 제안 방법이 HEVC 참조 소프트웨어 대비 4K 영상에 대해 최대 2.0배의 복호화 속도 개선을 얻을 수 있음을 보인다.

High performance 3D pin-by-pin neutron diffusion calculation based on 2D/1D decoupling method for accurate pin power estimation

  • Yoon, Jooil;Lee, Hyun Chul;Joo, Han Gyu;Kim, Hyeong Seog
    • Nuclear Engineering and Technology
    • /
    • 제53권11호
    • /
    • pp.3543-3562
    • /
    • 2021
  • The methods and performance of a 3D pin-by-pin neutronics code based on the 2D/1D decoupling method are presented. The code was newly developed as an effort to achieve enhanced accuracy and high calculation performance that are sufficient for the use in practical nuclear design analyses. From the 3D diffusion-based finite difference method (FDM) formulation, decoupled planar formulations are established by treating pre-determined axial leakage as a source term. The decoupled axial problems are formulated with the radial leakage source term. To accelerate the pin-by-pin calculation, the two-level coarse mesh finite difference (CMFD) formulation, which consists of the multigroup node-wise CMFD and the two-group assembly-wise CMFD is implemented. To enhance the accuracy, both the discontinuity factor method and the super-homogenization (SPH) factor method are examined for pin-wise cross-section homogenization. The parallelization is achieved with the OpenMP package. The accuracy and performance of the pin-by-pin calculations are assessed with the VERA and APR1400 benchmark problems. It is demonstrated that pin-by-pin 2D/1D alternating calculations within the two-level 3D CMFD framework yield accurate solutions in about 30 s for the typical commercial core problems, on a parallel platform employing 32 threads.

비정렬 격자에 대한 광선 투사를 위한 셀 사이 연결정보 추출 병렬처리 알고리즘 (Parallel Cell-Connectivity Information Extraction Algorithm for Ray-casting on Unstructured Grid Data)

  • 이지훈;김덕수
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제26권1호
    • /
    • pp.17-25
    • /
    • 2020
  • 본 논문은 비정렬 격자에 대한 광선투사 수행의 전처리 과정 중 하나인 셀 사이 연결정보 추출에 대한 멀티코어 CPU 기반 병렬처리 알고리즘을 제안한다. 본 연구는 기존의 직렬처리 알고리즘을 단순히 병렬화하였을 때 발생하는 동기화 문제를 확인하고, 이를 해결할 수 있는 3-단계 병렬처리 알고리즘을 제안한다. 제안하는 알고리즘은 각 단계 내에서의 스레드 간 동기화를 제거함으로서 병렬처리 효율을 높인다. 또한, 연결정보 추출 알고리즘의 핵심 연산인, 삼각형 중복 검사 과정의 메모리 접근에 대한 공간적 지역성을 높이고 캐시 활용 효율을 향상시킨다. 본 연구는 나아가, 스레드 마다 자체 메모리 풀을 사용하게 함으로서 병렬처리 효율을 더욱 높인다. 본 연구의 효용성을 확인하기 위해, 제안하는 알고리즘을 두 개의 옥타코어 CPU를 가지는 시스템에 구현하고 세 개의 비정렬 격자 데이터에 적용하였다. 그 결과, 제안하는 병렬처리 알고리즘은 스레드 수 증가에 따라 지속적으로 성능 향상을 보여주었다. 또한, 32개 스레드(물리코어 16개)를 사용하여 기존 직렬처리 알고리즘 대비 최대 82.9배 높은 성능을 보여주었다. 이는 제안하는 알고리즘의 높은 병렬처리 확장성 및 캐시 활용 효율 개선 효과를 증명하며, 대용량 비정렬 격자 처리에 대한 적합성을 보여주는 결과다.

효율적인 HEVC SAO 병렬화 방법 (Efficient Parallelization Method of HEVC SAO)

  • 류호찬;강정원
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2016년도 하계학술대회
    • /
    • pp.237-239
    • /
    • 2016
  • 본 논문에서는 HEVC (High Efficiency Video Coding) 복호화기의 SAO (Sample Adaptive Offset)를 효율적으로 병렬화하기 위한 방법을 제안한다. HEVC 는 주관적 화질 향상 및 압축 효율 향상을 위해 디블록킹 필터 (de-blocking filter)와 샘플 적응적 오프셋 (SAO)이라는 두 가지 인-루프 필터를 사용한다. 두 종류의 인-루프 필터의 사용은 HEVC 복호화기의 복잡도를 증가시키는 요인이며, 인-루프 필터에 데이터레벨 병렬화를 적용하여 고속으로 복호화를 수행할 수 있다. 본 논문에서는 SAO 의 병렬화를 위해 CTU (Coding Tree Unit)의 행 단위로 병렬화를 수행함으로써, 병렬화로 인한 추가적으로 발생하는 라인 버퍼 사용을 줄여 SAO 병렬화 효율을 향상시켰다. 실험결과 제안하는 SAO 병렬화 방법을 사용하여 균등분할 SAO 병렬화 방법에 비해 91%의 속도를 향상시켰다.

  • PDF

로드밸런싱 기반의 HEVC 디블록킹 필터 병렬화 방법 (Load Balancing based Parallelization Method of HEVC Deblocking Filter)

  • 류호찬;정순흥
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2016년도 하계학술대회
    • /
    • pp.235-236
    • /
    • 2016
  • 본 논문에서는 로드밸런싱 (load balancing) 기반의 HEVC (High Efficiency Video Coding) 디블록킹 필터(deblocking filter) 병렬화 방법을 제안한다. 본 논문에서는 디블록킹 필터의 병렬화를 위해 TU (Transform Unit)의 경계 정보를 이용하여 픽쳐 단위로 디블록킹 필터의 작업량을 예측하고, 예측된 작업량을 기반으로 코어에 균등한 일을 할당함으로써 디블록킹 필터의 병렬화 효율을 향상 시켰다. 실험결과 제안하는 로드 밸런싱 기반 디블록킹 필터 병렬화 방법을 사용하여 균등 분할 디블록킹 필터 병렬화 방법에 비해 11%의 디블록킹 필터 속도를 향상시켰다.

  • PDF

A dynamic analysis algorithm for RC frames using parallel GPU strategies

  • Li, Hongyu;Li, Zuohua;Teng, Jun
    • Computers and Concrete
    • /
    • 제18권5호
    • /
    • pp.1019-1039
    • /
    • 2016
  • In this paper, a parallel algorithm of nonlinear dynamic analysis of three-dimensional (3D) reinforced concrete (RC) frame structures based on the platform of graphics processing unit (GPU) is proposed. Time integration is performed using Newmark method for nonlinear implicit dynamic analysis and parallelization strategies are presented. Correspondingly, a parallel Preconditioned Conjugate Gradients (PCG) solver on GPU is introduced for repeating solution of the equilibrium equations for each time step. The RC frames were simulated using fiber beam model to capture nonlinear behaviors of concrete and reinforcing bars. The parallel finite element program is developed utilizing Compute Unified Device Architecture (CUDA). The accuracy of the GPU-based parallel program including single precision and double precision was verified in comparison with ABAQUS. The numerical results demonstrated that the proposed algorithm can take full advantage of the parallel architecture of the GPU, and achieve the goal of speeding up the computation compared with CPU.