• 제목/요약/키워드: Hybrid Parallel Processing

검색결과 62건 처리시간 0.023초

Parallel Connected Component Labeling Based on the Selective Four Directional Label Search Using CUDA

  • Soh, Young-Sung;Hong, Jung-Woo
    • 융합신호처리학회논문지
    • /
    • 제16권3호
    • /
    • pp.83-89
    • /
    • 2015
  • Connected component labeling (CCL) is a mandatory step in image segmentation where objects are extracted and uniquely labeled. CCL is a computationally expensive operation and thus is often done in parallel processing framework to reduce execution time. Various parallel CCL methods have been proposed in the literature. Among them are NSZ label equivalence (NSZ-LE) method, modified 8 directional label selection (M8DLS) method, HYBRID1 method, and HYBRID2 method. Soh et al. showed that HYBRID2 outperforms the others and is the best so far. In this paper we propose a new hybrid parallel CCL algorithm termed as HYBRID3 that combines selective four directional label search (S4DLS) with label backtracking (LB). We show that the average percentage speedup of the proposed over M8DLS is around 60% more than that of HYBRID2 over M8DLS for various kinds of images.

An Improved Hybrid Approach to Parallel Connected Component Labeling using CUDA

  • Soh, Young-Sung;Ashraf, Hadi;Kim, In-Taek
    • 융합신호처리학회논문지
    • /
    • 제16권1호
    • /
    • pp.1-8
    • /
    • 2015
  • In many image processing tasks, connected component labeling (CCL) is performed to extract regions of interest. CCL was usually done in a sequential fashion when image resolution was relatively low and there are small number of input channels. As image resolution gets higher up to HD or Full HD and as the number of input channels increases, sequential CCL is too time-consuming to be used in real time applications. To cope with this situation, parallel CCL framework was introduced where multiple cores are utilized simultaneously. Several parallel CCL methods have been proposed in the literature. Among them are NSZ label equivalence (NSZ-LE) method[1], modified 8 directional label selection (M8DLS) method[2], and HYBRID1 method[3]. Soh [3] showed that HYBRID1 outperforms NSZ-LE and M8DLS, and argued that HYBRID1 is by far the best. In this paper we propose an improved hybrid parallel CCL algorithm termed as HYBRID2 that hybridizes M8DLS with label backtracking (LB) and show that it runs around 20% faster than HYBRID1 for various kinds of images.

재구성 가능한 다중 프로세서 시스템을 이용한 혼합 영상 보호화기 구현에 관한 연구 (연구 I : H/W구현) (A Study on Hybrid Image Coder Using a Reconfigurable Multiprocessor System (Study I : H/W Implementation))

  • 최상훈;이광기;김제익;윤승철;박규태
    • 전자공학회논문지B
    • /
    • 제30B권10호
    • /
    • pp.1-12
    • /
    • 1993
  • A multiprocessor system for high-speed processing of hybrid image coding algorithms such as H.261, MPEG, or Digital HDTV is presented in this study. Using a combination of highly parallel 32-bit microprocessor, DCT(Discrete Cosine Transform), and motion detection processor, a new processing module is designed for the implementation of high performance coding system. The sysyem is implemented to allow parallel processing since a single module alone cannot perform hybrid coding algorithms at high speed, and crossbar switch is used to realize various parallel processing architectures by altering interconnections between processing modules within the system.

  • PDF

Heterogeneous 멀티 코어 환경의 Thick Client에서 VDI 성능 최적화를 위한 혼합 병렬 처리 기법 연구 (VDI Performance Optimization with Hybrid Parallel Processing in Thick Client System under Heterogeneous Multi-Core Environment)

  • 김명섭;허의남
    • 한국통신학회논문지
    • /
    • 제38B권3호
    • /
    • pp.163-171
    • /
    • 2013
  • 최근 HD급 동영상이나 3D 어플리케이션과 같은 이전보다 저사양, 모바일 단말에서는 구동하기 힘든 프로그램들에 대한 이용 요구가 확대되면서 처리해야 할 콘텐츠 데이터들이 고용량화 되고 있다. 클라우드 기반의 VDI(Virtual Desktop Infrastructure) 서비스는 이를 처리하기 위해 효율적인 데이터 처리 능력이 필요해졌으며 QoE(Quality of Experience) 보장을 위한 성능 개선 연구가 이슈가 되고 있다. 본 논문에서는 H/W 성능이 향상되어 CPU와 GPU를 탑재한 Thick Client기반의 3가지 Thick-Thin간 VDI 자원 공유 및 위임이 가능한 VDI 서비스에 대해 제안하며, VDI 서비스 성능의 개선을 위해 CPU와 GPU가 혼합된 Heterogeneous 멀티코어 환경에서 CPU와 GPU 병렬 처리 기법인 OpenMP와 CUDA를 활용하여 VDI 서비스 최적화 방안을 제안하고 기존의 VDI와 비교한 성능을 거론한다.

대용량 위성영상의 무감독 분류를 위한 k-Means Clustering 알고리즘의 병렬처리: 다중코어와 PC-Cluster를 이용한 Hybrid 방식 (Parallel Processing of k-Means Clustering Algorithm for Unsupervised Classification of Large Satellite Images: A Hybrid Method Using Multicores and a PC-Cluster)

  • 한수희;송정헌
    • 한국측량학회지
    • /
    • 제37권6호
    • /
    • pp.445-452
    • /
    • 2019
  • 본 연구에서는 대용량 위성영상의 무감독분류를 위해 k-means clustering 알고리즘의 병렬처리 코드를 개발하여 PC-cluster에서 구현하였다. 이를 위해 OpenMP (Open Multi-Processing)를 기반으로 CPU (Central Processing Unit)의 다중코어를 이용하는 intra-node 코드와 message passing interface를 기반으로 PC-cluster를 이용하는 inter-nodes 코드, 그리고 이 둘을 병용하는 hybrid 코드를 구현하였다. 본 연구에 사용한 PC-cluster는 한 대의 마스터 노드와 여덟 대의 슬래이브 노드로 구성되어 있고 각 노드에는 여덟 개의 다중코어가 장착되어 있다. PC-cluster에는 Microsoft Windows와 Canonical Ubuntu의 두 가지 운영체제를 설치하여 병렬처리 성능을 비교하였다. 실험에 사용한 자료는 두 가지 다중분광 위성영상으로서 중용량인 LANDSAT 8 OLI (Operational Land Imager) 영상과 대용량인 Sentinel 2A 영상이다. 병렬처리의 성능을 평가하기 위하여 speedup과 efficiency를 측정한 결과 전반적으로 speedup은 N/2 이상, efficiency는 0.5 이상으로 나타났다. Microsoft Windows와 Canonical Ubuntu를 비교한 결과 Ubuntu가 2-3배의 빠른 결과를 나타내었다. 순차처리와 병렬처리 결과가 일치하는지 확인하기 위해 각 클래스의 밴드별 중심값과 분류된 화소의 수를 비교하고 결과 영상간 화소대 화소 비교도 수행하였다. Intra-node 코드를 구현할 때에는 OpenMP에 의한 false sharing이 발생하지 않도록 주의해야 하고, PC-cluster에서 대용량 위성영상을 처리하기 위해서는 파일 I/O에 의한 성능저하를 줄일 수 있도록 코드 및 하드웨어를 설계해야 함을 알 수 있었다. 또한 PC-cluster에 설치된 운영체제에 따라서도 성능 차이가 발생함을 알 수 있었다.

병렬의 동일기계에서 처리되는 순서의존적인 작업들의 스케쥴링을 위한 유전알고리즘 (A Genetic Algorithm for Scheduling Sequence-Dependant Jobs on Parallel Identical Machines)

  • 이문규;이승주
    • 대한산업공학회지
    • /
    • 제25권3호
    • /
    • pp.360-368
    • /
    • 1999
  • We consider the problem of scheduling n jobs with sequence-dependent processing times on a set of parallel-identical machines. The processing time of each job consists of a pure processing time and a sequence-dependent setup time. The objective is to maximize the total remaining machine available time which can be used for other tasks. For the problem, a hybrid genetic algorithm is proposed. The algorithm combines a genetic algorithm for global search and a heuristic for local optimization to improve the speed of evolution convergence. The genetic operators are developed such that parallel machines can be handled in an efficient and effective way. For local optimization, the adjacent pairwise interchange method is used. The proposed hybrid genetic algorithm is compared with two heuristics, the nearest setup time method and the maximum penalty method. Computational results for a series of randomly generated problems demonstrate that the proposed algorithm outperforms the two heuristics.

  • PDF

Pilot Symbol Assisted Hybrid Detection for OFDM-Based Spatial Multiplexing Systems

  • So, Yoon-Jae;Jeon, Hyoung-Goo;You, Young-Hwan;Baek, Myung-Sun;Song, Hyoung-Kyu
    • ETRI Journal
    • /
    • 제26권5호
    • /
    • pp.397-404
    • /
    • 2004
  • In this paper, we provide a new detection scheme for a pilot symbol assisted interference nulling and cancellation operation to reduce unexpected effects owing to parallel transmission in orthogonal frequency division multiplexing (OFDM)-based spatial multiplexing systems. We have shown that the investigated OFDM vertical Bell laboratories layered space time (VBLAST) detection based on hybrid processing performs better than ordinary OFDM-VBLAST detections based on serial processing and parallel processing, respectively.

  • PDF

혼합형 병렬처리 및 파이프라이닝을 활용한 소수 연산 알고리즘 (Performance Enhancement of Parallel Prime Sieving with Hybrid Programming and Pipeline Scheduling)

  • 유승요;김동승
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제4권10호
    • /
    • pp.337-342
    • /
    • 2015
  • 이 논문에서는 소수 추출 방법인 Sieve of Eratosthenes 알고리즘을 병렬화하여 실행 시간과 에너지 소모 면에서 개선된 효과를 얻고자 실험을 진행하였다. 성능 개선을 위해 부하 균등화를 정교하게 조절하도록 파이프라인 작업 방식을 도입하였고, 멀티코어 컴퓨터 클러스터에 하이브리드 병렬 프로그래밍 모델을 활용하여 효과를 높였다. 소규모 컴퓨터 클러스터와 저전력 컴퓨터에서 구현, 실험한 결과 이전 방식보다 연산 속도가 향상되었고, 에너지 사용량도 감소함을 확인하였다.

Symmetric Multi-Processing 시스템에서 다양한 병렬 기법 모델을 적용한 병렬 CUPID 코드의 성능분석 (Performance Analysis of the Parallel CUPID Code for Various Parallel Programming Models in Symmetric Multi-Processing System)

  • 전병진;이재룡;윤한영;최형권
    • 대한기계학회논문집B
    • /
    • 제38권1호
    • /
    • pp.71-79
    • /
    • 2014
  • 본 연구에서는 가압경수로 주요 기기의 고정밀 열수력 해석을 위한 CUPID(Component Unstructured Program for Interfacial Dynamics) 코드의 압력장 해석을 위한 이중공액구배법(Bi-Conjugate Gradient) 알고리즘의 병렬화를 SMP(Symmetric Multi Processing) 시스템에서 고찰한다. 비압축성 후향계단 유동문제의 병렬해석을 다양한 격자 조밀도를 가지는 격자들에 대하여 세 가지 대표적인 병렬 기법(MPI, OpenMP, 하이브리드)을 적용하여 병렬성능 비교를 수행하였다. 병렬처리 성능은 해석 문제의 크기뿐만 아니라 캐쉬 메모리 크기에도 영향을 받으므로, 전체 계산량이 매우 적거나 개별 쓰레드에 사용되는 메모리가 캐쉬 메모리보다 매우 큰 경우에는 병렬화에 의한 성능 향상이 낮음을 확인하였다. 또한, 문제 크기에 상관없이 MPI 기법이 OpenMP보다 성능이 우수했으며, 상대적으로 적은 쓰레드를 사용한 경우엔 하이브리드 기법이 가장 우수한 성능을 보였다.

Hybrid Flow Shop with Parallel Machines at the First Stage and Dedicated Machines at the Second Stage

  • Yang, Jaehwan
    • Industrial Engineering and Management Systems
    • /
    • 제14권1호
    • /
    • pp.22-31
    • /
    • 2015
  • In this paper, a two-stage hybrid flow shop problem is considered. Specifically, there exist identical parallel machines at stage 1 and two dedicated machines at stage 2, and the objective of the problem is to minimize makespan. After being processed by any machine at stage 1, a job must be processed by a specific machine at stage 2 depending on the job type, and one type of jobs can have different processing times on each machine. First, we introduce the problem and establish complexity of several variations of the problem. For some special cases, we develop optimal polynomial time solution procedures. Then, we establish some simple lower bounds for the problem. In order to solve this NP-hard problem, three heuristics based on simple rules such as the Johnson's rule and the LPT (Longest Processing Time first) rule are developed. For each of the heuristics, we provide some theoretical analysis and find some worst case bound on relative error. Finally, we empirically evaluate the heuristics.