• 제목/요약/키워드: multi-core CPU

검색결과 76건 처리시간 0.025초

Heterogeneous 멀티 코어 환경의 Thick Client에서 VDI 성능 최적화를 위한 혼합 병렬 처리 기법 연구 (VDI Performance Optimization with Hybrid Parallel Processing in Thick Client System under Heterogeneous Multi-Core Environment)

  • 김명섭;허의남
    • 한국통신학회논문지
    • /
    • 제38B권3호
    • /
    • pp.163-171
    • /
    • 2013
  • 최근 HD급 동영상이나 3D 어플리케이션과 같은 이전보다 저사양, 모바일 단말에서는 구동하기 힘든 프로그램들에 대한 이용 요구가 확대되면서 처리해야 할 콘텐츠 데이터들이 고용량화 되고 있다. 클라우드 기반의 VDI(Virtual Desktop Infrastructure) 서비스는 이를 처리하기 위해 효율적인 데이터 처리 능력이 필요해졌으며 QoE(Quality of Experience) 보장을 위한 성능 개선 연구가 이슈가 되고 있다. 본 논문에서는 H/W 성능이 향상되어 CPU와 GPU를 탑재한 Thick Client기반의 3가지 Thick-Thin간 VDI 자원 공유 및 위임이 가능한 VDI 서비스에 대해 제안하며, VDI 서비스 성능의 개선을 위해 CPU와 GPU가 혼합된 Heterogeneous 멀티코어 환경에서 CPU와 GPU 병렬 처리 기법인 OpenMP와 CUDA를 활용하여 VDI 서비스 최적화 방안을 제안하고 기존의 VDI와 비교한 성능을 거론한다.

유즈케이스를 통해 분석해 본 I/O 처리방식에 따르는 CPU처리 부하 비교연구 (Comparison study of CPU processing load by I/O processing method through use case analysis)

  • 김재영
    • 항공우주시스템공학회지
    • /
    • 제13권5호
    • /
    • pp.57-64
    • /
    • 2019
  • 항공전자 시스템은 유지비용 감소 및 운용성능 향상을 위하여 기능을 모듈화, 통합화 설계를 적용한 모듈 통합형 항공 전자 시스템으로 개발 되어지고 있으며, 다양한 임무 제어 수행을 위해서 가상화 기술을 적용한 파티셔닝 운용체제를 적용 하고 있다. 가상화 기술을 적용 할 경우 CPU 처리 부하 분배는 중요한 고려 대상이며, 특히 입출력 처리 시간에 대한 불확실성은 안정성 있는 항공전자 시스템 설계에 있어 위험 요소 중 하나이다. 본 논문에서는 유즈케이스를 통해 입/출력 처리 방식에 따르는 CPU 처리 부하량을 비교 분석하여 공간적/시간적 파티셔닝 예시에 적용함으로써 입/출력 처리 방식의 영향성을 검토하고자 한다.

비정렬 격자 볼륨 렌더링을 위한 다중코어 CPU기반 메모리 효율적 광선 투사 병렬 알고리즘 (Memory Efficient Parallel Ray Casting Algorithm for Unstructured Grid Volume Rendering on Multi-core CPUs)

  • 김덕수
    • 정보과학회 논문지
    • /
    • 제43권3호
    • /
    • pp.304-313
    • /
    • 2016
  • 본 논문은 비정렬 격자 볼륨 렌더링을 위한 다중 코어 CPU기반의 메모리 효율적 광선 투사 병렬처리 알고리즘을 제안한다. 본 연구는 Bunyk 광선 투사(ray casting) 알고리즘에 기반을 두며, Bunyk 알고리즘의 높은 메모리 소모량 문제를 개선하기 위해 스레드별로 고정된 크기의 지역 버퍼를 할당한다. 지역 버퍼는 최근 방문된 면(face)의 정보를 저장하며, 이 정보는 다른 광선들에 의해 재사용되거나 다른 면의 정보로 대체된다. 지역 버퍼에 저장된 정보의 활용률을 높이기 위해 본 연구는 이미지 평면을 기반으로 일관성(coherency)이 높은 광선들을 하나의 광선 그룹으로 묶고, 생성된 광선 그룹들을 스레드들에게 분배한다. 각각의 스레드들은 할당 받은 광선 그룹들을 지역 버퍼를 활용하여 독립적으로 처리한다. 본 연구는 또한 지역 버퍼 활용률을 더욱 높이기 위해 면의 번호에 기반을 둔 해시 함수를 제안한다. 본 연구의 효용성을 확인하기 위해 제안하는 알고리즘을 서로 다른 크기의 비정렬 격자에 적용하였으며, 면 정보 저장을 위해 Bunyk 알고리즘 대비 약 6%의 메모리만 사용하여 정확한 볼륨 렌더링을 수행할 수 있었다. 이처럼 훨씬 적은 메모리 사용에도 불구하고 Bunyk 알고리즘과 대등한 성능을 보여주었으며, 대용량 데이터에 대해서는 최대 22% 높은 성능을 보여주었다. 이는 본 연구의 효용성 및 대용량 데이터의 볼륨 렌더링에 대한 적합성을 증명하는 결과이다.

임베디드 시스템에서 CPU 선호도를 고려한 Pfair 실시간 멀티코어 스케줄러의 오버헤드 분석 (An Overhead Analysis of Pfair Real-Time Multi-Core Scheduler with CPU Affinity on Embedded Systems)

  • 이정인;박상수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 추계학술발표대회
    • /
    • pp.66-68
    • /
    • 2011
  • 낮은 오버헤드를 갖는 실시간 스케줄링 알고리즘은 멀티코어 프로세서가 임베디드 시스템에서 사용되기 위한 가장 중요한 요소 중의 하나이다. 멀티코어 환경에서 스케줄링 오버헤드는 주로 메모리 성능을 저해시키는 코어간 태스크 이동에 의해 발생한다. 본 논문에서는 시스템 이용률 면에서 최적으로 알려진 Pfair 스케줄링 알고리즘을 스케줄링 시에 태스크의 CPU 코어 할당 방식에 대해 스케줄링 오버헤드를 측정하였다. 실험 결과 동일 코어 기반 태스크 할당 방식을 도입함으로 인해서 태스크 이동 횟수를 크게 줄일 수 있음을 보여주었다.

옥트리로 색인한 3차원 포인트 클라우드의 다중코어 기반 병렬 탐색 (Multi-core-based Parallel Query of 3D Point Cloud Indexed in Octree)

  • 한수희
    • 한국측량학회지
    • /
    • 제31권4호
    • /
    • pp.301-310
    • /
    • 2013
  • 본 연구는 옥트리로 색인한 대용량 3차원 포인트 클라우드를 다중코어를 이용하여 병렬로 탐색함으로써 탐색 속도를 향상시키는 것을 목표로 한다. 특히 주어진 좌표로부터 일정 반경 내에 존재하는 포인트를 병렬로 탐색하기 위하여 다수의 리프 노드에 동시에 접근하는 방식을 개발하는 것에 초점을 두었다. 이를 위하여, 탐색 부하를 각 코어에 분배하는 과정에서 코드 중 for 루틴을 OpenMP에 의하여 자동으로 나누는 방식과 공간적 분할을 고려하는 방식 등 두 가지 병렬 탐색 방식을 제안하였다. 병렬 및 비병렬 탐색 방식을 평가하기 위하여 지상 레이저 스캐너로 취득한 약 1800만개의 3차원 포인트로부터 옥트리를 생성하고 8개 코어가 집적된 CPU가 1개 장착된 시스템에 적용하였다. 결과적으로 두 가지 병렬 탐색 방식 모두 비병렬 탐색 방식보다 수배의 성능 향상 효과를 나타내었으며, 두 병렬 방식은 탐색 반경에 따라 서로 경합하는 양상을 나타내었다. 향후 코어별 탐색 부하 분배 방식을 개선하여 병렬 탐색 속도를 향상시킬 수 있을 것으로 기대된다.

Improved Disparity Map Computation on Stereoscopic Streaming Video with Multi-core Parallel Implementation

  • Kim, Cheong Ghil;Choi, Yong Soo
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제9권2호
    • /
    • pp.728-741
    • /
    • 2015
  • Stereo vision has become an important technical issue in the field of 3D imaging, machine vision, robotics, image analysis, and so on. The depth map extraction from stereo video is a key technology of stereoscopic 3D video requiring stereo correspondence algorithms. This is the matching process of the similarity measure for each disparity value, followed by an aggregation and optimization step. Since it requires a lot of computational power, there are significant speed-performance advantages when exploiting parallel processing available on processors. In this situation, multi-core CPU may allow many parallel programming technologies to be realized in users computing devices. This paper proposes parallel implementations for calculating disparity map using a shared memory programming and exploiting the streaming SIMD extension technology. By doing so, we can take advantage both of the hardware and software features of multi-core processor. For the performance evaluation, we implemented a parallel SAD algorithm with OpenMP and SSE2. Their processing speeds are compared with non parallel version on stereoscopic streaming video. The experimental results show that both technologies have a significant effect on the performance and achieve great improvements on processing speed.

병렬처리 알고리즘 적용 유도탄 점검 (Inspection of guided missiles applied with parallel processing algorithm)

  • 정의재;고상훈;이유상;김영성
    • 한국항행학회논문지
    • /
    • 제25권4호
    • /
    • pp.293-298
    • /
    • 2021
  • 일반적으로 유도무기의 탐색기와 유도조종장치는 유도탄의 상태를 나타내기 위해 표적, 탐색, 인지, 포착정보를 처리하여 유도무기의 운용 및 제어를 담당하는 역할을 한다. 유도에 필요한 신호는 시선 변화율 신호, 시각 신호, 종말 단계 동체 지향 신호이며, 발사 통제에 필요한 신호는 표적, 감지 신호가 필요하다. 최근 유도탄의 복잡하고 처리하기 어려운 유도탄 신호를 실시간으로 처리하기 위해 유도탄의 데이터 처리 속도를 높여야 한다. 본 연구는 PLINQ(Parallel Language-Integrated Query)의 병렬 알고리즘 방법 중 스톱앤고와 역 열거형 알고리즘을 적용한 후 유도탄 점검 프로그램을 이용하여 실시간으로 유도탄 필요 신호 데이터 처리속도를 비교 후 처리결과를 나타내었다. 도출된 데이터 처리결과 기준으로 다중코어 처리방식과 단독코어 처리방식 CPU(Central Processing Unit) 처리속도 비교, CPU 코어 이용률을 비교하고 병렬처리 알고리즘 적용 시 유도탄 데이터 처리에 효과적 방법을 제안한다.

멀티코어 CPU 환경하에서 능률적인 네트워크 관리를 위한 유전알고리즘을 이용한 국부적 RED 조정 기법 (A Local Tuning Scheme of RED using Genetic Algorithm for Efficient Network Management in Muti-Core CPU Environment)

  • 송자영;최병석
    • 인터넷정보학회논문지
    • /
    • 제11권1호
    • /
    • pp.1-13
    • /
    • 2010
  • 네트워크 장비를 관리함에 있어서 환경에 따른 RED(Random Early Detection) 매개변수에 대한 설정은 쉽지 않은 일이다. 특히 관리자가 환경의 변화에 따라 일정한 서비스율을 유지하고 싶은 경우의 매개변수 설정은 더욱 쉽지 않은 일이다. 본 논문에서는 출력 큐에 멀티 코어 CPU를 탑재한 라우터를 가정하고 라우터의 출력 큐에, RED의 환경에 따른 매개변수의 최적화에 적합한 것으로 알려진, 인공지능의 유전 알고리즘을 직접적으로 도입하여 스스로 부하에 적응하는 AI RED(Artificial Intelligence RED)를 제안한다. AI RED는 FuRED(Fuzzy-Logic-based RED) 보다 단순하고 세밀하며, 실험을 통하여 AI RED가 찾아낸 RED 매개변수는 표준 RED 매개변수보다 환경에 더욱 잘 적응하는 효율적인 서비스를 제공하여 준다는 것을 확인 할 수 있다. RED 매개변수 관리의 자동화는 네트워크 관리의 측면에서 많은 효율성의 향상을 관리자에게 제공하여 줄 수 있다.

Accelerating Group Fusion for Ligand-Based Virtual Screening on Multi-core and Many-core Platforms

  • Mohd-Hilmi, Mohd-Norhadri;Al-Laila, Marwah Haitham;Hassain Malim, Nurul Hashimah Ahamed
    • Journal of Information Processing Systems
    • /
    • 제12권4호
    • /
    • pp.724-740
    • /
    • 2016
  • The performance issues of screening large database compounds and multiple query compounds in virtual screening highlight a common concern in Chemoinformatics applications. This study investigates these problems by choosing group fusion as a pilot model and presents efficient parallel solutions in parallel platforms, specifically, the multi-core architecture of CPU and many-core architecture of graphical processing unit (GPU). A study of sequential group fusion and a proposed design of parallel CUDA group fusion are presented in this paper. The design involves solving two important stages of group fusion, namely, similarity search and fusion (MAX rule), while addressing embarrassingly parallel and parallel reduction models. The sequential, optimized sequential and parallel OpenMP of group fusion were implemented and evaluated. The outcome of the analysis from these three different design approaches influenced the design of parallel CUDA version in order to optimize and achieve high computation intensity. The proposed parallel CUDA performed better than sequential and parallel OpenMP in terms of both execution time and speedup. The parallel CUDA was 5-10x faster than sequential and parallel OpenMP as both similarity search and fusion MAX stages had been CUDA-optimized.

가상 심장 시뮬레이션에서 CPU와 GPU 병렬처리의 계산 성능 비교 (Computing Performance Comparison of CPU and GPU Parallelization for Virtual Heart Simulation)

  • 김상희;정다운;;임기무
    • 대한의용생체공학회:의공학회지
    • /
    • 제41권3호
    • /
    • pp.128-137
    • /
    • 2020
  • Cardiac electrophysiology studies often use simulation to predict how cardiac will behave under various conditions. To observe the cardiac tissue movement, it needs to use the high--resolution heart mesh with a sophisticated and large number of nodes. The higher resolution mesh is, the more computation time is needed. To improve computation speed and performance, parallel processing using multi-core processes and network computing resources is performed. In this study, we compared the computational speeds of CPU parallelization and GPU parallelization in virtual heart simulation for efficiently calculating a series of ordinary differential equations (ODE) and partial differential equations (PDE) and determined the optimal CPU and GPU parallelization architecture. We used 2D tissue model and 3D ventricular model to compared the computation performance. Then, we measured the time required to the calculation of ODEs and PDEs, respectively. In conclusion, for the most efficient computation, using GPU parallelization rather than CPU parallelization can improve performance by 4.3 times and 2.3 times in calculations of ODEs and PDE, respectively. In CPU parallelization, it is best to use the number of processors just before the communication cost between each processor is incurred.