• 제목/요약/키워드: Multicores.

검색결과 8건 처리시간 0.026초

비대칭 멀티코어 시스템 상의 HEVC 병렬 디코딩 최적화를 위한 타일 분할 기법 (Tile Partitioning-based HEVC Parallel Decoding Optimization for Asymmetric Multicore Processor)

  • 류영일;노현준;류은석
    • 정보과학회 논문지
    • /
    • 제43권9호
    • /
    • pp.1060-1065
    • /
    • 2016
  • 최근 비디오 시스템은 초고해상도 영상의 사용으로 병렬처리의 필요성이 대두되고 있고, 시스템은 ARM big.LITTLE 같은 비대칭 처리능력을 지닌 컴퓨팅 시스템이 도입되고 있다. 따라서, 이 같은 비대칭 컴퓨팅 환경에 최적화된 초고해상도 UHD 비디오 병렬처리 기법이 필요한 시점이다. 본 논문은 인코딩/디코딩 시에 비대칭 컴퓨팅 환경에 최적화 된 HEVC 타일(Tile) 분할 기법을 제안한다. 제안하는 방식은 (1) 비대칭 CPU 코어들의 처리능력과 (2) 비디오 크기별 연산 복잡도 분석 모델을 분석하여, (3) 각 코어에 최적화된 크기의 타일을 할당함으로써, 처리속도가 빠른 CPU 코어와 느린 코어의 인코딩/디코딩 시간차를 최소화한다. 이를 ARM기반의 비대칭 멀티코어 플랫폼에서 4K UHD 표준 영상을 대상으로 실험하였을 때, 평균 약 20%의 디코딩 시간 개선이 발생함을 확인하였다.

대용량 위성영상의 무감독 분류를 위한 k-Means Clustering 알고리즘의 병렬처리: 다중코어와 PC-Cluster를 이용한 Hybrid 방식 (Parallel Processing of k-Means Clustering Algorithm for Unsupervised Classification of Large Satellite Images: A Hybrid Method Using Multicores and a PC-Cluster)

  • 한수희;송정헌
    • 한국측량학회지
    • /
    • 제37권6호
    • /
    • pp.445-452
    • /
    • 2019
  • 본 연구에서는 대용량 위성영상의 무감독분류를 위해 k-means clustering 알고리즘의 병렬처리 코드를 개발하여 PC-cluster에서 구현하였다. 이를 위해 OpenMP (Open Multi-Processing)를 기반으로 CPU (Central Processing Unit)의 다중코어를 이용하는 intra-node 코드와 message passing interface를 기반으로 PC-cluster를 이용하는 inter-nodes 코드, 그리고 이 둘을 병용하는 hybrid 코드를 구현하였다. 본 연구에 사용한 PC-cluster는 한 대의 마스터 노드와 여덟 대의 슬래이브 노드로 구성되어 있고 각 노드에는 여덟 개의 다중코어가 장착되어 있다. PC-cluster에는 Microsoft Windows와 Canonical Ubuntu의 두 가지 운영체제를 설치하여 병렬처리 성능을 비교하였다. 실험에 사용한 자료는 두 가지 다중분광 위성영상으로서 중용량인 LANDSAT 8 OLI (Operational Land Imager) 영상과 대용량인 Sentinel 2A 영상이다. 병렬처리의 성능을 평가하기 위하여 speedup과 efficiency를 측정한 결과 전반적으로 speedup은 N/2 이상, efficiency는 0.5 이상으로 나타났다. Microsoft Windows와 Canonical Ubuntu를 비교한 결과 Ubuntu가 2-3배의 빠른 결과를 나타내었다. 순차처리와 병렬처리 결과가 일치하는지 확인하기 위해 각 클래스의 밴드별 중심값과 분류된 화소의 수를 비교하고 결과 영상간 화소대 화소 비교도 수행하였다. Intra-node 코드를 구현할 때에는 OpenMP에 의한 false sharing이 발생하지 않도록 주의해야 하고, PC-cluster에서 대용량 위성영상을 처리하기 위해서는 파일 I/O에 의한 성능저하를 줄일 수 있도록 코드 및 하드웨어를 설계해야 함을 알 수 있었다. 또한 PC-cluster에 설치된 운영체제에 따라서도 성능 차이가 발생함을 알 수 있었다.

A PARALLEL IMPLEMENTATION OF A RELAXED HSS PRECONDITIONER FOR SADDLE POINT PROBLEMS FROM THE NAVIER-STOKES EQUATIONS

  • JANG, HO-JONG;YOUN, KIHANG
    • Journal of the Korean Society for Industrial and Applied Mathematics
    • /
    • 제22권3호
    • /
    • pp.155-162
    • /
    • 2018
  • We describe a parallel implementation of a relaxed Hermitian and skew-Hermitian splitting preconditioner for the numerical solution of saddle point problems arising from the steady incompressible Navier-Stokes equations. The equations are linearized by the Picard iteration and discretized with the finite element and finite difference schemes on two-dimensional and three-dimensional domains. We report strong scalability results for up to 32 cores.

Static Timing Analysis of Shared Caches for Multicore Processors

  • Zhang, Wei;Yan, Jun
    • Journal of Computing Science and Engineering
    • /
    • 제6권4호
    • /
    • pp.267-278
    • /
    • 2012
  • The state-of-the-art techniques in multicore timing analysis are limited to analyze multicores with shared instruction caches only. This paper proposes a uniform framework to analyze the worst-case performance for both shared instruction caches and data caches in a multicore platform. Our approach is based on a new concept called address flow graph, which can be used to model both instruction and data accesses for timing analysis. Our experiments, as a proof-of-concept study, indicate that the proposed approach can accurately compute the worst-case performance for real-time threads running on a dual-core processor with a shared L2 cache (either to store instructions or data).

공유 말단 캐시에서의 간섭의 영향을 고려한 멀티코어 프로세서를 위한 가상 머신 스케줄링 (Virtual Machine Scheduling for Multicores Considering Effects of Shared On-chip Last Level Cache Interference)

  • 김신규;최찬호;엄현상;염헌영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 춘계학술발표대회
    • /
    • pp.134-136
    • /
    • 2012
  • 클라우드 컴퓨팅 서비스 시장이 성장하면서, 서비스 제공자들은 전력 사용량 감소와 서비스 수준을 보장하는 등의 여러 가지 문제와 맞딱드리게 되었다. 이런 문제에 대한 원인 중 하나는 자원 효율성을 높이기 위해 도입한 가상머신 기반의 서버 통합 정책이다. 현재의 가상머신 기술들은 아직까지 완벽한 격리수준을 제공하지 못하기 때문에, 같은 노드에 배치된 가상머신들은 자원을 공유하면서 서로 간에 간섭을 일으키게 된다. 본 연구에서는 가상머신끼리 공유하는 자원 중 프로세서의 말단 캐시(Last-level Cache, LLC)에서의 간섭을 최대한 줄여서 성능을 극대화하기 위한 방법을 제안한다.

멀티코어 모바일 시스템에서 효과적인 부하 균등화 기법 (An Efficient Load Balancing Technique in a Multicore Mobile System)

  • 조중석;조두산
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제4권5호
    • /
    • pp.153-160
    • /
    • 2015
  • 멀티코어 시스템의 효율은 스케줄러가 태스크 할당을 코어들에게 얼마나 효율적으로 분배하느냐에 달려있다. 이기종 멀티코어 플랫폼에서 애플리케이션의 실행시간은 어느 코어에서 실행되느냐에 따라 결정된다. 즉, 태스크 할당의 효율이 멀티 코어 시스템의 성능을 결정하는 중요한 요소 중의 하나이다. 본 연구에서는 프로파일링을 통하여 각 태스크의 실행시간을 분석하고 이를 이용하는 부하 균등화 기법을 제안하고 있다. 프로파일링 결과는 최상의 성능을 제공할 수 있는 태스크 할당을 예측하는 기본적인 정보를 제공한다. 이러한 정보를 이용하여 제안하는 기법을 통해 약 26%의 성능이득을 가질 수 있다.

멀티코어 및 고성능 플래시 SSD 환경에서 저널링 파일 시스템의 성능 평가 및 최적화 (Performance Evaluation and Optimization of Journaling File Systems with Multicores and High-Performance Flash SSDs)

  • 한혁
    • 한국콘텐츠학회논문지
    • /
    • 제18권4호
    • /
    • pp.178-185
    • /
    • 2018
  • 최근 클라우드 컴퓨팅, 슈퍼컴퓨팅, 기업용 스토리지/데이터베이스 등의 분야에서 멀티코어 CPU와 고성능 플래시 메모리 기반 저장 장치(플래시 SSD)를 장착한 컴퓨더 시스템에 대한 수요가 크게 증가하고 있다. 이러한 고성능 시스템에서 구동되고 있는 대표적인 운영체제 파일 시스템인 저널링 파일 시스템은 저장장치의 입출력 성능을 최대로 활용하고 있지 못하다. 본 논문에서는 고성능 플래시 SSD와 멀티코어 CPU기반의 컴퓨터 시스템에서 리녹스 운영체제의 EXT4 저널링 파일 시스템의 성능을 평가하고 분석하고자 한다. 성능 평가에 사용된 72-코어 컴퓨터 시스템은 인텔의 고성능 NVMe 기반 플래시 SSD를 장착하고 있으며 이 장치의 연속 읽기/쓰기 성능은 2800/1900 MB/s 이다. 실험 결과는 EXT4 파일 시스템의 체크포인팅 연산이 성능상의 큰 오버헤드임을 보여준다. 이 결과를 바탕으로 체크포인팅을 여러 쓰레드가 수행할 수 있는 최적화 기법을 제안하였고, 최적화된 EXT4 파일 시스템은 기존 EXT4 파일 시스템 대비 최대 92%의 성능 향상을 보여준다.

글로벌 큐를 통한 임베디드 멀티코어 프로세서의 멀티 DNN 연산 성능 향상 (Improving Multi-DNN Computational Performance of Embedded Multicore Processors through a Global Queue)

  • 조호진;김명선
    • 한국정보통신학회논문지
    • /
    • 제24권6호
    • /
    • pp.714-721
    • /
    • 2020
  • DNN은 로봇 및 자율주행차 등의 임베디드 시스템에서 활용 분야가 넓어지고 있다. 최근 높은 인식 정확도를 위하여 연산 복잡도가 크게 증가되고 비주기적으로 다수의 DNN을 사용하는 형태가 증가되고 있다. 따라서 임베디드 환경에서 다수의 DNN을 처리할 수 있는 능력은 중요한 이슈가 되었다. 이에 따라 멀티코어 기반 플랫폼들이 출시되고 있다. 하지만 대부분의 DNN 모델들은 배치 프로세스로 운용되어, 여러 DNN이 함께 멀티코어에서 운용될 때 어떻게 코어에 할당되느냐에 따라 각 DNN 간 수행시간 편차가 클 수 있고 시스템 전체적인 DNN 수행 시간이 길어질 수 있다. 본 논문에서는 각 DNN들을 배치 형태가 아닌 레이어별로 재구성한 후 글로벌 큐를 통하여 멀티코어에 분산시킬 수 있는 프레임워크를 제공하여 이러한 문제를 해결한다. 실험 결과 전체 DNN 수행 시간은 31% 감소하였고 다수의 동일 DNN을 운용 시 그 수행시간 편차는 최대 95.1% 감소하였다.