• 제목/요약/키워드: multi-core processing

검색결과 218건 처리시간 0.03초

MPI와 OpenMP기반 하이브리드 모델을 이용한 항공 레이저 스캐닝 자료의 병렬 처리 (Parallel Processing of Airborne Laser Scanning Data Using a Hybrid Model Based on MPI and OpenMP)

  • 한수희;박일석;허준
    • 한국측량학회지
    • /
    • 제30권2호
    • /
    • pp.135-142
    • /
    • 2012
  • 본 연구에서는 대용량 항공 레이저 스캐닝 자료로부터 DSM(Digital Surface Model) 및 DTM(Digital Terrain Model)을 효율적으로 생성하기 위하여 다중 코어 피씨클러스터(PC-Cluster)에 기반한 병렬처리방식을 제안하였다. 이를 위하여 MPI(message passing interface)만을 사용하는 기존 MPI 모델을 변형하여 MPI와 OpenMP를 병용한 하이브리드(hybrid) 모델을 제작하였으며 다중 코어 피씨클러스터에서 그 성능을 평가하였다. 결과적으로, 하이브리드 모델과 기존 모델을 비교하였을 때 DSM을 생성하기 위한 보간에서는 다소 불리하지만 MPI 호출을 줄임으로써 전반적인 성능을 향상시킬 수 있었다. 아울러, 불규칙한 항공 레이저 스캐닝 자료의 분포로부터 발생하는 코어간 부하 불일치를 OpenMP의scheduling 기능을 통해 조절함으로써 하이브리드 모델의 성능을 향상시킬 수 있었다.

Tilera 다중코어와 x86-64 멀티코어 시스템의 성능 비교 (Performance Comparison of Tilera Many-core and x86-64 Multi-core Systems)

  • 최희석;유태묵;박지수;정대용;임종범;이정하;서태원;유헌창
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 춘계학술발표대회
    • /
    • pp.102-105
    • /
    • 2013
  • 최근 멀티코어 시스템은 컴퓨터의 성능을 향상시키기 위해 더 많은 수의 코어를 연결시키는 다중코어 시스템으로 발전하고 있다. 그러나 멀티코어 시스템은 사용하는 코어의 아키텍처 구조와 개수에 따라 성능 차이가 발생한다. 이에, 본 논문에서는 코어의 아키텍처 구조와 코어의 개수가 성능에 미치는 영향을 분석하기 위해 Tilera의 다중코어 시스템인 Tile-Gx36, TilePro64와 Intel의 x86-64 멀티코어 시스템인 Core i5의 성능을 비교하였다. 코어의 사용률이 늘어남에 따른 성능차이를 알아보기 위해 벤치마크 프로그램인 SPEC CPU 2006을 이용하여 각 시스템 내 단일코어의 성능을 측정하고, OpenMP 벤치마크 프로그램을 이용하여 시스템의 모든 코어를 사용했을 때의 입력 데이터 크기에 따른 성능을 측정하였다. 실험 결과, 단일코어에서의 성능은 정수형 데이터를 사용하여 측정하였을 경우 Core i5가 Tile-Gx36보다 약 87%, 실수형 데이터를 사용하여 측정하였을 경우 약 94% 더 빠른 것으로 나타났다. 그러나 코어 전체를 이용한 성능 결과에서는 정수형 배열 크기가 이상일 경우 Tile-Gx36 시스템의 처리 속도가 Core i5 시스템 보다 평균적으로 약 7.6배 향상됨을 확인할 수 있었다. 따라서 Tilera의 다중코어 시스템은 클럭 속도와 아키텍처 구조의 영향으로 단일코어의 성능은 떨어지나, 병렬 처리를 이용한 고속연산에서는 성능이 향상된다고 할 수 있다.

Go와 C++ TBB의 병렬처리 비교 (Comparison of Go and C++ TBB on Parallel Processing)

  • 박동하;문봉교
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.64-67
    • /
    • 2017
  • Applying concurrent structure and parallel processing are a common issue for these day's programs. In this research, Dynamic Programming is used to compare the parallel performance of Go language and Intel C++ Thread Building Blocks. The experiment was performed on 4 core machine and its result contains execution time under Simultaneous Multi-Threading environment. Static Optimal Binary Search Tree was used as an example. From the result, the speed-up of Go was higher than the number of cores, and that of TBB was close to it. TBB performed better in general, but for larger scale, Go was partially faster than the other.

프로세싱 인 메모리 시스템에서의 PolyBench 구동에 대한 동작 성능 및 특성 분석과 고찰 (Performance Analysis and Identifying Characteristics of Processing-in-Memory System with Polyhedral Benchmark Suite)

  • 김정근
    • 반도체디스플레이기술학회지
    • /
    • 제22권3호
    • /
    • pp.142-148
    • /
    • 2023
  • In this paper, we identify performance issues in executing compute kernels from PolyBench, which includes compute kernels that are the core computational units of various data-intensive workloads, such as deep learning and data-intensive applications, on Processing-in-Memory (PIM) devices. Therefore, using our in-house simulator, we measured and compared the various performance metrics of workloads based on traditional out-of-order and in-order processors with Processing-in-Memory-based systems. As a result, the PIM-based system improves performance compared to other computing models due to the short-term data reuse characteristic of computational kernels from PolyBench. However, some kernels perform poorly in PIM-based systems without a multi-layer cache hierarchy due to some kernel's long-term data reuse characteristics. Hence, our evaluation and analysis results suggest that further research should consider dynamic and workload pattern adaptive approaches to overcome performance degradation from computational kernels with long-term data reuse characteristics and hidden data locality.

  • PDF

시점 간 비선형 움직임 블록 예측에 기초한 적응적 다시점 비디오 보상 보간 기법 (Adaptive Multi-view Video Interpolation Method Based on Inter-view Nonlinear Moving Blocks Estimation)

  • 김진수
    • 한국콘텐츠학회논문지
    • /
    • 제14권4호
    • /
    • pp.9-18
    • /
    • 2014
  • 최근에 무선 비디오 감사, 무선 비디오 센서 네트워크 그리고 무선 모바일 비디오와 같은 다시점 비디오 서비스에 대한 연구가 활발히 진행되고 있다. 다시점 비디오 신호처리에서 다수 개의 다른 카메라에서 획득되는 영상 사이에 존재하는 높은 상관성을 이용하는 것은 매우 핵심적인 기술이다. 본 논문에서는 카메라들 사이에 상호작용을 요구하지 않고, 다시점 분산 비디오 부호화에 효과적으로 사용할 수 있는 적응적인 다시점 보간 기법을 제안한다. 제안한 방법은 비선형적인 블록 예측, 시차 보상 시점 예측 그리고 비신뢰 블록에 대한 채우기 기법 등으로 구성된다. 모의실험을 통하여 제안한 방식은 기존의 방식에 비해 우수한 성능을 보인다.

통신 프로세스의 프로세서 친화도 결정을 위한 최적화 도구 (An Optimization Tool for Determining Processor Affinity of Networking Processes)

  • 조중연;진현욱
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권2호
    • /
    • pp.131-136
    • /
    • 2013
  • 멀티코어 프로세서는 다수의 컴퓨팅 코어를 제공해줌으로써 응용 프로세스들의 병렬성을 증대시키고 전체 시스템의 처리율을 크게 향상시켜주고 있다. 최근 멀티코어의 구조적인 특징에 의해서 프로세서 친화도에 따른 네트워크 I/O 성능 차이를 관찰하고, 많은 연구자들이 최적의 프로세서 친화도를 결정하기 위한 연구를 진행하고 있다. 기존의 동적 프로세서 친화도 결정 기법은 응용 프로그램의 수정과 시스템 사양 변경에 투명하게 대처할 수 있으나, 각 응용 프로그램의 고유 특성과 경험을 통해서 수집할 수 있는 정보를 충분히 얻을 수 없다는 제한사항이 있다. 따라서 최적의 프로세서 친화도를 제공하기 어렵다. 본 연구는 프로세서 친화도 결정을 위해서 의미 있는 시스템 변수를 획득하고 최적의 친화도 결정을 지원하기 위한 도구를 제안한다. 구현된 도구는 동적 친화도 결정에 활용되어 그 한계를 극복하고 더 높은 네트워크 대역폭을 제공할 수 있음을 보인다.

실시간 차선인식 알고리즘을 위한 최적의 멀티코어 아키텍처 디자인 공간 탐색 (Optimal Design Space Exploration of Multi-core Architecture for Real-time Lane Detection Algorithm)

  • 정인규;김종면
    • 예술인문사회 융합 멀티미디어 논문지
    • /
    • 제7권3호
    • /
    • pp.339-349
    • /
    • 2017
  • 본 논문에서는 주행 중인 차량의 차선 인식을 위해 4단계로 구성된 알고리즘을 제안한다. 첫 번째 단계에서는 관심영역 추출한다. 두 번째 단계에서는 신호 잡음을 제기하기 위해 중간 값 필터를 이용한다. 세 번째 단계에서는 입력되는 이미지의 배경과 전경의 두 클래스로 구분하기 위한 이진화 알고리즘을 수행한다. 마지막 단계에서는 이진화 과정 후에 남아 있는 노이즈나 불완전한 에지 등을 제거하여 선명한 차선을 얻기 위해 이미지 침식 알고리즘을 이용한다. 하지만 이러한 차선 인식 앍고리즘은 높은 계산량을 요구하여 실시간 처리가 어려운 실정이다. 따라서 본 논문에서는 멀티코어 아키텍처를 이용하여 실시간 차선이탈 감지 알고리즘을 병렬구현 한다. 또한, 차선이탈 감지 알고리즘을 위한 최적의 멀티코어 아키텍처의 구조를 탐색하기 위해 총 8가지의 서로 다른 프로세싱 엘리먼트 구조를 이용하여 실험하였고, 모의실험 결과 40×40의 프로세싱 엘리먼트 구조에서 최적의 성능, 에너지 효율 및 면적 효율을 보였다.

멀티코어 환경에서 샘플링 기반 재시도 정책을 이용한 하이브리드 트랜잭셔널 메모리 (Hybrid Transactional Memory using Sampling-based Retry Policy in Multi-Core Environment)

  • 강문환;장연우;윤민;장재우
    • 한국차세대컴퓨팅학회논문지
    • /
    • 제13권2호
    • /
    • pp.49-61
    • /
    • 2017
  • 트랜잭셔널 메모리는 트랜잭션 처리를 위한 병렬 프로그래밍 패러다임을 크게 바꾸었으며, 하드웨어 및 소프트웨어 방식에 따라 STM, HTM, HyTM으로 구분된다. 그러나, 기존 연구들은 모든 워크로드에 대해 획일적인 재시도 정책을 제공하는 문제점이 존재한다. 이러한 문제점을 해결하기 위해, 본 논문에서는 멀티코어 환경에서 샘플링 기반 유연한 재시도 정책을 이용한 하이브리드 트랜잭셔널 메모리 기법을 제안한다. 첫째, 제안하는 기법은 트랜잭션의 특성을 파악하여 HTM 혹은 STM을 선택하여 수행하거나, 블룸필터를 이용하여 동시에 HTM과 STM을 수행한다. 둘째, 제안하는 기법은 각 워크로드 내의 트랜잭션의 특성을 반영한 유연한 HTM 재시도 정책을 제공한다. 마지막으로 STAMP를 이용한 성능평가를 통해, 제안하는 기법이 기존 연구에 비해 10~20%의 성능 향상이 있음을 보인다.

고체산화물 연료전지 소재공정 요소기술 개발 현황 (Current Status of SOFC Materials and Processing Core Technology)

  • 이종호;손지원;김혜령;김병국;이해원
    • 한국신재생에너지학회:학술대회논문집
    • /
    • 한국신재생에너지학회 2010년도 춘계학술대회 초록집
    • /
    • pp.123.1-123.1
    • /
    • 2010
  • The solid oxide fuel cell (SOFC) has attracted great deal of attention due to its high electrical efficiency, high waste-heat utilization, fuel flexibility, and application versatility. However, SOFC technology is still not matured enough to fulfill the practical requirements for commercialization. Therefore, all the research and development activities are mainly focused on a development of practically viable SOFCs with higher performance and better reliability. We were successful in fabricating high-performance anode-supported unit cells by employing hierarchically controlled multi-layered electrodes for both structural reliability and high performance. In addition, a novel composite sealing gasket made it possible to achieve excellent sealing integrity even with considerable surface irregularities in a multi-cell planar arrayed stack.

  • PDF

옥트리로 색인한 3차원 포인트 클라우드의 다중코어 기반 병렬 탐색 (Multi-core-based Parallel Query of 3D Point Cloud Indexed in Octree)

  • 한수희
    • 한국측량학회지
    • /
    • 제31권4호
    • /
    • pp.301-310
    • /
    • 2013
  • 본 연구는 옥트리로 색인한 대용량 3차원 포인트 클라우드를 다중코어를 이용하여 병렬로 탐색함으로써 탐색 속도를 향상시키는 것을 목표로 한다. 특히 주어진 좌표로부터 일정 반경 내에 존재하는 포인트를 병렬로 탐색하기 위하여 다수의 리프 노드에 동시에 접근하는 방식을 개발하는 것에 초점을 두었다. 이를 위하여, 탐색 부하를 각 코어에 분배하는 과정에서 코드 중 for 루틴을 OpenMP에 의하여 자동으로 나누는 방식과 공간적 분할을 고려하는 방식 등 두 가지 병렬 탐색 방식을 제안하였다. 병렬 및 비병렬 탐색 방식을 평가하기 위하여 지상 레이저 스캐너로 취득한 약 1800만개의 3차원 포인트로부터 옥트리를 생성하고 8개 코어가 집적된 CPU가 1개 장착된 시스템에 적용하였다. 결과적으로 두 가지 병렬 탐색 방식 모두 비병렬 탐색 방식보다 수배의 성능 향상 효과를 나타내었으며, 두 병렬 방식은 탐색 반경에 따라 서로 경합하는 양상을 나타내었다. 향후 코어별 탐색 부하 분배 방식을 개선하여 병렬 탐색 속도를 향상시킬 수 있을 것으로 기대된다.