• 제목/요약/키워드: multi-core CPU

검색결과 76건 처리시간 0.026초

제온 파이 x200 프로세서를 이용한 3차원 음향 파동 전파 모델링 병렬 연산 성능 비교 (Comparison of Parallel Computation Performances for 3D Wave Propagation Modeling using a Xeon Phi x200 Processor)

  • 이종우;하완수
    • 지구물리와물리탐사
    • /
    • 제21권4호
    • /
    • pp.213-219
    • /
    • 2018
  • 본 연구에서는 제온 파이 x200 프로세서를 이용하여 3차원 파동 전파 모델링을 수행하고 기존의 제온 CPU를 사용한 경우와 병렬 연산 성능을 비교하였다. 제온 파이 1세대 프로세서인 제온 파이 나이츠 코너 보조프로세서와 달리 제온 파이 2세대 프로세서인 x200 프로세서는 직접 운영체제 실행이 가능하므로 내장 메모리와 주메모리 사이의 추가적인 통신이 필요 없다. 또한 제온 파이 x200 프로세서는 대용량 주메모리와 고대역폭 메모리를 이용하여 대규모 컴퓨팅을 독립적으로 실행할 수 있다. 병렬 연산 성능 비교를 위해 MPI (Message Passing Interface)와 OpenMP (Open Multi-Processing)를 이용해 모델링을 수행하였다. SEG/EAGE 암염돔 모델을 이용한 수치 실험 결과 제온 파이에서 다량의 연산 코어와 고대역폭 메모리를 이용해 12 코어 CPU 대비 2.69 ~ 3.24배 우수한 모델링 성능을 얻을 수 있었다.

비용 제약조건을 이용한 병렬 O(n!) 서치 스페이스 탐색 기법의 구현 (Implementation of a parallel traversal scheme for O(n!) search space exploiting cost constraint)

  • 이정훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.1501-1502
    • /
    • 2010
  • DualCore 혹은 MultiCore 플랫폼의 보급에 따라 높은 시간복잡도를 갖는 응용들도 사용자의 컴퓨터나 단말에서 수행되어 다양한 서비스를 제공할 수 있게 되었다. 본 논문에서는 관광 스케줄을 효율적으로 결정하기 위한 다중목적지 방문 문제에 대해 이중 쓰레드에 기반한 서치 스페이스 탐색 알고리즘을 구현한다. 이는 Traveling Salesman Problem의 한 종류로서 O(n!) 시간 복잡도를 갖고 있으며 검색시의 독립성때문에 각 쓰레드는 병렬적으로 최적의 스케줄을 탐색할 수 있다. 또 현재까지 발견된 최적값을 기반으로 부분 경로의 비용이 이미 최적값을 넘는 경우는 하위 탐색을 제거하여 상당한 성능의 향상을 가져온다. 2.4 GHz Intel(R) Core DuoCPU와 3 GB 메모리로 구성된 플랫폼 상에서 구현된 서비스는 11개의 목적지에 대한 방문 스케줄을 생성함에 있어서 단일 쓰레드 버전은 14.196초, 이중 쓰레드 버전은 6.411초, 제약조건을 포함한 이중 쓰레드 버전은 0.14초에 최적의 스케줄을 찾아낼 수 있다.

멀티코어 프로세서에서의 트리 기반 인덱스 성능 실험 평가 (Empirical Performance Evaluation of Tree-based Indexes on Multi-Core Processors)

  • 김경화;심준호;이익훈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 한국컴퓨터종합학술대회논문집 Vol.34 No.1 (C)
    • /
    • pp.134-138
    • /
    • 2007
  • 점차 더 벌어지는 CPU 속도와 메모리 속도의 차이로 인하여 메모리 접근 병목 현상이 발생하였고, 이 현상을 극복하기 위하여 캐시를 고려한 인덱스 구조에 관한 연구가 계속 되었다. 또한 최근 CPU 트렌드가 싱글 코어에서 멀티 코어로 전환점을 맞으면서 캐시메모리의 효율에 대한 중요성이 더욱 부각되었다. 본 논문은 최신 프로세서를 탑재한 시스템에서 메인 메모리 데이터베이스 시스템을 위한 인덱스 구조들의 성능을 비교 평가하고, 그 중 캐시를 고려한 트리 인덱스의 성능이 유용함을 보인다.

  • PDF

OpenCL을 활용한 CPU와 GPU 에서의 CMMB LDPC 복호기 병렬화 (Parallel LDPC Decoder for CMMB on CPU and GPU Using OpenCL)

  • 박주열;홍정현;정기석
    • 대한임베디드공학회논문지
    • /
    • 제11권6호
    • /
    • pp.325-334
    • /
    • 2016
  • Recently, Open Computing Language (OpenCL) has been proposed to provide a framework that supports heterogeneous computing platforms. By using an OpenCL framework, digital communication systems can support various protocols in a unified computing environment to achieve both high portability and high performance. This article introduces a parallel software decoder of Low Density Parity Check (LDPC) codes for China Multimedia Mobile Broadcasting (CMMB) on a heterogeneous platform. Each step of LDPC decoding has different parallelization characteristics. In this paper, steps suitable for task-level parallelization are executed on the CPU, and steps suitable for data-level parallelization are processed by the GPU. To improve the performance of the proposed OpenCL kernels for LDPC decoding operations, explicit thread scheduling, loop-unrolling, and effective data transfer techniques are applied. The proposed LDPC decoder achieves high performance by using heterogeneous multi-core processors on a unified computing framework.

오픈소스 IDS/IPS Snort와 Suricata의 탐지 성능에 대한 비교 연구 (A Comparative Study on Performance of Open Source IDS/IPS Snort and Suricata)

  • 석진욱;최문석;김지명;박종순
    • 디지털산업정보학회논문지
    • /
    • 제12권1호
    • /
    • pp.89-95
    • /
    • 2016
  • Recent growth of hacking threats and development in software and technology put Network security under threat, In addition, intrusion, malware and worm virus have been increased due to the existence of variety of sophisticated hacking methods. The goal of this study is to compare Snort Alpha version with Suricata 2.0.11 version whereas previous study focuses on comparison between snort 2. x version under thread environment and Suricata under multi-threading environment. This thesis' experiment environment is set as followed. Intel (R) Core (TM) i5-4690 3. 50GHz (4threads) of CPU, 16GB of RAM, 3TB of Seagate HDD, Ubuntu 14.04 are used. According to the result, Snort Alpha version is superior to Suricata in performance, but Snort Alpha had some glitches when executing pcap files which created core dump errors. Therefore this experiment seeks to analyze which performs better between Snort Alpha version that supports multi packet processing threads and Suricata that supports multi-threading. Through this experiment, one can expect the better performance of beta and formal version of Snort in the future.

IMT-2000 비동기식 단말기용 ASIC을 위한 적응형 다중 비트율 (AMR) 보코더의 구현 (Implementation of Adaptive Multi Rate (AMR) Vocoder for the Asynchronous IMT-2000 Mobile ASIC)

  • 변경진;최민석;한민수;김경수
    • 한국음향학회지
    • /
    • 제20권1호
    • /
    • pp.56-61
    • /
    • 2001
  • 본 논문은 비동기 방식의 IMT-2000 단말기용 ASIC (주문형 집적회로)에 포함되는 음성부호화기 알고리즘인 AMR(Adaptive Multi Rate) 보코더의 실시간 구현에 관한 것이다. 구현된 AMR 보코더는 12.2kbps에서 4.75kbps까지 8가지의 다중 비트율을 가지고 있으며, 인코더와 디코더 기능 외에 VAD (Voice Activity Detection) 블록과 SCR (Source Controlled Rate operation) 블록 등의 부가기능 및 시스템과의 접속 처리를 위한 프레임 구성 기능도 구현되어 있다. AMR 보코더를 구현하기 위하여 설계된 DSP (디지털 신호처리기)는 TeakLite 코어를 기반으로 하여 메모리 블록, 직렬접속 블록, CPU와의 접속을 위한 레지스터 파일 블록, 인터럽트 제어회로 등으로 구성된 16비트 고정 소수점형 DSP이다. 실시간 구현 방법에서는 메모리의 효율적인 관리를 통하여 계산량을 최적화하여 최대 동작 계산량을 약 24MIPS로 줄였으며, 구현된 AMR 보코더는 3GPP의 표준 시험 벡터를 모두 통과하여 검증을 완료하고, 실시간 보드 시험에서도 안정적으로 동작하는 것이 확인되었다.

  • PDF

Parallel LDPC Decoding on a Heterogeneous Platform using OpenCL

  • Hong, Jung-Hyun;Park, Joo-Yul;Chung, Ki-Seok
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제10권6호
    • /
    • pp.2648-2668
    • /
    • 2016
  • Modern mobile devices are equipped with various accelerated processing units to handle computationally intensive applications; therefore, Open Computing Language (OpenCL) has been proposed to fully take advantage of the computational power in heterogeneous systems. This article introduces a parallel software decoder of Low Density Parity Check (LDPC) codes on an embedded heterogeneous platform using an OpenCL framework. The LDPC code is one of the most popular and strongest error correcting codes for mobile communication systems. Each step of LDPC decoding has different parallelization characteristics. In the proposed LDPC decoder, steps suitable for task-level parallelization are executed on the multi-core central processing unit (CPU), and steps suitable for data-level parallelization are processed by the graphics processing unit (GPU). To improve the performance of OpenCL kernels for LDPC decoding operations, explicit thread scheduling, vectorization, and effective data transfer techniques are applied. The proposed LDPC decoder achieves high performance and high power efficiency by using heterogeneous multi-core processors on a unified computing framework.

멀티코어 GP-GPU 기반의 OpenVG 가속기 구현 (Implementation of OpenVG Accelerator based on Multi-Core GP-GPU)

  • 이광엽;박종일;이찬호
    • 전기전자학회논문지
    • /
    • 제15권3호
    • /
    • pp.248-254
    • /
    • 2011
  • 최근 모바일 환경에서도 GUI(Graphic User Interface)나 3D 컨텐츠, Flash 등 다양한 그래픽 효과를 이용한 멀티미디어 컨텐츠들이 요구 된다. 이러한 컨텐츠들을 지원하 위하여 모바일 기기에도 GPU (Graphic Processing Unit)의 탑재가 필요조건이 되었다. 본 논문에서는 모바일 환경에 적합하도록 설계된 GP-GPU를 이용하여 OpenVG 가속기를 구현하였다. OpenVG 가속기는 크로노스 그룹에서 제공하는 샘플 이미지들을 사용하여 검증하였으며, OpenVG에서 제공해야 하는 동작 및 기능들이 정상 동작함을 검증하였다. 본 논문에서 구현한 가속기는 Tiger Image 렌더링시 초당 2프레임의 성능을 가진다.

OpenMP를 이용한 CALPUFF 모듈 가속화 (CALPUFF Module Acceleration with OpenMP)

  • 유숙현;양진욱;김경호;윤희영;구윤서;권희용
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(C)
    • /
    • pp.1-4
    • /
    • 2011
  • 악취 유발 사업장 및 지자체에서 사용하고 있는 악취 관리 모델링 시스템의 핵심 모듈을 최근 Intel에서 발표한 멀티코어(multi-core) 기술과 OpenMP 기술을 이용하여 고성능 병렬처리에 의한 실시간 시스템으로 개선하였다. 기존의 기상 모델인 CALMET 모델과 대기질 모델인 CALPUFF 모델은 배출원 갯수와 모델링 영역의 격자 갯수 증가에 따라 모델링 수행 시간이 기하급수적으로 증가한다. 악취는 그 특성상 모델링 수행시간을 짧게 할수록 악취모델링 결과를 효과적으로 사용할 수 있다. 따라서 모델링 수행시간을 단축하기 위해 여러 개의 CPU Core를 동시에 사용하여 병렬로 작업을 처리하는 멀티코어 기술을 접목하여, 기존의 CALPUFF를 실시간 모델링이 가능한 고성능 모델링 시스템으로 개발하였다. 실험 결과 Core의 수가 증가하면 Amdahl의 법칙에 준하여 가속화되었다.

GPU를 이용한 효율적인 비압축성 자유표면유동 해석 (AN EFFICIENT INCOMPRESSIBLE FREE SURFACE FLOW SIMULATION USING GPU)

  • 홍환의;안형택;명훈주
    • 한국전산유체공학회지
    • /
    • 제17권2호
    • /
    • pp.35-41
    • /
    • 2012
  • This paper presents incompressible Navier-Stokes solution algorithm for 2D Free-surface flow problems on the Cartesian mesh, which was implemented to run on Graphics Processing Units(GPU). The INS solver utilizes the variable arrangement on the Cartesian mesh, Finite Volume discretization along Constrained Interpolation Profile-Conservative Semi-Lagrangian(CIP-CSL). Solution procedure of incompressible Navier-Stokes equations for free-surface flow takes considerable amount of computation time and memory space even in modern multi-core computing architecture based on Central Processing Units(CPUs). By the recent development of computer architecture technology, Graphics Processing Unit(GPU)'s scientific computing performance outperforms that of CPU's. This paper focus on the utilization of GPU's high performance computing capability, and presents an efficient solution algorithm for free surface flow simulation. The performance of the GPU implementations with double precision accuracy is compared to that of the CPU code using an representative free-surface flow problem, namely. dam-break problem.