• Title/Summary/Keyword: 컴퓨터 CPU

Search Result 439, Processing Time 0.033 seconds

Performance Comparison of Join Operations Parallelization by using GPGPU (GPGPU 기반 조인 연산 병렬화 성능 비교)

  • Lee, Jong-Sub;Lee, Sang-Back;Lee, Kyu-Chul
    • Database Research
    • /
    • v.34 no.3
    • /
    • pp.28-44
    • /
    • 2018
  • In a database system, the most expensive operation among relational operations is a join operation. Generally, CPU-based join operations uses parallel processing with either 1 core or 16 cores at most, which does not significantly improve the function. On the other hand, GPGPU(General-Purpose computing on Graphics Processing Units) allows parallel processing through thousands of processing units, greatly reducing the time required to perform join operations. Parallelization of the operation using GPGPU uses NVIDIA's CUDA SDK. In this paper, we implement parallelization of the join operation using GPGPU and compare the performances. The used join operations are Nested Loop Join (NLJ), Sort Merge Join (SMJ) and Hash Join (HJ), and GPGPU equipment uses TITAN Xp, GTX 1080 Ti and GTX 1080. We measure and compare the performance of join operations based on CPU and GPGPU. We compare this performance with the performance of the previous study on the join operation based on GPGPU. The results of experiment show that the performance based on GPGPU is 6~328 times faster than the one based on CPU.

A Problem Study of Arithmetic Section Contents in Computer Architecture Textbooks of the Technical High School (공업 계열 고등학교 컴퓨터 구조 교과서의 연산 장치 영역 내용의 문제점 분석)

  • Lee, Sangwook;Suh, Taeweon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.11a
    • /
    • pp.1739-1741
    • /
    • 2012
  • 국가 교육과정에서 컴퓨터 하드웨어만을 교과 내용으로 하는 최초의 과목은 4차 교육과정 시기 중공업 계열 고등학교에 신설된 '전자 계산기 구조' 과목으로 현재의 '컴퓨터 구조' 과목에 해당된다. 컴퓨터 구조 과목의 교과 목표는 학습자가 컴퓨터의 구조와 동작 원리를 바르게 이해하고 컴퓨터를 효율적으로 활용할 수 있도록 하는데 있다. 교과 목표를 위해서는 교과서의 내용이 정확해야 하고 현재의 컴퓨터 구조를 바르게 반영하고 있어야 한다. 본 연구에서는 공업 계열 고등학교의 컴퓨터 구조 과목에 제시된 연산 장치 영역 내용의 문제점을 컴퓨터 구조 전문 서적과의 비교를 통해 파악해 보고자 하였다. 연구 결과, 교과서의 연산 장치 영역에는 정확성과 일관성이 결여된 개념 정의와 현재의 CPU 구조를 반영하지 못한 내용이 포함되어 있었다. ALU와 연산 장치에 대한 설명이 교과서별 상이하였고, 연산 장치의 구성 요소들은 현재 사용되고 있는 CPU 구조를 바르게 나타내고 있지 않았다. 이러한 문제점들은 컴퓨터 과학의 역사적, 기술적 고찰을 통해 개선될 필요가 있다.

CPU Usage Analysis According to the Task Group in Android Mobile (안드로이드 단말의 태스크 그룹에 따른 CPU 점유율 분석)

  • Kim, Myungsun;Lim, Jintaek;Park, Daedong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2013.01a
    • /
    • pp.9-12
    • /
    • 2013
  • 리눅스 기반 안드로이드 단말에서는 CFS(Completely Fair scheduler)가 사용되고 있다. 그리고 CFS는 태스크의 nice값 조절을 통해서 응용프로그램의 CPU 점유율을 제어할 수 있다. 하지만 안드로이드를 업그레이드할 때마다 수많은 태스크의 nice값을 적절하게 맞추는 일은 매우 어려운 일이다. 이러한 문제를 해결하기 위하여 안드로이드 단말은 리눅스의 cgroup(control group)을 사용하여 태스크들을 그룹으로 나눈다. 고성능과 빠른 응답 특성이 필요한 태스크들을 apps 그룹에 할당하여 높은 CPU 점유율을 보장하고, 그렇지 않은 태스크들을 background 그룹에 할당한다. 하지만 안드로이드의 버전이 업그레이드 되면서 각 그룹에 속한 태스크들에도 변화가 생긴다. 그 결과 동일하게 제작된 태스크들의 CPU 점유율이 달라지게 되고 예기치 못한 성능 저하가 발생할 수 있다. 본 연구에서는 안드로이드 버전 향상에 따라 동종 태스크들이 이전 버전에서보다 성능이 하락하는 현상의 원인을 파악하였다. 아울러 분석과 실험을 통하여 태스크의 nice 값보다 그룹 스케줄링 메커니즘이 어떻게 태스크의 CPU 점유율을 결정 짓는지 규명하였다.

  • PDF

Quadtree-based Terrain Visualization Using Vertex Multiplication (정점증식을 이용한 사진트리 기반 지형 시각화 기법)

  • Lee, Eun-Seok;Shin, Byeong-Seok
    • Journal of the Korea Computer Graphics Society
    • /
    • v.15 no.3
    • /
    • pp.27-33
    • /
    • 2009
  • In terrain visualization, the quadtree is the most frequently used data structure for progressive mesh generation. The quadtree provides an efficient level-of-detail selection and view frustum culling. However, most applications using quadtrees are performed by the CPU, since the hierarchical data structure cannot be manipulated in a programmable rendering pipeline. For this reason, quadtree-based methods show lower performance and higher dependancy of CPU in comparison to GPU-based methods. We present a quadtree-based terrain-rendering method for GPU execution that uses vertex multiplication. It offers higher performance than previous CPU-based quadtree methods, without loss of image quality.

  • PDF

Evaluation of the Data Migration between CPU Memory and GPU Memory for a NVIDIA Pascal GPU Using Unified Memory (통합 메모리를 사용하는 NVIDIA 파스칼 GPU에서의 CPU 메모리와 GPU 메모리 간 데이터 통신 분석)

  • Shin, Philkyue;Hong, Seongsoo
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2018.07a
    • /
    • pp.7-10
    • /
    • 2018
  • 통합 메모리는 CPU 메모리와 GPU 메모리 간의 데이터 통신을 개발자에게 투명하게 내재적으로 수행하는 소프트웨어 런타임 환경으로 개발자에게 CPU 메모리와 GPU 메모리가 통합된 하나의 메모리로 보이게 해준다. 통합 메모리는 장점에도 불구하고 아직 널리 사용되지 못하고 있는데 그 이유는 내재적으로 수행되는 데이터 통신의 오버헤드가 큰 것으로 알려져 있기 때문이다. 하지만 이 데이터 통신이 구체적으로 어떻게 이루어지고 오버헤드는 어떻게 발생하는지 분석한 연구는 아직 존재하지 않는다. 우리는 NVIDIA 사의 최신 GPU 마이크로아키텍처 중 하나인 파스칼을 사용하는 GPU를 대상으로 하여, 통합 메모리를 사용할 시 데이터 통신이 이루어지는 조건과 GPU 응용의 수행시간에 데이터 통신이 끼치는 영향을 실험을 통해 분석한다. 실험 결과 통합 메모리의 오버헤드는 두 가지 원인 때문에 발생한다. 첫째, 통합 메모리를 사용하면 CPU 또는 GPU가 데이터에 접근할 때마다 이 데이터는 CPU 또는 GPU 메모리로 옮겨지고 옮겨진 데이터는 제거된다. 따라서 재사용할 데이터도 제거되어 추가적인 데이터 통신이 발생하고, 이 데이터 통신의 지연시간은 GPU 응용의 수행시간에 더해진다. 둘째, 통합 메모리를 사용하면 데이터 통신과 커널들이 서로 다른 스트림에 할당되어도 동시에 수행되지 못한다. 따라서 GPU 응용의 수행시간은 동시에 수행되던 데이터 통신과 커널의 수행시간만큼 증가한다.

  • PDF

Limiting CPU Frequency Scaling Considering Main Memory Accesses (주메모리 접근을 고려한 CPU 주파수 조정 제한)

  • Park, Moonju
    • KIISE Transactions on Computing Practices
    • /
    • v.20 no.9
    • /
    • pp.483-491
    • /
    • 2014
  • Contemporary computer systems exploits DVFS (Dynamic Voltage/Frequency Scaling) technology for balancing performance and power consumption. The efficiency of DVFS depends on how much performance we get for larger power consumption due to elevated CPU frequency. Especially for memory-bounded applications, higher CPU frequency often does not result in higher performance. In this paper, we present an upper bound of CPU frequency scaling based on memory accesses. It is observed that the performance gain due to higher CPU frequency is limited by memory accesses (last level cache misses) per instructions by experiments. Using the results, we present the CPU frequency upper bound with little performance gain. Experimental results show that for a memory-bounded application, applying the frequency upper bound enhances the energy efficiency of the application by above 30%.

Performance Scalability of SPEC CPU2000 Benchmark over CPU Clock Speed (CPU 주파수 속도에 대한 SPEC CPU2000 성능 변화)

  • Yi, Jong-Su;Kim, Jun-Seong
    • Journal of the Institute of Electronics Engineers of Korea CI
    • /
    • v.42 no.5
    • /
    • pp.1-8
    • /
    • 2005
  • SPEC CPU2000 is an widely used benchmark program, both in industry and in academy, for measuring compute-intensive performance of computer systems with various architectures. However, there has been little effort to investigate its characteristics with respect to hardware components. This paper presents the performance scalability of SPEC CPU2000 benchmark over CPU clock speed. For an Intel x86-based system running at various clock speed, we measure the performance of SPEC CPU2000 benchmark, and analyze the characteristic of SPEC CPU2000 in a system aspect. In the experiment, we found that the overall performance of SPEC CPU2000 increases monotonically and linearly as the CPU clock speed increases and that the scale efficiencies of SPEC CPU2000 component benchmarks are quite evenly distributed.

A Method of Client-Server Assignment for Minimizing the CPU Power Consumption of Servers in a Game Server Cluster (게임 서버 클러스터에서의 서버의 CPU 전력 소모 최소화를 위한 클라이언트-서버 배정 방법)

  • Kim, Sangchul;Lee, Sunghae
    • Journal of Korea Game Society
    • /
    • v.17 no.4
    • /
    • pp.137-148
    • /
    • 2017
  • Since the power consumption of data centers is large and computer serves take a large portion of it, there have been much research on the power saving of servers in various ways recently. Among the units of severs CPU is one of major power consuming units. In this paper, a method of client-server assignment for minimizing the CPU power consumption of servers in a game server cluster is proposed. We model the client-server assignment problem as an optimization problem, and find a solution to the problem using a simulated annealing-based technique. One of major features of our method is to select a proper operating frequency according to the amount of load on a server. The selection of a lower frequency in case of low load will result in reducing power consumption. To our survey, little research on client-server assignment in consideration of power consumption has been carried out.

VANET에서 CPU 성능을 보장하는 핸드오버 인증프로토콜

  • Cho, Shin-Young;Kim, Seung-Hwan;Lim, Hun-Jung;Chung, Tai-Myoung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.04a
    • /
    • pp.664-667
    • /
    • 2010
  • VANET에서 빠른 핸드오버를 위한 Fast MIPv6를 사용하는데 있어 Mobile Node이 다음 Access Router로 이동함에 따라 새로운 주소를 생성하고 이전주소를 새로운 주소로 교환하는 과정인 Fast Binding Update가 안전하게 수행하기 위해 핸드오버 인증 프로토콜이 사용된다. 본 논문에서는 핸드오버 인증 프로토콜 중 Kempf가 제안한 SEND기반의 핸드오버 인증 프로토콜이 Sybil 공격 및 DoS 공격에 보안상 취약하므로 생기는 CPU 성능 저하 문제를 인증과정을 수행하기 전에 Access Router의 주소 리스트를 사용하여 완화시키는 방법을 제안한다. 그로 인해 CPU 성능의 효율성을 보장하도록 한다.

CSR Sparse Matrix Vector Multiplication Using Zero Copy (Zero Copy를 이용한 CSR 희소행렬 연산)

  • Yoon, SangHyeuk;Jeon, Dayun;Park, Neungsoo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.05a
    • /
    • pp.45-47
    • /
    • 2021
  • APU(Accelerated Processing Unit)는 CPU와 GPU가 통합되어있는 프로세서이며 같은 메모리 공간을 사용한다. CPU와 GPU가 분리되어있는 기존 이종 컴퓨팅 환경에서는 GPU가 작업을 처리하기 위해 CPU에서 GPU로 메모리 복사가 이루어졌지만, APU는 같은 메모리 공간을 사용하므로 메모리 복사 없이 가상주소 할당으로 같은 물리 주소에 접근할 수 있으며 이를 Zero Copy라 한다. Zero Copy 성능을 테스트하기 위해 희소행렬 연산을 사용하였으며 기존 메모리 복사대비 크기가 큰 데이터는 약 4.67배, 크기가 작은 데이터는 약 6.27배 빨랐다.