통합 검색 | Korea Science

GPGPU 기반 조인 연산 병렬화 성능 비교 (Performance Comparison of Join Operations Parallelization by using GPGPU)

이종섭;이상백;이규철
- 데이타베이스연구회지:데이타베이스연구
- /
- 제34권3호
- /
- pp.28-44
- /
- 2018
데이터베이스 시스템 관계 연산자 중에서 연산 비용이 가장 비싼 연산은 조인 연산이다. 일반적으로 CPU 기반의 조인 연산의 경우에는 하나의 코어를 사용하거나 많게는 16개 정도의 코어를 사용하여 병렬 처리를 해서 병렬화에 따른 성능 향상이 크지 않다. 이에 반해, GPGPU(General-Purpose computing on Graphics Processing Units)는 수천 개의 프로세싱 유닛을 통한 병렬 처리가 가능해서 조인 연산 수행 시간을 크게 단축할 수 있다. 본 논문에서는 GPGPU 기반에서 조인 연산 병렬화를 구현하기 위해 NVIDIA의 CUDA SDK가 사용되며, CPU 기반과 GPGPU 기반에서의 조인 연산 성능을 측정한다. 사용되는 조인 연산은 NLJ (Nested Loop Join), SMJ (Merge Join), HJ (Hash Join)이며, GPGPU 장비는 TITAN Xp, GTX 1080 Ti 및 GTX 1080을 사용한다. CPU 기반과 GPGPU 기반의 성능을 비교하고, GPGPU 기반의 조인 연산과 이전 연구의 성능과의 성능을 비교한다. 마지막으로, 실험 결과는 GPGPU 기반의 성능이 CPU 기반의 성능보다 6~328 배 빠른 성능을 보였고 향후 연구의 방향성에 대하여 토의한다.

공업 계열 고등학교 컴퓨터 구조 교과서의 연산 장치 영역 내용의 문제점 분석 (A Problem Study of Arithmetic Section Contents in Computer Architecture Textbooks of the Technical High School)

이상욱;서태원
- 한국정보처리학회:학술대회논문집
- /
- 한국정보처리학회 2012년도 추계학술발표대회
- /
- pp.1739-1741
- /
- 2012
국가 교육과정에서 컴퓨터 하드웨어만을 교과 내용으로 하는 최초의 과목은 4차 교육과정 시기 중공업 계열 고등학교에 신설된 '전자 계산기 구조' 과목으로 현재의 '컴퓨터 구조' 과목에 해당된다. 컴퓨터 구조 과목의 교과 목표는 학습자가 컴퓨터의 구조와 동작 원리를 바르게 이해하고 컴퓨터를 효율적으로 활용할 수 있도록 하는데 있다. 교과 목표를 위해서는 교과서의 내용이 정확해야 하고 현재의 컴퓨터 구조를 바르게 반영하고 있어야 한다. 본 연구에서는 공업 계열 고등학교의 컴퓨터 구조 과목에 제시된 연산 장치 영역 내용의 문제점을 컴퓨터 구조 전문 서적과의 비교를 통해 파악해 보고자 하였다. 연구 결과, 교과서의 연산 장치 영역에는 정확성과 일관성이 결여된 개념 정의와 현재의 CPU 구조를 반영하지 못한 내용이 포함되어 있었다. ALU와 연산 장치에 대한 설명이 교과서별 상이하였고, 연산 장치의 구성 요소들은 현재 사용되고 있는 CPU 구조를 바르게 나타내고 있지 않았다. 이러한 문제점들은 컴퓨터 과학의 역사적, 기술적 고찰을 통해 개선될 필요가 있다.
https://doi.org/10.3745/PKIPS.y2012m11a.1739 인용 PDF

안드로이드 단말의 태스크 그룹에 따른 CPU 점유율 분석 (CPU Usage Analysis According to the Task Group in Android Mobile)

김명선;임진택;박대동
- 한국컴퓨터정보학회:학술대회논문집
- /
- 한국컴퓨터정보학회 2013년도 제47차 동계학술대회논문집 21권1호
- /
- pp.9-12
- /
- 2013
리눅스 기반 안드로이드 단말에서는 CFS(Completely Fair scheduler)가 사용되고 있다. 그리고 CFS는 태스크의 nice값 조절을 통해서 응용프로그램의 CPU 점유율을 제어할 수 있다. 하지만 안드로이드를 업그레이드할 때마다 수많은 태스크의 nice값을 적절하게 맞추는 일은 매우 어려운 일이다. 이러한 문제를 해결하기 위하여 안드로이드 단말은 리눅스의 cgroup(control group)을 사용하여 태스크들을 그룹으로 나눈다. 고성능과 빠른 응답 특성이 필요한 태스크들을 apps 그룹에 할당하여 높은 CPU 점유율을 보장하고, 그렇지 않은 태스크들을 background 그룹에 할당한다. 하지만 안드로이드의 버전이 업그레이드 되면서 각 그룹에 속한 태스크들에도 변화가 생긴다. 그 결과 동일하게 제작된 태스크들의 CPU 점유율이 달라지게 되고 예기치 못한 성능 저하가 발생할 수 있다. 본 연구에서는 안드로이드 버전 향상에 따라 동종 태스크들이 이전 버전에서보다 성능이 하락하는 현상의 원인을 파악하였다. 아울러 분석과 실험을 통하여 태스크의 nice 값보다 그룹 스케줄링 메커니즘이 어떻게 태스크의 CPU 점유율을 결정 짓는지 규명하였다.
PDF

정점증식을 이용한 사진트리 기반 지형 시각화 기법 (Quadtree-based Terrain Visualization Using Vertex Multiplication)

이은석;신병석
- 한국컴퓨터그래픽스학회논문지
- /
- 제15권3호
- /
- pp.27-33
- /
- 2009
사진트리는 지형 시각화를 위한 점진적인 메쉬 생성에 널리 사용되는 자료구조이다. 사진트리는 빠른 상세단계 선택과 효과적인 시각절두체 선별이 가능하다. 하지만 계층적인 자료구조이므로 CPU에서만 사용할 수 있고 그래픽 하드웨어의 랜더링 파이프라인에서는 활용할 수 없다. 따라서 기존의 사진트리 기반 지형 시각화 기법들은 GPU를 이용한 다른 시각화 방법들에 비하여 CPU 의존도가 크고 처리시간이 오래 걸린다. 본 논문에서는 정점증식을 이용하여 GPU만으로 지형을 렌더링 하는 방법을 소개한다. 이 방법은 기존의 CPU를 이용한 사진트리기반 방법들에 비하여 화질의 저하 없이 빠른 속도로 렌더링 할 수 있다.
PDF

통합 메모리를 사용하는 NVIDIA 파스칼 GPU에서의 CPU 메모리와 GPU 메모리 간 데이터 통신 분석 (Evaluation of the Data Migration between CPU Memory and GPU Memory for a NVIDIA Pascal GPU Using Unified Memory)

신필규;홍성수
- 한국컴퓨터정보학회:학술대회논문집
- /
- 한국컴퓨터정보학회 2018년도 제58차 하계학술대회논문집 26권2호
- /
- pp.7-10
- /
- 2018
통합 메모리는 CPU 메모리와 GPU 메모리 간의 데이터 통신을 개발자에게 투명하게 내재적으로 수행하는 소프트웨어 런타임 환경으로 개발자에게 CPU 메모리와 GPU 메모리가 통합된 하나의 메모리로 보이게 해준다. 통합 메모리는 장점에도 불구하고 아직 널리 사용되지 못하고 있는데 그 이유는 내재적으로 수행되는 데이터 통신의 오버헤드가 큰 것으로 알려져 있기 때문이다. 하지만 이 데이터 통신이 구체적으로 어떻게 이루어지고 오버헤드는 어떻게 발생하는지 분석한 연구는 아직 존재하지 않는다. 우리는 NVIDIA 사의 최신 GPU 마이크로아키텍처 중 하나인 파스칼을 사용하는 GPU를 대상으로 하여, 통합 메모리를 사용할 시 데이터 통신이 이루어지는 조건과 GPU 응용의 수행시간에 데이터 통신이 끼치는 영향을 실험을 통해 분석한다. 실험 결과 통합 메모리의 오버헤드는 두 가지 원인 때문에 발생한다. 첫째, 통합 메모리를 사용하면 CPU 또는 GPU가 데이터에 접근할 때마다 이 데이터는 CPU 또는 GPU 메모리로 옮겨지고 옮겨진 데이터는 제거된다. 따라서 재사용할 데이터도 제거되어 추가적인 데이터 통신이 발생하고, 이 데이터 통신의 지연시간은 GPU 응용의 수행시간에 더해진다. 둘째, 통합 메모리를 사용하면 데이터 통신과 커널들이 서로 다른 스트림에 할당되어도 동시에 수행되지 못한다. 따라서 GPU 응용의 수행시간은 동시에 수행되던 데이터 통신과 커널의 수행시간만큼 증가한다.
PDF

주메모리 접근을 고려한 CPU 주파수 조정 제한 (Limiting CPU Frequency Scaling Considering Main Memory Accesses)

박문주
- 정보과학회 컴퓨팅의 실제 논문지
- /
- 제20권9호
- /
- pp.483-491
- /
- 2014
현대의 컴퓨터 시스템에서는 동적 전압/주파수 조정(DVFS: Dynamic Voltage/Frequency Scaling) 기법을 이용하여 성능과 전력 소모의 균형을 이루도록 한다. DVFS 정책의 유용성은 높아진 주파수에 따른 소모 전력에 대한 성능 향상 정도에 달려있다. 특히 메모리 I/O가 많은 응용의 경우 CPU 주파수 상승에 비례하여 성능이 향상되지 않는 경우가 많다. 본 논문에서는 메모리 접근 빈도에 기반하여 CPU 주파수 조정의 상한을 결정하도록 하였다. 명령어 당 메모리 접근(최종 수준 캐시 미스) 빈도에 따라 CPU 주파수 상향으로 인한 성능 향상이 제한되는 것을 실험으로 확인하고, 성능 향상의 이득이 작아지는 CPU 주파수를 제시하도록 한다. 본 논문의 기법을 적용한 실험 결과는 메모리 접근 빈도가 높은 응용에 대하여 30% 이상의 에너지 효율 상승이 있음을 보인다.
https://doi.org/10.5626/KTCP.2014.20.9.483 인용

CPU 주파수 속도에 대한 SPEC CPU2000 성능 변화 (Performance Scalability of SPEC CPU2000 Benchmark over CPU Clock Speed)

이정수;김준성
- 전자공학회논문지CI
- /
- 제42권5호
- /
- pp.1-8
- /
- 2005
SPEC CPU2000은 CPU의 성능 측정에 중점을 둔 벤치마크 프로그램으로서 표준화에 대한 노력을 바탕으로 산학계에 널리 사용되고 있으나, 하드웨어 측면에서의 특성 분석은 미비하였다. 본 논문에서는 컴퓨터 시스템의 중요한 구성 요소 중 하나인 CPU 주파수 속도의 변화에 따른 SPEC CPU2000 벤치마크의 성능 변화를 고찰하였다. x86 구조 기반의 단일 프로세서 시스템에서 CPU 주파수 속도를 제외한 다른 구성요소를 일정하게 유지하면서 SPEC CPU2000 벤치마크 프로그램의 성능을 측정함으로써 SPEC CPU2000 벤치마크 프로그램의 특성을 시스템적 측면에서 해석하였다. 실험을 통하여 SPEC CPU2000은 CPU 주파수 속도의 변화에 대하여 유연한 성능분석이 가능하도록 개별 벤치마크 프로그램의 CPU 주파수 의존도가 고르게 분포되어 있음을 알 수 있었으며, SPEC CPU2000에 대한 시스템적 측면의 해석을 제공함으로써 SPEC CPU2000을 사용하는 연구, 개발에 있어서 기반 자료로 사용될 것으로 기대된다.
PDF KSCI

게임 서버 클러스터에서의 서버의 CPU 전력 소모 최소화를 위한 클라이언트-서버 배정 방법 (A Method of Client-Server Assignment for Minimizing the CPU Power Consumption of Servers in a Game Server Cluster)

김상철;이성해
- 한국게임학회 논문지
- /
- 제17권4호
- /
- pp.137-148
- /
- 2017
데이터 센터의 전력 소모가 크고, 그 중에 컴퓨터 서버의 전력 소모 비중이 높기 때문에, 최근 서버의 전력 절약을 위한 연구가 다양한 방향에서 진행되고 있다. 서버 컴퓨터의 구성 유닛들 중에서 특히 CPU는 주된 전력 소모 원인이다. 본 논문에서는 게임 서버 클러스터 환경에서 서버 CPU의 전력 소모를 최소화하기 위한 신규 클라이언트들을 서버에 배정하는 방법을 제안한다. 우리는 클라이언트-서버 배정 문제를 최적화 문제로 모델링하고, 시뮬레이티드 어닐링 기반 방법으로 그 해를 구한다. 우리의 방법의 특징들 중 하나는 CPU의 동작 주파수를 부하에 따라 적절히 선택하는 것으로서, 저 부하시에는 낮은 주파수를 선택해 전력 소모를 줄이게 된다. 우리의 조사에 따르면, 온라인 게임 서버의 전력 소모를 고려한 클라이언트-서버 배정에 관한 연구는 거의 없었다.
https://doi.org/10.7583/JKGS.2017.17.4.137 인용 PDF KSCI

VANET에서 CPU 성능을 보장하는 핸드오버 인증프로토콜

조신영;김승환;임헌정;정태명
- 한국정보처리학회:학술대회논문집
- /
- 한국정보처리학회 2010년도 춘계학술발표대회
- /
- pp.664-667
- /
- 2010
VANET에서 빠른 핸드오버를 위한 Fast MIPv6를 사용하는데 있어 Mobile Node이 다음 Access Router로 이동함에 따라 새로운 주소를 생성하고 이전주소를 새로운 주소로 교환하는 과정인 Fast Binding Update가 안전하게 수행하기 위해 핸드오버 인증 프로토콜이 사용된다. 본 논문에서는 핸드오버 인증 프로토콜 중 Kempf가 제안한 SEND기반의 핸드오버 인증 프로토콜이 Sybil 공격 및 DoS 공격에 보안상 취약하므로 생기는 CPU 성능 저하 문제를 인증과정을 수행하기 전에 Access Router의 주소 리스트를 사용하여 완화시키는 방법을 제안한다. 그로 인해 CPU 성능의 효율성을 보장하도록 한다.
https://doi.org/10.3745/PKIPS.y2010m04a.664 인용 PDF

Zero Copy를 이용한 CSR 희소행렬 연산 (CSR Sparse Matrix Vector Multiplication Using Zero Copy)

윤상혁;전다윤;박능수
- 한국정보처리학회:학술대회논문집
- /
- 한국정보처리학회 2021년도 춘계학술발표대회
- /
- pp.45-47
- /
- 2021
APU(Accelerated Processing Unit)는 CPU와 GPU가 통합되어있는 프로세서이며 같은 메모리 공간을 사용한다. CPU와 GPU가 분리되어있는 기존 이종 컴퓨팅 환경에서는 GPU가 작업을 처리하기 위해 CPU에서 GPU로 메모리 복사가 이루어졌지만, APU는 같은 메모리 공간을 사용하므로 메모리 복사 없이 가상주소 할당으로 같은 물리 주소에 접근할 수 있으며 이를 Zero Copy라 한다. Zero Copy 성능을 테스트하기 위해 희소행렬 연산을 사용하였으며 기존 메모리 복사대비 크기가 큰 데이터는 약 4.67배, 크기가 작은 데이터는 약 6.27배 빨랐다.
https://doi.org/10.3745/PKIPS.y2021m05a.45 인용 PDF

검색결과 443건 처리시간 0.032초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)