• 제목/요약/키워드: 그래픽 프로세서

검색결과 133건 처리시간 0.027초

CUDA 프레임워크 상에서 스카이라인 질의처리 알고리즘 최적화 (Optimizing Skyline Query Processing Algorithms on CUDA Framework)

  • 민준;한환수;이상원
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제37권5호
    • /
    • pp.275-284
    • /
    • 2010
  • GPU는 대용량 데이터 처리를 위해 특화된 멀티 코어 기반의 스트림 프로세서로서 빠른 데이터 처리 속도 및 높은 메모리 대역 동의 장점을 가지며, CPU에 비해 가격이 저렴하다. 최근 이러한 GPU의 특성용 활용하여 범용 컴퓨팅 분야에 활용하고자 하는 시도가 계속되고 있다. 엔비디아에서 발표한 범용 병렬 컴퓨팅 아키텍처인 쿠다(CUDA) 프로그래밍 모델의 경우 프로그래머가 GPU 상에서 동작하는 범용 어플리케이션을 보다 손쉽게 개발할 수 있도록 지원한다. 본 논문에서는 쿠다 프로그래밍 모델을 이용하여 기본적인 중첩-반복 스카이라인 알고리즘을 병렬화시킨다. 그리고 스카이라인 알고리즘의 특성을 고려하여 GPU 자원용 효율적으로 사용할 수 있도록 GPU의 메모리 및 명령어 처리율에 중점을 두고 단계적인 최적화를 진행한다. 최적화 단계에 따라 각각 다른 성능 개선이 나타나는 것을 확인하였으며, 그 결과 기본 병렬 중첩-반복 알고리즘에 비해 평균 80%의 성능이 향상됨을 확인하였다.

내장형 GPU 환경에서 CPU-GPU 간의 공유 캐시에서의 캐시 분할 방식의 필요성 (The Need of Cache Partitioning on Shared Cache of Integrated Graphics Processor between CPU and GPU)

  • 성한울;엄현상;염헌영
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제20권9호
    • /
    • pp.507-512
    • /
    • 2014
  • 최근 전력의 한계 때문에 많은 트랜지스터를 모두 이용할 수 없는 '다크실리콘' 문제가 발생했다. 이 문제를 효율적으로 해결하기 위하여 CPU(Central processing unit)와 GPU(Graphic processing unit)를 함께 사용하여 분산처리하기 시작했다. 최근에는 CPU(Central processing unit)와 GPU(Graphic processing unit)가 메모리와 Last Level Cache를 공유하는 내장형 GPU 프로세서(Integrated graphic processing unit processor)가 등장했다. 하지만 CPU 프로세스와 GPU 프로세스가 LLC(Last level cache)로 접근하기 위한 어떠한 규칙이 없기 때문에, 동시에 CPU 프로세스와 GPU 프로세스 수행될 때 LLC(Last level cache)를 차지하기 위한 경쟁이 일어나 성능 저하가 발생한다. 본 논문에서는 캐시 접근 빈도가 큰 여러 개의 프로세스들이 수행됨에 따라 캐시 오염이 발생한 상황에서 GPU 프로세스의 성능 보장을 위하여 GPU 프로세스만을 위한 고정된 Last Level Cache 공간을 주는 캐시 분할방식이 필요함을 증명하고 캐시를 분할하기 위한 페이지 컬러링 기법을 소개하고 디자인한다.

RTOS 기반의 소프트웨어 2D BitBLT 엔진의 설계 (A design of Software 2D BitBLT Engine based on RTOS)

  • 김봉주;홍지만
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권4호
    • /
    • pp.35-41
    • /
    • 2014
  • 본 논문은 소프트웨어 기반의 2D BitBLT 엔진을 pSOS 운영체제에서 구현하는 것을 제안하였으며, 제안된 BitBLT엔진을 환자감시장치에서 동작을 검증하였다. 본 논문에서 제안한 방법의 검증을 위해, 환자감시장치 보드를 기반으로 하는 별도의 프로토 타입 PCB 보드를 제작하고, 동작을 검증하였다. 메인 보드는 ARM9 기반의 CPU로 설계하였으며, 하드웨어 기반의 BitBLT 모듈을 소프트웨어 기반의 모듈로 동작하면서 가중되는 CPU의 부하문제의 해결을 위해 200Mhz 프로세서 대신 400Mhz 프로세서로 변경하였다. 본 논문에서는 환자감시장치에서 GUI를 구현하는데 있어 그래픽 콘트롤러의 핵심요소 중의 하나인 2D BitBLT 모듈을 커널의 디바이스 드라이버로 구현하였다.

내장형 프로세서를 위한 IEEE-754 고성능 부동소수점 나눗셈기의 설계 (IEEE-754 Floating-Point Divider for Embedded Processors)

  • 정재원;홍인표;정우경;이용석
    • 대한전자공학회논문지SD
    • /
    • 제39권7호
    • /
    • pp.66-73
    • /
    • 2002
  • 최근 컴퓨터 그래픽이나 고급 DSP 등 부동소수점 연산의 활용 분야가 늘어나면서 나눗셈 연산의 필요성이 증대되었으나, 기존의 나눗셈 연산기는 큰 하드웨어 면적을 차지할 뿐만 아니라 전체 부동소수점 연산의 병목현상을 초래하는 중요한 요인이 되고 있다. 본 논문에서는 급수 전개 알고리즘을 이용한 내장형 프로세서에 적합하도록 소면적의 부동소수점 나눗셈기를 설계하였다. 나눗셈기는 SIMD-DSP 유닛의 두 개의 곱셈누적기를 공유하여 연산함으로써, 부동소수점 단정도 형식의 나눗셈 연산을 고속으로 수행함과 동시에 나눗셈 연산을 위한 추가 면적을 최소화하였다. 본 논문에서는 급수 전개 알고리즘 나눗셈 연산기를 설계함에 있어 고려되어야할 오차의 분석을 통해 정확한 라운딩을 위한 몫을 얻어낼 수 있는 구조를 선택하였으며, IEEE-754 표준에서 정의하고 있는 모든 라운딩 모드를 지원하도록 하였다.

2차원 구조 대비 3차원 구조 GPU의 메모리 접근 효율성 분석 (Memory Delay Comparison between 2D GPU and 3D GPU)

  • 전형규;안진우;김종면;김철홍
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권7호
    • /
    • pp.1-11
    • /
    • 2012
  • 최근 반도체 공정 기술이 발달함에 따라 단일 프로세서에 적재되는 코어의 수가 크게 증가하였고, 이는 프로세서의 성능을 급격하게 향상시키는 계기가 되고 있다. 특히, 많은 수의 코어들로 구성된 GPU(Graphics Processing Unit)는 대규모 병렬성을 활용하여 연산처리 성능을 크게 향상시키고 있다. 하지만, 주 메모리 접근 지연시간이 GPU의 성능 향상을 제약하는 심각한 요인 중 하나로 제기되는 상황이다. 본 논문에서는 3차원 구조를 통한 GPU의 메모리 접근 효율성 향상에 대한 정량적 분석과 3차원 구조 적용 시 발생 가능한 문제점에 대하여 살펴보고자 한다. 일반적으로 메모리 명령어 비율은 평균적으로 전체 명령어의 30%를 차지하고, 메모리 명령어 중에서 주 메모리 접근과 관련된 글로벌/로컬 메모리 명령어가 차지하는 비율 또한 평균 60%이므로 주 메모리로의 접근 지연시간을 크게 감소시키는 3차원 구조를 적용한다면 GPU의 성능 또한 크게 향상시킬 수 있을 것으로 예상된다. 그러나 본 논문에서 수행한 실험 결과에 따르면 메모리 병목현상으로 인해 3차원 구조 GPU의 성능이 2차원 구조 GPU에 비해 크게 향상되지는 않음을 확인할 수 있다. 분석 결과에 의하면, 3차원 구조 GPU는 2차원 구조 GPU와 비교하여 메모리 병목현상으로 인한 성능 지연이 최대 245%까지 증가하기 때문이다. 본 논문에서는 3차원 구조 GPU를 대상으로 메모리 접근의 효율성과 문제점을 함께 분석함으로써, 3차원 GPU에 적합한 메모리 구조를 설계하기 위한 가이드라인을 제시하고자 한다.

홈 헬스케어용 심전도 및 맥파 측정시스템 구현 (Implementation of the ECG and Plethysmograph Monitoring System for Home Healthcare)

  • 황준흠;김세진;정도운
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2008년도 춘계종합학술대회 A
    • /
    • pp.662-665
    • /
    • 2008
  • 본 연구에서는 기존 병원중심의 생체신호모니터링을 가정 내에서 보다 편리하게 수행하여 일상생활중 지속적인 건강상태를 모니터링하고 계측된 생체신호를 웹을 통해 병원이나 전문가가 실시간으로 모니터링 할 수 있는 생체신호 모니터링 시스템을 구현하였다. 구현한 시스템은 범용적인 건강모니터링에 활용할 수 있는 생체신호인 심전도, 맥파를 측정대상으로 하였다. 심전도와 맥파의 계측을 위하여 신호 측정부를 구성하였고, 신호측정부로부터 검출된 신호를 PC기반의 신호모니터링 프로그램으로 전송하기 위하여 마이크로프로세서를 이용한 신호변환 및 시스템 제어부를 구성하였다. 계측된 데이터는 시스템 자체에서 그래픽 LCD를 이용하여 디스플레이가 가능하도록 구성하였으며, 블루투스 통신을 통해 PC와의 무선통신이 가능하도록 시스템을 구성하였다. 또한 PC기반의 실시간 모니터링 프로그램을 구현하여 데이터의 디스플레이 및 저장이 가능하도록 하였으며, 더 나아가 원격지에서의 신호모니터링이 가능하도록 시스템을 구현하였다.

  • PDF

모바일 3D 그래픽 프로세서의 지오메트리 연산을 위한 부동 소수점 연산기 구현 (A design of Floating Point Arithmetic Unit for Geometry Operation of Mobile 3D Graphic Processor)

  • 이지명;이찬호
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2005년도 추계종합학술대회
    • /
    • pp.711-714
    • /
    • 2005
  • We propose floating point arithmetic units for geometry operation of mobile 3D graphic processor. The proposed arithmetic units conform to the single precision format of IEEE standard 754-1985 that is a standard of floating point arithmetic. The rounding algorithm applies the nearest toward zero form. The proposed adder/subtraction unit and multiplier have one clock cycle latency, and the inversion unit has three clock cycle latency. We estimate the required numbers of arithmetic operation for Viewing transformation. The first stage of geometry operation is composed with translation, rotation and scaling operation. The translation operation requires three addition and the rotation operation needs three addition and six multiplication. The scaling operation requires three multiplication. The viewing transformation is performed in 15 clock cycles. If the adder and the multiplier have their own in/out ports, the viewing transformation can be done in 9 clock cycles. The error margin of proposed arithmetic units is smaller than $10^{-5}$ that is the request in the OpenGL standard. The proposed arithmetic units carry out operations in 100MHz clock frequency.

  • PDF

GPGPU의 멀티 쓰레드를 활용한 고성능 병렬 LU 분해 프로그램의 구현 (Implementation of high performance parallel LU factorization program for multi-threads on GPGPUs)

  • 신봉희;김영태
    • 인터넷정보학회논문지
    • /
    • 제12권3호
    • /
    • pp.131-137
    • /
    • 2011
  • GPGPU는 원래 그래픽 계산을 위한 프로세서인 GPU를 일반 계산에 활용하여 저전력으로 고성능의 효율을 보이는 신개념의 계산 장치이다. 본 논문에서는 GPGPU에서 계산을 하기 위한 병렬 LU 분해법의 알고리즘을 제안하였다. Nvidia GPGPU에서 프로그램을 실행하기 위한 CUDA 계산 환경에서는 계산하고자 하는 데이터 도메인을 블록으로 나누고 각 블록을 쓰레드들이 동시에 계산을 하는데, 이 때 블록들의 계산 순서는 무작위로 진행이 되기 때문에 블록간의 데이터 의존성을 가지는 LU 분해 프로그램에서는 결과가 정확하지 않게 된다. 본 논문에서는 병렬 LU 분해법에서 블록간의 계산 순서를 인위적으로 정하는 구현 방식을 제안하며 아울러 LU 분해법의 부분 피벗팅을 계산하기 위한 병렬 reduction 알고리즘도 제안한다. 또한 구현된 병렬프로그램의 성능 분석을 통하여 GPGPU의 멀티 쓰레드 기반으로 고성능으로 계산할 수 있는 병렬프로그램의 효율성을 보인다.

IPTV를 위한 방송통신 융합형 감성 콘텐츠의 운용 및 서비스 기술 (A Service Framework for Emotional Contents on Broadcast and Communication Converged IPTV Systems)

  • 성민영;백선욱;안성혜
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2009년도 춘계 종합학술대회 논문집
    • /
    • pp.737-742
    • /
    • 2009
  • RIA 기술은 사용자의 경험을 강조하는 최근 트렌드에 힘입어 PC를 넘어, 핸드폰, TV 등 다양한 장치의 주요 사용자 인터페이스 및 소프트웨어 운용 플랫폼으로 자리 잡아가고 있다. 특히, RIA 기반 IPTV는 광고, 에듀테인먼트 등의 서비스에서 화려한 애니메이션 및 다양한 입력 장치에 기반한 첨단 상응식 콘텐츠의 개발을 가능하게 한다. 본 논문에서는 방송통신 융합형 감성 콘텐츠의 운용 및 서비스를 위한 프레임워크를 제안한다. IPTV용 플래시 콘텐츠 개발을 위한 확장프로그래밍 인터페이스를 제안하고 이를 지원하는 IPTV 미들웨어 및 플래시 런타임을 개발한다. 특히, 제안된 플래시 런타임은 하드웨어 그래픽 가속을 최대한 활용함으로써 저성능의 미디어 프로세서에서도 고감도 애니메이션을 지원하도록 설계되었다.

  • PDF

내장형 ARM 보드를 이용한 전광판 시스템 설계에 관한 연구 (A Study on Design of the Electric Sign Board System using Embedded ARM Board)

  • 최재우
    • 한국산학기술학회논문지
    • /
    • 제5권3호
    • /
    • pp.241-246
    • /
    • 2004
  • 본 논문은 ARM7TDMI 칩을 사용하여 모듈단위의 확장이 가능하도록 전광판 시스템을 설계하고 자체적인 한글 입출력 처리가 가능하도록 하였다. 전광판 시스템에 사용자가 원하는 표출문구의 입력, 편집을 쉽고 편리하게 할 수 있는 여러 가지 형태의 입력방법에 대해 연구하였다. PC와 PDA에 의한 유/무선 문구입력이 가능하게 하였고 한글오토마타를 구현하여 리모트 컨트롤러에 의한 표출문구 입력도 가능하게 하였다. 또한 LINUX OS가 포팅 된 PXA255프로세서 기반의 내장형 보드에서 그래픽 라이브러리 툴인 QT/Embedded 2.3.7을 터치패널사용이 가능하도록 포팅하여 원격지의 전광판에 문구를 이더넷 통신방법에 의해 쉽게 바꿀 수 있게 하였다. 본 연구에서 설계한 시스템은 한글에 대한 코드 값만 저장하는 방식이므로 기존 전광판 시스템보다 많은 양의 사용자 정의 문구를 시스템에 저장하여 사용할 수 있다는 장점을 가지고 있다.

  • PDF