• 제목/요약/키워드: GPU 메모리

검색결과 127건 처리시간 0.031초

PDF 버전 1.4-1.6의 CUDA GPU 환경에서 암호 해독 최적 구현 (PDF Version 1.4-1.6 Password Cracking in CUDA GPU Environment)

  • 김현준;엄시우;서화정
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제12권2호
    • /
    • pp.69-76
    • /
    • 2023
  • 매년 수십만 개의 암호를 분실하거나 잊어버리면서 합법적인 소유자나 권한을 부여받은 법 집행 담당자가 필요한 정보를 사용할 수 없게 된다. 이러한 암호를 되찾기 위해 암호 해독(Password Cracking)이 사용된다. 암호 해독에 CPU 대신 GPU를 사용하면 복구 과정에서 필요한 많은 양의 계산을 신속하게 처리할 수 있다. 본 논문은 현재 가장 많이 사용되는 PDF 1.4 -1.6 버전의 암호 해독에 중점을 두고 CUDA를 사용하여 GPU에서 최적화한다. MD5 알고리즘의 불필요 연산 제거, RC4 알고리즘의 32비트 워드 통합 구현, 공유메모리 사용의 기법을 사용하였다. 또한 성능향상에 영향을 미치는 블록, 스레드 수 탐색을 위해 오토튠 기법을 사용하였다. 결과적으로 RTX 3060, RTX 3090 환경에서 블록 크기 65,536, 스레드 크기 96에서 31,460 kp/s(kilo passwords per second), 66,351 kp/s의 처리량을 보였으며, 기존 최고 처리량을 보여주는 해시캣의 처리량보다 각각 22.5%, 15.2%를 향상시켰다.

반도체 검증을 위한 MPI 기반 클러스터에서의 대용량 FDTD 시뮬레이션 연산환경 구축 (Implementation of Massive FDTD Simulation Computing Model Based on MPI Cluster for Semi-conductor Process)

  • 이승일;김연일;이상길;이철훈
    • 한국콘텐츠학회논문지
    • /
    • 제15권9호
    • /
    • pp.21-28
    • /
    • 2015
  • 반도체 공정에서는 소자 내부의 물리량 계산을 통해 불순물의 움직임을 해석하여 결점을 검출하는 시뮬레이션을 수행하게 된다. 이를 위해 유한 차분 시간 영역 알고리즘(Finite-Difference Time-Domain, 이하 FDTD)과 같은 수치해석 기법이 사용된다. 반도체 칩의 집적도 향상으로 인하여 소자의 크기는 나노스케일 시대로 접어들었으며, 시뮬레이션 사이즈 또한 커지고 있는 추세이다. 이에 따라 CPU와 GPU 같은 하나의 연산 장치에서 수행할 수 없는 문제와 다중의 연산 장치로 구성된 한 대의 컴퓨터에서 수행할 수 없는 문제가 발생하기도 한다. 이러한 문제로 인해 분산 병렬처리를 통한 FDTD 알고리즘 연구가 진행되고 있다. 하지만 기존의 연구들은 단일 연산장치만을 이용하기 때문에 GPU를 사용하는 경우 연산 속도는 빠르나 메모리의 제한이 있으며 CPU의 경우 GPU에 비해 연산 속도가 느린 단점이 존재한다. 이를 해결하기 위해 본 논문에서는 CPU, GPU의 이기종 연산 장치를 포함하는 컴퓨터로 구축된 클러스터 상에서 작업 사이즈에 제한되지 않고 시뮬레이션 수행이 가능한 컴퓨팅 모델을 구현하였다. 점대점 통신 기반의 MPI 라이브러리를 이용하여 연산 장치 간 통신을 통한 시뮬레이션을 테스트 하였고 사용하는 연산 장치의 종류와 수에 상관없이 시뮬레이션이 정상 동작함을 확인하였다.

텍스쳐 데이터를 위한 2차 캐쉬 구조를 가지는 그래픽 처리 장치의 성능 분석 (Analysis of GPGPU Performance by dedicating L2 Cache for Texture Data)

  • 김광복;김철홍
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2017년도 제55차 동계학술대회논문집 25권1호
    • /
    • pp.143-144
    • /
    • 2017
  • 최근 그래픽 처리 장치는 DRAM에 대한 접근을 줄이고자 여러 메모리 계층을 사용하고 있다. GPGPU의 L2 캐쉬는 요청 데이터의 타입에 따라 별도로 접근하는 L1 메모리와 다르게 레이턴시가 긴 DRAM에 접근하기 전에 모든 데이터 타입이 접근 가능한 캐쉬이다. 본 논문에서는 애플리케이션에서 명시하는 다양한 데이터 타입에 대하여 접근 및 적재를 허용하는 L2 캐쉬를 오직 텍스쳐 데이터만을 허용하도록 하여 변화하는 성능을 분석하고자 한다. 본 실험을 위해 텍스쳐 데이터 이외의 데이터 타입은 L2 캐쉬를 바이패스하여 바로 DRAM에 접근하도록 구조를 변경한다. 실험을 통한 분석 결과 텍스쳐 데이터만을 허용하는 경우 대부분의 벤치마크에서 성능 감소가 발생하여 기존 구조대비 평균 5.58% 감소율을 확인하였다. 반대로, 본 논문의 실험 환경에서의 L2 캐쉬의 적중률이 낮은 애플리케이션인 needle은 불필요한 L2 접근을 바이패스 함으로써 전체적인 성능 증가를 이끌어낸 것으로 분석된다.

  • PDF

Memory wall 을 극복하기 위한 PIM 가속 기술에 대한 조망 (A Survey on PIM Acceleration Technology to Overcome Memory Wall Problem)

  • 정헌희;백윤흥
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.66-68
    • /
    • 2022
  • 활용도가 높아지고 있는 최근의 딥러닝 애플리케이션 등을 사용하기 위해서 기존의 CPU 구조로는 한계가 있어 GPU, TPU 등의 하드웨어로 가속하려는 노력이 있어왔다. 하지만 물리적인 제약으로 인해 메모리 대역폭에 한계가 있으며, 이를 뛰어넘기 위해 메모리 안에서 직접 연산을 수행하는 Processing-in-Memory 기술이 떠오르고 있다. 본 논문은 PIM 기술을 사용할 때의 불이익을 감수하면서 장점을 최대한 활용하는 방법들에 관해서 서술하였다.

실내공간의 점진적 복원을 위한 하이브리드 모델 표현 (Hybrid Model Representation for Progressive Indoor Scene Reconstruction)

  • 정진웅;전준호;유대훈;이승용
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제21권5호
    • /
    • pp.37-44
    • /
    • 2015
  • 본 논문에서는 전통적으로 삼차원 모델 복원에 사용되는 볼륨 기반 자료 구조의 한계점을 극복하기 위해 평면 해시 구조를 볼륨 구조와 상호보완적으로 사용하는 하이브리드 모델 표현을 제안한다. 실내 환경에 대한 삼차원 모델 복원은 좁은 공간에 대한 정밀한 복원 결과를 얻기 위해 볼륨 기반의 자료 구조를 사용하였으나, 이러한 볼륨 기반의 자료 구조는 메모리의 사용량이 많아 대규모 공간에 대한 삼차원 복원으로 확장이 용이하지 못하였다. 본 논문에서는 이러한 기존 삼차원 모델 복원의 확장성을 증가시키기 위해 메모리를 효율적으로 사용하는 평면 해시 모델 구조를 제안한다. 또한 이러한 제안된 평면 해시 모델 구조를 넓고 단순한 평면 복원을 위해 사요하고, 좁고 디테일한 공간 복원에는 기존 볼륨 구조를 동시에 사용하는 하이브리드 복원 방법을 사용한다. 제안된 기법은 GPU 상에서 구현되어 공간을 실시간으로 복원 가능하다.

GPU 클러스터 기반 대용량 온톨로지 추론 (Scalable Ontology Reasoning Using GPU Cluster Approach)

  • 홍진영;전명중;박영택
    • 정보과학회 논문지
    • /
    • 제43권1호
    • /
    • pp.61-70
    • /
    • 2016
  • 근래에 들어 다양한 시멘틱 서비스를 위하여 기존의 지식을 바탕으로 새로운 지식을 고속으로 추론할 수 있는 대용량 온톨로지 추론 기법이 요구되고 있다. 이런 추세에 따라 대규모의 클러스터를 활용하는 하둡 및 Spark 프레임워크 기반의 온톨로지 추론 엔진 개발이 연구되고 있다. 또한, 기존의 CPU에 비해 많은 코어로 구성되어 있는 GPGPU를 활용하는 병렬 프로그래밍 방식도 온톨로지 추론에 활용되고 있다. 앞서 말한 두 가지 방식의 장점을 결합하여, 본 논문에서는 RDFS 대용량 온톨로지 데이터를 인-메모리 기반 프레임워크인 Spark를 통해 분산시키고 GPGPU를 이용하여 분산된 데이터를 고속 추론하는 방법을 제안한다. GPGPU를 통한 온톨로지 추론은 기존의 추론 방식보다 저비용으로 고속 추론을 수행하는 것이 가능하다. 또한 Spark 클러스터의 각 노드를 통하여 대용량 온톨로지 데이터에 대한 부하를 줄일 수 있다. 본 논문에서 제안하는 추론 엔진을 평가하기 위하여 LUBM10, 50, 100, 120에 대해 추론 속도를 실험하였고, 최대 데이터인 LUBM120(약 1백7십만 트리플, 2.1GB)의 실험 결과, 인-메모리(Spark) 추론 엔진 보다 7배 빠른 추론 성능을 보였다.

등위면 볼륨렌더링을 위한 이미지 공간 폐색 쉐이딩 모델 (Image Space Occlusion Shading Model for Iso-surface Volume Rendering)

  • 김석연;유상봉;장윤
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제20권4호
    • /
    • pp.1-7
    • /
    • 2014
  • 볼륨렌더링은 주로 의학 및 과학 분야에서 사용되는 기법이었으나, 하드웨어의 발달과 더불어 다양한 응용프로그램에서의 적용이 가능해짐에 따라 볼륨렌더링에 대한 관심이 증가하고 있다. 볼륨렌더링의 시각화에 있어서 쉐이딩은 물체의 깊이 정보를 효율적으로 전달하여 시각적 인지에 큰 도움이 된다. 전역조명을 사용하면 시각적 인지를 향상시킬 수 있지만, 많은 GPU 메모리의 사용과 긴 연산시간으로 인해 프로그램과의 상호작용에 영향을 미친다. 본 논문에서는 렌더링 속도의 저하를 최소화하며 볼륨렌더링에 사실적인 쉐이딩을 적용하기 위하여 이미지 공간 폐색 쉐이딩 모델을 제안하고자 한다.

반구형 스크린 상의 몰입형 AR 탁구 게임 (Immersive AR Ping-pong Game in Hemispherical Screen)

  • 이상경;경동욱;정기철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.907-909
    • /
    • 2005
  • 체감형 게임의 재미를 극대화 하기 위해서 몰입감있는 게임화면이 제공되어야 한다. 곡면, 반구형 스크린은 일반 평면 스크린을 사용할 때 보다 더 높은 몰입감을 줄 수 있지만 투사시 생기는 왜곡영상 보정에 많은 계산이 요구되는 문제가 있다. 정지된 영상(프리젠테이션 화면)이나 비디오 영상은 메모리 버퍼링을 통해 시스템이 요구하는 속도를 보장할 수 있으나, 사용자와 상호작용이 요구되는 게임에서는 사용자의 반응을 처리한 후 매 프레임 마다 빠른 워핑(warping) 처리를 요구하게 되는데, 렌더링될 화면을 미리 보정할 수가 없기 때문에 시스템 처리속도 저하의 원인이 된다. 본 논문에서는 체감형 게임을 곡면에 투사하는 방법과 GPU를 이용한 빠른 영상 보정을 제안함으로써 게임에서 요구하는 처리 속도를 보장하고 고해상도의 게임화면을 사용할 수 있도록 했다. 웹카메라를 이용하여 스크린과 프로젝터될 영상간의 호모그래피(homographpy)를 정의해서 워핑했고 워핑 연산을 HLSL로 작성하여 GPU를 이용했다. 실험결과로 반구형 스크린에서 몰입감 있는 AR 탁구게임을 보인다.

  • PDF

블리킹을 이용한 대용량 초음파 볼륨 데이터 렌더링 (Large-Scale Ultrasound Volume Rendering using Bricking)

  • 김주환;권구주;신병석
    • 한국컴퓨터정보학회논문지
    • /
    • 제13권7호
    • /
    • pp.117-126
    • /
    • 2008
  • 최근 높은 해상도의 볼륨 데이터를 획득할 수 있게 되면서 제한된 용량의 메모리를 가진 그래픽 하드웨어에서 대용량 볼륨 데이터를 렌더링 하는 방법이 필요하게 되었다. 대용량 볼륨 데이터의 렌더링 방법 중 데이터를 적절히 분할하여 순차적으로 처리하는 블리킹 (bricking) 방법이 많이 사용된다. 그러나 일반적인 블리킹 방법은 직교 좌표계를 사용하는 CT와 MR 데이터를 위해 고안된 것으로, 원환체 (torus) 좌표계를 사용하는 부채꼴 형태의 초음파 볼륨 데이터에 적용하면, 관측광선이 블릭 (brick)의 곡면경계로 진입한 후 다시 빠져 나갈 때 동일한 블릭이 GPU메모리에 두번 적재되는 경우가 발생한다. 본 논문에서는 초음파 볼륨을 랜더링 할 때 반복적인 텍스쳐 스위칭이 발생하지 않도록 블릭의 크기를 결정하는 방법을 제안한다. 블릭의 경계는 곡면으로 되어 있으므로 이들의 곡률을 계산하여, 관측광선이 동일한 블록을 두 번 참조하는 영역을 찾는다. 이 영역에 해당하는 복셀들을 인접한 두 블릭들이 공유하도록 크기를 정하면 둘 중의 한 블릭에서만 재샘플링하게 함으로써 블릭이 중복 적재되는 것을 피할 수 있다.

  • PDF

ELBP 분류기를 이용한 초해상도 기법의 CUDA 최적화 (CUDA Optimization of Super-Resolution Algorithm using ELBP Classifier)

  • 최지훈;송병철
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2016년도 하계학술대회
    • /
    • pp.92-94
    • /
    • 2016
  • 저해상도 영상을 고해상도 영상으로 복원하기 위한 다양한 방법의 초해상도 기법이 존재한다. 다양한 기법들 중에서도 ELBP 분류기를 이용한 초해상도 기법[1]은 단일 영상 기반의 초해상도 기법으로 사전에 학습된 필터를 이용하여 고해상도 영상을 획득하는 기법이다. 그러나 해당 알고리즘을 일반적인 CPU 환경에서 수행할 경우 실시간으로 영상을 획득하는데 어려움이 존재한다. 본 논문에서는 지역메모리를 이용한 GPU 환경에서의 최적화를 수행하여 ELBP 분류기를 이용한 초해상도 기법의 가속성을 보인다. 먼저, 알고리즘에 대하여 간단히 설명하고 CUDA 가속화 기법[2]을 차례로 적용했을 때 얻을 수 있는 가속 성능을 확인한다. 최종적으로 본 논문은 CPU 환경과 비교했을 때 5 배의 가속 효과를 얻을 수 있다.

  • PDF