• 제목/요약/키워드: GPU 최적화

검색결과 106건 처리시간 0.023초

Optimizing CNN Structure to Improve Accuracy of Artwork Artist Classification

  • Ji-Seon Park;So-Yeon Kim;Yeo-Chan Yoon;Soo Kyun Kim
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권9호
    • /
    • pp.9-15
    • /
    • 2023
  • 컴퓨터 비전 분류 연구에서 합성곱 신경망 (Convolutional Neural Network)은 탁월한 이미지 분류성능을 보여준다. 이에 영감을 받아 예술 관련 이미지 분류 작업에 대한 적용 가능성을 분석해 본다. 본 논문에서는 예술 작품 아티스트 분류의 정확도를 향상시키기 위해 최적화된 합성곱 신경망 구조를 제안한다. 미세 조정 범위 시나리오와 완전연결층 조정 시나리오를 세운 뒤 그에 따른 예술 작품 아티스트 분류의 정확도를 측정했다. 즉, 학습 컨볼루션 레이어(Convolution layer) 수와 완전연결층 수 등 ResNet50 모델의 구조를 변경하며 예술 작품 아티스트 분류의 정확도가 향상되도록 최적화했다. 본 논문에서 제안하는 합성곱 신경망 구조는 기존 예술 작품 아티스트 분류에서 쓰이던 AlexNet 모델을 1-GPU 버전으로 수정한 CaffeNet 모델보다 더 높은 정확도를 실험결과에서 증명한다.

무안경식 3D 디스플레이를 위한 자동 스테레오 정합 (Automatic Stereo Matching for Auto-stereoscopic 3D display)

  • 최호열;박지호;김용환
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2012년도 하계학술대회
    • /
    • pp.140-141
    • /
    • 2012
  • 최근 영상분야의 키워드는 초고품질화, 초실감화, 스마트화로 대표될 수 있다. 그 중에서도 무안경식 3D는 초실감화를 이루기 위한 핵심응용분야 중 하나이다. 하지만 무안경식 3D 단말기가 성공적으로 보급되기 위해서는 연구되어야 할 분야가 여전히 존재한다. 그 중에서도 본 논문에서는 고화질의 무안경식 3D 스마트 콘텐츠 제작에 필요한 자동 스테레오 정합 기법을 제안하였다. 이전까지 연구된 변이지도 추출을 위한 알고리즘은 전역적 최적화 방법을 사용할 시 영상의 해상도와 깊이 정도에 따른 연산량의 증가로 많은 수행시간이 요구되었다. 또한 좌/우 영상의 intensity 정보만으로는 정확한 변이지도 추출이 어렵다는 한계점이 존재하였다. 이러한 이유로 본 논문에서는 스트림 영상에서 프레임 간의 정보를 이용하여 신뢰지도와 경계정보를 생성하였으며 belief propagation 스테레오 정합 방법을 이용하여 고화질의 정확한 변이지도를 추출하였다. 또한, 알고리즘의 연산량에 대한 문제를 해결하기 위한 고속화 방안으로, 최근 많은 연구가 이루어지고 있는 GPU(graphics processing units) 를 이용한 병렬처리를 연구하였다. 마지막으로 연구결과의 신뢰성을 향상하기 위하여 다양한 데이터를 이용한 실험을 통해 고화질의 영상정보를 고속으로 추출할 수 있음을 확인하였다.

  • PDF

FPGA 상에서 OpenCL을 이용한 병렬 문자열 매칭 구현과 최적화 방향 (Parallel String Matching and Optimization Using OpenCL on FPGA)

  • 윤진명;최강일;김현진
    • 전기학회논문지
    • /
    • 제66권1호
    • /
    • pp.100-106
    • /
    • 2017
  • In this paper, we propose a parallel optimization method of Aho-Corasick (AC) algorithm and Parallel Failureless Aho-Corasick (PFAC) algorithm using Open Computing Language (OpenCL) on Field Programmable Gate Array (FPGA). The low throughput of string matching engine causes the performance degradation of network process. Recently, many researchers have studied the string matching engine using parallel computing. FPGA's vendors offer a parallel computing platform using OpenCL. In this paper, we apply the AC and PFAC algorithm on DE1-SoC board with Cyclone V FPGA, where the optimization that considers FPGA architecture is performed. Experiments are performed considering global id, local id, local memory, and loop unrolling optimizations using PFAC algorithm. The performance improvement using loop unrolling is 129 times greater than AC algorithm that not adopt loop unrolling. The performance improvements using loop unrolling are 1.1, 0.2, and 1.5 times greater than those using global id, local id, and local memory optimizations mentioned above.

스마트 시설환경 실시간 시뮬레이션을 위한 하드웨어 가속 기술 분석 (A Benchmark of Hardware Acceleration Technology for Real-time Simulation in Smart Farm (CUDA vs OpenCL))

  • 민재기;이동훈
    • 한국농업기계학회:학술대회논문집
    • /
    • 한국농업기계학회 2017년도 춘계공동학술대회
    • /
    • pp.160-160
    • /
    • 2017
  • 자동화 기술을 통한 한국형 스마트팜의 발전이 비약적으로 이루어지고 있는 가운데 무인화를 위한 지능적인 스마트 시설환경 관찰 및 분석에 대한 요구가 점점 증가 하고 있다. 스마트 시설환경에서 취득 가능한 시계열 데이터는 온도, 습도, 조도, CO2, 토양 수분, 환기량 등 다양하다. 시스템의 경계가 명확함에도 해당 속성의 특성상 타임도메인과 공간도메인 상에서 정확한 추정 또는 예측이 난해하다. 시설 환경에 접목이 증가하고 있는 지능형 관리 기술 구현을 위해선 시계열 공간 데이터에 대한 신속하고 정확한 정량화 기술이 필수적이라 할 수 있다. 이러한 기술적인 요구사항을 해결하고자 시도되는 다양한 방법 중에서 공간 분해능 향상을 위한 다지점 계측 메트릭스를 실험적으로 구성하였다. $50m{\times}100m$의 단면적인 연동 딸기 온실을 대상으로 $3{\times}3{\times}3$의 3차원 환경 인자 계측 매트릭스를 설치하였다. 1 Hz의 주기로 4가지 환경인자(온도, 습도, 조도, CO2)를 계측하였으며, 계측 하는 시점과 동시에 병렬적으로 공간통계법을 이용하여 미지의 지점에 대한 환경 인자들을 실시간으로 추정하였다. 선행적으로 50 cm 공간 분해능에 대응하기 위하여 Kriging interpolation법을 횡단면에 대하여 분석한 후 다시 종단면에 대하여 분석하였다. 3 Ghz에 해당하는 연산 능력을 보유한 컴퓨터에서 1초 동안 획득한 데이터에 대한 분석을 마치는데 소요되는 시간이 15초 내외로 나타났다. 이는 해당 알고리즘의 매우 높은 시간 복잡도(Order of $O=O^3$)에 기인하는 것으로 다양한 시설 환경의 관리 방법론에 적절히 대응하기에 한계가 있다 할 수 있다. 실시간으로 시간 복잡도가 높은 연산을 수행하기 위한 기술적인 과제를 해결하고자, 근래에 관심이 증가하고 있는 NVIDIA 사에서 제공하는 CUDA 엔진과 Apple사의 제안을 시작으로 하여 공개 소프트웨어 개발 컨소시엄인 크로노스 그룹에서 제공하는 OpenCL 엔진을 비교 분석하였다. CUDA 엔진은 GPU(Graphics Processing Unit)에서 정보 분석 프로그램의 연산 집약적인 부분만을 담당하여 신속한 결과를 산출할 수 있는 라이브러리이며 해당 하드웨어를 구비하였을 때 사용이 가능하다. 반면, OpenCL은 CUDA 엔진이 특정 하드웨어에서 구동이 되는 한계를 극복하고자 하드웨어에 비의존적인 라이브러리를 제공하는 것이 다르며 클러스터링 기술과 연계를 통해 낮은 하드웨어 성능으로 인한 단점을 극복하고자 하였다. 본 연구에서는 CUDA 8.0(https://developer.nvidia.com/cuda-downloads)버전과 Pascal Titan X(NVIDIA, CA, USA)를 사용한 방법과 OpenCL 1.2(https://www.khronos.org/opencl/)버전과 Samsung Exynos5422 칩을 장착한 ODROID-XU4(Hardkernel, AnYang, Korea)를 사용한 방법을 비교 분석하였다. 50 cm의 공간 분해능에 대응하기 위한 4차원 행렬($100{\times}200{\times}5{\times}4$)에 대하여 정수 지수화를 위한 Quantization을 거쳐 CUDA 엔진과 OpenCL 엔진을 적용한 비교한 결과, CUDA 엔진은 1초 내외, OpenCL 엔진의 경우 5초 내외의 연산 속도를 보였다. CUDA 엔진의 경우 비용측면에서 약 10배, 전력 소모 측면에서 20배 이상 소요되었다. 따라서 우선적으로 OpenCL 엔진 기반 하드웨어 가속 기술 최적화 연구를 통해 스마트 시설환경 실시간 시뮬레이션 기술 도입을 위한 기술적 과제를 풀어갈 것이다.

  • PDF

올레핀 배가스의 분리를 위한 중공사형 복합막의 개발 (Development of Composite Hollow Fiber Membranes for Olefin Off-gas Recovery)

  • 김정훈;최승학;이수복
    • 멤브레인
    • /
    • 제15권2호
    • /
    • pp.157-164
    • /
    • 2005
  • 본 연구에서는 폴리올레핀산업에서 배출되는 배가스 내에 존재하는 미반응 올레핀 단량체를 분리${\cdot}$회수를 위한 막분리 공정 개발에 관한 연구로 중공사형 복합막의 개발에 관한 연구 결과이다. 중공사형 복합막의 제조를 위해 먼저 고분자 용액의 조성과 내부응고제의 조성을 변화시켜 다양한 구조와 투과도를 갖는 중공사 지지체를 제조하였으며, 그 위에 올레핀 단량체를 선택적으로 투과${\cdot}$분리시킬 수 있는 고무상 고분자(폴리디메틸실록산) 선택층을 코팅 용액의 농도를 조절하여 두께를 조절해 가며 중공사형 복합막을 제조하였다. 제조되어진 중공사 지지체와 복합막의 구조 및 코팅 두께는 전자주사현미경(SEM)을 통하여 확인하였으며, 올레핀(에틸렌, 프로필렌, 부텐) 및 질소 등의 기체에 대한 단일가스 투과도를 측정하여 그 분리성능을 평가하였다. 최적화된 중공사 복합막의 코팅 두께는 약 $10\;{\mu}m$이였으며, 올레핀의 투과도는 에틸렌의 경우 75 GPU, 프로필렌과 부텐의 경우 각각 200과 1,120 GPU로 조사되었다. 그리고 질소대비 올레핀의 이상 선택도는 에틸렌/질소가 6.4, 프로필렌/질소, 부텐/질소가 각각 17과 97로 선택층으로 사용한 폴리디메틸실록산의 고유한 선택도와 유사한 값을 보였다. 이러한 결과로 보아 올레핀 배가스의 분리회수를 위한 새로운 중공사형 복합막이 성공적으로 제작되었음을 알 수 있었다.

전자산업 배출 불화가스 회수를 위한 탄소분자체 분리막의 기체분리 연구 (Study on the Gas Separation of Carbon Molecular Sieve (CMS) Membrane for Recovering the Perfluorocompound Gases from the Electronics Industry)

  • 정수정;임주환;한상훈;고형철;하성용
    • 멤브레인
    • /
    • 제26권3호
    • /
    • pp.220-228
    • /
    • 2016
  • 비용매 유도 상분리(NIPS) 법으로 제조된 폴리이미드 전구체를 이용하여 탄소분자체 중공사 분리막을 제조하였으며, 온도변화에 따른 열처리 조건이 탄소분자체 중공사막의 기체 분리 특성에 미치는 영향을 고찰하였다. 열처리 온도 $250{\sim}450^{\circ}C$에서 승온 속도, 안정화 시간을 조정하여 최적화 하였을 때, 중공사 분리막의 단일기체 $N_2$, $SF_6$, $CF_4$ 투과도는 각각 20, 0.32, 0.48 GPU이었고, $N_2/SF_6$ 선택도는 62, $N_2/CF_4$ 선택도는 42로 가장 높은 값을 나타내었다. $SF_6/CF_4/N_2$ 혼합기체 평가에서는 0.5 MPa에서 stage cut이 0.2일 때, $SF_6$, $CF_4$ 회수율이 각각 99, 98% 이상으로 높게 나타났고, 농축농도는 stage cut 0.8에서 주입농도의 4.5배 이상이었다. 이로부터 제조된 탄소분자체 중공사 분리막은 불화가스 회수용 분리막으로써 우수한 소재임을 확인할 수 있었다.

시네마픽 : 생성형 AI기반 영화 컨셉 포토부스 시스템 (CINEMAPIC : Generative AI-based movie concept photo booth system)

  • 정석현;임승규;이정진
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제30권3호
    • /
    • pp.149-158
    • /
    • 2024
  • 오프라인에서 사진을 촬영하는 포토부스는 자신이 원하는 포즈와 소품 등을 통해 자연스럽게 나다운 모습을 촬영할 수 있으며, 함께한 사람들과 추억을 공유하는 특별한 경험을 선사한다. 최근 다양한 표현을 가능하게 하고자 생성형 AI를 활용한 포토부스 사례들이 등장했다. 그러나 기존 AI 포토부스는 단체 사진 촬영이 불가능하고, 대부분 사용자의 포즈를 반영하지 못하며, 개별 인물마다 다른 컨셉을 적용하기 어려운 한계가 존재한다. 본 연구는 이러한 문제를 해결하여 사용자가 자유롭게 포즈와 위치, 컨셉을 선택하여 촬영할 수 있는 AI 포토부스 시네마픽을 제안한다. 인물별 개별 컨셉 적용을 위해 개별 생성 워크플로우를 전처리, 생성, 후처리 세 단계로 설계하고, 이를 실제 프로토타입으로 구현했다. 이 과정에서 인물별 투명 이미지 생성, 배경 생성 후 합성시 발생하는 아티팩트를 줄이는 재생성 테크닉, 최적화 모델 적용 및 GPU 병렬화 등 다양한 방식을 워크플로우에 통합하여 한계점을 극복하였다. 사용자 품질 평가와 약 400명의 사용자를 대상으로 대규모 시범 운영을 통해 시스템의 효과성을 검증했다. 그 결과, 사용자들은 기존 방식에 비해 높은 선호도를 보였으며, 이를 통해 실제 포토부스로의 도입 가능성을 확인했다. 본 연구에서 제안하는 AI 포토부스 시네마픽은 더욱 창의적이고 차별화된 시장을 개척할 수 있을 것으로 기대하며, 앞으로 다양한 응용 분야에서 널리 활용될 것으로 기대된다.

처리 속도 향상을 위해 OpenCV CUDA를 활용한 도로 영역 검출 (A Road Region Extraction Using OpenCV CUDA To Advance The Processing Speed)

  • 이태희;황보현;윤종호;최명렬
    • 디지털융복합연구
    • /
    • 제12권6호
    • /
    • pp.231-236
    • /
    • 2014
  • 본 논문은 호스트(PC) 기반의 직렬처리 방식으로 도로영역 추출 방식에 디바이스(Graphic Card) 기반의 병렬 처리 방식을 추가함으로써 보다 향상된 처리 속도를 가지는 도로영역검출을 제안하였다. OpenCV CUDA는 기존의 OpenCV와 CUDA를 연동하여 병렬 처리 방식의 많은 함수들을 지원한다. 또한 OpenCV와 CUDA 연동 시 환경 설정이 완료된 OpenCV CUDA 함수들은 사용자의 디바이스(Graphic Card) 사양에 최적화된다. 따라서 OpenCV CUDA 사용은 알고리즘 검증 및 시뮬레이션 결과 도출의 용이성을 제공한다. 제안된 방법은 OpenCV CUDA 와 NVIDIA GeForce GTX 560 Ti 모델의 그래픽 카드를 사용하여 기존 방식보다 3.09배 빠른 처리 속도를 가짐을 실험을 통해 검증한다.

단일 명령 다중 스레드 병렬 플랫폼을 위한 무작위 부분적 Haar 웨이블릿 변환 (Random Partial Haar Wavelet Transformation for Single Instruction Multiple Threads)

  • 박태정
    • 디지털콘텐츠학회 논문지
    • /
    • 제16권5호
    • /
    • pp.805-813
    • /
    • 2015
  • Compressive sensing 및 희소 복원 문제(sparse recovery problem)는 기존 디지털 기술의 한계를 극복할 수 있는 새로운 이론으로 많은 관심을 받고 있다. 그러나 신호 재구성에서 l1 norm 최적화 문제 해결에 많은 연산이 수행되며 따라서 병렬 처리 기법이 필요하다. 이 과정에서 무작위 행렬과 벡터 연산을 통한 변환 연산이 전체 과정 중에서 많은 부분을 차지하는데, 특히 원본 신호의 크기로 인해 이 과정에서 필요한 무작위 행렬을 메모리에 저장하기 곤란하며 계산 시 무작위 행렬의 절차적(procedural) 처리 방식이 필수적이다. 본 논문에서는 이 문제에 대한 해결책으로 단일 명령 다중 스레드(SIMT) 병렬 플랫폼 상에서 무작위 부분적 Haar 웨이블릿 변환을 절차적으로 계산할 수 있는 새로운 병렬 알고리듬을 제안한다.

딥러닝과 Char2Vec을 이용한 문장 유사도 판별 (The Sentence Similarity Measure Using Deep-Learning and Char2Vec)

  • 임근영;조영복
    • 한국정보통신학회논문지
    • /
    • 제22권10호
    • /
    • pp.1300-1306
    • /
    • 2018
  • 본 연구는 자연어 처리 문제 중 하나인 문장 유사도 판별 문제를 딥러닝으로 해결하는 데에 있어 Char2Vec기반으로 문장을 전 처리하고 학습시켜 그 성능을 확인하고 대표적인 Word Embedding 모델 Word2Vec를 대체할 수 있는 가능성이 있는지 파악하고자 한다. 임의의 두 문장을 비교할 때 쓰는 딥러닝 구조로 Siamese Ma-STM 네트워크를 사용하였다. Word2Vec와 Char2Vec를 각각 기반으로 한 문장 유사도 판별 모델을 학습시키고 그 결과를 분석하였다. 실험 결과 Char2Vec를 기반으로 학습시킨 모델이 validation accuracy 75.1%을 보였고 Word2Vec를 기반으로 학습시킨 모델은 validation accuracy 71.6%를 보였다. 따라서 고 사양을 요구하는 Word2Vec대신 임베딩 레이어를 활용한 Char2Vec 기반의 전처리 모델을 활용함으로 분석 환경을 최적화 할 수 있다.