• 제목/요약/키워드: Graphics acceleration

검색결과 47건 처리시간 0.024초

관절체에 고정된 관성 센서의 위치 및 자세 보정 기법 (Pose Calibration of Inertial Measurement Units on Joint-Constrained Rigid Bodies)

  • 김신영;김혜진;이성희
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제19권4호
    • /
    • pp.13-22
    • /
    • 2013
  • 모션 캡처 장치는 자연스러운 인체 동작을 생성하는 것을 용이하게 하여 영화, 컴퓨터 게임, 컴퓨터 애니메이션 등 여러 분야에서 폭넓게 사용되고 있다. 그 중 관성 센서를 활용한 모션 캡처 장치는 보다 널리 사용되고 있는 광학 모션 캡처 장비에 비해 소요 공간과 비용 측면에서 이점을 가지고 있으나 비교적 높은 노이즈로 인해 측정 결과의 정밀도가 떨어지는 단점이 있다. 특히 관성 센서에 포함되어 중력 방향을 계측하는 가속도 센서는 센서의 선형 가속 운동으로 인해 중력 방향의 계측 정밀도가 떨어지는 문제를 갖는다. 본 논문에서는 관절체에 부착된 센서의 자세 측정 정확도를 높이기 위해 가속도 센서에서 선형 가속도 성분을 제거하는 기법을 제안한다. 아울러 센서가 부착되어 있는 관절체의 회전축 및 센서의 부착 위치를 보정하는 기법을 소개한다. 이 보정 기법은 관성 센서가 관절체의 임의의 위치와 방향으로 부착되는 것을 가능하게 한다.

전달 루틴의 병렬화를 통한 SAT 알고리즘의 GPGPU 가속화 (GPGPU Acceleration of SAT Algorithm with Propagation Routine Parallelization)

  • 강형주
    • 한국정보통신학회논문지
    • /
    • 제20권10호
    • /
    • pp.1919-1926
    • /
    • 2016
  • 대량의 데이터를 병렬적으로 처리할 수 있는 General-Purpose Graphics Processing Unit(GPGPU)가 최근 많은 분야에서 적용되고 있으며, 이는 전자 설계 자동화 분야에서도 예외가 아니다. SAT 알고리즘은 다양한 전자 설계 자동화 문제에 적용되는 대표적인 알고리즘 중 하나이다. GPGPU를 이용해서 SAT 알고리즘을 가속화하기 위해 노력이 이루어져 왔으나, SAT 알고리즘 자체의 특성으로 인해 병렬화에 어려움이 있어왔다. 이 논문에서는 SAT 알고리즘의 내부 과정 중 비교적 병렬화가 용이한 전달 루틴을 병렬화함으로써 GPGPU 가속화를 적용하였다. 전달 루틴이 희소 행렬의 곱셈과 유사한 점에 착안하여 데이터 구조를 구성하고 이에 맞추어서 병렬적인 전달 루틴을 작성하였다. 병렬적으로 동작하는 쓰레드들 사이의 데이터 손실을 방지하기 위해 아토믹(atomic) 연산을 이용하였다. 벤치마크 SAT 문제들에 대해 기존의 GPGPU 기반 SAT solver에 비해 성능이 10배 이상 향상되었음을 확인하였다.

적은 오버랩에서 사용 가능한 3차원 점군 정합 방법 (A Modified Method for Registration of 3D Point Clouds with a Low Overlap Ratio)

  • 김지건;이준희;박상민;고광희
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제24권5호
    • /
    • pp.11-19
    • /
    • 2018
  • 본 논문에서는 노이즈를 포함한 채 오버랩 영역이 적은 두 점군을 정합할 때 정확도와 수렴 속도를 향상시키는 알고리즘을 제시한다. 정확도를 높이기 위하여 점군의 기하학 정보를 최대한 활용하며, 정합 단계에서는 노이즈가 포함된 점군에서 오버랩 되는 영역을 적절히 선택하고, 개선된 가속 알고리즘을 사용하여 정합 속도를 향상시킨다. 정확도를 향상시키는 기존의 방법은 노이즈가 많은 점군에 적용할 수 없으므로, 본 논문에서는 정합에 사용되는 영역을 선택하는 것으로써 기존 방법의 문제를 해결하였다. 또한 똑같은 점군쌍에서만 적용되는 가속 알고리즘을 낮은 오버랩의 점군쌍에 적용하였다. 기존의 방법에 간단한 알고리즘을 추가함으로써 서너 배 더 빠른 수렴 속도를 낼 수 있도록 하였다. 결론적으로, 노이즈가 많고 오버랩이 적은 점군쌍의 정합에 있어서 본 논문에서 제시하는 알고리즘을 적용하면 속도와 정확도가 향상되었음을 알 수 있다.

임베디드 시스템을 위한 OpenVG 구현 (Implementation of OpenVG on Embedded Systems)

  • 이환용;백낙훈
    • 한국멀티미디어학회논문지
    • /
    • 제12권3호
    • /
    • pp.335-344
    • /
    • 2009
  • 기존의 2차원 그래픽스 환경에서는 비트맵이나 래스터 위주의 연산들이 주가 되었지만, 최근에는 범위성(範圍性, scalability)을 지원하기 위해서, 임베디드 시스템과 웹 브라우저를 중심으로 2차원 스케일러블 벡터 그래픽스 기능(scalable vector graphics feature)을 제공하고 있다. 현재는 Flash, SVG 등이 활발히 사용되고 있으며, 이를 지원하기 위한 하위 라이브러리 표준으로는 크로노스 그룹(Khronos Group)의 OpenVG가 실질적 API 표준(de facto API standard)의 역할을 담당하고 있다. 이 논문에서는 OpenVG 표준의 구현 결과인 AlexVG의 설계 및 구현 과정, 최종 결과를 제시한다. AlexVG의 구현은 설계 당시부터 또다른 실질적 표준인 SVG-Tiny와의 연계를 염두에 두었고, 현재 OpenVG의 응용 프로그램들은 물론이고, SVG-Tiny 표준에 따른 미디어 파일들을 재생할 수 있는 능력을 제공한다. 제공하는 기능 면에서 본다면, AlexVG는 OpenVG 적합성 검사(conformance test)를 100% 통과하였으며, SVG-Tiny 적합성 검사의 그래픽스 관련 부분도 100% 통과하였다. 성능 면에서는 자원의 제한이 심한 휴대용 기기들과 임베디드 기기들에서의 효율성에 초점을 맞추었다. 그 결과로, 기존의 참조 구현(reference implementation)에 비하여 획기적인 속도 향상을 가져 왔으며, 특히 ARM 등의 저성능 CPU에서도 다른 라이브러리나 하드웨어 지원 없이 우수한 실행 속도를 보이고 있다.

  • PDF

Parallel Implementation of the Recursive Least Square for Hyperspectral Image Compression on GPUs

  • Li, Changguo
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제11권7호
    • /
    • pp.3543-3557
    • /
    • 2017
  • Compression is a very important technique for remotely sensed hyperspectral images. The lossless compression based on the recursive least square (RLS), which eliminates hyperspectral images' redundancy using both spatial and spectral correlations, is an extremely powerful tool for this purpose, but the relatively high computational complexity limits its application to time-critical scenarios. In order to improve the computational efficiency of the algorithm, we optimize its serial version and develop a new parallel implementation on graphics processing units (GPUs). Namely, an optimized recursive least square based on optimal number of prediction bands is introduced firstly. Then we use this approach as a case study to illustrate the advantages and potential challenges of applying GPU parallel optimization principles to the considered problem. The proposed parallel method properly exploits the low-level architecture of GPUs and has been carried out using the compute unified device architecture (CUDA). The GPU parallel implementation is compared with the serial implementation on CPU. Experimental results indicate remarkable acceleration factors and real-time performance, while retaining exactly the same bit rate with regard to the serial version of the compressor.

영상처리 가속을 위한 CGRA compilation 속도 향상 (CGRA Compilation Boost up for Acceleration of Graphics)

  • 김원섭;최윤서;김재현
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2014년도 하계학술대회
    • /
    • pp.166-168
    • /
    • 2014
  • Coarse-grained reconfigurable architectures (CGRAs) present a potential of high compute throughput with energy efficiency. A CGRA consists of an array of functional units (FU), which communicate with each other through an interconnect network containing transmission nodes and register files. To achieve high performance from the software solutions mapped onto CGRAs, modulo scheduling of loops is generally employed. One of the key challenges in modulo scheduling for CGRAs is to explicitly handle routings of operands from a source to a destination operations through various routing resources. Existing modulo schedulers for CGRAs are slow because finding a valid routing is generally a searching problem over a large space, even with the guidance of well-defined cost metrics. Applications in traditional embedded multimedia domains are regarded relatively tolerant to a slow compile time in exchange of a high quality solution. However, many rapidly growing domains of applications, such as 3D graphics, require a fast compilation. Entrances of CGRAs to these domains have been blocked mainly due to its long compile time. We attack this problem by utilizing patternized routes, for which resources and time slots for a success can be estimated in advance when a source operation is placed. By conservatively reserving predefined resources at predefined time slots, future routings originated from the source operation are guaranteed. Experiments on a real-world 3D graphics benchmark suite show that our scheduler improves the compile time up to 6000 times while achieving average 70% throughputs of the state-of-art CGRA modulo scheduler, edge-centric modulo scheduler (EMS).

  • PDF

그래픽 프로세서를 이용한 병렬연산 기반 해무 제거 고속화 (Acceleration for Removing Sea-fog using Graphic Processors and Parallel Processing)

  • 김영두;곽재민;서영호;최현준
    • 한국항행학회논문지
    • /
    • 제21권5호
    • /
    • pp.485-490
    • /
    • 2017
  • 본 논문에서는 그래픽 프로세서를 이용하여 고속으로 해무를 제거하는 기술을 제안한다. 이 기술은 호스트 프로세서(CPU)와 병렬처리가 가능한 여러 개의 그래픽 프로세서를 이용하여 입력영상에서 해무를 제거하는 것이다. 해무를 제거하는 과정 중에서 다크 채널 추출, 최대 밝기 채널 추출, 전달량 계산은 호스트 프로세서에서 수행하고, 양방향 필터를 적용하여 전달량을 정제하는 과정을 그래픽 프로세서를 기반으로 병렬처리하여 연산속도를 높였다. 제안한 병렬처리 기법의 검증을 위해 NVIDIA사의 GTX 1070 GPU를 3개를 사용하여 검증환경을 구성하였다. 구현결과 하나의 그래픽 프로세서로 구현하였을 때는 평균 140ms가 소요되고, OpenMP와 다중 GPGPU를 이용하여 구현하였을 때 26ms 소요되었다. 본 논문에서 제안하는 그래픽 프로세서 기반의 병렬연산 해무제거 기술은 선박의 안전항해, 항만 관제 분야에 사용될 수 있을 것이다.

GPGPU를 이용한 영상 품질 측정 프로그램의 가속화 연구 (Research of accelerating method of video quality measurement program using GPGPU)

  • 이성욱;변기범;김기수;홍지만
    • 스마트미디어저널
    • /
    • 제5권4호
    • /
    • pp.69-74
    • /
    • 2016
  • 최근 그래픽 처리 장치(GPU)의 발전과 개발자 친화적인 GPGPU(General-Purpose computing on Graphics Processing Units)기술의 발전으로 인해 그래픽 처리 장치를 활용한 병렬 컴퓨팅의 사용이 확대되고 있다. 이를 통해 과학, 의학, 공학 등 많은 분야에 걸쳐 기존 CPU 컴퓨팅 환경보다 더 빠른 처리속도로 결과 값을 얻어 낼 수 있게 되었다. 본 논문은 CPU 기반 컴퓨팅과 GPU 기반 컴퓨팅의 연산처리 속도의 차이의 비교를 위해 기존 CPU 기반으로 구현된 영상 품질 측정 프로그램을 NVIDIA사의 GPGPU기술을 사용할 수 있도록 프로그램을 포팅한다. 포팅한 프로그램을 바탕으로 GPGPU기술을 통한 프로그램의 가속화에 대하여 연구한다. 가속화된 프로그램은 CPU 기반의 프로그램보다 약 1.83배 정도의 실행 속도를 가진다. 또한 CPU 기반의 프로그램을 GPU 기반으로 수정할 때 생기는 제약과 문제점에 대해서도 기술한다.

Interactive Wind System을 이용한 VR 사이버 멀미 개선 연구 (A Study on the Reduction in VR Cybersickness using an Interactive Wind System)

  • 임도전;이예원;조예솔;류태동;한다성
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제27권3호
    • /
    • pp.43-53
    • /
    • 2021
  • 본 논문은 자동차 핸들과 가속 페달로부터의 온라인 사용자 입력에 따라 Virtual Reality (VR) 환경에서 인공적인 바람을 생성하는 상호작용형 윈드 시스템을 제안한다. 제안된 시스템은 사용자가 레이싱 자동차 VR 응용 콘텐츠에서 세 방향으로부터 불어오는 바람으로부터 촉감을 느끼도록 하기 위해 머리장착형 디스플레이(Head-Mounted Display: HMD)와 세개의 선풍기로 구성된다. VR 멀미를 개선하는 것에 대한 바람의 효과성을 평가하기 위해, 본 논문은 멀미에 대한 가장 기본적인 척도 중의 하나인 SSQ (simulator sickness questionnaire)를 도입한다. 13명의 피험자들을 대상으로 바람이 있는 경우와 그 다음 그렇지 않은 경우 또는 그 역으로 레이싱 자동차 콘텐츠에 대한 실험을 수행하였다. 실험 결과는 인공적인 바람을 사용하는 경우 긍정적인 사용자 경험을 제공하면서 명확하게 멀미를 개선하는 것을 보여주었다.

GPU-Based ECC Decode Unit for Efficient Massive Data Reception Acceleration

  • Kwon, Jisu;Seok, Moon Gi;Park, Daejin
    • Journal of Information Processing Systems
    • /
    • 제16권6호
    • /
    • pp.1359-1371
    • /
    • 2020
  • In transmitting and receiving such a large amount of data, reliable data communication is crucial for normal operation of a device and to prevent abnormal operations caused by errors. Therefore, in this paper, it is assumed that an error correction code (ECC) that can detect and correct errors by itself is used in an environment where massive data is sequentially received. Because an embedded system has limited resources, such as a low-performance processor or a small memory, it requires efficient operation of applications. In this paper, we propose using an accelerated ECC-decoding technique with a graphics processing unit (GPU) built into the embedded system when receiving a large amount of data. In the matrix-vector multiplication that forms the Hamming code used as a function of the ECC operation, the matrix is expressed in compressed sparse row (CSR) format, and a sparse matrix-vector product is used. The multiplication operation is performed in the kernel of the GPU, and we also accelerate the Hamming code computation so that the ECC operation can be performed in parallel. The proposed technique is implemented with CUDA on a GPU-embedded target board, NVIDIA Jetson TX2, and compared with execution time of the CPU.