통합 검색 | Korea Science

Accelerating Distance Transform Image based Hand Detection using CPU-GPU Heterogeneous Computing

Yi, Zhaohua;Hu, Xiaoqi;Kim, Eung Kyeu;Kim, Kyung Ki;Jang, Byunghyun
- JSTS:Journal of Semiconductor Technology and Science
- /
- 제16권5호
- /
- pp.557-563
- /
- 2016
Most of the existing hand detection methods rely on the contour shape of hand after skin color segmentation. Such contour shape based computations, however, are not only susceptible to noise and other skin color segments but also inherently sequential and difficult to efficiently parallelize. In this paper, we implement and accelerate our in-house distance image based approach using CPU-GPU heterogeneous computing. Using emerging CPU-GPU heterogeneous computing technology, we achieved 5.0 times speed-up for $320{\times}240$ images, and 17.5 times for $640{\times}480$ images and our experiment demonstrates that our proposed distance image based hand detection is robust and fast, reaching up to 97.32% palm detection rate, 80.4% of which have more than 3 fingers detected on commodity processors.
https://doi.org/10.5573/JSTS.2016.16.5.557 인용 PDF KSCI

동굴관광용 고층수직이동 승강기의 긴급 음성구동 제어 (Voice Recognition Sensor Driven Elevator for High-rise Vertical Shift)

최병섭;강태현;윤여훈;장훈규;소대화
- 동굴
- /
- 제88호
- /
- pp.1-7
- /
- 2008
Recently, it is one of very interest technology of Human Computer Interaction(HCI). Nowadays, it is easy to find out that, for example, inside SF movies people has talking to computer. However, there are difference between CPU language and ours. So, we focus on connecting to CPU. For 30 years many scientists experienced in that technology. But it is really difficult. Our project goal is making that CPU could understand human voice. First of all the signal through a voice sensor will move to BCD (binary code). That elevator helps out people who wants to move up and down. This product's point is related with people's safety. Using a PWM for motor control by ATmega16, we choose a DC motor to drive it because of making a regular speed elevator. Furthermore, using a voice identification module the elevator driven by voice sensor could operate well up and down perfectly from 1st to 10th floor by PWM control with ATmega16. And, it will be clearly useful for high-rise vertical shift with voice recognition sensor driven.
PDF KSCI

멀티코어 기반의 임베디드 시스템에서 안드로이드 부팅 속도 향상 방법 (An Improving Method of Android Boot Speed in Multi-core based Embedded System)

최진용;이재흥
- 전기전자학회논문지
- /
- 제17권4호
- /
- pp.564-569
- /
- 2013
현재 임베디드 기기는 멀티코어로 급성장하고 있으며 빠른 부팅 속도를 요구하고 있다. 하지만 기존의 부팅 기술은 하나의 코어만을 사용하고 있다. 따라서 본 논문에서는 분석 도구를 통해 안드로이드 부트 프로세스를 분석후, CPU연산이 많은 곳에 병렬 기법을 적용하는 방법과 멀티 코어의 성능을 최대로 끌어내기 위해 CPU주파수 정책을 변경함으로써 멀티코어 기반에서 안드로이드 부팅 속도 향상 방법에 대해 제안한다. 본 논문의 제안 방법을 듀얼 코어 S5PV310과 쿼드 코어 Exynos4412에 각각 적용시킨 뒤 부팅 완료 시간을 측정하였으며 기존의 방법과 제안 방법의 시간을 비교한 결과 듀얼코어와 쿼드코어에서 각각 약 20.71%, 약 31.34%의 속도 성능향상을 가져왔다.
https://doi.org/10.7471/ikeee.2013.17.4.564 인용 PDF KSCI

CUDA 기반의 병렬 프로그래밍을 통한 H.264/AVC 부호화 속도 향상 및 CPU 부하 경감 (Enhancement of H.264/AVC Encoding Speed and Reduction of CPU Load through Parallel Programming Based on CUDA)

장은빈;하윤수
- Journal of Advanced Marine Engineering and Technology
- /
- 제34권6호
- /
- pp.858-863
- /
- 2010
H.264/AVC를 이용한 동영상의 부호화에서 그 속도를 높이기 위해서는 움직임 예측시간을 줄이는 것이 매우 중요하다. 본 논문에서는 H.264/AVC 부호기의 오픈 소스인 x.264를 대상으로 움직임 예측 알고리즘을 CUDA 기반에서 구현함으로서 기존의 압축 기술 이상의 속도 향상 및 CPU의 점유율을 경감 시킬 수 있음을 검증한다.
https://doi.org/10.5916/jkosme.2010.34.6.858 인용 PDF KSCI

소/중형 컴퓨터를 위한 MCSST 소프트웨어 개선에 관한 연구 (A Study on the Improvement of the Multichannel Sea Surface Temperature(MCSST) Software for Mini-Computer System)

심태보;장덕홍
- 대한원격탐사학회지
- /
- 제5권1호
- /
- pp.41-56
- /
- 1989
Improvement of the multichannel sea surface temperature(MCSST) software, which had been developed for the purpose of operating under mainframe computer system, was seeked in order to operate effectively in a mini computer system. CPU time and processing time, which is not a major factor under mainframe computer system, become a critical factor in real time image processing under mini computer system. Due to fixed kernel size(3$\times$4) of the old MCSST software, high spatial resolution characteristics of the original image received from satellites were apparently degraded when images are transformed into a cartesian coordinate system after geometrical distortions of the image due to earth curvature are removed. CPU and processing time were reduced to 0.13 and 0.15~0.22 comparing with the old MCSST's, respectively, by applying disk block I/O and M/T queue I/O method under VAX-11/750 computer. The high resolution quality (1.1km in AVHRR) of the processed image was guaranted using 2$\times$2 kernel size and applying moving window techniques without sacrificing CPU and processing time much.
https://doi.org/10.7780/kjrs.1989.5.1.41 인용 PDF

Intelligent한 메모리 시스템에서의 Fine-Grained SW Offloading을 위한 성능 분석 (Performance Analysis for Fine-Grained SW Offloading in Intelligent Memory System)

허인구;김용주;이진용;이지훈;이종원;백윤흥
- 한국정보처리학회:학술대회논문집
- /
- 한국정보처리학회 2012년도 춘계학술발표대회
- /
- pp.29-32
- /
- 2012
전통적으로 컴퓨터의 성능은 중앙 연산 장치 (CPU)의 성능에 따라 좌지우지 되어 왔다. 하지만 CPU의 성능이 지속적인 발전을 거듭하여 무어의 법칙을 비교적 충실히 따라가고 있는 반면, 메모리의 성능은 근래 들어 더디게 발전되는 형국이다. 때문에, CPU와 메모리 간의 성능격차로 인해 메모리의 낮은 성능이 전체 시스템의 성능을 저하시키는 "Memory Wall Problem"은 점점 큰 문제로 대두되고 있다. 이러한 문제를 해결하기 위해 많은 연구에서 메모리 자체의 성능을 발전시키는 것은 물론 메모리 내부에 연산 처리 능력을 추가하여 시스템 전체의 성능을 향상 시키는 시도들을 해왔다. 이 논문에서는 이러한 Intelligent한 메모리 시스템에서의 SW Off-loading을 위한 성능 분석을 다룬다. 이전의 연구들이 주로 큰 단위의 Off-load를 다뤘던 것에 비해 이 논문에서는 작은 단위의 Off-load, 더 정확히는 어셈블리 수준의 Off-load의 효과에 대해 분석한다. 또한 현재의 어셈블리 수준의 Off-load의 한계를 지적하고 이를 극복하기 위한 루프 레벨 Off-load, 새로운 Technology와 아키텍쳐에 대해서도 소개한다.
https://doi.org/10.3745/PKIPS.y2012m04a.29 인용 PDF

CPU 클러스터 구축 및 3차원 공간분할 병렬 FDTD 알고리즘 구현 (Construction of a CPU Cluster and Implementation of a 3-D Domain Decomposition Parallel FDTD Algorithm)

박성민;추광욱;주세훈;박윤미;김기백;정경영
- 한국전자파학회논문지
- /
- 제25권3호
- /
- pp.357-364
- /
- 2014
본 연구에서는 빠르게 전자파 해석을 수행할 수 있는 병렬 유한차분 시간영역(Finite-Difference Time-Domain: FDTD) 알고리즘을 구현하기 위하여 CPU 클러스터를 구축하였다. 병렬 FDTD 알고리즘은 단일 프로세서를 이용한 FDTD 알고리즘에 비해 해석 시간을 크게 줄일 수 있으며, 전기적으로 매우 큰 구조물에 대한 전자파 해석도 가능하다. 본 연구팀에서는 CPU 클러스터 기반의 병렬 FDTD 알고리즘에서 요구되는 프로세스 간의 통신을 위해 MPI(Message Passing Interface) 라이브러리를 이용하였으며, 3차원 공간분할을 적용하여 프로세스 간의 통신 시간을 최소화하였다. 단일 프로세서를 이용한 FDTD 알고리즘 대비 CPU 클러스터 기반의 병렬 FDTD 알고리즘의 계산속도 향상도를 기본 모드와 하이퍼 모드에서 분석하였으며, 전기적으로 매우 큰 콘크리트 구조물의 전자파 해석을 하였다.
https://doi.org/10.5515/KJKIEES.2014.25.3.357 인용 PDF KSCI

가산기와 MIPS CPU 사례를 이용한 현대 FPGA의 특성연구 (Towards Characterization of Modern FPGAs: A Case Study with Adders and MIPS CPU)

이보선;서태원
- 컴퓨터교육학회논문지
- /
- 제16권3호
- /
- pp.99-105
- /
- 2013
ASIC설계에서 FPGA를 이용한 에뮬레이션은 설계 검증을 위한 필수 단계이다. ASIC으로 설계된 모델을 가능한 최대 동작주파수로 에뮬레이션하기 위해서는 FPGA의 특성을 이해해야 한다. 본 논문은 FPGA의 주요 제조사인 Xilinx와 Altera의 여러 디바이스에 다양한 가산기와 MIPS CPU를 포팅하여, 디자인 복잡도에 따른 현대 FPGA의 특성을 연구하였다. 실험 결과, 일반적인 통념과는 다르게 1-bit 가산기를 기반으로 디자인한 RCA는 FPGA 내부의 carry-chain을 활용하지 못했고, 그 결과 다른 타입의 가산기보다 낮은 성능을 보였다. 또한, 본 연구를 통해 Xilinx와 Altera 제조사 별 FPGA 특성에 확연한 차이가 있음을 확인하였다. 즉, 동작속도에 최적화하여 설계된 Prefix 가산기를 Xilinx 디바이스에 포팅했을 때 저조한 동작주파수를 보였으나, Altera 디바이스에서는 IP Core와 비슷한 성능을 보였다. 이는 Altera 디바이스에서는 FPGA의 면적만 허락한다면 ASIC에 최적화된 설계를 그대로 사용하여도 에뮬레이션 성능에 영향을 미치지 않음을 시사한다. MIPS CPU를 통한 실험은 이를 뒷받침한다.
PDF

HIGHT 블록 암호 알고리즘의 고속화 구현 (Speed-optimized Implementation of HIGHT Block Cipher Algorithm)

백은태;이문규
- 정보보호학회논문지
- /
- 제22권3호
- /
- pp.495-504
- /
- 2012
본 논문에서는 국제 표준 블록 암호 알고리즘인 HIGHT를 CPU 및 GPU 상에서 소프트웨어로 고속화 구현하기 위한 다양한 방법을 시도한다. 먼저 CPU 상에서는 32비트 및 64비트 운영체제를 고려하고 비트 슬라이싱 및 바이트 슬라이싱 기법을 적용한다. 이들 최적화 기법의 적용 결과, Intel core i7 920 CPU 상에서 64비트 운영체제를 이용할 경우 최대 1.48Gbps의 속도를 보여 슬라이싱이 적용되지 않은 기존 구현에 비해 최대 2.4배 빠른 성능을 확인할 수 있었다. 한편 GPU 상에서는 NVIDIA의 CUDA 라이브러리를 활용하였으며, 서브키 및 F 함수를 위한 룩업 테이블 등과 같이 자주 사용되는 데이터를 공유 메모리에 저장하여 사용하고, 전역 메모리에서 데이터를 읽어올 때는 통합 접근(coalesced access) 기법을 사용하는 등 최적화 기법들을 적용해 구현하였다. 특히 본 논문은 GPU 상에서 HIGHT를 최적화한 최초의 결과로, GPU 상에서도 바이트 슬라이싱 기법을 적용할 경우 단순 구현 결과보다 20% 이상 빠른 성능을 확인할 수 있었으며, CPU에 비해서는 약 31배 빠른 결과를 얻을 수 있었다.
https://doi.org/10.13089/JKIISC.2012.22.3.495 인용 PDF KSCI HTML

CUDA와 OPenMP를 이용한 빠르고 효율적인 신경망 구현 (Fast and Efficient Implementation of Neural Networks using CUDA and OpenMP)

박안진;장홍훈;정기철
- 한국정보과학회논문지:소프트웨어및응용
- /
- 제36권4호
- /
- pp.253-260
- /
- 2009
컴퓨터 비전이나 패턴 인식 분야에서 이용되고 있는 많은 알고리즘들이 최근 빠른 수행시간을 위해 GPU에서 구현되고 있지만, GPU를 이용하여 알고리즘을 구현할 경우 크게 두 가지 문제점을 고려해야 한다. 첫째, 컴퓨터 그래픽스 분야의 지식이 필요한 쉐이딩(shading) 언어를 알아야 한다. 둘째, GPU를 효율적으로 활용하기 위해 CPU와 GPU간의 데이터 교환을 최소화해야 한다. 이를 위해 CPU는 GPU에서 처리할 수 있는 최대 용량의 데이터를 생성하여 GPU에 전송해야 하기 때문에 CPU에서 많은 처리시간을 소모하며, 이로 인해 CPU와 GPU 사이에 많은 오버헤드가 발생한다. 본 논문에서는 그래픽 하드웨어와 멀티코어(multi-core) CPU를 이용한 빠르고 효율적인 신경망 구현 방법을 제안한다. 기존 GPU의 첫 번째 문제점을 해결하기 위해 제안된 방법은 복잡한 쉐이팅 언어 대신 그래픽스적인 기본지식 없이도 GPU를 이용하여 응용프로그램 개발이 가능한 CUDA를 이용하였다. 두 번째 문제점을 해결하기 위해 멀티코어 CPU에서 공유 메모리 환경의 병렬화를 수행할 수 있는 OpenMP를 이용하였으며, 이의 처리시간을 줄여 CPU와 GPU 환경에서 오버 헤드를 최소화할 수 있다. 실험에서 제안된 CUDA와 OpenMP기반의 구현 방법을 신경망을 이용한 문자영역 검출 알고리즘에 적용하였으며, CPU에서의 수행시간과 비교하여 약 15배, GPU만을 이용한 수행시간과 비교하여 약 4배정도 빠른 수행시간을 보였다.
PDF KSCI

검색결과 763건 처리시간 0.029초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)