• 제목/요약/키워드: Hand pose recognition

검색결과 45건 처리시간 0.024초

손 표현 인식을 위한 계층적 손 자세 모델 (Hierarchical Hand Pose Model for Hand Expression Recognition)

  • 허경용;송복득;김지홍
    • 한국정보통신학회논문지
    • /
    • 제25권10호
    • /
    • pp.1323-1329
    • /
    • 2021
  • 손 표현 인식을 위해서는 손의 정적인 형태를 기반으로 하는 손 자세 인식과 손의 동적인 움직임을 기반으로 하는 손 동작 인식이 함께 사용된다. 이 논문에서는 손 표현 인식을 위해 손가락의 위치와 형태를 기반으로 하는 계층적 손 자세 모델을 제안한다. 손 자세 인식을 위해서는 오픈소스인 미디어파이프를 기반으로 하고, 손가락 상태를 나타내는 모델과 이를 통해 손 자세를 나타내는 모델을 계층적으로 구성하였다. 손가락 모델 역시 손가락 하나의 굽힘과 손가락 두 개의 닿음을 사용하여 계층적으로 구성하였다. 제안하는 모델은 손을 통해 정보를 전달하는 다양한 응용에 사용할 수 있으며, 수화에서의 숫자 인식에 적용하여 그 유용성을 검증하였다. 제안하는 모델은 수화 인식 이외에 컴퓨터의 사용자 인터페이스에서 다양한 응용이 가능할 것으로 기대한다.

가상 칠판을 위한 손 표현 인식 (Hand Expression Recognition for Virtual Blackboard)

  • 허경용;김명자;송복득;신범주
    • 한국정보통신학회논문지
    • /
    • 제25권12호
    • /
    • pp.1770-1776
    • /
    • 2021
  • 손 표현 인식을 위해서는 손의 정적인 형태를 기반으로 하는 손 자세 인식과 손의 움직임을 기반으로 하는 손 동작 인식이 함께 사용된다. 본 논문에서는 가상의 칠판 위에서 움직이는 손의 궤적을 기반으로 기호를 인식하는 손 표현인식 방법을 제안하였다. 손으로 가상의 칠판에 그린 기호를 인식하기 위해서는 손의 움직임으로부터 기호를 인식하는 방법은 물론, 데이터 입력의 시작과 끝을 찾아내기 위한 손 자세 인식 역시 필요하다. 본 논문에서는 손 자세 인식을 위해 미디어파이프를, 시계열 데이터에서 손 동작을 인식하기 위해 순환 신경망의 한 종류인 LSTM(Long Short Term Memory)을 사용하였다. 제안하는 방법의 유효성을 보이기 위해 가상 칠판에 쓰는 숫자 인식에 제안하는 방법을 적용하였을 때 약 94%의 인식률을 얻을 수 있었다.

멀티미디어 시스템을 위한 영상내의 손 인식에 관한 연구 (A Study on Hand Recognition in Image for Multimedia System)

  • 정혜원;양환석
    • 한국콘텐츠학회논문지
    • /
    • 제5권2호
    • /
    • pp.267-274
    • /
    • 2005
  • 본 논문에서는 별도의 센서 없이 영상만을 이용하여 실시간으로 손 영상을 인식하는 알고리즘을 제안한다. 손은 모양이 매우 복잡하기 때문에 2차원 모양의 불변량에 해당하는 에지의 방향성 히스토그램을 이용하여 인식을 행한다. 이 방법은 복잡한 배경에서 색상정보를 이용하여 손 영역이 정확히 추출되며 계산량이 적고 조명변화에 덜 민감하기 때문에 실시간 손 영상 인식에 적합하다. 본 논문에서는 손의 모양제시 방향이 변하는 경우에도 인식을 가능하게 하기 위해 주성분 분석법을 사용하여 인식오차를 줄이는 방법을 기술한다. 이 방법을 사용함으로써 손 영상이 3차원적으로 회전에 의해 변하는 경우도 인식가능하게 되었다. 또한 에지방향성 데이터를 이용하기에 주성분 공간 생성 시간을 현저히 줄이게 되었다.

  • PDF

3차원 인체 포즈 인식을 이용한 상호작용 게임 콘텐츠 개발 (Developing Interactive Game Contents using 3D Human Pose Recognition)

  • 최윤지;박재완;송대현;이칠우
    • 한국콘텐츠학회논문지
    • /
    • 제11권12호
    • /
    • pp.619-628
    • /
    • 2011
  • 일반적으로 비전기반 3차원 인체 포즈 인식 기술은 HCI(Human-Computer Interaction)에서 인간의 제스처를 전달하기 위한 방법으로 사용된다. 특수한 환경에서 단순한 2차원 움직임 포즈만 인식할 수 있는 2차원 포즈모델 기반 인식 방법에 비해 3차원 관절을 묘사한 포즈모델은 관절각에 대한 정보와 신체 부위의 모양정보를 선행지식으로 사용할 수 있어서 좀 더 일반적인 환경에서 복잡한 3차원 포즈도 인식할 수 있다는 장점이 있다. 이 논문은 인체의 3차원 관절 정보를 이용한 포즈 인식 기술을 인터페이스로 활용한 상호작용 게임 콘텐츠 개발에 관해 기술한다. 제안된 시스템에서 사용되는 포즈는 인체 관절 중 14개 관절의 3차원 위치정보를 이용해서 구성한 포즈 템플릿과 현재 사용자의 포즈를 비교해 인식된다. 이 방법을 이용하여 제작된 시스템은 사용자가 부가적인 장치의 사용 없이 사용자의 몸동작만으로 자연스럽게 게임 콘텐츠를 조작할 수 있도록 해준다. 제안된 3차원 인식 기술을 게임 콘텐츠에 적용하여 성능을 평가한다. 향후 다양한 환경에서 더욱 강건하게 포즈를 인식할 수 있는 연구를 수행할 계획이다.

객체 감지 데이터 셋 기반 인체 자세 인식시스템 연구 (Research on Human Posture Recognition System Based on The Object Detection Dataset)

  • 유암;리라이춘;루징쉬엔;쉬멍;정양권
    • 한국전자통신학회논문지
    • /
    • 제17권1호
    • /
    • pp.111-118
    • /
    • 2022
  • 컴퓨터 비전 연구에서 2차원 인체 자세는 매우 광범위한 연구 방향으로 특히 자세 추적과 행동 인식에서 유의미한 분야다. 인체 자세 표적 획득은 이미지에서 인체 목표를 정확히 찾는 방법을 연구하는 것이 핵심이며 인체 자세 인식은 인공지능(AI)에 적용하는 한편 일상생활에 활용되고 있어서 매우 중요한 연구의의가 있다. 인체 자세 인식 효과의 우수성의 기준은 인식 과정의 성공률과 정확도에 의해 결정된다. 본 연구의 인체 자세 인식에서는 딥러닝 전용 데이터셋인 MS COCO를 기반하여 인체를 17개의 키 포인트로 구분하였다. 다음으로 주요 특징에 대한 세분화 마스크(segmentation mask) 방법을 사용하여 인식률을 개선하였다. 최종적으로 신경망 모델을 설계하고 간단한 단계별 학습부터 효율적인 학습에 이르기까지 많은 수의 표본을 학습시키는 알고리즘을 제안하여 정확도를 향상할 수 있었다.

An Improved Approach for 3D Hand Pose Estimation Based on a Single Depth Image and Haar Random Forest

  • Kim, Wonggi;Chun, Junchul
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제9권8호
    • /
    • pp.3136-3150
    • /
    • 2015
  • A vision-based 3D tracking of articulated human hand is one of the major issues in the applications of human computer interactions and understanding the control of robot hand. This paper presents an improved approach for tracking and recovering the 3D position and orientation of a human hand using the Kinect sensor. The basic idea of the proposed method is to solve an optimization problem that minimizes the discrepancy in 3D shape between an actual hand observed by Kinect and a hypothesized 3D hand model. Since each of the 3D hand pose has 23 degrees of freedom, the hand articulation tracking needs computational excessive burden in minimizing the 3D shape discrepancy between an observed hand and a 3D hand model. For this, we first created a 3D hand model which represents the hand with 17 different parts. Secondly, Random Forest classifier was trained on the synthetic depth images generated by animating the developed 3D hand model, which was then used for Haar-like feature-based classification rather than performing per-pixel classification. Classification results were used for estimating the joint positions for the hand skeleton. Through the experiment, we were able to prove that the proposed method showed improvement rates in hand part recognition and a performance of 20-30 fps. The results confirmed its practical use in classifying hand area and successfully tracked and recovered the 3D hand pose in a real time fashion.

적외선 영상을 이용한 실시간 손동작 인식 장치 개발 (The Development of a Real-Time Hand Gestures Recognition System Using Infrared Images)

  • 지성철;강선우;김준식;주효남
    • 제어로봇시스템학회논문지
    • /
    • 제21권12호
    • /
    • pp.1100-1108
    • /
    • 2015
  • A camera-based real-time hand posture and gesture recognition system is proposed for controlling various devices inside automobiles. It uses an imaging system composed of a camera with a proper filter and an infrared lighting device to acquire images of hand-motion sequences. Several steps of pre-processing algorithms are applied, followed by a background normalization process before segmenting the hand from the background. The hand posture is determined by first separating the fingers from the main body of the hand and then by finding the relative position of the fingers from the center of the hand. The beginning and ending of the hand motion from the sequence of the acquired images are detected using pre-defined motion rules to start the hand gesture recognition. A set of carefully designed features is computed and extracted from the raw sequence and is fed into a decision tree-like decision rule for determining the hand gesture. Many experiments are performed to verify the system. In this paper, we show the performance results from tests on the 550 sequences of hand motion images collected from five different individuals to cover the variations among many users of the system in a real-time environment. Among them, 539 sequences are correctly recognized, showing a recognition rate of 98%.

NATURAL INTERACTION WITH VIRTUAL PET ON YOUR PALM

  • Choi, Jun-Yeong;Han, Jae-Hyek;Seo, Byung-Kuk;Park, Han-Hoon;Park, Jong-Il
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2009년도 IWAIT
    • /
    • pp.341-345
    • /
    • 2009
  • We present an augmented reality (AR) application for cell phone where users put a virtual pet on their palms and play/interact with the pet by moving their hands and fingers naturally. The application is fundamentally based on hand/palm pose recognition and finger motion estimation, which is the main concern in this paper. We propose a fast and efficient hand/palm pose recognition method which uses natural features (e.g. direction, width, contour shape of hand region) extracted from a hand image with prior knowledge for hand shape or geometry (e.g. its approximated shape when a palm is open, length ratio between palm width and pal height). We also propose a natural interaction method which recognizes natural motion of fingers such as opening/closing palm based on fingertip tracking. Based on the proposed methods, we developed and tested the AR application on an ultra-mobile PC (UMPC).

  • PDF

MPEG-U-based Advanced User Interaction Interface Using Hand Posture Recognition

  • Han, Gukhee;Choi, Haechul
    • IEIE Transactions on Smart Processing and Computing
    • /
    • 제5권4호
    • /
    • pp.267-273
    • /
    • 2016
  • Hand posture recognition is an important technique to enable a natural and familiar interface in the human-computer interaction (HCI) field. This paper introduces a hand posture recognition method using a depth camera. Moreover, the hand posture recognition method is incorporated with the Moving Picture Experts Group Rich Media User Interface (MPEG-U) Advanced User Interaction (AUI) Interface (MPEG-U part 2), which can provide a natural interface on a variety of devices. The proposed method initially detects positions and lengths of all fingers opened, and then recognizes the hand posture from the pose of one or two hands, as well as the number of fingers folded when a user presents a gesture representing a pattern in the AUI data format specified in MPEG-U part 2. The AUI interface represents a user's hand posture in the compliant MPEG-U schema structure. Experimental results demonstrate the performance of the hand posture recognition system and verified that the AUI interface is compatible with the MPEG-U standard.

Fast Convergence GRU Model for Sign Language Recognition

  • Subramanian, Barathi;Olimov, Bekhzod;Kim, Jeonghong
    • 한국멀티미디어학회논문지
    • /
    • 제25권9호
    • /
    • pp.1257-1265
    • /
    • 2022
  • Recognition of sign language is challenging due to the occlusion of hands, accuracy of hand gestures, and high computational costs. In recent years, deep learning techniques have made significant advances in this field. Although these methods are larger and more complex, they cannot manage long-term sequential data and lack the ability to capture useful information through efficient information processing with faster convergence. In order to overcome these challenges, we propose a word-level sign language recognition (SLR) system that combines a real-time human pose detection library with the minimized version of the gated recurrent unit (GRU) model. Each gate unit is optimized by discarding the depth-weighted reset gate in GRU cells and considering only current input. Furthermore, we use sigmoid rather than hyperbolic tangent activation in standard GRUs due to performance loss associated with the former in deeper networks. Experimental results demonstrate that our pose-based optimized GRU (Pose-OGRU) outperforms the standard GRU model in terms of prediction accuracy, convergency, and information processing capability.