• 제목/요약/키워드: 3D Human Pose

검색결과 73건 처리시간 0.024초

Multi-Human Behavior Recognition Based on Improved Posture Estimation Model

  • Zhang, Ning;Park, Jin-Ho;Lee, Eung-Joo
    • 한국멀티미디어학회논문지
    • /
    • 제24권5호
    • /
    • pp.659-666
    • /
    • 2021
  • With the continuous development of deep learning, human behavior recognition algorithms have achieved good results. However, in a multi-person recognition environment, the complex behavior environment poses a great challenge to the efficiency of recognition. To this end, this paper proposes a multi-person pose estimation model. First of all, the human detectors in the top-down framework mostly use the two-stage target detection model, which runs slow down. The single-stage YOLOv3 target detection model is used to effectively improve the running speed and the generalization of the model. Depth separable convolution, which further improves the speed of target detection and improves the model's ability to extract target proposed regions; Secondly, based on the feature pyramid network combined with context semantic information in the pose estimation model, the OHEM algorithm is used to solve difficult key point detection problems, and the accuracy of multi-person pose estimation is improved; Finally, the Euclidean distance is used to calculate the spatial distance between key points, to determine the similarity of postures in the frame, and to eliminate redundant postures.

학습을 이용한 손 자세의 강인한 추정 (Robust Estimation of Hand Poses Based on Learning)

  • 김설호;장석우;김계영
    • 한국정보통신학회논문지
    • /
    • 제23권12호
    • /
    • pp.1528-1534
    • /
    • 2019
  • 최근 들어, 3차원의 깊이 카메라의 대중화로 인해서 RGB 영상에서 수행되던 연구에 새로운 관심과 기회가 생겼지만 사람의 손 자세의 추정은 여전히 어려운 주제 중의 하나로 분류되고 있다. 본 논문에서는 다양하게 입력되는 3차원의 깊이 영상으로부터 사람의 손의 자세를 학습 알고리즘을 이용하여 강인하게 추정하는 방법을 제안한다. 제안된 접근 방법에서는 먼저 뼈대 기반의 손 모델을 생성한 다음, 생성된 손 모델을 3차원의 포인트 클라우드 데이터에 정렬한다. 그런 다음, 랜덤 포레스트 기반의 학습 알고리즘을 이용하여 정렬된 손 모델로부터 손의 자세를 강인하게 추정한다. 본 논문의 실험 결과에서는 제안된 접근 방법이 다양한 실내외의 환경에서 촬영된 입력 영상으로부터 사람의 손의 자세를 강인하고 빠르게 추정한다는 것을 보여준다.

얼굴 깊이 추정을 이용한 3차원 얼굴 생성 및 추적 방법 (A 3D Face Reconstruction and Tracking Method using the Estimated Depth Information)

  • 주명호;강행봉
    • 정보처리학회논문지B
    • /
    • 제18B권1호
    • /
    • pp.21-28
    • /
    • 2011
  • 얼굴의 3차원 정보는 얼굴 인식이나 얼굴 합성, Human Computer Interaction (HCI) 등 다양한 분야에서 유용하게 이용될 수 있다. 그러나 일반적으로 3차원 정보는 3D 스캐너와 같은 고가의 장비를 이용하여 획득되기 때문에 얼굴의 3차원 정보를 얻기 위해서는 많은 비용이 요구된다. 본 논문에서는 일반적으로 손쉽게 얻을 수 있는 2차원의 얼굴 영상 시퀀스로부터 효과적으로 3차월 얼굴 형태를 추적하고 재구성하기 위한 3차원 Active Appearance Model (3D-AAM) 방법을 제안한다. 얼굴의 3차원 변화 정보를 추정하기 위해 학습 영상은 정면 얼굴 포즈로 다양한 얼굴 표정 변화를 포함한 영상과 표정 변화를 갖지 않으면서 서로 크게 다른 얼굴 포즈를 갖는 영상으로 구성한다. 입력 영상의 3차원 얼굴 변화를 추정하기 위해 먼저 서로 다른 포즈를 갖는 학습 영상으로부터 얼굴의 각 특징점(Land-mark)의 기하학적 변화를 이용하여 깊이 정보를 추정하고 추정된 특징점의 깊이 정보를 입력 영상의 2차원 얼굴 변화에 추가하여 최종적으로 입력 얼굴의 3차원 변화를 추정한다. 본 논문에서 제안된 방법은 얼굴의 다양한 표정 변화와 함께 3차원의 얼굴 포즈 변화를 포함한 실험 영상을 이용하여 기존의 AAM에 비해 효과적이면서 빠르게 입력 얼굴을 추적(Fitting)할 수 있으며 입력 영상의 정확한 3차원 얼굴 형태를 생성할 수 있음을 보였다.

3D 스켈레톤을 이용한 3D 포인트 클라우드의 캘리브레이션 (A New Calibration of 3D Point Cloud using 3D Skeleton)

  • 박병서;강지원;이솔;박정탁;최장환;김동욱;서영호
    • 방송공학회논문지
    • /
    • 제26권3호
    • /
    • pp.247-257
    • /
    • 2021
  • 본 논문에서는 3D(dimensional) 스켈레톤을 이용하여 다시점 RGB-D 카메라를 캘리브레이션 하는 새로운 기법을 제안하고자 한다. 다시점 카메라를 캘리브레이션 하기 위해서는 일관성 있는 특징점이 필요하다. 또한 높은 정확도의 캘리브레이션 결과를 얻기 위해서는 정확한 특징점의 획득이 필요하다. 우리는 다시점 카메라를 캘리브레이션 하기 위한 특징점으로 사람의 스켈레톤을 사용한다. 사람의 스켈레톤은 최신의 자세 추정(pose estimation) 알고리즘들을 이용하여 쉽게 구할 수 있게 되었다. 우리는 자세 추정 알고리즘을 통해서 획득된 3D 스켈레톤의 관절 좌표를 특징점으로 사용하는 RGB-D 기반의 캘리브레이션 알고리즘을 제안한다. 다시점 카메라에 촬영된 인체 정보는 불완전할 수 있기 때문에, 이를 통해 획득된 영상 정보를 바탕으로 예측된 스켈레톤은 불완전할 수 있다. 불완전한 다수의 스켈레톤을 효율적으로 하나의 스켈레톤으로 통합한 후에, 통합된 스켈레톤을 이용하여 카메라 변환 행렬을 구함으로써 다시점 카메라들을 캘리브레이션 할 수 있다. 캘리브레이션의 정확도를 높이기 위해서 시간적인 반복을 통해서 다수의 스켈레톤을 최적화에 이용한다. 우리는 실험을 통해서 불완전한 다수의 스켈레톤을 이용하여 다시점 카메라를 캘리브레이션 할 수 있음을 증명한다.

화자의 긍정·부정 의도를 전달하는 실용적 텔레프레즌스 로봇 시스템의 개발 (Development of a Cost-Effective Tele-Robot System Delivering Speaker's Affirmative and Negative Intentions)

  • 진용규;유수정;조혜경
    • 로봇학회논문지
    • /
    • 제10권3호
    • /
    • pp.171-177
    • /
    • 2015
  • A telerobot offers a more engaging and enjoyable interaction with people at a distance by communicating via audio, video, expressive gestures, body pose and proxemics. To provide its potential benefits at a reasonable cost, this paper presents a telepresence robot system for video communication which can deliver speaker's head motion through its display stanchion. Head gestures such as nodding and head-shaking can give crucial information during conversation. We also can assume a speaker's eye-gaze, which is known as one of the key non-verbal signals for interaction, from his/her head pose. In order to develop an efficient head tracking method, a 3D cylinder-like head model is employed and the Harris corner detector is combined with the Lucas-Kanade optical flow that is known to be suitable for extracting 3D motion information of the model. Especially, a skin color-based face detection algorithm is proposed to achieve robust performance upon variant directions while maintaining reasonable computational cost. The performance of the proposed head tracking algorithm is verified through the experiments using BU's standard data sets. A design of robot platform is also described as well as the design of supporting systems such as video transmission and robot control interfaces.

시점 불변인 특징과 확률 그래프 모델을 이용한 인간 행위 인식 (Human Activity Recognition using View-Invariant Features and Probabilistic Graphical Models)

  • 김혜숙;김인철
    • 정보과학회 논문지
    • /
    • 제41권11호
    • /
    • pp.927-934
    • /
    • 2014
  • 본 논문에서는 Kinect와 같은 RGB-D 센서를 이용하여 사람의 3차원 신체 포즈 스트림 데이터를 생성하고, 이로부터 사람의 일상 행위를 효과적으로 인식하는 방법을 제안한다. Kinect SDK나 OpenNI에서 제공하는 실시간 신체 포즈 데이터는 Kinect 중심의 3차원 데카르트 좌표계로 표현되기 때문에, 시점 변화 문제와 크기 변화 문제를 겪을 가능성이 높다. 이러한 문제를 해결하고 시점 및 크기 불변인 특징을 얻기 위해, 본 논문에서는 신체 포즈 데이터를 실험자의 골반을 원점으로 하는 구면 좌표계로 변환하고 실험자의 팔 길이를 이용한 크기 정규화를 수행한다. 또한, 본 논문에서는 확률 그래프 모델 중 하나인 은닉 조건부 랜덤 필드를 이용하여, 고수준의 일상 행위들이 내포하는 다양한 내부 구조를 효과적으로 표현한다. 두 가지 데이터 집합 KAD-70과 CAD-60을 이용한 실험을 통해, 본 논문에서 제안한 행위 인식 방법과 구현 시스템의 높은 인식 성능을 확인하였다.

수치적인 역운동학 기반 UKF를 이용한 효율적인 중간 관절 추정 (Efficient Intermediate Joint Estimation using the UKF based on the Numerical Inverse Kinematics)

  • 서융호;이준성;이칠우
    • 대한전자공학회논문지SP
    • /
    • 제47권6호
    • /
    • pp.39-47
    • /
    • 2010
  • 영상 기반의 모션 캡처에 대한 연구는 인체의 특징 영역 검출, 정확한 자세 추정 및 실시간 성능 등의 문제를 풀기 위해 많은 연구가 진행되고 있다. 특히, 인체의 많은 관절 정보를 복원하기 위해 다양한 방법이 제안되고 있다. 본 논문에서는 수치적인 역운동학 방법의 단점을 개선한 실시간 모션 캡처 방법을 제안한다. 기존의 수치적인 역운동학 방법은 많은 반복 연산이 필요하며, 국부최소치 문제가 발생할 수 있다. 본 논문에서는 이러한 문제를 해결하기 위해 기존의 수치적인 역운동학 해법과 UKF를 결합하여 중간관절을 복원하는 방법을 제안한다. 수치적인 역운동학의 해와 UKF를 결합함으로써, 중간 관절 추정 시 최적값에 보다 안정적이고 빠른 수렴이 가능하다. 모션 캡처를 위해 먼저, 배경 차분과 피부색 검출 방법을 이용하여 인체의 특징 영역을 추출한다. 다수의 카메라로부터 추출된 2차원 인체 영역 정보로부터 3차원 정보를 복원하고, UKF와 결합된 수치적인 역운동학 해법을 통해 동작자의 중간 관절 정보를 추정한다. 수치적인 역운동학의 해는 UKF의 상태 추정 시 안정적인 방향을 제시하고, UKF는 다수의 샘플을 기반으로 최적 상태를 찾음으로써, 전역해에 보다 빠르게 수렴한다.

단안 영상에서 인간 오브젝트의 고품질 깊이 정보 생성 방법 (High-Quality Depth Map Generation of Humans in Monocular Videos)

  • 이정진;이상우;박종진;노준용
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제20권2호
    • /
    • pp.1-11
    • /
    • 2014
  • 단안 영상에서 3차원 입체영상으로 변환한 결과물의 품질은장면의 물체들에게 부여한 깊이 정보의 정확도에 의존적이다. 영상의 매 프레임마다 장면의 물체들의 깊이 정보를 수동으로 입력하는 것은 많은 시간을 필요로 하는 노동집약적인 작업이다. 특히, 높은 자유도를 가진 관절형 물체인 인간의 몸은 고품질 입체변환에 있어서 가장 어려운 물체 중에 하나이다. 다양한 스타일의 옷, 액세서리, 머리카락들이 만드는 매우 복잡한 실루엣은 문제를 더욱 어렵게 한다. 본 논문에서는 단안 영상에 나타난 인간 오브젝트의 고품질 깊이 정보를 생성하는 효율적인 방법을 제안한다. 먼저, 적은 수의 사용자입력을 기반으로 3 원 템플릿 모델을 순차 관절 각도 제약을 가진 자세 추정 방법을 통해서 영상에 등장하는 2차원 인간 오브젝트에 정합한다. 정합된 3차원 모델로부터 초기 깊이 정보를 획득한 뒤, 컬러 세그멘테이션 방법을 기반으로 한 부분 깊이 전파 방법을 통해 세밀한 표현을 보장하며 누락된 영역을 포함하는 최종 깊이 정보를 생성한다. 숙련된 아티스트들의 수작업 결과물과 제안된 방법의 결과물을 비교한 검증 실험은 제안된 방법이 단안 영상에서 동등한 수준의 깊이 정보를 효율적으로 생성한다는 것을 보여준다.

모션 인식을 위한 2D 자세 추정 알고리듬의 이미지 전처리 및 얼굴 가림에 대한 영향도 분석 (Investigation of image preprocessing and face covering influences on motion recognition by a 2D human pose estimation algorithm)

  • 노은솔;이사랑;홍석무
    • 한국산학기술학회논문지
    • /
    • 제21권7호
    • /
    • pp.285-291
    • /
    • 2020
  • 제조 산업에서 인력은 로봇으로 대체되지만 전문 기술은 데이터 변환이 어려워 산업용 로봇에 적용이 불가능하다. 이는 비전 기반의 모션 인식 방법으로 데이터 확보가 가능하나 이미지 데이터에 따라 판단 값이 달라질 수 있다. 따라서 본 연구는 비전 방법을 사용해 사람의 자세를 추정 시 영향을 미치는 인자를 고려해 정확성 향상 방법을 찾고자 한다. 비전 방법 중 OpenPose의 3가지 모델 MPII, COCO 및 COCO + foot을 사용했으며, CNN(Convolutional Neural Networks)을 사용한 OpenPose 구조에서 얼굴 가림 및 이미지 전처리에 미치는 영향을 확인하고자 액세서리의 유무, 이미지 크기 및 필터링을 매개 변수로 설정했다. 각 매개 변수 별 이미지 데이터를 3 가지 모델에 적용해 실제 값과 예측 값 사이 거리 오차와 PCK (Percentage of correct Keypoint)로 영향도를 판단했다. 그 결과 COCO + foot 모델은 3 가지 매개 변수에 대한 민감도가 가장 낮았다. 또한 이미지 크기는 50% (원본 3024 × 4032에서 1512 × 2016로 축소) 이상 비율이 가장 적절하며, MPII 모델만 emboss 필터링을 적용할 때 거리 오차 평균이 최대 60pixel 감소되어 향상된 결과를 얻었다.

Detecting Complex 3D Human Motions with Body Model Low-Rank Representation for Real-Time Smart Activity Monitoring System

  • Jalal, Ahmad;Kamal, Shaharyar;Kim, Dong-Seong
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제12권3호
    • /
    • pp.1189-1204
    • /
    • 2018
  • Detecting and capturing 3D human structures from the intensity-based image sequences is an inherently arguable problem, which attracted attention of several researchers especially in real-time activity recognition (Real-AR). These Real-AR systems have been significantly enhanced by using depth intensity sensors that gives maximum information, in spite of the fact that conventional Real-AR systems are using RGB video sensors. This study proposed a depth-based routine-logging Real-AR system to identify the daily human activity routines and to make these surroundings an intelligent living space. Our real-time routine-logging Real-AR system is categorized into two categories. The data collection with the use of a depth camera, feature extraction based on joint information and training/recognition of each activity. In-addition, the recognition mechanism locates, and pinpoints the learned activities and induces routine-logs. The evaluation applied on the depth datasets (self-annotated and MSRAction3D datasets) demonstrated that proposed system can achieve better recognition rates and robust as compare to state-of-the-art methods. Our Real-AR should be feasibly accessible and permanently used in behavior monitoring applications, humanoid-robot systems and e-medical therapy systems.