• 제목/요약/키워드: Human Pose Estimation

검색결과 118건 처리시간 0.024초

Fine-Motion Estimation Using Ego/Exo-Cameras

  • Uhm, Taeyoung;Ryu, Minsoo;Park, Jong-Il
    • ETRI Journal
    • /
    • 제37권4호
    • /
    • pp.766-771
    • /
    • 2015
  • Robust motion estimation for human-computer interactions played an important role in a novel method of interaction with electronic devices. Existing pose estimation using a monocular camera employs either ego-motion or exo-motion, both of which are not sufficiently accurate for estimating fine motion due to the motion ambiguity of rotation and translation. This paper presents a hybrid vision-based pose estimation method for fine-motion estimation that is specifically capable of extracting human body motion accurately. The method uses an ego-camera attached to a point of interest and exo-cameras located in the immediate surroundings of the point of interest. The exo-cameras can easily track the exact position of the point of interest by triangulation. Once the position is given, the ego-camera can accurately obtain the point of interest's orientation. In this way, any ambiguity between rotation and translation is eliminated and the exact motion of a target point (that is, ego-camera) can then be obtained. The proposed method is expected to provide a practical solution for robustly estimating fine motion in a non-contact manner, such as in interactive games that are designed for special purposes (for example, remote rehabilitation care systems).

Multi-Human Behavior Recognition Based on Improved Posture Estimation Model

  • Zhang, Ning;Park, Jin-Ho;Lee, Eung-Joo
    • 한국멀티미디어학회논문지
    • /
    • 제24권5호
    • /
    • pp.659-666
    • /
    • 2021
  • With the continuous development of deep learning, human behavior recognition algorithms have achieved good results. However, in a multi-person recognition environment, the complex behavior environment poses a great challenge to the efficiency of recognition. To this end, this paper proposes a multi-person pose estimation model. First of all, the human detectors in the top-down framework mostly use the two-stage target detection model, which runs slow down. The single-stage YOLOv3 target detection model is used to effectively improve the running speed and the generalization of the model. Depth separable convolution, which further improves the speed of target detection and improves the model's ability to extract target proposed regions; Secondly, based on the feature pyramid network combined with context semantic information in the pose estimation model, the OHEM algorithm is used to solve difficult key point detection problems, and the accuracy of multi-person pose estimation is improved; Finally, the Euclidean distance is used to calculate the spatial distance between key points, to determine the similarity of postures in the frame, and to eliminate redundant postures.

Real-time Human Pose Estimation using RGB-D images and Deep Learning

  • 림빈보니카;성낙준;마준;최유주;홍민
    • 인터넷정보학회논문지
    • /
    • 제21권3호
    • /
    • pp.113-121
    • /
    • 2020
  • Human Pose Estimation (HPE) which localizes the human body joints becomes a high potential for high-level applications in the field of computer vision. The main challenges of HPE in real-time are occlusion, illumination change and diversity of pose appearance. The single RGB image is fed into HPE framework in order to reduce the computation cost by using depth-independent device such as a common camera, webcam, or phone cam. However, HPE based on the single RGB is not able to solve the above challenges due to inherent characteristics of color or texture. On the other hand, depth information which is fed into HPE framework and detects the human body parts in 3D coordinates can be usefully used to solve the above challenges. However, the depth information-based HPE requires the depth-dependent device which has space constraint and is cost consuming. Especially, the result of depth information-based HPE is less reliable due to the requirement of pose initialization and less stabilization of frame tracking. Therefore, this paper proposes a new method of HPE which is robust in estimating self-occlusion. There are many human parts which can be occluded by other body parts. However, this paper focuses only on head self-occlusion. The new method is a combination of the RGB image-based HPE framework and the depth information-based HPE framework. We evaluated the performance of the proposed method by COCO Object Keypoint Similarity library. By taking an advantage of RGB image-based HPE method and depth information-based HPE method, our HPE method based on RGB-D achieved the mAP of 0.903 and mAR of 0.938. It proved that our method outperforms the RGB-based HPE and the depth-based HPE.

RGB-D 정보를 이용한 2차원 키포인트 탐지 기반 3차원 인간 자세 추정 방법 (A Method for 3D Human Pose Estimation based on 2D Keypoint Detection using RGB-D information)

  • 박서희;지명근;전준철
    • 인터넷정보학회논문지
    • /
    • 제19권6호
    • /
    • pp.41-51
    • /
    • 2018
  • 최근 영상 감시 분야에서는 지능형 영상 감시 시스템에 딥 러닝 기반 학습 방법이 적용되어 범죄, 화재, 이상 현상과 같은 다양한 이벤트들을 강건하게 탐지 할 수 있게 되었다. 그러나 3차원 실세계를 2차원 영상으로 투영시키면서 발생하는 3차원 정보의 손실로 인하여 폐색 문제가 발생하기 때문에 올바르게 객체를 탐지하고, 자세를 추정하기 위해서는 폐색 문제를 고려하는 것이 필요하다. 따라서 본 연구에서는 기존 RGB 정보에 깊이 정보를 추가하여 객체 탐지 과정에서 나타나는 폐색 문제를 해결하여 움직이는 객체를 탐지하고, 탐지된 영역에서 컨볼루션 신경망을 이용하여 인간의 관절 부위인 14개의 키포인트의 위치를 예측한다. 그 다음 자세 추정 과정에서 발생하는 자가 폐색 문제를 해결하기 위하여 2차원 키포인트 예측 결과와 심층 신경망을 이용하여 자세 추정의 범위를 3차원 공간상으로 확장함으로써 3차원 인간 자세 추정 방법을 설명한다. 향후, 본 연구의 2차원 및 3차원 자세 추정 결과는 인간 행위 인식을 위한 용이한 데이터로 사용되어 산업 기술 발달에 기여 할 수 있다.

자세 예측을 이용한 효과적인 자세 기반 감정 동작 인식 (Effective Pose-based Approach with Pose Estimation for Emotional Action Recognition)

  • 김진옥
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권3호
    • /
    • pp.209-218
    • /
    • 2013
  • 인간의 동작 인식에 대한 이전 연구는 주로 관절체로 표현된 신체 움직임을 추적하고 분류하는데 초점을 맞춰 왔다. 이 방식들은 실제 이미지 사용 환경에서 신체 부위에 대한 정확한 분류가 필요하다는 점이 까다롭기 때문에 최근의 동작 인식 연구 동향은 시공간상의 관심 점과 같이 저수준의, 더 추상적인 외형특징을 이용하는 방식이 일반화되었다. 하지만 몇 년 사이 자세 예측 기술이 발전하면서 자세 기반 방식에 대한 시각을 재정립하는 것이 필요하다. 본 연구는 외형 기반 방식에서 저수준의 외형특징만으로 분류기를 학습시키는 것이 충분한지에 대한 문제를 제기하면서 자세 예측을 이용한 효과적인 자세기반 동작인식 방식을 제안하였다. 이를 위해 다양한 감정을 표현하는 동작 시나리오를 대상으로 외형 기반, 자세 기반 특징 및 두 가지 특징을 조합한 방식을 비교하였다. 실험 결과, 자세 예측을 이용한 자세 기반 방식이 저수준의 외형특징을 이용한 방식보다 감정 동작 분류 및 인식 성능이 더 나았으며 잡음 때문에 심하게 망가진 이미지의 감정 동작 인식에도 자세 예측을 이용한 자세기반의 방식이 효과적이었다.

얼굴의 자세추정을 이용한 얼굴인식 속도 향상 (Improvement of Face Recognition Speed Using Pose Estimation)

  • 최선형;조성원;정선태
    • 한국지능시스템학회논문지
    • /
    • 제20권5호
    • /
    • pp.677-682
    • /
    • 2010
  • 본 논문은 AdaBoost 알고리즘을 통한 얼굴 검출 기술에서 학습된 하-웨이블렛의 개별값을 비교하여 대략적인 자세를 추정하는 방법과 이를 이용한 얼굴인식 속도 향상에 대하여 기술한다. 학습된 약한 분류기는 얼굴 검출 과정 중 각각 계수값을 비교하여 각 자세의 특징에 강인한 하-웨이블렛을 선별한다. 하-웨이블렛 선별과정에는 각 항목의 유사도를 나타내는 마할라노비스 거리를 사용하였다. 선별된 하-웨이블렛을 사용하여 임의의 얼굴 이미지를 검출하였을 때 각각의 자세를 구별하는 결과를 전체 실험결과를 통해 평가한다.

TRT Pose를 이용한 모바일 로봇의 사람 추종 기법 (Development of Human Following Method of Mobile Robot Using TRT Pose)

  • 최준현;주경진;윤상석;김종욱
    • 대한임베디드공학회논문지
    • /
    • 제15권6호
    • /
    • pp.281-287
    • /
    • 2020
  • In this paper, we propose a method for estimating a walking direction by which a mobile robots follows a person using TRT (Tensor RT) pose, which is motion recognition based on deep learning. Mobile robots can measure individual movements by recognizing key points on the person's pelvis and determine the direction in which the person tries to move. Using these information and the distance between robot and human, the mobile robot can follow the person stably keeping a safe distance from people. The TRT Pose only extracts key point information to prevent privacy issues while a camera in the mobile robot records video. To validate the proposed technology, experiment is carried out successfully where human walks away or toward the mobile robot in zigzag form and the robot continuously follows human with prescribed distance.

거울 신경 체계 모델링을 위한 동적 환경에 강인한 실시간 자세추정 (Robust Real-time Pose Estimation to Dynamic Environments for Modeling Mirror Neuron System)

  • 최준호;박승민
    • 한국전자통신학회논문지
    • /
    • 제19권3호
    • /
    • pp.583-588
    • /
    • 2024
  • BCI(뇌-컴퓨터 인터페이스) 기술의 등장으로 거울 신경을 분석하는 것이 용이해졌다. 그러나 인간의 생각에 의존하는 BCI 시스템의 정확성을 평가하는 것은 그 질적 특성으로 인해 어려움을 겪는다. BCI의 잠재력을 활용하기 위해 우리는 움직임의 궁극적인 목표에 따라 발화 속도가 영향을 받는 인간의 거울 신경의 특성을 기반으로 정확도를 측정하는 새로운 접근법을 제안한다. 본 논문에 2장에서는 거울 신경을 소개한다. 또한, 거울 신경을 위한 인간 자세 추정에 대한 설명을 제시한다. 3장에서는 인간 자세 추정 기법을 활용하여 실시간 동적 환경에 적합한 강력한 포즈 추정 방법을 소개한다. 이어서 이러한 로봇 환경을 이용한 BCI의 정확성을 분석하는 방법을 제시한다.

수치적인 역운동학 기반 UKF를 이용한 효율적인 중간 관절 추정 (Efficient Intermediate Joint Estimation using the UKF based on the Numerical Inverse Kinematics)

  • 서융호;이준성;이칠우
    • 대한전자공학회논문지SP
    • /
    • 제47권6호
    • /
    • pp.39-47
    • /
    • 2010
  • 영상 기반의 모션 캡처에 대한 연구는 인체의 특징 영역 검출, 정확한 자세 추정 및 실시간 성능 등의 문제를 풀기 위해 많은 연구가 진행되고 있다. 특히, 인체의 많은 관절 정보를 복원하기 위해 다양한 방법이 제안되고 있다. 본 논문에서는 수치적인 역운동학 방법의 단점을 개선한 실시간 모션 캡처 방법을 제안한다. 기존의 수치적인 역운동학 방법은 많은 반복 연산이 필요하며, 국부최소치 문제가 발생할 수 있다. 본 논문에서는 이러한 문제를 해결하기 위해 기존의 수치적인 역운동학 해법과 UKF를 결합하여 중간관절을 복원하는 방법을 제안한다. 수치적인 역운동학의 해와 UKF를 결합함으로써, 중간 관절 추정 시 최적값에 보다 안정적이고 빠른 수렴이 가능하다. 모션 캡처를 위해 먼저, 배경 차분과 피부색 검출 방법을 이용하여 인체의 특징 영역을 추출한다. 다수의 카메라로부터 추출된 2차원 인체 영역 정보로부터 3차원 정보를 복원하고, UKF와 결합된 수치적인 역운동학 해법을 통해 동작자의 중간 관절 정보를 추정한다. 수치적인 역운동학의 해는 UKF의 상태 추정 시 안정적인 방향을 제시하고, UKF는 다수의 샘플을 기반으로 최적 상태를 찾음으로써, 전역해에 보다 빠르게 수렴한다.

다중크기와 다중객체의 실시간 얼굴 검출과 머리 자세 추정을 위한 심층 신경망 (Multi-Scale, Multi-Object and Real-Time Face Detection and Head Pose Estimation Using Deep Neural Networks)

  • 안병태;최동걸;권인소
    • 로봇학회논문지
    • /
    • 제12권3호
    • /
    • pp.313-321
    • /
    • 2017
  • One of the most frequently performed tasks in human-robot interaction (HRI), intelligent vehicles, and security systems is face related applications such as face recognition, facial expression recognition, driver state monitoring, and gaze estimation. In these applications, accurate head pose estimation is an important issue. However, conventional methods have been lacking in accuracy, robustness or processing speed in practical use. In this paper, we propose a novel method for estimating head pose with a monocular camera. The proposed algorithm is based on a deep neural network for multi-task learning using a small grayscale image. This network jointly detects multi-view faces and estimates head pose in hard environmental conditions such as illumination change and large pose change. The proposed framework quantitatively and qualitatively outperforms the state-of-the-art method with an average head pose mean error of less than $4.5^{\circ}$ in real-time.