• 제목/요약/키워드: pose estimation

검색결과 388건 처리시간 0.031초

트랜스포머 기반의 다중 시점 3차원 인체자세추정 (Multi-View 3D Human Pose Estimation Based on Transformer)

  • 최승욱;이진영;김계영
    • 스마트미디어저널
    • /
    • 제12권11호
    • /
    • pp.48-56
    • /
    • 2023
  • 3차원 인체자세추정은 스포츠, 동작인식, 영상매체의 특수효과 등의 분야에서 널리 활용되고 있는 기술이다. 이를 위한 여러 방법들 중 다중 시점 3차원 인체자세추정은 현실의 복잡한 환경에서도 정밀한 추정을 하기 위해 필수적인 방법이다. 하지만 기존 다중 시점 3차원 인체자세추정 모델들은 3차원 특징 맵을 사용함에 따라 시간 복잡도가 높은 단점이 있다. 본 논문은 계산 복잡도가 적은 트랜스포머 기반 기존 단안 시점 다중 프레임 모델을 다중 시점에 대한 3차원 인체자세추정으로 확장하는 방법을 제안한다. 다중 시점으로 확장하기 위하여 먼저 2차원 인체자세 검출자 CPN(Cascaded Pyramid Network)을 활용하여 획득한 4개 시점의 17가지 관절에 대한 2차원 관절좌표를 연결한 8차원 관절좌표를 생성한다. 그 다음 이들을 패치 임베딩 한 뒤 17×32 데이터로 변환하여 트랜스포머 모델에 입력한다. 마지막으로, 인체자세를 출력하는 MLP(Multi-Layer Perceptron) 블록을 매 반복 마다 사용한다. 이를 통해 4개 시점에 대한 3차원 인체자세추정을 동시에 수정한다. 입력 프레임 길이 27을 사용한 Zheng[5]의 방법과 비교했을 때 제안한 방법의 모델 매개변수의 수는 48.9%, MPJPE(Mean Per Joint Position Error)는 20.6mm(43.8%) 감소했으며, 학습 횟수 당 평균 학습 소요 시간은 20배 이상 빠르다.

  • PDF

Automatic Registration of Two Parts using Robot with Multiple 3D Sensor Systems

  • Ha, Jong-Eun
    • Journal of Electrical Engineering and Technology
    • /
    • 제10권4호
    • /
    • pp.1830-1835
    • /
    • 2015
  • In this paper, we propose an algorithm for the automatic registration of two rigid parts using multiple 3D sensor systems on a robot. Four sets of structured laser stripe system consisted of a camera and a visible laser stripe is used for the acquisition of 3D information. Detailed procedures including extrinsic calibration among four 3D sensor systems and hand/eye calibration of 3D sensing system on robot arm are presented. We find a best pose using search-based pose estimation algorithm where cost function is proposed by reflecting geometric constraints between sensor systems and target objects. A pose with minimum gap and height difference is found by greedy search. Experimental result using demo system shows the robustness and feasibility of the proposed algorithm.

이동로봇의 물체인식 기반 전역적 자기위치 추정 (Object Recognition-based Global Localization for Mobile Robots)

  • 박순용;박민용;박성기
    • 로봇학회논문지
    • /
    • 제3권1호
    • /
    • pp.33-41
    • /
    • 2008
  • Based on object recognition technology, we present a new global localization method for robot navigation. For doing this, we model any indoor environment using the following visual cues with a stereo camera; view-based image features for object recognition and those 3D positions for object pose estimation. Also, we use the depth information at the horizontal centerline in image where optical axis passes through, which is similar to the data of the 2D laser range finder. Therefore, we can build a hybrid local node for a topological map that is composed of an indoor environment metric map and an object location map. Based on such modeling, we suggest a coarse-to-fine strategy for estimating the global localization of a mobile robot. The coarse pose is obtained by means of object recognition and SVD based least-squares fitting, and then its refined pose is estimated with a particle filtering algorithm. With real experiments, we show that the proposed method can be an effective vision- based global localization algorithm.

  • PDF

A study on Face Image Classification for Efficient Face Detection Using FLD

  • Nam, Mi-Young;Kim, Kwang-Baek
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2004년도 SMICS 2004 International Symposium on Maritime and Communication Sciences
    • /
    • pp.106-109
    • /
    • 2004
  • Many reported methods assume that the faces in an image or an image sequence have been identified and localization. Face detection from image is a challenging task because of variability in scale, location, orientation and pose. In this paper, we present an efficient linear discriminant for multi-view face detection. Our approaches are based on linear discriminant. We define training data with fisher linear discriminant to efficient learning method. Face detection is considerably difficult because it will be influenced by poses of human face and changes in illumination. This idea can solve the multi-view and scale face detection problem poses. Quickly and efficiently, which fits for detecting face automatically. In this paper, we extract face using fisher linear discriminant that is hierarchical models invariant pose and background. We estimation the pose in detected face and eye detect. The purpose of this paper is to classify face and non-face and efficient fisher linear discriminant..

  • PDF

휴먼 헤드포즈 정보를 이용한 3차원 공간 내 응시점 추정 (Estimation of a Gaze Point in 3D Coordinates using Human Head Pose)

  • 신채림;윤상석
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 추계학술대회
    • /
    • pp.177-179
    • /
    • 2021
  • 본 논문은 실내 공간에서 상호작용 로봇이 사용자의 시선이 응시하는 목표지점의 위치정보를 추정하는 방법을 제안한다. 저가의 웹캠으로부터 RGB 영상을 추출하고, 얼굴검출(Openface)모듈로부터 사용자의 헤드포즈 정보를 획득한 후 기하학적 연산을 적용하여 3차원 공간 내 사용자의 응시방향을 추정하게 된다. 추정된 응시방향과 테이블 상의 평면과의 상관관계를 통하여 최종적으로 사용자가 응시하는 목표 지점의 좌표를 추정하게 된다.

  • PDF

RGB-D 영상으로 복원한 점 집합을 위한 고화질 텍스쳐 추출 (High-quality Texture Extraction for Point Clouds Reconstructed from RGB-D Images)

  • 서웅;박상욱;임인성
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제24권3호
    • /
    • pp.61-71
    • /
    • 2018
  • RGB-D 카메라 촬영 영상에 대한 카메라 포즈 추정을 통하여 복원한 3차원 전역 공간의 점 집합으로부터 삼각형 메쉬를 생성할 때, 일반적으로 메쉬의 크기가 커질수록 3차원 모델의 품질 또한 향상된다. 하지만 어떤 한계를 넘어서 삼각형 메쉬의 해상도를 높일 경우, 메모리 요구량의 과도한 증가나 실시간 렌더링 성능저하 문제뿐만 아니라 RGB-D 센서의 정밀도 한계로 인한 접 집합 데이터의 노이즈에 민감해지는 문제가 발생한다. 본 논문에서는 실시간 응용에 적합한 3차원 모델 생성을 위하여 비교적 적은 크기의 삼각형 메쉬에 대하여 3차원 점 집합의 촬영 색상으로부터 고화질의 텍스쳐를 생성하는 기법을 제안한다. 특히 카메라 포즈 추정을 통하여 생성한 3차원 점 집합 공간과 2차원 텍스쳐 공간 간의 매핑 관계를 활용한 간단한 방법을 통하여 RGB-D 카메라 촬영 영상으로부터 복원한 3차원 모델에 대하여 효과적으로 텍스쳐를 생성할 수 있음을 보인다.

공면 점을 포함한 원형 특징의 3차원 자세 및 위치 추정 (3D Pose Estimation of a Circular Feature With a Coplanar Point)

  • 김헌희;박광현;하윤수
    • 전자공학회논문지SC
    • /
    • 제48권5호
    • /
    • pp.13-24
    • /
    • 2011
  • 본 논문은 3차원 공간의 원형 물체에 대한 자세 및 위치 추정 문제를 다룬다. 원형 특징은 실세계의 다양한 물체들로부터 관찰될 수 있으며, 비전 기반의 물체 식별 및 위치 인식을 위한 주요한 단서를 제공한다. 일반적으로 3차원 공간상의 원형 특징은 카메라에 의해 투영될 때 원근 변화에 따라 투영된 곡선 정보로부터 원형 특징에 대한 완전한 3차원 자세 및 위치 파라미터를 결정하는 것이 어렵다. 따라서 본 논문은 공면 점(共面鮎)을 활용한 원형 특징의 3차원 자세/위치 추정 방법을 제안한다. 본 논문은 우선 원형 특징과 공면 점에 대한 기하학적 변환 관계를 사영 공간 및 3차원 공간에서 해석하고, 이를 토대로 3차원 자세 및 위치 파라미터의 추정 절차를 기술한다. 제안된 방법은 수치 예제를 통해 검증되고, 정확도 및 민감도 분석을 위한 실험을 통해 평가된다.

QR코드 기반의 온라인 모바일 증강현실 시스템의 구현 (An Implementation of QR Code based On-line Mobile Augmented Reality System)

  • 박민우;박정필;정순기
    • 한국멀티미디어학회논문지
    • /
    • 제15권8호
    • /
    • pp.1004-1016
    • /
    • 2012
  • 본 논문에서는 제품에 삽입된 QR코드를 사용해 제품의 상세한 정보를 제공해주는 모바일 증강현실 시스템을 제안한다. 본 시스템에서는 마커기반의 자세 추정 기법과 마커리스 기반의 기법을 함께 적용하여 보다 강인한 카메라 자세 추정을 수행한다. QR코드가 근거리에 있거나, QR코드 전체가 영상 내에 들어올 경우에는 QR코드 내/외부의 사각형 집합을 추적하여 카메라 자세를 추정한다. 하지만, 영상 내에서 마커가 사라지거나, 모바일 기기가 QR코드 식별이 힘든 먼 거리에 위치할 경우 프레임간의 호모그래피에 기반을 둔 카메라 자세 보정을 수행한다. 또한 제안된 시스템은 증강현실 콘텐츠 제작을 위해서 메타데이터를 사용함으로서 사용자가 프로그램 수정 없이 메타데이터 파일을 작성하는 것만으로 다양한 시나리오의 콘텐츠를 제작 및 수정하는 것이 가능하다. 특히 증강현실 콘텐츠 가시화를 위한 메타데이터와 미디어 파일을 온라인 서버를 통해 항상 최신의 상태로 전송받을 수 있기 때문에 프로그램 업데이트와 같은 불필요한 작업을 최소화할 수 있다.

발의 움직임 추적에 의한 3차원 신발모델 정합 시스템 (Registration System of 3D Footwear data by Foot Movements)

  • 정다운;서융호;최종수
    • 대한전자공학회논문지SP
    • /
    • 제44권6호
    • /
    • pp.24-34
    • /
    • 2007
  • 정보화 성장과 함께 인간의 생활도 발전하면서, 정보의 접근이 보다 간편한 시스템들이 개발되고 있다. 본 논문에서는 한대의 카메라를 사용하여 3차원 신발 모델을 발에 정합하는 시스템을 제안한다. 인체 움직임 분석에서 전신 움직임에 대한 연구가 대부분인 것과 달리, 우리는 발의 움직임을 기반으로 한 새로운 움직임 분석 시스템을 제안한다. 본 논문은 시스템이 구현되는 과정과 결과를 설명한다. 3차원 신발모델을 이미지의 발에 투영하기 위해 발 추적, 투영, 자세 추정 과정으로 구성했다. 이 시스템은 2차원 영상 분석과 3차원 자세추정으로 나눠진다. 먼저 발 추적을 위해 발의 형태학적 특성에 따라 특징점을 찾는 방식을 제안한다. 그리고 별도의 영상 교정 없이 한 대의 카메라로 2차원 좌표와 3차원 좌표의 관계를 설정하는 기하학적 수식을 제안한다. 제안한 방법에 따라 응용 시스템을 구현하고 거리 오차를 측정한 결과 거의 유사한 위치로 정합 되는 것을 확인할 수 있었다.

모션 인식을 위한 2D 자세 추정 알고리듬의 이미지 전처리 및 얼굴 가림에 대한 영향도 분석 (Investigation of image preprocessing and face covering influences on motion recognition by a 2D human pose estimation algorithm)

  • 노은솔;이사랑;홍석무
    • 한국산학기술학회논문지
    • /
    • 제21권7호
    • /
    • pp.285-291
    • /
    • 2020
  • 제조 산업에서 인력은 로봇으로 대체되지만 전문 기술은 데이터 변환이 어려워 산업용 로봇에 적용이 불가능하다. 이는 비전 기반의 모션 인식 방법으로 데이터 확보가 가능하나 이미지 데이터에 따라 판단 값이 달라질 수 있다. 따라서 본 연구는 비전 방법을 사용해 사람의 자세를 추정 시 영향을 미치는 인자를 고려해 정확성 향상 방법을 찾고자 한다. 비전 방법 중 OpenPose의 3가지 모델 MPII, COCO 및 COCO + foot을 사용했으며, CNN(Convolutional Neural Networks)을 사용한 OpenPose 구조에서 얼굴 가림 및 이미지 전처리에 미치는 영향을 확인하고자 액세서리의 유무, 이미지 크기 및 필터링을 매개 변수로 설정했다. 각 매개 변수 별 이미지 데이터를 3 가지 모델에 적용해 실제 값과 예측 값 사이 거리 오차와 PCK (Percentage of correct Keypoint)로 영향도를 판단했다. 그 결과 COCO + foot 모델은 3 가지 매개 변수에 대한 민감도가 가장 낮았다. 또한 이미지 크기는 50% (원본 3024 × 4032에서 1512 × 2016로 축소) 이상 비율이 가장 적절하며, MPII 모델만 emboss 필터링을 적용할 때 거리 오차 평균이 최대 60pixel 감소되어 향상된 결과를 얻었다.