• 제목/요약/키워드: bounding box

검색결과 156건 처리시간 0.024초

계층적 군집화 기반 Re-ID를 활용한 객체별 행동 및 표정 검출용 영상 분석 시스템 (Video Analysis System for Action and Emotion Detection by Object with Hierarchical Clustering based Re-ID)

  • 이상현;양성훈;오승진;강진범
    • 지능정보연구
    • /
    • 제28권1호
    • /
    • pp.89-106
    • /
    • 2022
  • 최근 영상 데이터의 급증으로 이를 효과적으로 처리하기 위해 객체 탐지 및 추적, 행동 인식, 표정 인식, 재식별(Re-ID)과 같은 다양한 컴퓨터비전 기술에 대한 수요도 급증했다. 그러나 객체 탐지 및 추적 기술은 객체의 영상 촬영 장소 이탈과 재등장, 오클루전(Occlusion) 등과 같이 성능을 저하시키는 많은 어려움을 안고 있다. 이에 따라 객체 탐지 및 추적 모델을 근간으로 하는 행동 및 표정 인식 모델 또한 객체별 데이터 추출에 난항을 겪는다. 또한 다양한 모델을 활용한 딥러닝 아키텍처는 병목과 최적화 부족으로 성능 저하를 겪는다. 본 연구에서는 YOLOv5기반 DeepSORT 객체추적 모델, SlowFast 기반 행동 인식 모델, Torchreid 기반 재식별 모델, 그리고 AWS Rekognition의 표정 인식 모델을 활용한 영상 분석 시스템에 단일 연결 계층적 군집화(Single-linkage Hierarchical Clustering)를 활용한 재식별(Re-ID) 기법과 GPU의 메모리 스루풋(Throughput)을 극대화하는 처리 기법을 적용한 행동 및 표정 검출용 영상 분석 시스템을 제안한다. 본 연구에서 제안한 시스템은 간단한 메트릭을 사용하는 재식별 모델의 성능보다 높은 정확도와 실시간에 가까운 처리 성능을 가지며, 객체의 영상 촬영 장소 이탈과 재등장, 오클루전 등에 의한 추적 실패를 방지하고 영상 내 객체별 행동 및 표정 인식 결과를 동일 객체에 지속적으로 연동하여 영상을 효율적으로 분석할 수 있다.

가상 현실 게임 환경에서의 가상 손 제어를 위한 사용자 손 인식 방법 (A Method of Hand Recognition for Virtual Hand Control of Virtual Reality Game Environment)

  • 김부년;김종호;김태영
    • 한국게임학회 논문지
    • /
    • 제10권2호
    • /
    • pp.49-56
    • /
    • 2010
  • 본 논문에서는 사용자의 손을 인식하여 가상현실 게임 환경에서 가상의 손을 제어할 수 있는 방법을 제안한다. 카메라를 통해 획득한 영상을 통하여 사용자의 손 이동과 가리키는 방향에 대한 정보를 획득하고 이를 이용하여 가상의 손을 게임 화면에 나타낸다. 사용자의 손의 움직임은 가상의 손이 물건을 선택하고 옮기도록 하는 입력 인터페이스로 활용할 수 있다. 제안하는 방법은 비전 기반 손 인식 기법으로 먼저 RGB 컬러영역에서 HSV 컬러영역으로 입력영상을 변환하고 H, S 값에 대한 이중 임계값과 연결 요소 분석을 이용하여 손 영역을 분할한다. 다음으로 분할된 영역에 대하여 0, 1차 모멘트를 적용하고 이를 이용하여 손 영역에 대한 무게 중심점을 구한다. 구해진 무게중심점은 손의 중심에 위치하게 되며, 분할된 손 영역의 픽셀 집합 중 무게중심점으로부터 멀리 떨어진 픽셀들을 손가락의 끝점으로 인식한다. 마지막으로 무게중심점과 손 끝점에 대한 벡터를 통하여 손의 축을 구한다. 인식 안정성과 성능을 높이기 위하여 누적 버퍼를 이용한 떨림 보정과 경계상자를 이용한 처리 영역을 설정하였다. 본 논문의 방법은 기존의 비전 기술을 통한 손 인식 방법들에 비하여 별도의 착용 마커를 두지 않고 실시간으로 처리가 가능하다. 다양한 입력 영상들에 대한 실험 결과는 제안 기법으로 정확하게 손을 분할하고, 안정된 인식 결과를 고속으로 처리할 수 있음을 보여주었다.

MPEG-2 압축 영역에서 움직이는 객체의 추적 및 해석 (Tracking and Interpretation of Moving Object in MPEG-2 Compressed Domain)

  • 문수정;유원영;김준철;이준환
    • 정보처리학회논문지B
    • /
    • 제11B권1호
    • /
    • pp.27-34
    • /
    • 2004
  • 본 논문에서는 MPEG-2비디오 스트림에서 복호화 과정 없이 압축비디오에서 직접 얻을 수 있는 정보들을 활용하여 움직이는 객체를 추적하고 해석하는 방법을 제안한다. 제안된 방법에서는 먼저 MPEG-2의 움직임 벡터로부터 근사적으로 움직임 플로우(motion new)를 구성하고, 전역 적인 움직임 플로우로부터 일반화된 Hough 변환을 이용 카메라의 기본적인 움직임인 팬(pan), 틸트(tilt), 줌(zoom)량 등을 계산하였다. 계산된 카메라 움직임은 국부적으로 일어나는 객체의 움직임을 보정하는데 사용하였다. 움직이는 객체의 추적은 사용자가 원하는 객체를 바운딩 박스 형태로 정의함으로 시동된다. 이후의 객체의 추적은 카메라 움직임이 보정된 객체의 움직임 플로우를 한 GOP(Group of Pictures)단위로 면적 기여도에 따라 누적하여 추적하였다. 또한 추적오차의 누적을 막기 위해 매 GOP마다 DCT(Discrete Cosine Transform) 정보를 이용하여 초기 바운딩 박스와 매칭을 통해 객체의 영역을 재 설정하였다. 제안된 방법은 압축된 비디오 스트림에서 직접 정보를 얻음으로써 계산속도의 향상을 기할 수 있으나, 압축된 MPEG-2 비디오에서 얻을 수 있는 정보들이 최대 블록 단위이므로 객체의 정의도 블록단위 이상의 객체로 제한되며, 이용한 수 있는 정보가 제한되어 있기 때문에 정확한 객체추적보다는 근사적인 객체추적에 적합하다.

조명 변화에 안정적인 손 형태 인지 기술 (A Robust Hand Recognition Method to Variations in Lighting)

  • 최유주;이제성;유효선;이정원;조위덕
    • 정보처리학회논문지B
    • /
    • 제15B권1호
    • /
    • pp.25-36
    • /
    • 2008
  • 본 논문은 조명의 변화가 심한 영상에서 손 형태를 안정적으로 인지하는 기법에 관한 것이다. 제안한 방법은 HSI 색상공간에서 색상(Hue) 및 색상 기울기(Hue-Gradient)를 기반으로 정의된 배경모델을 구축하고, 실시간으로 입력되는 영상과의 배경차분(background subtraction)기법을 이용하여 배경과 손을 구분한다. 추출된 손의 영역으로부터 18가지의 특징요소를 추출하고 이를 기반으로 다중클래스 SVM(Support Vector Machine) 학습 기법을 사용하여 손의 형태를 인지한다. 제안 기법은 색상 기울기를 배경 차분에 적용함으로써, 조명 환경이 배경 모델의 조명과 다르게 급격한 변화가 이루어졌을 때도 안정적으로 손의 윤곽정보를 추출할 수 있도록 하였다. 또한, 실시간 처리를 저해하는 복잡한 손의 특성정보 대신, OBB의 크기에 대하여 정규화된 두 개의 고유값과 객체 기반 바운딩 박스(OBB)를 구성하는 16개 세부 영역에서의 손 윤곽픽셀의 개수를 손의 특성정보로 사용하였다. 본 논문에서는 급격한 조명 변화 상황에서 기존 RGB 색상요소를 기반으로 하는 배경차분법과 색상을 기반으로 하는 배경차분법, 본 논문에서 제안하는 색상 기울기 기반 배경 차분법의 결과를 비교함으로써 제안 기법의 안정성을 입증하였다. 6명의 실험대상자의 1부터 9까지의 수지화 2700개의 영상으로부터 손 특성 정보를 추출하고 이에 대하여 훈련을 통한 학습 모델을 생성하였다. 학습모델을 기반으로 실험자 6인의 손 형태 1620개의 데이터에 대하여 인지 실험을 실시하여 92.6%에 이르는 손 형태 인식 성공률을 얻었다.

PoseNet과 GRU를 이용한 Skeleton Keypoints 기반 낙상 감지 (Human Skeleton Keypoints based Fall Detection using GRU)

  • 강윤규;강희용;원달수
    • 한국산학기술학회논문지
    • /
    • 제22권2호
    • /
    • pp.127-133
    • /
    • 2021
  • 낙상 판단을 위한 최근 발표되는 연구는 RNN(Recurrent Neural Network)을 이용한 낙상 동작 특징 분석과 동작 분류에 집중되어 있다. 웨어러블 센서를 기반으로 한 접근 방식은 높은 탐지율을 제공하나 사용자의 착용 불편으로 보편화 되지 못했고 최근 영상이나 이미지 기반에 딥러닝 접근방식을 이용한 낙상 감지방법이 소개 되었다. 본 논문은 2D RGB 저가 카메라에서 얻은 영상을 PoseNet을 이용해 추출한 인체 골격 키포인트(Keypoints) 정보로 머리와 어깨의 키포인트들의 위치와 위치 변화 가속도를 추정함으로써 낙상 판단의 정확도를 높이기 위한 감지 방법을 연구하였다. 특히 낙상 후 자세 특징 추출을 기반으로 Convolutional Neural Networks 중 Gated Recurrent Unit 기법을 사용하는 비전 기반 낙상 감지 솔루션을 제안한다. 인체 골격 특징 추출을 위해 공개 데이터 세트를 사용하였고, 동작분류 정확도를 높이는 기법으로 코, 좌우 눈 그리고 양쪽 귀를 포함하는 머리와 어깨를 하나의 세그먼트로 하는 특징 추출 방법을 적용해, 세그먼트의 하강 속도와 17개의 인체 골격 키포인트가 구성하는 바운딩 박스(Bounding Box)의 높이 대 폭의 비율을 융합하여 실험을 하였다. 제안한 방법은 기존 원시골격 데이터 사용 기법보다 낙상 탐지에 보다 효과적이며 실험환경에서 약 99.8%의 성공률을 보였다.

형태학과 문자의 모양을 이용한 뉴스 비디오에서의 자동 문자 추출 (Automatic Text Extraction from News Video using Morphology and Text Shape)

  • 장인영;고병철;김길천;변혜란
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제8권4호
    • /
    • pp.479-488
    • /
    • 2002
  • 최근 들어 인터넷 사용의 증가와 더불어 디지털 비디오의 수요 또한 급격히 증가하고 있는 추세이다. 따라서 디지털 비디오 데이타베이스의 인덱싱을 위한 자동화된 도구가 필요하게 되었다. 디지털비디오 영상에 인위적으로 삽입되어진 문자와 배경에 자연적으로 포함되어진 배경문자 등의 문자 정보는 이러한 비디오 인덱싱을 위한 중요한 단서가 되어질 수 있다. 본 논문에서는 뉴스 비디오의 정지 영상에서 뉴스 자막과 배경 문자를 추출하기 위한 새로운 방법을 제안한다. 제안된 알고리즘은 다음과 같이 세 단계로 구성된다. 첫 번째 전처리 단계에서는 입력된 컬러 영상을 명도 영상으로 변환하고, 히스토그램 스트레칭을 적용하여 영상의 수준을 향상시킨다. 이 영상에 적응적 임계값 추출에 의한 분할 방법을 수정 적용하여 영상을 분할한다. 두 번째 단계에서는 적응적 이진화가 적용된 결과 영상에 모폴로지 연산을 적절하게 사용하여, 우선 문자 영역은 아니면서 문자로 판단되기 쉬운 양의 오류(false-positive) 요소들이 강조되어 남아있는 영상을 만든다. 또한, 변형된 이진화 결과 영상에 모폴로지 연산과 본 논문에서 제안한 기하학적 보정(Geo-corrertion) 필터링 방법을 적용하여 문자와 문자로 판단되기 쉬운 요소들이 모두 강조되어 남아있는 영상을 만든다. 이 두 영상의 차를 구함으로서 찾고자 하는 문자 요소들이 주로 남고, 문자가 아닌 문자처럼 보이는 오류 요소들은 대부분 제거된 결과 영상을 만든다. 문자로 판단되는 양의 오류 영역들을 남기는데 사용된 모폴로지 연산은 3$\times$3 크기의 구조 요소를 갖는 열림과 (열림닫힘+닫힘열림)/2 이며, 문자 및 문자와 유사한 요소들을 남기는데 사용된 연산은 (열림닫힘+닫힘열림)/2와 기하학적 보정이다. 세 번째 검증 단계에서는 전체 영상 화소수 대비 각 후보 문자 영역의 화소수 비율, 각 후보 문자 영역의 전체 화소수 대비 외곽선의 화소수 비율, 각 외곽 사각형의 폭 대 높이간의 비율 등을 고려하여 비문자로 판단되는 요소들을 제거한다. 임의의 300개의 국내 뉴스 영상을 대상으로 실험한 결과 93.6%의 문자 추출률을 얻을 수 있었다. 또한, 본 논문에서 제안한 방법으로 국외 뉴스, 영화 비디오 등의 영상에서도 좋은 추출을 보임을 확인할 수 있었다.