• 제목/요약/키워드: Human Gesture Recognition

검색결과 197건 처리시간 0.022초

손 동작 인식을 통한 인간 - 컴퓨터 인터페이스용 저가형 비주얼 모션 데이터 글러브 (Inexpensive Visual Motion Data Glove for Human-Computer Interface Via Hand Gesture Recognition)

  • 한영모
    • 정보처리학회논문지B
    • /
    • 제16B권5호
    • /
    • pp.341-346
    • /
    • 2009
  • 모션 데이터 글러브는 손의 움직임을 측정하여 컴퓨터에 입력하는 대표적인 인간과 컴퓨터간의 인터페이스 도구로서, 홈 오토에이션, 가상 현실, biometrics, 모션 캡쳐 등의 컴퓨터 신기술에 사용되는 필수 장비이다. 본 논문에서는 대중화를 위하여, 별도의 특수 장비 없이 사용 가능한 저가형 비주얼 모션 데이터 글러브를 개발하고자 한다. 본 방식의 특징은 기존의 모션 데이터 글러브에 사용되었던, 고가의 모션 센싱 섬유를 사용하지 않음으로써, 저가형으로 개발이 가능하다는 것이다. 따라서 제작이 용이하고 대중화에 크게 기여할 수 있다는 장점을 가진다. 본 방식에서는 모션 센싱 섬유를 사용하는 기계적인 방식대신 광학적 모션 캡쳐 기술을 개량한 비주얼 방식을 채택한다. 기존의 비주얼 방식에 비해 본 방식은 다음과 같은 장점과 독창성을 가진다. 첫째, 기존의 비주얼 방식은 가려짐 현상을 제거하고 3차원 자세 복원을 위해 많은 수의 카메라와 장비를 사용하는 데 비해, 본 방식은 모노비전 방식을 채택하여 장비가 간소하고 저가형 개발이 가능하다. 둘째, 기존의 모노비전방삭은 가려짐 현상에 취약하여 영상에서 가려진 부분은 3차원 자세 복원이 어려웠다. 하지만 본 논문은 독창적으로 설계된 막대 모양의 지시자를 사용하여, 영상에서 가려진 부분도 3차원 자세 복원이 가능하다. 셋째, 기존의 모노 비전 방식은 비선형 수치해석 형태의 영상 해석 알고리즘을 사용하는 경우가 많아서 초기화나 계산시간 면에서 불편하였다. 하지만, 본 논문에서는 독창적인 공식화 방법을 사용하여 닫힌 형태의 영상해석 알고리즘을 도출함으로써 이와 같은 불편을 개선하였다. 넷째, 기존의 닫힌 형태의 알고리즘은 공식화 과정에서 근사화 방법을 도입하는 경우가 많아서 정확도가 떨어지고 특이점에 의한 응용분야에 제한이 있었다. 하지만 본 방식은 오일러 각과 같은 국부적인 매개화나 근사화 등을 사용하는 대신 지수형태의 트위스트좌표계를 사용하는 독창적인 공식화 방법을 사용하여, 공식화 단계에서의 근사화 방법 없이 닫힌 형태의 알고리즘을 도출함으로써 이 문제들을 개선하였다.

오류-역전파 신경망 기반의 얼굴 검출 및 포즈 추정 (Back-Propagation Neural Network Based Face Detection and Pose Estimation)

  • 이재훈;전인자;이정훈;이필규
    • 정보처리학회논문지B
    • /
    • 제9B권6호
    • /
    • pp.853-862
    • /
    • 2002
  • 얼굴 검출은 디지털화 된 임의의 정지 영상 혹은 연속된 영상으로부터 얼굴 존재유무를 판단하고, 얼굴이 존재할 경우 영상 내 얼굴의 위치, 방향, 크기 등을 알아내는 기술로 정의된다. 이러한 얼굴 검출은 얼굴 인식이나 표정인식, 헤드 제스쳐 등의 기초 기술로서해당 시스템의 성능에 매우 중요한 변수 중에 하나이다. 그러나 영상 내의 얼굴은 표정, 포즈, 크기, 빛의 방향 및 밝기, 안경, 수염 등의 환경적 변화로 인해 얼굴 모양이 다양해지므로 정확하고 빠른 검출이 어렵다. 따라서 본 논문에서는 오류-역전파 신경망을 사용하여 몇가지 환경적 조건을 극복한 정확하고 빠른 얼굴 검출 방법을 제안한다. 제안된 방법은 표정과 포즈, 배경에 무관하게 얼굴을 검출하면서도 빠른 검출이 가능하다. 이를 위해 신경망을 이용하여 얼굴 검출을 수행하고, 검색 영역의 축소와 신경망 계산 시간의 단축으로 검출 응답 시간을 빠르게 하였다. 검색 영역의 축소는 영상 내 피부색 영역의 분할과 차영상을 이용하였고, 주성분 분석을 통해 신경망의 입력 백터를 축소시킴으로써 신경망 수행 시간과 학습 시간을 단축시켰다. 또, 추출된 얼굴 영상에서 포즈를 추정하고 눈 영역을 검출함으로써 얼굴 정보의 사용에 있어 보다 많은 정보를 추출할 수 있도록 하였다. 얼굴 검출 실험은 마할라노비스 거리를 사용하여 검출된 영상의 얼굴 여부를 판정하고, 성공률과 시간을 측정하였다. 정지 영상과 동영상에서 모두 실험하였으며, 피부색 영역의 분할을 사용할 경우 입력 영상의 칼라 설정의 유무에 다른 검출 성공률의 차를 보였다. 포즈 실험도 같은 조건에서 수행되었으며, 눈 영역의 검출은 안경의 유무에 다른 실험 결과를 보였다. 실험 결과 실시간 시스템에 사용 가능한 수준의 검색률과 검색 시간을 보였다.

W3C 기반 상호연동 가능한 멀티모달 커뮤니케이터 (W3C based Interoperable Multimodal Communicator)

  • 박대민;권대혁;최진혁;이인재;최해철
    • 방송공학회논문지
    • /
    • 제20권1호
    • /
    • pp.140-152
    • /
    • 2015
  • 최근 사용자와 컴퓨터간의 양방향 상호작용을 가능하게 하는 HCI(Human Computer Interaction) 연구를 위해 인간의 의사소통 체계와 유사한 인터페이스 기술들이 개발되고 있다. 이러한 인간과의 의사소통 과정에서 사용되는 커뮤니케이션 채널을 모달리티라고 부르며, 다양한 단말기 및 서비스 환경에 따라 최적의 사용자 인터페이스를 제공하기 위해서 두 개 이상의 모달리티를 활용하는 멀티모달 인터페이스가 활발히 연구되고 있다. 하지만, 멀티모달 인터페이스를 사용하기에는 각각의 모달리티가 갖는 정보 형식이 서로 상이하기 때문에 상호 연동이 어려우며 상호 보완적인 성능을 발휘하는데 한계가 있다. 이에 따라 본 논문은 W3C(World Wide Web Consortium)의 EMMA(Extensible Multimodal Annotation Markup language)와 MMI(Multimodal Interaction Framework)표준에 기반하여 복수의 모달리티를 상호연동할 수 있는 멀티모달 커뮤니케이터를 제안한다. 멀티모달 커뮤니케이터는 W3C 표준에 포함된 MC(Modality Component), IM(Interaction Manager), PC(Presentation Component)로 구성되며 국제 표준에 기반하여 설계하였기 때문에 다양한 모달리티의 수용 및 확장이 용이하다. 실험에서는 시선 추적과 동작 인식 모달리티를 이용하여 지도 탐색 시나리오에 멀티모달 커뮤니케이터를 적용한 사례를 제시한다.

결합된 파티클 필터에 기반한 강인한 3차원 손 추적 (Robust 3D Hand Tracking based on a Coupled Particle Filter)

  • 안우석;석흥일;이성환
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권1호
    • /
    • pp.80-84
    • /
    • 2010
  • 손 추적 기술은 인간과 기계와의 효율적인 의사소통을 위한 손동작 인식 기술의 핵심 기반 기술이다. 최근의 손 추적 연구는 3차원 손 모델을 이용한 연구 방향에 초점을 맞추고 있고, 기존의 2차원 손 모델을 이용한 방법보다 강인한 추적 성능을 보이고 있다. 본 논문에서는 결합된 파티클 필터에 기반한 새로운 3차원 손 추적 방법을 제안한다. 이는 전역적 손 형상과 지역적 손가락 움직임을 분리하여 추정하고, 각각의 추정 결과를 서로의 사전 정보로 이용하여 기존의 방법보다 빠르고 강인한 추적을 가능하게 한다. 또한, 추적 성능 향상을 위해 색상과 에지를 함께 고려한 다중 증거 결합 방법을 적용한다. 실험결과, 제안하는 방법은 복잡한 배경이나 동작에서도 강인한 추적 결과를 보였다.

포인트 클라우드 형태의 인터랙티브 홀로그램 콘텐츠 (Point Cloud Content in Form of Interactive Holograms)

  • 김동현;김상욱
    • 한국콘텐츠학회논문지
    • /
    • 제12권9호
    • /
    • pp.40-47
    • /
    • 2012
  • 미디어 아트는 새로운 경로의 인식과 지각을 동반하고, 기존의 미술과는 다른 인간의 신체를 도구화 하여 상호작용을 만들어내는 새로운 감상방식을 제안한다. 시각적인 영상을 제작하는 방식 중 포인트 클라우드는 점으로 형태를 표현한다는 점에 있어 서양미술의 점묘법과 유사하며 이는 전통회화 기법을 디지털 기술을 활용해 재구성한다는 의미를 가진다. 본 논문에서는 미학적 요소와 디지털 기술을 융합한 새로운 감상방식으로 포인트 클라우드 형태의 영상을 제작하여 홀로그램 필름에 투사하고, 관람자의 손짓이 영상과 상호작용하는 콘텐츠를 제시한다. 콘텐츠 제작은 콘텐츠 제작 배경 의도를 기획하고 포인트 클라우드 형태의 이미지 제작, 상호작용을 위한 3D 제스처 디자인 과정을 거쳐 최종적으로 홀로그램 필름에 투사하는 과정을 거친다. 콘텐츠는 사람의 의식 속에서 일어나는 기억의 회상 과정을 시각적, 체감적으로 표현한다. 이를 위해 기억의 회상 과정을 불확실한 기억, 기억의 구체화, 완전한 회상으로 설정하였다. 불확실한 기억은 포인트 클라우드 형태의 이미지를 통해 모호한 형태의 이미지로 표현되고, 상호작용으로 이미지를 조작하는 행위를 통해 기억을 구체화 해 나가면서 완전한 회상을 하게 된다.

광공진 현상을 이용한 입체 영상센서 및 신호처리 기법 (Optical Resonance-based Three Dimensional Sensing Device and its Signal Processing)

  • 박용화;유장우;박창영;윤희선
    • 한국소음진동공학회:학술대회논문집
    • /
    • 한국소음진동공학회 2013년도 추계학술대회 논문집
    • /
    • pp.763-764
    • /
    • 2013
  • A three-dimensional image capturing device and its signal processing algorithm and apparatus are presented. Three dimensional information is one of emerging differentiators that provides consumers with more realistic and immersive experiences in user interface, game, 3D-virtual reality, and 3D display. It has the depth information of a scene together with conventional color image so that full-information of real life that human eyes experience can be captured, recorded and reproduced. 20 Mega-Hertz-switching high speed image shutter device for 3D image capturing and its application to system prototype are presented[1,2]. For 3D image capturing, the system utilizes Time-of-Flight (TOF) principle by means of 20MHz high-speed micro-optical image modulator, so called 'optical resonator'. The high speed image modulation is obtained using the electro-optic operation of the multi-layer stacked structure having diffractive mirrors and optical resonance cavity which maximizes the magnitude of optical modulation[3,4]. The optical resonator is specially designed and fabricated realizing low resistance-capacitance cell structures having small RC-time constant. The optical shutter is positioned in front of a standard high resolution CMOS image sensor and modulates the IR image reflected from the object to capture a depth image (Figure 1). Suggested novel optical resonator enables capturing of a full HD depth image with depth accuracy of mm-scale, which is the largest depth image resolution among the-state-of-the-arts, which have been limited up to VGA. The 3D camera prototype realizes color/depth concurrent sensing optical architecture to capture 14Mp color and full HD depth images, simultaneously (Figure 2,3). The resulting high definition color/depth image and its capturing device have crucial impact on 3D business eco-system in IT industry especially as 3D image sensing means in the fields of 3D camera, gesture recognition, user interface, and 3D display. This paper presents MEMS-based optical resonator design, fabrication, 3D camera system prototype and signal processing algorithms.

  • PDF

립모션 기반의 윈도우즈 애플리케이션 제어 모델에 관한 연구 (A Study on the Windows Application Control Model Based on Leap Motion)

  • 김원
    • 한국융합학회논문지
    • /
    • 제10권11호
    • /
    • pp.111-116
    • /
    • 2019
  • 최근 컴퓨터 능력의 급속한 발전으로 인간과 컴퓨터간의 상호 작용을 편리하게 연결할 수 있는 많은 기술들이 연구되고 있는 상황으로, 전통적인 입력장치를 사용한 GUI에서 3D 모션, 햅틱, 멀티 터치와 같은 신체를 이용한 NUI로 패러다임이 변화되고 있는 추세이다. 인간의 동작을 센서를 이용하여 컴퓨터에 전달하는 많은 연구가 이루어지고 있으며, 3D 객체를 획득할 수 있는 광학 센서의 개발과 더불어 산업 및 의료 분야, 사용자 인터페이스 분야 등으로 응용 범위가 확장되고 있다. 본 논문에서는 립모션을 기반으로 사용자의 손동작에 따라 기본 입력장치인 마우스를 대신하여 제스처를 통한 타 프로그램 실행 및 윈도우즈 제어가 가능하며, 안드로이드 앱과 융합하여 메인 클라이언트와 연결을 통하여, 음성인식과 버튼을 사용해 각종 미디어와 음성 명령 기능을 통한 제어가 가능한 모델을 제안한다. 제안 모델을 통하여 영상, 음악과 같은 인터넷 미디어를 클라이언트 컴퓨터 뿐만 아니라 앱을 통한 원거리 제어가 가능하여, 편리하게 미디어를 시청할 수 있을 것으로 기대된다.