• 제목/요약/키워드: Multi-Modal Recognition

검색결과 68건 처리시간 0.03초

음성 및 제스처를 이용한 멀티 모달 명령어 인식 시스템 (Multi-Modal Instruction Recognition System using Speech and Gesture)

  • 김정현;노용완;권형준;홍광석
    • 융합신호처리학회 학술대회논문집
    • /
    • 한국신호처리시스템학회 2006년도 하계 학술대회 논문집
    • /
    • pp.57-62
    • /
    • 2006
  • 휴대용 단말기의 소형화 및 지능화와 더불어 차세대 PC 기반의 유비쿼터스 컴퓨팅에 대한 관심이 높아짐에 따라 최근에는 펜이나 음성 입력 멀티미디어 등 여러 가지 대화 모드를 구비한 멀티 모달 상호작용 (Multi-Modal Interaction MMI)에 대한 연구가 활발히 진행되고 있다. 따라서, 본 논문에서는 잡음 환경에서의 명확한 의사 전달 및 휴대용 단말기에서의 음성-제스처 통합 인식을 위한 인터페이스의 연구를 목적으로 Voice-XML과 Wearable Personal Station(WPS) 기반의 음성 및 내장형 수화 인식기를 통합한 멀티 모달 명령어 인식 시스템 (Multi-Modal Instruction Recognition System : MMIRS)을 제안하고 구현한다. 제안되어진 MMIRS는 한국 표준 수화 (The Korean Standard Sign Language : KSSL)에 상응하는 문장 및 단어 단위의 명령어 인식 모델에 대하여 음성뿐만 아니라 화자의 수화제스처 명령어를 함께 인식하고 사용함에 따라 잡음 환경에서도 규정된 명령어 모델에 대한 인식 성능의 향상을 기대할 수 있다. MMIRS의 인식 성능을 평가하기 위하여, 15인의 피험자가 62개의 문장형 인식 모델과 104개의 단어인식 모델에 대하여 음성과 수화 제스처를 연속적으로 표현하고, 이를 인식함에 있어 개별 명령어 인식기 및 MMIRS의 평균 인식율을 비교하고 분석하였으며 MMIRS는 문장형 명령어 인식모델에 대하여 잡음환경에서는 93.45%, 비잡음환경에서는 95.26%의 평균 인식율을 나타내었다.

  • PDF

제스처 및 음성 인식을 이용한 윈도우 시스템 제어에 관한 연구 (Study about Windows System Control Using Gesture and Speech Recognition)

  • 김주홍;진성일이남호이용범
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 1998년도 추계종합학술대회 논문집
    • /
    • pp.1289-1292
    • /
    • 1998
  • HCI(human computer interface) technologies have been often implemented using mouse, keyboard and joystick. Because mouse and keyboard are used only in limited situation, More natural HCI methods such as speech based method and gesture based method recently attract wide attention. In this paper, we present multi-modal input system to control Windows system for practical use of multi-media computer. Our multi-modal input system consists of three parts. First one is virtual-hand mouse part. This part is to replace mouse control with a set of gestures. Second one is Windows control system using speech recognition. Third one is Windows control system using gesture recognition. We introduce neural network and HMM methods to recognize speeches and gestures. The results of three parts interface directly to CPU and through Windows.

  • PDF

균등화 및 분류기에 따른 다중 생체 인식 시스템의 성능 평가 (Performance Evaluation of Multimodal Biometric System for Normalization Methods and Classifiers)

  • 고현주;우나영;신용녀;김재성;김학일;전명근
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권4호
    • /
    • pp.377-388
    • /
    • 2007
  • 본 연구는 다중 생체 인식 기법을 이용하여 개인 확인 및 인증을 구현한 것으로, 단일생체인식 에서 많이 사용되어 지고 있는 생체 정보 중 얼굴과 지문, 홍채를 이용하여 상호 비교하고 구현하였다. 이를 위한 결합방식으로 단일 생체인식에서 얻은 유사도를 이용하는 방식인 유사도 단계에서의 결합방식을 적용하였으며, 이때의 각 유사도가 동일한 범위가 되도록 하는 여러 가지 균등화 방법에 대하여 연구하였다. 결합방법으로는 가중치 합, Support Vector Machine, Fisher 분류기, 베이시안 분류기를 사용하여 비교하였다. 다양한 실험결과, 사용되는 다중생체인식 조합에 따라 우수한 성능을 보이는 균등화 방법 및 분류기가 다르게 나타남을 알 수 있었다.

홍채인식과 얼굴인식을 이용한 다중생체인식 (Multi-Modal Biometrics Recognition Using the Iris Recognition and Face Recognition)

  • 유병진;고현주;권만준;전명근
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 추계학술발표대회 및 정기총회
    • /
    • pp.427-430
    • /
    • 2005
  • 본 연구는 기존 단일 생체인식의 단점을 보완하기 위해 다중생체인식(Multi-Modal Biometrics Recognition)기법을 연구한 것으로, 홍채영상을 이용한 홍채인식과 얼굴영상을 이용한 얼굴인식을 융합하기 위해 다양한 방법을 시도해 보았다. 이에, CBNU 홍채 영상데이터를 사용한 홍채인식은 Gabor Wavelet과 FLDA(Fuzzy Linear Discriminant Analysis)를 이용하였으며, FERET 얼굴영상데이터를 사용한 얼굴인식도 FLDA를 이용하여 패턴의 특징을 추출하고 matching에 따른 score를 각각 획득한다. 얻어진 두 score 값에 대하여 다양한 균등화과정을 사용해 보았으며, 다중생체인식 융합방법중 하나인 Weight sum rule을 적용하여 인식률을 얻었다. 또한, 단일 생체인식의 경우보다 좋은 성능을 나타냄을 확인하기 위해 FRR과 FAR등의 인식률 평가방법을 사용하였으며, 기존 단일생체인식 방법보다 좋은 성능을 보이고 있음을 확인할 수 있었다.

  • PDF

멀티 모달 감정인식 시스템 기반 상황인식 서비스 추론 기술 개발 (Development of Context Awareness and Service Reasoning Technique for Handicapped People)

  • 고광은;심귀보
    • 한국지능시스템학회논문지
    • /
    • 제19권1호
    • /
    • pp.34-39
    • /
    • 2009
  • 사람의 감정은 주관적인 인식 작용으로서 충동적인 성향을 띄고 있으며 무의식중의 사람의 욕구와 의도를 표현하고 있다. 이는 유비쿼터스 컴퓨팅 환경이나 지능형 로봇의 사용자가 처한 환경의 상황정보 중에서 사용자의 의도를 가장 많이 포함하고 있는 정보라고 할 수 있다. 이러한 사용자의 감정을 파악할 수 있는 지표는 사람의 얼굴 영상에서의 표정과 음성신호에서의 Spectrum 통계치 및 생체신호(근전위, 뇌파, 등)등 이다. 본 논문에서는 감정인식 활용의 편의와 효율성 향상을 주목적으로 하여 사용자의 얼굴 영상과 음성을 이용한 감정인식에 대하여 개별 결과물만을 산출하고 그 인식률을 검토한다. 또한 임의의 상황에서의 인식률 향상을 위하여 영상과 음성의 특징을 기반으로 최적의 특징 정보들을 구별해 내고, 각각의 개별 감정 특징에 대한 융합을 시도하는 특징 융합 기반의 Multi-Modal 감정인식 기법을 구현한다. 최종적으로 감정인식 결과를 이용하여 유비쿼터스 컴퓨팅 환경에서 발생 가능한 상황 설정 시나리오와 베이지만 네트워크를 통해 유비쿼터스 컴퓨팅 서비스의 확률 추론 가능성을 제시하고자 한다.

준 지도학습과 여러 개의 딥 뉴럴 네트워크를 사용한 멀티 모달 기반 감정 인식 알고리즘 (Multi-modal Emotion Recognition using Semi-supervised Learning and Multiple Neural Networks in the Wild)

  • 김대하;송병철
    • 방송공학회논문지
    • /
    • 제23권3호
    • /
    • pp.351-360
    • /
    • 2018
  • 인간 감정 인식은 컴퓨터 비전 및 인공 지능 영역에서 지속적인 관심을 받는 연구 주제이다. 본 논문에서는 wild 환경에서 이미지, 얼굴 특징점 및 음성신호로 구성된 multi-modal 신호를 기반으로 여러 신경망을 통해 인간의 감정을 분류하는 방법을 제안한다. 제안 방법은 다음과 같은 특징을 갖는다. 첫째, multi task learning과 비디오의 시공간 특성을 이용한 준 감독 학습을 사용함으로써 영상 기반 네트워크의 학습 성능을 크게 향상시켰다. 둘째, 얼굴의 1 차원 랜드 마크 정보를 2 차원 영상으로 변환하는 모델을 새로 제안하였고, 이를 바탕으로 한 CNN-LSTM 네트워크를 제안하여 감정 인식을 향상시켰다. 셋째, 특정 감정에 오디오 신호가 매우 효과적이라는 관측을 기반으로 특정 감정에 robust한 오디오 심층 학습 메커니즘을 제안한다. 마지막으로 소위 적응적 감정 융합 (emotion adaptive fusion)을 적용하여 여러 네트워크의 시너지 효과를 극대화한다. 제안 네트워크는 기존의 지도 학습과 반 지도학습 네트워크를 적절히 융합하여 감정 분류 성능을 향상시켰다. EmotiW2017 대회에서 주어진 테스트 셋에 대한 5번째 시도에서, 제안 방법은 57.12 %의 분류 정확도를 달성하였다.

동적 베이지안 네트워크를 이용한 델티모달센서기반 사용자 행동인식 (Activity Recognition based on Multi-modal Sensors using Dynamic Bayesian Networks)

  • 양성익;홍진혁;조성배
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제15권1호
    • /
    • pp.72-76
    • /
    • 2009
  • 최근 유비쿼터스 컴퓨팅에 대한 관심이 높아지면서 유비쿼터스 환경에서의 서비스를 위한 인간과 컴퓨터의 상호 작용, 특히 인간의 행동을 인식하는 연구가 활발히 진행되고 있다. 기존의 영상기반 연구와는 달리 모바일 환경에 적합하도록 가속도 센서, 생리신호 센서 등 다양한 센서들을 활용하여 사용자의 행동을 인식하는 기법이 연구되고 있다. 본 논문에서는 멀티모달 센서들을 통합하고 동적 베이지안 네트워크를 계층적으로 구성하여 사용자의 행동을 인식하는 방법을 제안한다. 연산량이 비교적 적은 베이지안 네트워크로 전반적인 사용자 행동을 추론하고 획득된 각 행동의 확률순으로 동적 베이지안 네트워크를 구성한다. 동적 베이지안 네트워크는 OVR(One-Versus-Rest) 전략으로 학습되며, 확률순으로 행동이 검증되어 임계치를 넘는 경우 선택된 행동보다 낮은 확률의 행동에 대한 동적 베이지안 네트워크를 검증하지 않아 추론 연산량을 줄인다. 본 논문에서는 가속도 센서와 생리적 신호 센서를 기반으로 총 8가지의 행동을 인식하는 문제에 제안하는 방법을 적용하여 평균적으로 97.4%의 분류 정확률을 얻었다.

얼굴인식을 위한 다중입력 CNN의 기본 구현 (Basic Implementation of Multi Input CNN for Face Recognition)

  • Cheema, Usman;Moon, Seungbin
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.1002-1003
    • /
    • 2019
  • Face recognition is an extensively researched area of computer vision. Visible, infrared, thermal, and 3D modalities have been used against various challenges of face recognition such as illumination, pose, expression, partial information, and disguise. In this paper we present a multi-modal approach to face recognition using convolutional neural networks. We use visible and thermal face images as two separate inputs to a multi-input deep learning network for face recognition. The experiments are performed on IRIS visible and thermal face database and high face verification rates are achieved.

생체 인식에서 치아 영상의 이용에 관한 연구 (Study on Using Teeth Images in Biometrics)

  • 김태우;조태경;이민수
    • 한국산학기술학회논문지
    • /
    • 제7권2호
    • /
    • pp.200-205
    • /
    • 2006
  • 본 논문은 치아의 전치교합(anterior occlusion)과 후치교합(posterior occlusion) 상태에서 획득된 치아 영상에 대하여 BMME와 LDA에 기반한 개인 인식 방법을 제안한다. 이 방법은 전치교합과 후치교합 상태의 치아 영상에서 치아 영역 추출, BMME, 패턴 인식 과정으로 구성된다. 이들 두 치아교합은 영상에서 일관된 자세의 치아 영상을 얻을 수 있도록 하며, BMME는 패턴 인식 과정에서 정합 오차를 줄이도록 해 준다. 치아는 딱딱하므로 치아영상을 사용하면 영상 획득 시 변형되지 않기 때문에 유용하다. 제안된 방법은 20명을 대상으로 개인 인증을 위한 치아인식 실험에서 성공적이었으며, 멀티 모달(multi-modal) 인증 시스템에 기여할 수 있음을 보였다.

  • PDF

MULTI-POINT MEASUREMENT OF STRUCTURAL VIBRATION USING PATTERN RECOGNITION FROM CAMERA IMAGE

  • Jeon, Hyeong-Seop;Choi, Young-Chul;Park, Jin-Ho;Park, Jong-Won
    • Nuclear Engineering and Technology
    • /
    • 제42권6호
    • /
    • pp.704-711
    • /
    • 2010
  • Modal testing requires measuring the vibration of many points, for which an accelerometer, a gab sensor and laser vibrometer are generally used. Conventional modal testing requires mounting of these sensors to all measurement points in order to acquire the signals. However, this can be disadvantageous because it requires considerable measurement time and effort when there are many measurement points. In this paper, we propose a method for modal testing using a camera image. A camera can measure the vibration of many points at the same time. However, this task requires that the measurement points be classified frame by frame. While it is possible to classify the measurement points one by one, this also requires much time. Therefore, we try to classify multiple points using pattern recognition. The feasibility of the proposed method is verified by a beam experiment. The experimental results demonstrate that we can obtain good results.