• 제목/요약/키워드: Multi-Modal Recognition

검색결과 68건 처리시간 0.024초

딥러닝을 통한 움직이는 객체 검출 알고리즘 구현 (Implementation of Moving Object Recognition based on Deep Learning)

  • 이유경;이용환
    • 반도체디스플레이기술학회지
    • /
    • 제17권2호
    • /
    • pp.67-70
    • /
    • 2018
  • Object detection and tracking is an exciting and interesting research area in the field of computer vision, and its technologies have been widely used in various application systems such as surveillance, military, and augmented reality. This paper proposes and implements a novel and more robust object recognition and tracking system to localize and track multiple objects from input images, which estimates target state using the likelihoods obtained from multiple CNNs. As the experimental result, the proposed algorithm is effective to handle multi-modal target appearances and other exceptions.

영상 기반 위치 인식을 위한 대규모 언어-이미지 모델 기반의 Bag-of-Objects 표현 (Large-scale Language-image Model-based Bag-of-Objects Extraction for Visual Place Recognition)

  • 정승운;박병재
    • 센서학회지
    • /
    • 제33권2호
    • /
    • pp.78-85
    • /
    • 2024
  • We proposed a method for visual place recognition that represents images using objects as visual words. Visual words represent the various objects present in urban environments. To detect various objects within the images, we implemented and used a zero-shot detector based on a large-scale image language model. This zero-shot detector enables the detection of various objects in urban environments without additional training. In the process of creating histograms using the proposed method, frequency-based weighting was applied to consider the importance of each object. Through experiments with open datasets, the potential of the proposed method was demonstrated by comparing it with another method, even in situations involving environmental or viewpoint changes.

얼굴의 다중특징을 이용한 인증 시스템 구현 (A study on the implementation of identification system using facial multi-modal)

  • 정택준;문용선
    • 한국정보통신학회논문지
    • /
    • 제6권5호
    • /
    • pp.777-782
    • /
    • 2002
  • 본 연구는 인식의 정확성을 향상시키고, 사용자의 편이성을 고려하여 단일생체 인식 대신에 얼굴의 다중특징을 이용하는 다중생체 인식방법을 제안한다. 얼굴의 특징은 다음과 같은 방법으로 찾는다. 얼굴의 특징은 웨이블렛 다중분해와 주성분 분석방법으로 계산하였고, 입술의 경우는 입술의 경계를 구한후 최소 자승법을 이용한 방정식의 계수를 구하였으며, 얼굴의 요소간 거리 비율에 의한 특징값을 구하여, 역전파 학습 알고리즘으로 분류하여 실험하였다. 실험을 통해 본 방법의 유효성을 확인하였다.

시청각 화자식별에서 신뢰성 기반 정보 통합 방법의 성능 향상 (Improvement of Reliability based Information Integration in Audio-visual Person Identification)

  • ;김진영;홍준희
    • 대한음성학회지:말소리
    • /
    • 제62호
    • /
    • pp.149-161
    • /
    • 2007
  • In this paper we proposed a modified reliability function for improving bimodal speaker identification(BSI) performance. The convectional reliability function, used by N. Fox[1], is extended by introducing an optimization factor. We evaluated the proposed method in BSI domain. A BSI system was implemented based on GMM and it was tested using VidTIMIT database. Through speaker identification experiments we verified the usefulness of our proposed method. The experiments showed the improved performance, i.e., the reduction of error rate by 39%.

  • PDF

KSOM을 이용한 다중생체 인식시스템에 관한 연구 (Implementation of Embedded System for Multi-modal Biometric Recognition using KSOM)

  • 김재완;이상배
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2006년도 추계학술대회 학술발표 논문집 제16권 제2호
    • /
    • pp.91-94
    • /
    • 2006
  • 본 논문은 생체인식시스템에서 단일시스템의 각각의 특징을 바탕으로 신뢰성을 증가시키는 것에 있다. 간단하면서 높은 인식률을 가지는 지문과 개개인의 음성을 다중생체인식에 활용하여 다중생체인식 시스템을 구현 하였다. 화자인식부에서는 DSP를 이용하여 화자인식을 수행하고, 이후 지문인식부에서 지문 특징점을 추출하여 KSOM신경망 알고리즘을 이용하여 인식을 수행하였다. 그리고 각 인식부의 전체적인 제어는 ATmega16L을 사용하였다. 또한 인증결과를 PC에 MFC로 디스플레이 한다.

  • PDF

멀티 뷰 기법 리뷰: 이해와 응용 (Multi-view learning review: understanding methods and their application)

  • 배강일;이영섭;임창원
    • 응용통계연구
    • /
    • 제32권1호
    • /
    • pp.41-68
    • /
    • 2019
  • 멀티 뷰 기법은 데이터를 다양한 관점에서 보려는 접근 방법이며 데이터의 다양한 정보를 통합하여 사용하려는 시도이다. 최근 많은 연구가 진행되고 있는 멀티 뷰 기법에서는 단일 뷰 만을 이용하여 모형을 학습시켰을 때 보다 좋은 성과를 보인 경우가 많았다. 멀티 뷰 기법에서 딥 러닝 기법의 도입으로 이미지, 텍스트, 음성, 영상 등 다양한 분야에서 좋은 성과를 보였다. 본 연구에서는 멀티 뷰 기법이 인간 행동 인식, 의학, 정보 검색, 표정 인식 분야에서 직면한 여러 가지 문제들을 어떻게 해결하고 있는지 소개하였다. 또한 전통적인 멀티 뷰 기법들을 데이터 차원, 분류기 차원, 표현 간의 통합으로 분류하여 멀티 뷰 기법의 데이터 통합 원리를 리뷰 하였다. 마지막으로 딥 러닝 기법 중 가장 범용적으로 사용되고 있는 CNN, RNN, RBM, Autoencoder, GAN 등이 멀티 뷰 기법에 어떻게 응용되고 있는지를 살펴보았다. 이때 CNN, RNN 기반 학습 모형을 지도학습 기법으로, RBM, Autoencoder, GAN 기반 학습 모형을 비지도 학습 기법으로 분류하여 이 방법들이 대한 이해를 돕고자 하였다.

ICLAL: 인 컨텍스트 러닝 기반 오디오-언어 멀티 모달 딥러닝 모델 (ICLAL: In-Context Learning-Based Audio-Language Multi-Modal Deep Learning Models)

  • 박준영;여진영 ;이고은 ;최창환;최상일
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.514-517
    • /
    • 2023
  • 본 연구는 인 컨택스트 러닝 (In-Context Learning)을 오디오-언어 작업에 적용하기 위한 멀티모달 (Multi-Modal) 딥러닝 모델을 다룬다. 해당 모델을 통해 학습 단계에서 오디오와 텍스트의 소통 가능한 형태의 표현 (Representation)을 학습하고 여러가지 오디오-텍스트 작업을 수행할 수 있는 멀티모달 딥러닝 모델을 개발하는 것이 본 연구의 목적이다. 모델은 오디오 인코더와 언어 인코더가 연결된 구조를 가지고 있으며, 언어 모델은 6.7B, 30B 의 파라미터 수를 가진 자동회귀 (Autoregressive) 대형 언어 모델 (Large Language Model)을 사용한다 오디오 인코더는 자기지도학습 (Self-Supervised Learning)을 기반으로 사전학습 된 오디오 특징 추출 모델이다. 언어모델이 상대적으로 대용량이기 언어모델의 파라미터를 고정하고 오디오 인코더의 파라미터만 업데이트하는 프로즌 (Frozen) 방법으로 학습한다. 학습을 위한 과제는 음성인식 (Automatic Speech Recognition)과 요약 (Abstractive Summarization) 이다. 학습을 마친 후 질의응답 (Question Answering) 작업으로 테스트를 진행했다. 그 결과, 정답 문장을 생성하기 위해서는 추가적인 학습이 필요한 것으로 보였으나, 음성인식으로 사전학습 한 모델의 경우 정답과 유사한 키워드를 사용하는 문법적으로 올바른 문장을 생성함을 확인했다.

휴대폰 환경에서의 근적외선 얼굴 및 홍채 다중 인식 연구 (A Study on Multi-modal Near-IR Face and Iris Recognition on Mobile Phones)

  • 박강령;한송이;강병준;박소영
    • 전자공학회논문지CI
    • /
    • 제45권2호
    • /
    • pp.1-9
    • /
    • 2008
  • 휴대폰에서 보안 필요성이 증가함에 따라 개인 인증을 위하여 홍채, 지문, 얼굴과 같은 단일 생체 정보를 이용한 많은 연구들이 진행되었으나 단일 생체 인식에서는 인식 정확도에 한계가 있었다. 따라서 본 논문에서는 휴대폰 환경에서 고 인식율을 위해 얼굴과 홍채를 결합하는 방법에 대해 제안한다. 본 논문에서는 근적외선 조명과 근적외선 통과 필터를 부착한 휴대폰의 메가 픽셀 카메라를 사용하여 근적외선 얼굴 및 홍채 영상을 동시에 취득한 후, SVM(Support Vector Machine)을 기반으로 스코어 레벨에서 결합하였다. 또한, 저 연산의 로가리듬(Logarithm) 알고리즘을 사용한 얼굴 데이터의 조명 변화에 대한 정규화와 극 좌표계 변환 및 홍채 코드의 비트 이동 매칭에 의한 홍채 영역의 이동, 회전, 확대 및 축소에 대한 정규화를 통해 SVM의 분류 복잡도와 얼굴, 홍채 데이터의 본인 변화도를 최소화함으로써 인식 정확도를 향상시켰으며, 저 연산의 휴대폰 환경에서 정수혈 기반의 얼굴 및 홍채 인식 알고리즘을 사용하여 처리시간을 향상시켰다. 실험 결과, SVM을 사용한 인식의 정확성이 단일 생체(얼굴 또는 홍채), SUM, MAX, MIN 그리고 Weighted SUM을 사용하는 것보다 우수한 것을 알 수 있었다.

다중모달을 이용한 전자상거래시스템 개발 (Development of a Electronic Commerce System of Multi-Modal Information)

  • 장찬용;류갑상
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2001년도 추계종합학술대회
    • /
    • pp.729-732
    • /
    • 2001
  • 다중정보를 이용한 개인 인증시스템은 음성인식, 얼굴인식, 전자서명 둥의 방법을 이용하여 보안 시스템을 구축하는 기술로서 통신망 전반에 존재하는 많은 위협들로부터 중요한 정보를 보호할 수 있는 매우 효율적인 방법이다. 본 논문에서는 공개키 암호 및 전자서명 기술을 기반으로 디지털 정품 컴퓨터 S/W 및 H/W 와 관련된 제품을 인터넷 공간에서 거래할 수 있는 전자상거래 시스템(CBT-Shop)을 구현하였다. 다중정보의 개인인증 기술을 싸이버테크 인터넷 쇼핑몰의 설계와 구현에 적용함으로서 보안이 고려된 상거래시스템 구현이 가능하게 됨을 설명하고 있다.

  • PDF

Damage detection for a beam under transient excitation via three different algorithms

  • Zhao, Ying;Noori, Mohammad;Altabey, Wael A.
    • Structural Engineering and Mechanics
    • /
    • 제64권6권
    • /
    • pp.803-817
    • /
    • 2017
  • Structural health monitoring has increasingly been a focus within the civil engineering research community over the last few decades. With increasing application of sensor networks in large structures and infrastructure systems, effective use and development of robust algorithms to analyze large volumes of data and to extract the desired features has become a challenging problem. In this paper, we grasp some precautions and key points of the signal processing approach, wavelet, establish a relative reliable framework, and analyze three problems that require attention when applying wavelet based damage detection approach. The cases studies how to use optimal scales for extracting mode shapes and modal curvatures in a reinforced concrete beam and how to effectively identify damages using maximum curves of wavelet coefficient differences. Moreover, how to make a recognition based on the wavelet multi-resolution analysis, wavelet packet energy, and fuzzy sets is a meaningful topic that has been addressed in this work. The relative systematic work that compasses algorithms, structures and evaluation paves a way to a framework regarding effective structural health monitoring, orientation, decision and action.