• 제목/요약/키워드: 멀티 모달

검색결과 274건 처리시간 0.033초

멀티모달을 이용한 응용프로그램 제어에 관한 연구 (The design of application program in Multi-modal system)

  • 최광국;곽상훈;하얀돌이;김유진;김철;최승호
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2000년도 학술발표대회 논문집 제19권 2호
    • /
    • pp.205-208
    • /
    • 2000
  • 본 논문은 멀티모달 시스템에서 응용프로그램 S/W를 제어하는 연구로써 음성과 입술인식기를 결합시켜 문자 데이터를 수신하는 Comdio의 명령어들을 이 시스템이 제어하도록 설계하였다. 음성과 입술인식기는 HMM으로 구현되어 결합 시 각각의 인식기에 8:2의 가중치를 부여하였다.

  • PDF

오디오-비디오 정보 융합을 통한 멀티 모달 음성 인식 시스템 (Audio-Visual Integration based Multi-modal Speech Recognition System)

  • 이상운;이연철;홍훈섭;윤보현;한문성
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (상)
    • /
    • pp.707-710
    • /
    • 2002
  • 본 논문은 오디오와 비디오 정보의 융합을 통한 멀티 모달 음성 인식 시스템을 제안한다. 음성 특징 정보와 영상 정보 특징의 융합을 통하여 잡음이 많은 환경에서 효율적으로 사람의 음성을 인식하는 시스템을 제안한다. 음성 특징 정보는 멜 필터 캡스트럼 계수(Mel Frequency Cepstrum Coefficients: MFCC)를 사용하며, 영상 특징 정보는 주성분 분석을 통해 얻어진 특징 벡터를 사용한다. 또한, 영상 정보 자체의 인식률 향상을 위해 피부 색깔 모델과 얼굴의 형태 정보를 이용하여 얼굴 영역을 찾은 후 강력한 입술 영역 추출 방법을 통해 입술 영역을 검출한다. 음성-영상 융합은 변형된 시간 지연 신경 회로망을 사용하여 초기 융합을 통해 이루어진다. 실험을 통해 음성과 영상의 정보 융합이 음성 정보만을 사용한 것 보다 대략 5%-20%의 성능 향상을 보여주고 있다.

  • PDF

소리와 가속도 데이터를 이용한 멀티모달 기침 감지 모델 (Multimodal Cough Detection Model Using Audio and Acceleration Data)

  • 강재식;백문기;최형탁;윤승원;이규철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 추계학술발표대회
    • /
    • pp.746-748
    • /
    • 2018
  • 전 세계적으로 인플루엔자에 의해 매년 29~64만의 사망자가 발생하며 사회, 경제적 피해를 일으키고 있다. 기침에 의해 생성된 비말은 인플루엔자의 주요 전파 방법으로, 기침 감지 기술을 통해 확산 방지가 가능하다. 이전의 기침 감지에 대한 연구는 기침 소리와 전통적인 기계학습기법을 사용하였다. 본 논문은 기침 소리와 더불어 기침 시 발생하는 신체의 움직임 정보를 동시에 학습하는 멀티모달 딥러닝 기반의 기침 감지 모델을 제안한다. 도출된 모델과 기존의 모델과의 성능 비교를 통해 제안한 모델이 이전의 기침 감지 모델보다 정확한 기침 인식이 가능함을 보였다. 본 논문이 제안하는 모델은 스마트 워치와 같은 웨어러블 기기에 적용되면 인플루엔자의 확산 방지에 크게 기여할 수 있을 것이다.

스마트폰 음악 플레이어에서의 주변환경을 고려한 멀티모달 자동제어기법 (Multi-modal automatic control of the smartphone music player considering the noisy environment)

  • 곽주은;박찬영;송병인;유정헌;이주은;임순범
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(C)
    • /
    • pp.371-373
    • /
    • 2012
  • 기존의 스마트폰 음악 플레이어는 이어폰을 끼고 장소를 이동할 때 주변의 경고소리를 잘 듣지 못하는 위험함이 있고, 플레이어 컨트롤을 위해서는 화면을 보아야만 하는 불편함이 많았기 때문에 이를 해결하고자 멀티모달 자동제어 기법을 사용한 새로운 플레이어를 제안하였다. 주변의 dB(데시벨)을 입력받아 자동으로 볼륨을 제어해주며, 음성 명령과 터치 제스처 모드를 통해 화면을 보지 않고도 플레이어의 일부 기능을 제어할 수 있도록 하였다.

멀티 모달 학습을 이용한 기침 탐지 (A cough detection used multi modal learning)

  • 최형탁;백문기;강재식;이규철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 춘계학술발표대회
    • /
    • pp.439-441
    • /
    • 2018
  • 딥 러닝의 높은 성능으로 여러 분야에 사용되며 기침 탐지에서도 수행된다. 이 때 기침과 유사한 재채기, 큰 소리는 단일 데이터만으로는 구분하기에 한계가 있다. 본 논문에서는 기존의 오디오 데이터와 오디오 데이터를 인코딩 한 스펙트로그램 이미지 데이터를 함께 학습하는 멀티 모달 딥 러닝을 적용하는 방법을 사용한다.

독감 확산 예측을 위한 멀티모달 학습과 웨어러블 센서 기반의 기침 감지 시스템 설계 (Design of Cough Detection System Based on Mutimodal Learning & Wearable Sensor to Predict the Spread of Influenza)

  • 강재식;백문기;최형탁;이규철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 춘계학술발표대회
    • /
    • pp.428-430
    • /
    • 2018
  • 본 논문에서는 독감확산 예측을 위한 웨어러블 센서를 이용한 기침 감지 모델을 제안한다. 서로 상이한 기침 신체데이터를 사용하고 기침 감지 알고리즘의 구현없이 기계가 학습하는 방식인 멀티모달 DNN을 이용하여 설계하였다. 또한 웨어러블 센서를 통해 실생활의 기침 오디오 데이터와 기침 3축 가속도 데이터를 수집하였고, 두 개의 데이터중 하나의 데이터만으로도 감지를 위한 학습이 가능토록하기 위해 각각 MFCC와 FFT를 이용하여 특징 벡터를 추출하는 방법을 이용하였다.

XML과 키넥트를 이용한 멀티모달 NUI/NUX 설계 (Design of Multi-modal NUI/NUX using XML and KINECT)

  • 이광형;신동규;신동일
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1693-1696
    • /
    • 2013
  • 현재까지, 사람과 컴퓨터간의 인터페이스로 키보드와 마우스를 사용하여 왔다. 최근, 유비쿼터스 시대가 도래하면서 스마트 폰의 활용이 대두 되었고, 각 디바이스들은 하나로 통합되고 있다. 이에 따라 인터페이스도 NUI로 발전하였고 터치, 모션 트래킹, 음성, 표정 인식과 같은 멀티 모달 형식으로 더욱 높은 인지 능력과 직관적인 인터페이스가 되도록 각 디바이스 단계에서 개발되고 있다. 본 논문에서는 키넥트를 이용한 마커 없는 직관적인 손동작 인식과 XML 클라우드 기반의 각종 디바이스 통합 인터페이스 구현 설계를 제안한다.

이벤트 기반 KFD 동영상 검색 시스템 (An Event-based KFD Video Retrieval System)

  • 박승진;오승근;강봉수;박대희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 춘계학술발표대회
    • /
    • pp.862-865
    • /
    • 2010
  • 본 논문에서는 다양한 이벤트들을 기반으로 KFD 동영상 내의 주요 장면들을 검색하는 KFD 동영상 검색 시스템을 제안한다. 제안된 시스템은 선행 연구인 KFD 웹 데이터베이스 시스템에서 정의한 온톨로지 기반의 이벤트에 대한 히스토리 정보를 생성한 후, 이를 이용하여 KFD 동영상의 주요 이벤트들을 요약할 수 있으며 빠르고 정확하게 검색한다. 또한 제안된 시스템은 KFD 동영상과 내담자 스케치 동영상의 히스토리 정보를 매칭함으로서 멀티모달 동기화 재생 기능을 제공한다. 가족미술치료사는 본 시스템에서 제공하는 이벤트 기반의 멀티모달 동기화 검색 및 재생 기능을 이용하여 보다 의미론적이고 신뢰성 있는 KFD 사정 평가를 수행할 수 있을 것으로 기대된다.

AI 스피커를 활용한 어텐션 메커니즘 기반 멀티모달 우울증 감지 시스템 (Multimodal depression detection system based on attention mechanism using AI speaker)

  • 박준희;문남미
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2021년도 하계학술대회
    • /
    • pp.28-31
    • /
    • 2021
  • 전세계적으로 우울증은 정신 건강 질환으로써 문제가 되고 있으며, 이를 해결하기 위해 일상생활에서의 우울증 탐지에 대한 연구가 진행되고 있다. 따라서 본 논문에서는 일상생활에 밀접하게 연관되어 있는 AI 스피커를 사용한 어텐션 메커니즘(Attention Mechanism) 기반 멀티모달 우울증 감지 시스템을 제안한다. 제안된 방법은 AI 스피커로부터 수집할 수 있는 음성 및 텍스트 데이터를 수집하고 CNN(Convolutional Neural Network)과 BiLSTM(Bidirectional Long Short-Term Memory Network)를 통해 각 데이터에서의 학습을 진행한다. 학습과정에서 Self-Attention 을 적용하여 특징 벡터에 추가적인 가중치를 부여하는 어텐션 메커니즘을 사용한다. 최종적으로 음성 및 텍스트 데이터에서 어텐션 가중치가 추가된 특징들을 합하여 SoftMax 를 통해 우울증 점수를 예측한다.

  • PDF

그래프 신경망과 멀티 모달 맥락 정보를 이용한 장면 그래프 생성 (Scene Graph Generation with Graph Neural Network and Multimodal Context)

  • 정가영;김인철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.555-558
    • /
    • 2020
  • 본 논문에서는 입력 영상에 담긴 다양한 물체들과 그들 간의 관계를 효과적으로 탐지하여, 하나의 장면 그래프로 표현해내는 새로운 심층 신경망 모델을 제안한다. 제안 모델에서는 물체와 관계의 효과적인 탐지를 위해, 합성 곱 신경망 기반의 시각 맥락 특징들뿐만 아니라 언어 맥락 특징들을 포함하는 다양한 멀티 모달 맥락 정보들을 활용한다. 또한, 제안 모델에서는 관계를 맺는 두 물체 간의 상호 의존성이 그래프 노드 특징값들에 충분히 반영되도록, 그래프 신경망을 이용해 맥락 정보를 임베딩한다. 본 논문에서는 Visual Genome 벤치마크 데이터 집합을 이용한 비교 실험들을 통해, 제안 모델의 효과와 성능을 입증한다.