• 제목/요약/키워드: 멀티 모달 데이터

검색결과 102건 처리시간 0.037초

적은 양의 음성 및 텍스트 데이터를 활용한 멀티 모달 기반의 효율적인 감정 분류 기법 (Efficient Emotion Classification Method Based on Multimodal Approach Using Limited Speech and Text Data)

  • 신미르;신유현
    • 정보처리학회 논문지
    • /
    • 제13권4호
    • /
    • pp.174-180
    • /
    • 2024
  • 본 논문에서는 wav2vec 2.0과 KcELECTRA 모델을 활용하여 멀티모달 학습을 통한 감정 분류 방법을 탐색한다. 음성 데이터와 텍스트 데이터를 함께 활용하는 멀티모달 학습이 음성만을 활용하는 방법에 비해 감정 분류 성능을 유의미하게 향상시킬 수 있음이 알려져 있다. 본 연구는 자연어 처리 분야에서 우수한 성능을 보인 BERT 및 BERT 파생 모델들을 비교 분석하여 텍스트 데이터의 효과적인 특징 추출을 위한 최적의 모델을 선정하여 텍스트 처리 모델로 활용한다. 그 결과 KcELECTRA 모델이 감정 분류 작업에서 뛰어난 성능이 보임을 확인하였다. 또한, AI-Hub에 공개되어 있는 데이터 세트를 활용한 실험을 통해 텍스트 데이터를 함께 활용하면 음성 데이터만 사용할 때보다 더 적은 양의 데이터로도 더 우수한 성능을 달성할 수 있음을 발견하였다. 실험을 통해 KcELECTRA 모델을 활용한 경우가 정확도 96.57%로 가장 우수한 성능을 보였다. 이는 멀티모달 학습이 감정 분류와 같은 복잡한 자연어 처리 작업에서 의미 있는 성능 개선을 제공할 수 있음을 보여준다.

웹 서비스를 위한 멀티 모달 사용자 인터페이스 (Multimodal User Interfaces for Web Services)

  • 송기섭;김연석;이경호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (B)
    • /
    • pp.46-48
    • /
    • 2006
  • 본 논문에서는 웹 서비스의 WSDL 문서로부터 멀티 모달 유저 인터페이스를 동적으로 생성하는 방법을 제안한다. 이를 위해 W3C에서 제안한 사용자 인터페이스 관련 기술인 XForms와 VoiceXML을 소개하고. XForms에 기반한 사용자 인터페이스 생성 알고리즘을 제안한다. 제안된 방법은 WSDL 문서의 구조를 분석하고. 스키마로부터 데이터의 타입에 따른 적합한 컨트롤을 매핑하여 최적의 멀티 모달 사용자 인터페이스를 구성한다.

  • PDF

이미지 캡션 생성을 위한 심층 신경망 모델 학습과 전이 (Learning and Transferring Deep Neural Network Models for Image Caption Generation)

  • 김동하;김인철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 추계학술발표대회
    • /
    • pp.617-620
    • /
    • 2016
  • 본 논문에서는 이미지 캡션 생성과 모델 전이에 효과적인 심층 신경망 모델을 제시한다. 본 모델은 멀티 모달 순환 신경망 모델의 하나로서, 이미지로부터 시각 정보를 추출하는 컨볼루션 신경망 층, 각 단어를 저차원의 특징으로 변환하는 임베딩 층, 캡션 문장 구조를 학습하는 순환 신경망 층, 시각 정보와 언어 정보를 결합하는 멀티 모달 층 등 총 5 개의 계층들로 구성된다. 특히 본 모델에서는 시퀀스 패턴 학습과 모델 전이에 우수한 LSTM 유닛을 이용하여 순환 신경망 층을 구성하고, 컨볼루션 신경망 층의 출력을 임베딩 층뿐만 아니라 멀티 모달 층에도 연결함으로써, 캡션 문장 생성을 위한 매 단계마다 이미지의 시각 정보를 이용할 수 있는 연결 구조를 가진다. Flickr8k, Flickr30k, MSCOCO 등의 공개 데이터 집합들을 이용한 다양한 비교 실험을 통해, 캡션의 정확도와 모델 전이의 효과 면에서 본 논문에서 제시한 멀티 모달 순환 신경망 모델의 우수성을 입증하였다.

딥러닝 감정 인식 기반 배경음악 매칭 설계 (Design for Mood-Matched Music Based on Deep Learning Emotion Recognition)

  • 정문식;문남미
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.834-836
    • /
    • 2021
  • 멀티모달 감정인식을 통해 사람의 감정을 정확하게 분류하고, 사람의 감정에 어울리는 음악을 매칭하는 시스템을 설계한다. 멀티모달 감정 인식 방법으로는 IEMOCAP(Interactive Emotional Dyadic Motion Capture) 데이터셋을 활용해 감정을 분류하고, 분류된 감정의 분위기에 맞는 음악을 매칭시키는 시스템을 구축하고자 한다. 유니모달 대비 멀티모달 감정인식의 정확도를 개선한 시스템을 통해 텍스트, 음성, 표정을 포함하고 있는 동영상의 감성 분위기에 적합한 음악 매칭 시스템을 연구한다.

하이퍼네트워크 모델을 이용한 비전-언어 크로스모달 연관정보 추출 (Extraction Analysis for Crossmodal Association Information using Hypernetwork Models)

  • 허민오;하정우;장병탁
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2009년도 학술대회
    • /
    • pp.278-284
    • /
    • 2009
  • 하나의 컨텐츠를 위해 동영상, 이미지, 소리, 문장과 같은 하나 이상의 모달리티로 전달하는 멀티모달 데이터가 증가하고 있다. 이러한 형태의 자료들은 잘 정의되지 않은 형태를 주로 가지기 때문에, 모달리티 간의 정보가 명백히 표현되지 못하는 경우가 많았다. 그래서, 본 연구에서 저자들은 자연계를 다루는 다큐멘터리 동영상 데이터를 이용하여 비전-언어 간의 상호 연관정보인 크로스모달 연관정보를 추출하고 분석하는 방법을 제시하였다. 이를 위해 정글, 바다, 우주의 세 가지 주제로 구성된 다큐멘터리로부터 이미지와 자막의 조합으로 이루어진 데이터를 모은 후, 그로부터 시각언어집합과 문장언어집합을 추출하였다. 분석을 통하여, 이 언어집합들간의 상호 크로스 모달 연관정보를 통해 생성된 다른 모달리티 데이터가 의미적으로 서로 관련이 있음을 확인할 수 있었다.

  • PDF

독감 확산 예측을 위한 멀티모달 학습과 웨어러블 센서 기반의 기침 감지 시스템 설계 (Design of Cough Detection System Based on Mutimodal Learning & Wearable Sensor to Predict the Spread of Influenza)

  • 강재식;백문기;최형탁;이규철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 춘계학술발표대회
    • /
    • pp.428-430
    • /
    • 2018
  • 본 논문에서는 독감확산 예측을 위한 웨어러블 센서를 이용한 기침 감지 모델을 제안한다. 서로 상이한 기침 신체데이터를 사용하고 기침 감지 알고리즘의 구현없이 기계가 학습하는 방식인 멀티모달 DNN을 이용하여 설계하였다. 또한 웨어러블 센서를 통해 실생활의 기침 오디오 데이터와 기침 3축 가속도 데이터를 수집하였고, 두 개의 데이터중 하나의 데이터만으로도 감지를 위한 학습이 가능토록하기 위해 각각 MFCC와 FFT를 이용하여 특징 벡터를 추출하는 방법을 이용하였다.

멀티 모달 딥러닝을 활용한 웹소설 추천 시스템 (Multi-Modal Recommendation System for Web Novels)

  • 김미려;김현희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.552-554
    • /
    • 2023
  • 웹소설 시장의 성장에 따라 웹소설 추천 시스템의 중요성이 높아지고 있다. 본 연구에서는 작품의 특성 및 선호도를 나타낼 수 있는 다양한 데이터를 활용하여 추천시스템을 구현하고 그 성능을 평가하여 표지 이미지와 작품 특성을 모두 고려한 멀티 모달 추천 시스템이 가장 효율적임을 보여주었다. 연구 결과, 단일 변수 추천에서는 작품 소개글과 표지 이미지 기반 추천이 가장 좋은 성능을 보였고, 멀티 모달 추천 시스템에서는 작품 소개글, 이미지, 키워드 순으로 성능에 좋은 영향을 끼치는 것으로 나타났다. 이번 연구 결과는 한국콘텐츠진흥원에서 조사한 웹소설 이용자 실태조사와는 조금 다른 결과를 보여주었다. 설문조사에서는 인기도를 웹소설 선택 시 가장 중요한 영향으로 봤으나, 본 연구에서는 작품 소개글이 가장 중요한 영향을 미친다는 결과가 나타났다. 이러한 연구 결과는 웹소설 추천 시스템의 개발과 운영에 있어서 중요한 참고 자료가 될 것으로 예상된다.

멀티 모달 학습을 이용한 기침 탐지 (A cough detection used multi modal learning)

  • 최형탁;백문기;강재식;이규철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 춘계학술발표대회
    • /
    • pp.439-441
    • /
    • 2018
  • 딥 러닝의 높은 성능으로 여러 분야에 사용되며 기침 탐지에서도 수행된다. 이 때 기침과 유사한 재채기, 큰 소리는 단일 데이터만으로는 구분하기에 한계가 있다. 본 논문에서는 기존의 오디오 데이터와 오디오 데이터를 인코딩 한 스펙트로그램 이미지 데이터를 함께 학습하는 멀티 모달 딥 러닝을 적용하는 방법을 사용한다.

비디오 스트림 구조를 활용한 동적 키프레임 기반 사용자 개성 예측 (Predicting User Personality Based on Dynamic Keyframes Using Video Stream Structure)

  • 이미라;우사이먼성일;정혜동
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.601-604
    • /
    • 2023
  • 기술이 발전함에 따라 복합적인 모달리티 정보를 포함하는 멀티미디어 데이터의 수집이 용이해지면서, 사람의 성격 특성을 이해하고 이를 개인화된 에이전트에 적용하고자 하는 연구가 활발히 진행되고 있다. 본 논문에서는 비디오 스트림 구조를 활용하여 사용자 특성을 예측하기 위한 동적 키프레임 추출 방법을 제안한다. 비디오 데이터를 효과적으로 활용하기 위해서는 무작위로 선택한 프레임에서 특징을 추출하던 기존의 방법을 개선하여 영상 내 시간에 따른 정보와 변화량을 기반으로 중요한 프레임을 선택하는 방법이 필요하다. 본 논문에서는 제 3자가 평가한 Big-five 지표 값이 레이블링된 대표적인 데이터셋인 First Impressions V2 데이터셋을 사용하여 외면에서 발현되는 특징들을 기반으로 영상에서 등장하는 인물들의 성격 특성을 예측했다. 결론에서는 선택된 키프레임에서 멀티 모달리티 정보를 조합하여 성격 특성을 예측한 결과와 베이스라인 모델과의 성능을 비교한다.

스마트 기기의 멀티 모달 로그 데이터를 이용한 사용자 성별 예측 기법 연구 (A Study on Method for User Gender Prediction Using Multi-Modal Smart Device Log Data)

  • 김윤정;최예림;김소이;박규연;박종헌
    • 한국전자거래학회지
    • /
    • 제21권1호
    • /
    • pp.147-163
    • /
    • 2016
  • 스마트 기기 사용자의 성별 정보는 성공적인 개인화 서비스를 위해 중요하며, 스마트 기기로부터 수집된 멀티 모달 로그 데이터는 사용자의 성별 예측에 중요한 근거가 된다. 하지만 각 멀티 모달 데이터의 특성에 따라 다른 방식으로 성별 예측을 수행해야 한다. 따라서 본 연구에서는 스마트 기기로부터 발생한 로그 데이터 중 텍스트, 어플리케이션, 가속도 데이터에 기반한 각기 다른 분류기의 예측 결과를 다수결 방식으로 앙상블하여 최종 성별을 예측하는 기법을 제안한다. 텍스트 데이터를 이용한 분류기는 데이터 유출에 의한 사생활 침해 문제를 최소화하기 위해 웹 문서로부터 각 성별의 특징적 단어 집합을 도출하고 이를 기기로 전송하여 사용자의 기기 내에서 성별 분류를 수행한다. 어플리케이션 데이터에 기반한 분류기는 사용자가 실행한 어플리케이션들에 성별을 부여하고 높은 비율을 차지하는 성별로 사용자의 성별을 예측한다. 가속도 기반 분류기는 성별에 따른 사용자의 가속도 데이터 인스턴스를 학습한 SVM 모델을 사용하여 주어진 성별을 분류한다. 자체 제작한 안드로이드 어플리케이션을 통해 수집된 실제 스마트 기기 로그 데이터를 사용하여 제안하는 기법을 평가하였으며 그 결과 높은 예측 성능을 보였다.