• 제목/요약/키워드: 멀티 모달

검색결과 264건 처리시간 0.033초

공황장애 상담을 위한 멀티모달 과제 지향 대화 태스크 구축 (Building a multimodal task-oriented dialogue task for panic disorder counseling)

  • 김수빈;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.258-262
    • /
    • 2023
  • 과제 지향 대화 시스템은 발화 의도 및 요구사항을 파악하여 사용자가 원하는 과제를 달성한다는 점에서 유용하다. 대화 상태 추적은 과제 지향 대화 시스템의 핵심 모듈이며, 최근에는 텍스트뿐만 아니라 시각 정보까지 활용하여 대화 상태를 추적하는 멀티모달 대화 상태 추적 연구가 활발히 진행되는 중이다. 본 논문에서는 멀티모달 공황장애 상담 대화 속 내담자의 상태를 추적하는 과제를 제안하였다. ChatGPT를 통한 멀티모달 공황장애 상담 과제 지향 대화 데이터셋 구축 프레임워크와, 구축한 데이터셋의 품질을 증명하기 위한 분석도 함께 제시하였다. 사전학습 언어 모델인 GPT-2를 벤치마크 데이터셋에 대해 학습한 성능을 측정함으로써 향후 멀티모달 대화 추적 성능이 능가해야 할 베이스라인 성능을 제시하였다.

  • PDF

3 차원 오브젝트 직접조작을 위한 데이터 글러브 기반의 멀티모달 인터페이스 설계 (Design of dataglove based multimodal interface for 3D object manipulation in virtual environment)

  • 임미정;박범
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2006년도 학술대회 1부
    • /
    • pp.1011-1018
    • /
    • 2006
  • 멀티모달 인터페이스는 인간의 제스처, 시선, 손의 움직임, 행동의 패턴, 음성, 물리적인 위치 등 인간의 자연스러운 행동들에 대한 정보를 해석하고 부호화하는 인지기반 기술이다. 본 논문에서는 제스처와 음성, 터치를 이용한 3D 오브젝트 기반의 멀티모달 인터페이스를 설계, 구현한다. 서비스 도메인은 스마트 홈이며 사용자는 3D 오브젝트 직접조작을 통해 원격으로 가정의 오브젝트들을 모니터링하고 제어할 수 있다. 멀티모달 인터랙션 입출력 과정에서는 여러 개의 모달리티를 병렬적으로 인지하고 처리해야 하기 때문에 입출력 과정에서 각 모달리티의 조합과 부호화 방법, 입출력 형식 등이 문제시된다. 본 연구에서는 모달리티들의 특징과 인간의 인지구조 분석을 바탕으로 제스처, 음성, 터치 모달리티 간의 입력조합방식을 제시하고 멀티모달을 이용한 효율적인 3D Object 인터랙션 프로토타입을 설계한다.

  • PDF

랜덤 하이퍼그래프 모델을 이용한 순차적 멀티모달 데이터에서의 문장 생성 (Sentence generation on sequential multi-modal data using random hypergraph model)

  • 윤웅창;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2010년도 한국컴퓨터종합학술대회논문집 Vol.37 No.1(C)
    • /
    • pp.376-379
    • /
    • 2010
  • 인간의 학습과 기억현상에 있어서 멀티모달 데이터를 사용하는 것은 단순 모달리티 데이터를 사용하는 것에 비해서 향상된 효과를 보인다는 여러 연구 결과가 있어왔다. 이 논문에서는 인간의 순차적인 정보처리와 생성현상을 기계에서의 시뮬레이션을 통해서 기계학습에 있어서도 동일한 현상이 나타나는지에 대해서 알아보고자 하였다. 이를 위해서 가중치를 가진 랜덤 하이퍼그래프 모델을 통해서 순차적인 멀티모달 데이터의 상호작용을 하이퍼에지들의 조합으로 나타내는 것을 제안 하였다. 이러한 제안의 타당성을 알아보기 위해서 비디오 데이터를 이용한 문장생성을 시도하여 보았다. 이전 장면의 사진과 문장을 주고 다음 문장의 생성을 시도하였으며, 단순 암기학습이나 주어진 룰을 통하지 않고 의미 있는 실험 결과를 얻을 수 있었다. 단순 텍스트와 텍스트-이미지 쌍의 단서를 통한 실험을 통해서 멀티 모달리티가 단순 모달리티에 비해서 미치는 영향을 보였으며, 한 단계 이전의 멀티모달 단서와 두 단계 및 한 단계 이전의 멀티모달 단서를 통한 실험을 통해서 순차적 데이터의 단계별 단서의 차이에 따른 영향을 알아볼 수 있었다. 이를 통하여 멀티 모달리티가 시공간적으로 미치는 기계학습에 미치는 영향과 순차적 데이터의 시간적 누적에 따른 효과가 어떻게 나타날 수 있는지에 대한 실마리를 제공할 수 있었다고 생각된다.

  • PDF

능동적 멀티모달 프르젠테이션 시스템 설계 및 구현 (Design and Implementation of an Active Multi-modal Presentation System)

  • 손문식;이지근;이은숙;김희숙;정석태;정성태
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2002년도 추계학술발표논문집
    • /
    • pp.661-664
    • /
    • 2002
  • 최근 인터넷의 대중화와 웹 기술이 발달함에 따라, 인간친화적인 프리젠테이션을 위하여 캐릭터 에이전트를 이용한 멀티모달 프리젠테이션에 대한 연구가 활성화 되고 있다. 그런데, 기존의 멀티모달 프리젠테이션 시스템은 정보제공자의 일방적인 프리젠테이션방식을 사용하기 때문에 청중과의 쌍방향 통신은 미비한 실정이다. 따라서, 본 논문에서는 캐릭터 에이전트를 이용하여 정보제공자와 청중 사이에 질의와 응답이 실시간으로 가능하도록 하는 능동적 멀티모달 프리젠이션 시스템을 설계 및 구현하고자 한다.

  • PDF

FiD를 이용한 멀티 모달 오픈 도메인 질의 응답 (Fusion-in-Decoder for Open Domain Multi-Modal Question Answering)

  • 박은환;이성민;서대룡;전동현;강인호;나승훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.95-99
    • /
    • 2022
  • 오픈 도메인 질의 응답 (ODQA, Open-Domain Question Answering)은 주어진 질문에 대한 답을 찾는 과업으로서 질문과 관련있는 지식을 찾는 "검색" 단계를 필요로 한다. 최근 이미지, 테이블 등의 검색을 요구하는 멀티 모달 ODQA에 대한 연구가 많이 진행되었을 뿐만 아니라 산업에서의 중요도 또한 높아지고 있다. 본 논문은 여러 종류의 멀티 모달 ODQA 중에서도 테이블 - 텍스트 기반 멀티 모달 ODQA 데이터 집합으로 Fusion-in-Decoder (FiD)를 이용한 멀티 모달 오픈 도메인 질의 응답 연구를 제안하며 베이스라인 대비 최대 EM 20.5, F1 23.2 향상을 보였다.

  • PDF

에디팅 툴킷을 이용한 로봇의 멀티모달 감정/의사 표현 (Multi-modal Robot Emotion/Intention Expression using Editing Toolkit)

  • 김우현;박정우;이원형;김원화;정명진
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2009년도 제40회 하계학술대회
    • /
    • pp.1819_1820
    • /
    • 2009
  • 본 논문에서는 로봇의 감정과 의사표현을 위해서 3D모델 기반의 시뮬레이션이 가능한 에디팅 툴킷을 이용하였고, 사람과 로봇의 감정 상호 작용과 로봇이 제공하는 서비스의 구현을 위해서 다양한 멀티모달 표현을 생성하였다. 로봇은 얼굴표정, 그리고 목과 팔의 움직임으로 멀티모달 표현을 하였으며, 멀티모달 감정/의사 표현을 구성하는 각 모달리티별 표현들은 에디팅 툴킷을 통하여 동기화되었다. 이렇게 생성된 로봇의 멀티모달 감정/의사 표현은 DB형태로 저장되고, 이를 재조합하고 수정하여 새로운 표현을 생성할 수 있도록 하였다.

  • PDF

멀티모달 방식을 통한 가스 종류 인식 딥러닝 모델 개발 (Development of Gas Type Identification Deep-learning Model through Multimodal Method)

  • 안서희;김경영;김동주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권12호
    • /
    • pp.525-534
    • /
    • 2023
  • 가스 누출 감지 시스템은 가스의 폭발성과 독성으로 인한 인명 피해를 최소화할 핵심적인 장치이다. 누출 감지 시스템은 대부분 단일 센서를 활용한 방식으로, 가스 센서나 열화상 카메라를 통한 검출 방식으로 진행되고 있다. 이러한 단일 센서 활용의 가스 누출감지 시스템 성능을 고도화하기 위하여, 본 연구에서는 가스 센서와 열화상 이미지 데이터에 멀티모달형 딥러닝을 적용한 연구를 소개한다. 멀티모달 공인 데이터셋인 MultimodalGasData를 통해 기존 논문과의 성능을 비교하였고, 가스 센서와 열화상 카메라의 단일모달 모델을 기반하여 네 가지 멀티모달 모델을 설계 및 학습하였다. 이를 통해 가스 센서와 열화상 카메라는 각각 1D CNN, GasNet 모델이 96.3%와 96.4%의 가장 높은 성능을 보였다. 앞선 두 단일모달 모델을 기반한 Early Fusion 형식의 멀티모달 모델 성능은 99.3%로 가장 높았으며, 또한 기존 논문의 멀티모달 모델 대비 3.3% 높았다. 본 연구의 높은 신뢰성을 갖춘 가스 누출 감지 시스템을 통해 가스 누출로 인한 추가적인 피해가 최소화되길 기대한다.

추천을 위한 키워드 가중치를 이용한 멀티모달 미디어 콘텐츠 분류 (Multimodal Media Content Classification using Keyword Weighting for Recommendation)

  • 강지수;백지원;정경용
    • 융합정보논문지
    • /
    • 제9권5호
    • /
    • pp.1-6
    • /
    • 2019
  • 모바일 시장의 확장과 함께 멀티모달 미디어 콘텐츠의 제공을 위한 플랫폼이 다양해지고 있다. 멀티모달 미디어 콘텐츠에는 이종데이터들이 복합적으로 포함되어 있어 사용자들이 선호 콘텐츠를 선택하기 위해 시간과 노력이 요구된다. 따라서 본 논문에서는 추천을 위한 키워드 가중치를 이용한 멀티모달 미디어 콘텐츠 분류를 제안한다. 제안하는 방법은 멀티모달 미디어 콘텐츠의 텍스트 데이터에서 키워드 가중치를 통해 콘텐츠를 가장 잘 나타내는 키워드를 추출한다. 추출된 키워드를 기반으로 서브클래스를 갖는 장르 클래스를 생성하고 이에 적절한 멀티모달 미디어 콘텐츠를 분류한다. 또한 개인화된 추천을 위해 사용자의 선호도 평가를 진행하여 사용자의 콘텐츠 선호도 분석 결과를 기반으로 멀티모달 콘텐츠를 추천한다. 성능평가는 추천 결과의 정확도와 만족도를 통해 우수함을 검증한다. 이는 사용자가 선호하는 장르와 키워드를 모두 고려하여 추천하기 때문에 정확도는 74.62%, 만족도는 69.1%로 높게 나타난다.

기억 회상 현상에 대한 순차적 멀티 모달리티 데이터의 영향 비교 (Comparison of Sequential Multi-Modality Data Effects on Memory Recall)

  • 윤웅창;;장병탁
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2010년도 춘계학술대회
    • /
    • pp.66-71
    • /
    • 2010
  • 본 논문에서는 멀티 모달리티가 인간의 기억 현상 중에서 특히 회상 현상에 도움이 될 것이 라는 아이디어를 인간 실험과 컴퓨터 시뮬레이션을 통해서 비교 확인한다. 우리는 순차적 멀티모달리티 정보가 기억회상 현상에 미치는 영향을 알아보기 위해서 확률 하이퍼그래프 메모리모델을 사용하여 컴퓨터 시뮬레이션을 수행하였으며, 시뮬레이션 결과를 동일한 데이터를 사용한 인간 실험 결과와 비교하였다. 본 실험에서는 TV 드라마의 비디오 데이터를 이용하여 이전시점의 사진과 문장 정보가 다음 시점의 문장 생성에 미치는 영향을 확인하였다. 본 실험의 목적은 이전 시점의 문장 정보와 문장/사진 정보를 활용하여 멀티 모달리티의 영향을 확인하는 것이며 다양한 시점의 정보를 활용하여 순차성이 회상에 갖는 영향을 확인하는 것이다. 이를 통해서 기억 회상 현상에 있어서 멀티 모달리티가 미치는 영향과 순차적 데이터가 미치는 영향을 보일 수 있었으며, 기계를 통해서 인간의 기억 회상 현상을 재현할 수 있는 시뮬레이션 모델을 구현 하는데 실마리를 제공하였다.

  • PDF

대화를 중심으로 다양한 멀티모달 융합정보를 포함하는 동영상 기반 인공지능 학습용 데이터셋 구축 (Dialogue based multimodal dataset including various labels for machine learning research)

  • 신사임;장진예;김보은;박한무;정혜동
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.449-453
    • /
    • 2019
  • 미디어방송이 다양해지고, 웹에서 소비되는 콘텐츠들 또한 멀티미디어 중심으로 재편되는 경향에 힘입어 인공지능 연구에 멀티미디어 콘텐츠를 적극적으로 활용하고자 하는 시도들이 시작되고 있다. 본 논문은 다양한 형태의 멀티모달 정보를 하나의 동영상 콘텐츠에 연계하여 분석하여, 통합된 형태의 융합정보 데이터셋을 구축한 연구를 소개하고자 한다. 구축한 인공지능 학습용 데이터셋은 영상/음성/언어 정보가 함께 있는 멀티모달 콘텐츠에 상황/의도/감정 정보 추론에 필요한 다양한 의미정보를 부착하여 활용도가 높은 인공지능 영상 데이터셋을 구축하여 공개하였다. 본 연구의 결과물은 한국어 대화처리 연구에 부족한 공개 데이터 문제를 해소하는데 기여하였고, 한국어를 중심으로 다양한 상황 정보가 함께 구축된 데이터셋을 통하여 다양한 상황 분석 기반 대화 서비스 응용 기술 연구에 활용될 것으로 기대할 수 있다.

  • PDF