• 제목/요약/키워드: multimodal artificial intelligence

검색결과 25건 처리시간 0.019초

Real-world multimodal lifelog dataset for human behavior study

  • Chung, Seungeun;Jeong, Chi Yoon;Lim, Jeong Mook;Lim, Jiyoun;Noh, Kyoung Ju;Kim, Gague;Jeong, Hyuntae
    • ETRI Journal
    • /
    • 제44권3호
    • /
    • pp.426-437
    • /
    • 2022
  • To understand the multilateral characteristics of human behavior and physiological markers related to physical, emotional, and environmental states, extensive lifelog data collection in a real-world environment is essential. Here, we propose a data collection method using multimodal mobile sensing and present a long-term dataset from 22 subjects and 616 days of experimental sessions. The dataset contains over 10 000 hours of data, including physiological, data such as photoplethysmography, electrodermal activity, and skin temperature in addition to the multivariate behavioral data. Furthermore, it consists of 10 372 user labels with emotional states and 590 days of sleep quality data. To demonstrate feasibility, human activity recognition was applied on the sensor data using a convolutional neural network-based deep learning model with 92.78% recognition accuracy. From the activity recognition result, we extracted the daily behavior pattern and discovered five representative models by applying spectral clustering. This demonstrates that the dataset contributed toward understanding human behavior using multimodal data accumulated throughout daily lives under natural conditions.

Multimodal Attention-Based Fusion Model for Context-Aware Emotion Recognition

  • Vo, Minh-Cong;Lee, Guee-Sang
    • International Journal of Contents
    • /
    • 제18권3호
    • /
    • pp.11-20
    • /
    • 2022
  • Human Emotion Recognition is an exciting topic that has been attracting many researchers for a lengthy time. In recent years, there has been an increasing interest in exploiting contextual information on emotion recognition. Some previous explorations in psychology show that emotional perception is impacted by facial expressions, as well as contextual information from the scene, such as human activities, interactions, and body poses. Those explorations initialize a trend in computer vision in exploring the critical role of contexts, by considering them as modalities to infer predicted emotion along with facial expressions. However, the contextual information has not been fully exploited. The scene emotion created by the surrounding environment, can shape how people perceive emotion. Besides, additive fusion in multimodal training fashion is not practical, because the contributions of each modality are not equal to the final prediction. The purpose of this paper was to contribute to this growing area of research, by exploring the effectiveness of the emotional scene gist in the input image, to infer the emotional state of the primary target. The emotional scene gist includes emotion, emotional feelings, and actions or events that directly trigger emotional reactions in the input image. We also present an attention-based fusion network, to combine multimodal features based on their impacts on the target emotional state. We demonstrate the effectiveness of the method, through a significant improvement on the EMOTIC dataset.

멀티모달 신호처리를 위한 경량 인공지능 시스템 설계 (Design of Lightweight Artificial Intelligence System for Multimodal Signal Processing)

  • 김병수;이재학;황태호;김동순
    • 한국전자통신학회논문지
    • /
    • 제13권5호
    • /
    • pp.1037-1042
    • /
    • 2018
  • 최근 인간의 뇌를 모방하여 정보를 학습하고 처리하는 뉴로모픽 기술에 대한 연구는 꾸준히 진행되고 있다. 뉴로모픽 시스템의 하드웨어 구현은 다수의 간단한 연산절차와 고도의 병렬처리 구조로 구성이 가능하여, 처리속도, 전력소비, 저 복잡도 구현 측면에서 상당한 이점을 가진다. 또한 저 전력, 소형 임베디드 시스템에 적용 가능한 뉴로모픽 기술에 대한 연구가 급증하고 있으며, 정확도 손실 없이 저 복잡도 구현을 위해서는 입력데이터의 차원축소 기술이 필수적이다. 본 논문은 멀티모달 센서 데이터를 처리하기 위해 멀티모달 센서 시스템, 다수의 뉴론 엔진, 뉴론 엔진 컨트롤러 등으로 구성된 경량 인공지능 엔진과 특징추출기를 설계 하였으며, 이를 위한 병렬 뉴론 엔진 구조를 제안하였다. 설계한 인공지능 엔진, 특징 추출기, Micro Controller Unit(MCU)를 연동하여 제안한 경량 인공지능 엔진의 성능 검증을 진행하였다.

대화를 중심으로 다양한 멀티모달 융합정보를 포함하는 동영상 기반 인공지능 학습용 데이터셋 구축 (Dialogue based multimodal dataset including various labels for machine learning research)

  • 신사임;장진예;김보은;박한무;정혜동
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.449-453
    • /
    • 2019
  • 미디어방송이 다양해지고, 웹에서 소비되는 콘텐츠들 또한 멀티미디어 중심으로 재편되는 경향에 힘입어 인공지능 연구에 멀티미디어 콘텐츠를 적극적으로 활용하고자 하는 시도들이 시작되고 있다. 본 논문은 다양한 형태의 멀티모달 정보를 하나의 동영상 콘텐츠에 연계하여 분석하여, 통합된 형태의 융합정보 데이터셋을 구축한 연구를 소개하고자 한다. 구축한 인공지능 학습용 데이터셋은 영상/음성/언어 정보가 함께 있는 멀티모달 콘텐츠에 상황/의도/감정 정보 추론에 필요한 다양한 의미정보를 부착하여 활용도가 높은 인공지능 영상 데이터셋을 구축하여 공개하였다. 본 연구의 결과물은 한국어 대화처리 연구에 부족한 공개 데이터 문제를 해소하는데 기여하였고, 한국어를 중심으로 다양한 상황 정보가 함께 구축된 데이터셋을 통하여 다양한 상황 분석 기반 대화 서비스 응용 기술 연구에 활용될 것으로 기대할 수 있다.

  • PDF

Overcoming the Challenges in the Development and Implementation of Artificial Intelligence in Radiology: A Comprehensive Review of Solutions Beyond Supervised Learning

  • Gil-Sun Hong;Miso Jang;Sunggu Kyung;Kyungjin Cho;Jiheon Jeong;Grace Yoojin Lee;Keewon Shin;Ki Duk Kim;Seung Min Ryu;Joon Beom Seo;Sang Min Lee;Namkug Kim
    • Korean Journal of Radiology
    • /
    • 제24권11호
    • /
    • pp.1061-1080
    • /
    • 2023
  • Artificial intelligence (AI) in radiology is a rapidly developing field with several prospective clinical studies demonstrating its benefits in clinical practice. In 2022, the Korean Society of Radiology held a forum to discuss the challenges and drawbacks in AI development and implementation. Various barriers hinder the successful application and widespread adoption of AI in radiology, such as limited annotated data, data privacy and security, data heterogeneity, imbalanced data, model interpretability, overfitting, and integration with clinical workflows. In this review, some of the various possible solutions to these challenges are presented and discussed; these include training with longitudinal and multimodal datasets, dense training with multitask learning and multimodal learning, self-supervised contrastive learning, various image modifications and syntheses using generative models, explainable AI, causal learning, federated learning with large data models, and digital twins.

멀티모달 센서 기반 실외 경비로봇 기술 개발 현황 (Trend of Technology for Outdoor Security Robots based on Multimodal Sensors)

  • 장지호;나기인;신호철
    • 전자통신동향분석
    • /
    • 제37권1호
    • /
    • pp.1-9
    • /
    • 2022
  • With the development of artificial intelligence, many studies have focused on evaluating abnormal situations by using various sensors, as industries try to automate some of the surveillance and security tasks traditionally performed by humans. In particular, mobile robots using multimodal sensors are being used for pilot operations aimed at helping security robots cope with various outdoor situations. Multiagent systems, which combine fixed and mobile systems, can provide more efficient coverage (than that provided by other systems), but network bottlenecks resulting from increased data processing and communication are encountered. In this report, we will examine recent trends in object recognition and abnormal-situation determination in various changing outdoor security robot environments, and describe an outdoor security robot platform that operates as a multiagent equipped with a multimodal sensor.

공황장애 상담을 위한 멀티모달 과제 지향 대화 태스크 구축 (Building a multimodal task-oriented dialogue task for panic disorder counseling)

  • 김수빈;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.258-262
    • /
    • 2023
  • 과제 지향 대화 시스템은 발화 의도 및 요구사항을 파악하여 사용자가 원하는 과제를 달성한다는 점에서 유용하다. 대화 상태 추적은 과제 지향 대화 시스템의 핵심 모듈이며, 최근에는 텍스트뿐만 아니라 시각 정보까지 활용하여 대화 상태를 추적하는 멀티모달 대화 상태 추적 연구가 활발히 진행되는 중이다. 본 논문에서는 멀티모달 공황장애 상담 대화 속 내담자의 상태를 추적하는 과제를 제안하였다. ChatGPT를 통한 멀티모달 공황장애 상담 과제 지향 대화 데이터셋 구축 프레임워크와, 구축한 데이터셋의 품질을 증명하기 위한 분석도 함께 제시하였다. 사전학습 언어 모델인 GPT-2를 벤치마크 데이터셋에 대해 학습한 성능을 측정함으로써 향후 멀티모달 대화 추적 성능이 능가해야 할 베이스라인 성능을 제시하였다.

  • PDF

거대언어모델 기반 로봇 인공지능 기술 동향 (Technical Trends in Artificial Intelligence for Robotics Based on Large Language Models)

  • 이준기;박상준;김낙우;김에덴;고석갑
    • 전자통신동향분석
    • /
    • 제39권1호
    • /
    • pp.95-105
    • /
    • 2024
  • In natural language processing, large language models such as GPT-4 have recently been in the spotlight. The performance of natural language processing has advanced dramatically driven by an increase in the number of model parameters related to the number of acceptable input tokens and model size. Research on multimodal models that can simultaneously process natural language and image data is being actively conducted. Moreover, natural-language and image-based reasoning capabilities of large language models is being explored in robot artificial intelligence technology. We discuss research and related patent trends in robot task planning and code generation for robot control using large language models.

의미연결망 분석을 통한 디스플레이형 인공지능 스피커의 사용자 경험 요인 연구 : 아마존 에코의 온라인 리뷰 분석을 중심으로 (A Study on User Experience Factors of Display-Type Artificial Intelligence Speakers through Semantic Network Analysis : Focusing on Online Review Analysis of the Amazon Echo)

  • 이정명;김혜선;최준호
    • 문화기술의 융합
    • /
    • 제5권3호
    • /
    • pp.9-23
    • /
    • 2019
  • 인공지능 스피커 시장은 디스플레이 탑재라는 새로운 흐름 속에 놓여 있다. 이 연구는 디스플레이 유무에 따른 인공지능 스피커 사용 경험의 차이를 사용 맥락에 따라 분석하고자 한다. 이를 위해 아마존 에코 쇼(Echo Show)와 에코 플러스(Echo Plus)의 온라인 리뷰 텍스트가 어떠한 구조적 차이를 보이며 차별화된 UX 이슈들로 구성되어 있는지 의미연결망 분석을 통해 살펴보고자 한다. 사용자 경험의 물리적 맥락과 사회적 맥락에 따른 에고 네트워크 분석을 실시하여 주요 이슈를 도출하였다. 분석 결과 디스플레이 탑재에 따라 사용자의 기대격차가 발생하고 이로 인해 부정적 경험이 유도되는 것으로 나타났다. 또한, 멀티모달 인터페이스는 침실보다 부엌에서 활용도가 높으며, 가족 구성원 간의 커뮤니케이션 활성화에 기여할 수 있음을 확인하였다. 이러한 발견을 바탕으로 향후 국내에서도 출시될 디스플레이형 스피커가 고려해야 할 사용자 경험 전략을 제안한다.