• Title/Summary/Keyword: 멀티 모달

Search Result 264, Processing Time 0.038 seconds

The Effect of AI Agent's Multi Modal Interaction on the Driver Experience in the Semi-autonomous Driving Context : With a Focus on the Existence of Visual Character (반자율주행 맥락에서 AI 에이전트의 멀티모달 인터랙션이 운전자 경험에 미치는 효과 : 시각적 캐릭터 유무를 중심으로)

  • Suh, Min-soo;Hong, Seung-Hye;Lee, Jeong-Myeong
    • The Journal of the Korea Contents Association
    • /
    • v.18 no.8
    • /
    • pp.92-101
    • /
    • 2018
  • As the interactive AI speaker becomes popular, voice recognition is regarded as an important vehicle-driver interaction method in case of autonomous driving situation. The purpose of this study is to confirm whether multimodal interaction in which feedback is transmitted by auditory and visual mode of AI characters on screen is more effective in user experience optimization than auditory mode only. We performed the interaction tasks for the music selection and adjustment through the AI speaker while driving to the experiment participant and measured the information and system quality, presence, the perceived usefulness and ease of use, and the continuance intention. As a result of analysis, the multimodal effect of visual characters was not shown in most user experience factors, and the effect was not shown in the intention of continuous use. Rather, it was found that auditory single mode was more effective than multimodal in information quality factor. In the semi-autonomous driving stage, which requires driver 's cognitive effort, multimodal interaction is not effective in optimizing user experience as compared to single mode interaction.

Multimodal based Storytelling Experience Using Virtual Reality in Museum (가상현실을 이용한 박물관 내 멀티모달 스토리텔링 경험 연구)

  • Lee, Ji-Hye
    • The Journal of the Korea Contents Association
    • /
    • v.18 no.10
    • /
    • pp.11-19
    • /
    • 2018
  • This paper is about multimodal storytelling experience applying Virtual Reality technology in museum. Specifically, this research argues virtual reality in both intuitive understanding of history also multimodal experience in the space. This research investigates cases regarding use of virtual reality in museum sector. As a research method, this paper conducts a literature review regarding multimodal experience and examples applying virtual reality related technologies in museum. Based on the literature review to investigate the concept necessary with its related cases. Based on the investigation, this paper suggests constructing elements for multimodal storytelling based on VR. Ultimately, this paper suggests the elements of building VR storytelling where dynamic audio-visual and interaction mode combines with historical resources for diverse audiences.

High-Quality Multimodal Dataset Construction Methodology for ChatGPT-Based Korean Vision-Language Pre-training (ChatGPT 기반 한국어 Vision-Language Pre-training을 위한 고품질 멀티모달 데이터셋 구축 방법론)

  • Jin Seong;Seung-heon Han;Jong-hun Shin;Soo-jong Lim;Oh-woog Kwon
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.603-608
    • /
    • 2023
  • 본 연구는 한국어 Vision-Language Pre-training 모델 학습을 위한 대규모 시각-언어 멀티모달 데이터셋 구축에 대한 필요성을 연구한다. 현재, 한국어 시각-언어 멀티모달 데이터셋은 부족하며, 양질의 데이터 획득이 어려운 상황이다. 따라서, 본 연구에서는 기계 번역을 활용하여 외국어(영문) 시각-언어 데이터를 한국어로 번역하고 이를 기반으로 생성형 AI를 활용한 데이터셋 구축 방법론을 제안한다. 우리는 다양한 캡션 생성 방법 중, ChatGPT를 활용하여 자연스럽고 고품질의 한국어 캡션을 자동으로 생성하기 위한 새로운 방법을 제안한다. 이를 통해 기존의 기계 번역 방법보다 더 나은 캡션 품질을 보장할 수 있으며, 여러가지 번역 결과를 앙상블하여 멀티모달 데이터셋을 효과적으로 구축하는데 활용한다. 뿐만 아니라, 본 연구에서는 의미론적 유사도 기반 평가 방식인 캡션 투영 일치도(Caption Projection Consistency) 소개하고, 다양한 번역 시스템 간의 영-한 캡션 투영 성능을 비교하며 이를 평가하는 기준을 제시한다. 최종적으로, 본 연구는 ChatGPT를 이용한 한국어 멀티모달 이미지-텍스트 멀티모달 데이터셋 구축을 위한 새로운 방법론을 제시하며, 대표적인 기계 번역기들보다 우수한 영한 캡션 투영 성능을 증명한다. 이를 통해, 우리의 연구는 부족한 High-Quality 한국어 데이터 셋을 자동으로 대량 구축할 수 있는 방향을 보여주며, 이 방법을 통해 딥러닝 기반 한국어 Vision-Language Pre-training 모델의 성능 향상에 기여할 것으로 기대한다.

  • PDF

Korea Information Science Society (GUI 기반의 EMPML저작도구의 설계 및 구현)

  • 석지문;이지근;이은숙;김희숙;정석태;정성태
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.568-570
    • /
    • 2002
  • 컴퓨터 기술의 급속한 발전에 따라 정보의 프리젠테이션 방법도 다양하게 변화해 가고 있다. 기존의 텍스트와 이미지를 이용한 프리젠테이션에서부터 멀티미디어 프리젠테이션에 이르기까지 사람들에게 좀더 효과적으로 정보론 프리젠테이션 할 수 있는 방법들이 개발되어 왔다. 그러나 컴퓨터를 이용한 프리젠테이션은 발표자의 사고와 감정 통 인간적인 요소를 표현하고 전달하는 데에는 많은 제약을 가지고 있다. 최근에는 좀더 인간 친화적인 프리젠테이션을 위하여 발표자의 감정과 제스처 등을 캐릭터 에이전트론 통하여 전달할 수 있도록 해주는 멀티 모달 정보 프리젠테이션에 대한 연구가 활성화되고 있다. 본 논문에서는 멀티모달 정보 프리젠테이션을 위해 개발된 언어인 EMPML(Extended Multimodal Presentation Markup Language)를 통해서 정보 제공자가 멀티모달 정보를 좀더 쉽게 저작할 수 있고, 저작된 멀티모달 정보를 확인할 수 있도록 해주는 GUI 기반의 저작도구론 설계, 구현하고자 한다.

  • PDF

Design and Implementation of MIML using XML (XML을 이용한 MIML(Multimodal Information Markup Language)의 설계 및 구현)

  • 김주리;이지근;김희숙;정석태;정성태
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10b
    • /
    • pp.289-291
    • /
    • 2001
  • www의 등장으로 디지털 정보의 표현이 단순한 텍스트 위주의 프리젠테이션에서 이제는 멀티미디어 내용의 증가와 함께 멀티모달 정보 프리젠테이션을 요구하는 변화를 가져오고 있다. 그러나 대다수의 사람들이 멀티모달 정보를 표현하기란 쉽지 않다. 본 논문에서는 이러한 사람들이 보다 쉽고 재미있는 멀티모달 정보 프리젠테이션을 쉽게 사용할 수 있도록 구두 대화 능력에 상호 작용하는 캐릭터 에이전트를 응용하여 MIML을 개발하였다. MIML은 XML 규격에 준거한 Markup Language로써 구두 발표 및 캐릭터 에이전트 행동을 통제하기 위한 기능을 지원한다. 본 논문에서는 다양한 캐릭터 에이전트의 감정 표현 기능과 멀티모달 정보 프리젠테이션을 구성하는 DTD에 대하여 기술하였다.

  • PDF

W3C based Interoperable Multimodal Communicator (W3C 기반 상호연동 가능한 멀티모달 커뮤니케이터)

  • Park, Daemin;Gwon, Daehyeok;Choi, Jinhuyck;Lee, Injae;Choi, Haechul
    • Journal of Broadcast Engineering
    • /
    • v.20 no.1
    • /
    • pp.140-152
    • /
    • 2015
  • HCI(Human Computer Interaction) enables the interaction between people and computers by using a human-familiar interface called as Modality. Recently, to provide an optimal interface according to various devices and service environment, an advanced HCI method using multiple modalities is intensively studied. However, the multimodal interface has difficulties that modalities have different data formats and are hard to be cooperated efficiently. To solve this problem, a multimodal communicator is introduced, which is based on EMMA(Extensible Multimodal Annotation Markup language) and MMI(Multimodal Interaction Framework) of W3C(World Wide Web Consortium) standards. This standard based framework consisting of modality component, interaction manager, and presentation component makes multiple modalities interoperable and provides a wide expansion capability for other modalities. Experimental results show that the multimodal communicator is facilitated by using multiple modalities of eye tracking and gesture recognition for a map browsing scenario.

A Study on the Multi-Modal Browsing System by Integration of Browsers Using lava RMI (자바 RMI를 이용한 브라우저 통합에 의한 멀티-모달 브라우징 시스템에 관한 연구)

  • Jang Joonsik;Yoon Jaeseog;Kim Gukboh
    • Journal of Internet Computing and Services
    • /
    • v.6 no.1
    • /
    • pp.95-103
    • /
    • 2005
  • Recently researches about multi-modal system has been studied widely and actively, Such multi-modal systems are enable to increase possibility of HCI(Human-computer Interaction) realization, enable to provide information in various ways and also enable to be applicable in e-business application, If ideal multi-modal system can be realized in future, eventually user can maximize interactive usability between information instrument and men in hands-free and eyes-free, In this paper, a new multi-modal browsing system using Java RMI as communication interface, which integrated by HTML browser and voice browser is suggested and also English-English dictionary search application system is implemented as example.

  • PDF

Multimodal User Interfaces for Web Services (웹 서비스를 위한 멀티 모달 사용자 인터페이스)

  • Song Ki-Sub;Kim Yeon-Seok;Lee Kyong-Ho
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06b
    • /
    • pp.46-48
    • /
    • 2006
  • 본 논문에서는 웹 서비스의 WSDL 문서로부터 멀티 모달 유저 인터페이스를 동적으로 생성하는 방법을 제안한다. 이를 위해 W3C에서 제안한 사용자 인터페이스 관련 기술인 XForms와 VoiceXML을 소개하고. XForms에 기반한 사용자 인터페이스 생성 알고리즘을 제안한다. 제안된 방법은 WSDL 문서의 구조를 분석하고. 스키마로부터 데이터의 타입에 따른 적합한 컨트롤을 매핑하여 최적의 멀티 모달 사용자 인터페이스를 구성한다.

  • PDF

Design of the Multi-Modal Media Art Contents using Touch Screen based on Affordance Theory (어포던스 이론 기반 터치 스크린을 이용한 멀티 모달 미디어 아트 콘텐츠의 설계)

  • Lee, Gang-So;Choi, Yoo-Joo
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2015.07a
    • /
    • pp.36-37
    • /
    • 2015
  • 본 논문에서는 전시 공간에서 전시 콘텐츠를 그냥 지나치거나 적극적으로 상호작용하려 하지 않는 관람객의 관심과 흥미를 이끌어 내기 위하여 어포던스(affordance, 행위 유발성) 특성을 반영한 인터랙티브 아트 콘텐츠 설계에 관한 내용을 다룬다. 이를 위하여, 우선, HCI 나 인지심리 영역에서 다루고 있는 어포던스 이론을 고찰하고, 특히 전시 공간에 나타나는 어포던스의 요소를 연구한 기존 연구들 분석하였다. 이를 기반으로 사람들의 행동과 흥미를 유발 시킬 수 있는 전시공간에 적합한 어포던스 기반 멀티 모달 인터페이스 설계 방향을 제시하였다. 또한, 제시된 멀티 모달 인터페이스 설계 특성을 반영하여 터치 스크린을 이용한 멀티 모달 미디어 아트 콘텐츠를 설계 제작하였다.

  • PDF

Home Automation Control with Multi-modal Interfaces for Disabled Persons (장애인을 위한 멀티모달 인터페이스 기반의 홈 네트워크 제어)

  • Park, Hee-Dong
    • Journal of Digital Convergence
    • /
    • v.12 no.2
    • /
    • pp.321-326
    • /
    • 2014
  • The needs for IT accessibility for disabled persons has increased for recent years. So, it is very important to support multi-modal interfaces, such as voice and vision recognition, TTS, etc. for disabled persons. In this paper, we deal with IT accessibility issues of home networks and show our implemented home network control system model with multi-modal interfaces including voice recognition and animated user interfaces.