• Title/Summary/Keyword: 멀티모달

Search Result 272, Processing Time 0.032 seconds

ICLAL: In-Context Learning-Based Audio-Language Multi-Modal Deep Learning Models (ICLAL: 인 컨텍스트 러닝 기반 오디오-언어 멀티 모달 딥러닝 모델)

  • Jun Yeong Park;Jinyoung Yeo;Go-Eun Lee;Chang Hwan Choi;Sang-Il Choi
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.514-517
    • /
    • 2023
  • 본 연구는 인 컨택스트 러닝 (In-Context Learning)을 오디오-언어 작업에 적용하기 위한 멀티모달 (Multi-Modal) 딥러닝 모델을 다룬다. 해당 모델을 통해 학습 단계에서 오디오와 텍스트의 소통 가능한 형태의 표현 (Representation)을 학습하고 여러가지 오디오-텍스트 작업을 수행할 수 있는 멀티모달 딥러닝 모델을 개발하는 것이 본 연구의 목적이다. 모델은 오디오 인코더와 언어 인코더가 연결된 구조를 가지고 있으며, 언어 모델은 6.7B, 30B 의 파라미터 수를 가진 자동회귀 (Autoregressive) 대형 언어 모델 (Large Language Model)을 사용한다 오디오 인코더는 자기지도학습 (Self-Supervised Learning)을 기반으로 사전학습 된 오디오 특징 추출 모델이다. 언어모델이 상대적으로 대용량이기 언어모델의 파라미터를 고정하고 오디오 인코더의 파라미터만 업데이트하는 프로즌 (Frozen) 방법으로 학습한다. 학습을 위한 과제는 음성인식 (Automatic Speech Recognition)과 요약 (Abstractive Summarization) 이다. 학습을 마친 후 질의응답 (Question Answering) 작업으로 테스트를 진행했다. 그 결과, 정답 문장을 생성하기 위해서는 추가적인 학습이 필요한 것으로 보였으나, 음성인식으로 사전학습 한 모델의 경우 정답과 유사한 키워드를 사용하는 문법적으로 올바른 문장을 생성함을 확인했다.

Trend of Technology for Outdoor Security Robots based on Multimodal Sensors (멀티모달 센서 기반 실외 경비로봇 기술 개발 현황)

  • Chang, J.H.;Na, K.I.;Shin, H.C.
    • Electronics and Telecommunications Trends
    • /
    • v.37 no.1
    • /
    • pp.1-9
    • /
    • 2022
  • With the development of artificial intelligence, many studies have focused on evaluating abnormal situations by using various sensors, as industries try to automate some of the surveillance and security tasks traditionally performed by humans. In particular, mobile robots using multimodal sensors are being used for pilot operations aimed at helping security robots cope with various outdoor situations. Multiagent systems, which combine fixed and mobile systems, can provide more efficient coverage (than that provided by other systems), but network bottlenecks resulting from increased data processing and communication are encountered. In this report, we will examine recent trends in object recognition and abnormal-situation determination in various changing outdoor security robot environments, and describe an outdoor security robot platform that operates as a multiagent equipped with a multimodal sensor.

A Development Method of SmartPhone E-book Supporting Multimodal Interactions (멀티모달 상호작용을 지원하는 스마트폰용 전자책 개발방법)

  • Lee, Sungjae;Kwon, Daehyeon;Cho, Soosun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.11a
    • /
    • pp.1678-1680
    • /
    • 2010
  • 최근 스마트폰의 보급이 급속도로 이루어지고 있고 전자책 시장이 성장함에 따라 스마트폰을 통해 전자책 등 다양한 교육 서비스를 제공하려는 시도가 활발해지고 있다. 앞으로 가방에 여러 권의 책을 소지하기 보다는 스마트폰이나 전자책 서비스가 가능한 단말기 하나만 들고 다니면서 책을 대체할 것이다. 본 논문에서는 단순한 텍스트기반이 아닌 멀티미디어 디바이스와 각종 센서를 이용함으로써 멀티모달 상호작용을 지원하는 전자책의 개발 방법을 제안한다.

Improved Semantic Segmentation in Multi-modal Network Using Encoder-Decoder Feature Fusion (인코더-디코더 사이의 특징 융합을 통한 멀티 모달 네트워크의 의미론적 분할 성능 향상)

  • Sohn, Chan-Young;Ho, Yo-Sung
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2018.11a
    • /
    • pp.81-83
    • /
    • 2018
  • Fully Convolutional Network(FCN)은 기존의 방법보다 뛰어난 성능을 보였지만, FCN은 RGB 정보만을 사용하기 때문에 세밀한 예측이 필요한 장면에서는 다소 부족한 성능을 보였다. 이를 해결하기 위해 인코더-디코더 구조를 이용하여 RGB와 깊이의 멀티 모달을 활용하기 위한 FuseNet이 제안되었다. 하지만, FuseNet에서는 RGB와 깊이 브랜치 사이의 융합은 있지만, 인코더와 디코더 사이의 특징 지도를 융합하지 않는다. 본 논문에서는 FCN의 디코더 부분의 업샘플링 과정에서 이전 계층의 결과와 2배 업샘플링한 결과를 융합하는 스킵 레이어를 적용하여 FuseNet의 모달리티를 잘 활용하여 성능을 개선했다. 본 실험에서는 NYUDv2와 SUNRGBD 데이터 셋을 사용했으며, 전체 정확도는 각각 77%, 65%이고, 평균 IoU는 47.4%, 26.9%, 평균 정확도는 67.7%, 41%의 성능을 보였다.

  • PDF

Camera-based Interaction for Handheld Virtual Reality (카메라의 상대적 추적을 사용한 핸드헬드 가상현실 인터랙션)

  • Hwang, Jane;Kim, Gerard Joung-Hyun;Kim, Nam-Gyu
    • 한국HCI학회:학술대회논문집
    • /
    • 2006.02a
    • /
    • pp.619-625
    • /
    • 2006
  • 핸드헬드 가상현실 시스템이란 멀티모달 센서와 멀티모달 디스플레이 장치가 내장되어 가상환경을 제공하는 한 손으로 들고 다닐 수 있는 핸드헬드 시스템을 의미한다. 이런 핸드헬드 가상현실 시스템에서는 일반적으로 제한된 입력수단 (예> 버튼, 터치스크린)을 제공하기 때문에 이를 사용해서 3 차원 인터랙션을 행하기가 쉽지 않다. 그래서 본 연구에서는 일반 핸드헬드 기기에 대부분 내장되어 있는 장치인 카메라를 사용해서 핸드헬드 가상환경에서 3 차원 인터랙션을 수행하는 방법을 제안하고 구현, 평가한다.

  • PDF

Multimodal Interface Control Module for Immersive Virtual Education (몰입형 가상교육을 위한 멀티모달 인터페이스 제어모듈)

  • Lee, Jaehyub;Im, SungMin
    • The Journal of Korean Institute for Practical Engineering Education
    • /
    • v.5 no.1
    • /
    • pp.40-44
    • /
    • 2013
  • This paper suggests a multimodal interface control module which allows a student to naturally interact with educational contents in virtual environment. The suggested module recognizes a user's motion when he/she interacts with virtual environment and then conveys the user's motion to the virtual environment via wireless communication. Futhermore, a haptic actuator is incorporated into the proposed module in order to create haptic information. Due to the proposed module, a user can haptically sense the virtual object as if the virtual object is exists in real world.

  • PDF

Resolution of Deictic Anaphora in Real Multimodal Environments (실제 멀티모달 환경에서의 지시 대용어 처리)

  • Choi, Maengsik;Lee, Sehee;Kim, Harksoo
    • Annual Conference on Human and Language Technology
    • /
    • 2008.10a
    • /
    • pp.151-155
    • /
    • 2008
  • 언어기반 대화 시스템에서는 시스템과 사용자의 대화가 발화 자체만으로 이루어지기 때문에 사용자가 사람과 대화하는 것처럼 지시 대용어를 사용할 수 없어서 불편하다. 그리고 사용자의 발화 의미를 시스템이 정확하게 해석하기가 어렵다. 하지만 이런 언어기반 대화 시스템과는 달리 멀티모달 대화 시스템에서는 발화 자체의 정보뿐만이 아닌 제스처와 같은 발화 이외의 행위 정보들이 포함되는데 이 정보를 이용하면 지시 대용어의 처리가 가능해짐으로 시스템과의 대화가 좀 더 자연스러워진다. 본 논문에서는 군집화와 격틀을 이용하여 여러 사물들 중에서 지시 대용어가 될 가능성이 있는 지시 후보 선정을 한다. 그리고 특출성 점수와 엔트로피를 이용하여 후보 사물들 중에서 지시 대용어가 될 수 있는 대상을 선택하는 알고리즘을 제안한다. 시뮬레이션 환경에서의 실험결과 평균 2.8번의 상호작용으로 지시 대용어를 처리할 수 있었다.

  • PDF