• 제목/요약/키워드: 멀티 모달

검색결과 264건 처리시간 0.027초

실감형 교과서를 위한 멀티모달 콘텐츠 저작 및 재생 프레임워크 설계 (Designing a Framework of Multimodal Contents Creation and Playback System for Immersive Textbook)

  • 김석열;박진아
    • 한국콘텐츠학회논문지
    • /
    • 제10권8호
    • /
    • pp.1-10
    • /
    • 2010
  • 가상교육 환경에 있어서 보다 효과적인 지식 전달을 위해서는 시청각적 정보에만 의존하는 기존의 학습 매체에서 탈피하여 상황에 맞는 촉각 피드백이 포함된 '실감형 교과서'의 도입이 필요하다. 그러나 저작 및 재생 환경상의 제약으로 인해 실감형 교과서를 위한 학습 콘텐츠의 확보와 활용은 아직 요원한 실정이다. 우리는 이러한 문제점에 착안하여 실감형 교과서를 위한 접근성 높은 멀티모달 학습 콘텐츠 저작 및 재생 프레임워크를 제안하였다. 본 프레임워크는 직관적인 콘텐츠 저작을 위한 스크립트 포맷과 이를 재생하기 위한 콘텐츠 재생부로 구성되어 있다. 스크립트 규격 정의 단계에서는 학습 콘텐츠에 요구되는 요소들을 규명하고 이를 반영한 XML 기반의 메타언어를 정의하였다. 그리고 콘텐츠 재생부는 작성된 콘텐츠를 해석하고 사용자로부터의 입력에 대응하여 시각 및 촉각 렌더링 루프를 통해 사용자에게 멀티모달피드백을 제공하도록 설계되었다. 이렇게 제안된 내용을 바탕으로 프로토타입을 구현하고 사용자 평가를 수행하여 본 프레임워크의 효용성을 검증하는 한편 앞으로의 개선 방향에 대해 논의하였다.

Imaginary Soundscape 기반의 딥러닝을 활용한 회화와 음악의 매칭 및 다중 감각을 이용한 융합적 평가 방법 (Convergence evaluation method using multisensory and matching painting and music using deep learning based on imaginary soundscape)

  • 정하영;김영준;조준동
    • 한국융합학회논문지
    • /
    • 제11권11호
    • /
    • pp.175-182
    • /
    • 2020
  • 본 연구에서는 회화 감상에 도움이 되는 사운드스케이프를 구성하기 위해 딥러닝 기술을 활용하여 클래식 음악을 매칭하는 기술을 소개하고 회화와 음악 매칭이 얼마나 잘 되었는지에 대해 평가할 수 있는 평가 지표를 제안한다. 평가 지표는 리커드 5점 척도를 통한 적합도 평가와 멀티모달 측면의 평가로 진행하였다. 회화와 음악 매칭에 대해 13명의 실험 참가자의 적합도 평가의 점수는 3.74/5.0 이었고, 또한 13명의 실험 참가자의 멀티모달 평가에서 회화와 음악 매칭의 코사인 유사도의 평균은 0.79였다. 멀티모달적 평가는 새로운 사용자 경험을 측정할 수 있는 평가 지표가 될 것으로 기대된다. 또한 본 연구를 통해 시각과 청각의 인터랙션을 제안함으로써 다중감각 예술작품 경험을 향상시키고자 하였다. 본 연구에서 제안된 회화와 음악 매칭이 다중감각 예술작품 전시에서 활용되며 더 나아가 이는 시각 장애인들의 예술작품 감상에 대한 접근성을 높일 수 있을 것이라 기대한다.

멀티모달 신호처리를 위한 경량 인공지능 시스템 설계 (Design of Lightweight Artificial Intelligence System for Multimodal Signal Processing)

  • 김병수;이재학;황태호;김동순
    • 한국전자통신학회논문지
    • /
    • 제13권5호
    • /
    • pp.1037-1042
    • /
    • 2018
  • 최근 인간의 뇌를 모방하여 정보를 학습하고 처리하는 뉴로모픽 기술에 대한 연구는 꾸준히 진행되고 있다. 뉴로모픽 시스템의 하드웨어 구현은 다수의 간단한 연산절차와 고도의 병렬처리 구조로 구성이 가능하여, 처리속도, 전력소비, 저 복잡도 구현 측면에서 상당한 이점을 가진다. 또한 저 전력, 소형 임베디드 시스템에 적용 가능한 뉴로모픽 기술에 대한 연구가 급증하고 있으며, 정확도 손실 없이 저 복잡도 구현을 위해서는 입력데이터의 차원축소 기술이 필수적이다. 본 논문은 멀티모달 센서 데이터를 처리하기 위해 멀티모달 센서 시스템, 다수의 뉴론 엔진, 뉴론 엔진 컨트롤러 등으로 구성된 경량 인공지능 엔진과 특징추출기를 설계 하였으며, 이를 위한 병렬 뉴론 엔진 구조를 제안하였다. 설계한 인공지능 엔진, 특징 추출기, Micro Controller Unit(MCU)를 연동하여 제안한 경량 인공지능 엔진의 성능 검증을 진행하였다.

멀티모달 센서 시스템용 유전자 알고리즘 보정기 및 PnP 플랫폼 (Genetic Algorithm Calibration Method and PnP Platform for Multimodal Sensor Systems)

  • 이재학;김병수;박현문;김동순;권진산
    • 한국전자통신학회논문지
    • /
    • 제14권1호
    • /
    • pp.69-80
    • /
    • 2019
  • 본 논문은 PnP(plug and play) 기술을 지원하는 멀티모달 센서 플랫폼을 제안하였다. PnP 기술은 센서 모듈이 연결이 되면 자동으로 인식하여 응용프로그램을 사용하여 손쉬운 센서 제어를 제공한다. 멀티모달 플랫폼을 검증하기 위해, 펌웨어를 사용하여 센서를 실험하였다. 센서 모듈이 연결되면 펌웨어는 센서 모듈을 인지하여 센서 데이터를 읽는다. 따라서, PnP 기술 지원을 통해 소프트웨어 설정 없이 자동으로 센서를 연동할 수 있게 된다. 측정한 센서 데이터는 다양한 왜곡에 의해 오류를 가지고 있다. 따라서, 본 논문은 다항식 계산을 통해 센서의 오류를 보상하고자 한다. 다항식 보상기의 계수를 찾기 위해 유전자 알고리즘 방식을 사용하였다. 실험결과 악조건에서 97%의 오류를 제거하였다. 또한, 제안하는 플랫폼은 다양한 프로토콜의 센서를 지원하기 위해 UART, I2S, I2C, SPI, GPIO를 지원한다.

팽창된 합성곱 계층 연산 풀링을 이용한 멀티 모달 네트워크 성능 향상 방법 (Improved Multi-modal Network Using Dilated Convolution Pyramid Pooling)

  • 박준영;호요성
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2018년도 추계학술대회
    • /
    • pp.84-86
    • /
    • 2018
  • 요즘 자율주행과 같은 최신 기술의 발전과 더불어 촬영된 영상 장면에 대한 깊이있는 이해가 필요하게 되었다. 특히, 기계학습 기술이 발전하면서 카메라로 찍은 영상에 대한 의미론적 분할 기술에 대한 연구도 활발히 진행되고 있다. FuseNet은 인코더-디코더 구조를 이용하여 장면 내에 있는 객체에 대한 의미론적 분할 기술을 적용할 수 있는 신경망 모델이다. FuseNet은 오직 RGB 입력을 받는 기존의 FCN보다 깊이정보까지 활용하여 RGB 정보를 기반으로 추출한 특징지도와의 요소합 연산을 통해 멀티 모달 구조를 구현했다. 의미론적 분할 연구에서는 객체의 전역 컨텍스트가 고려되는 것이 중요한데, 이를 위해 여러 계층을 깊게 쌓으면 연산량이 많아지는 단점이 있다. 이를 극복하기 위해서 기존의 합성곱 방식을 벗어나 새롭게 제안된 팽창 합성곱 연산(Dilated Convolution)을 이용하면 객체의 수용 영역이 효과적으로 넓어지고 연산량이 적어질 수 있다. 본 논문에서는 컨볼루션 연산의 새로운 방법론적 접근 중 하나인 팽창된 합성곱 연산을 이용해 의미론적 분할 연구에서 새로운 멀티 모달 네트워크의 성능 향상 방법을 적용하여 계층을 더 깊게 쌓지 않더라도 파라미터의 증가 없이 해상도를 유지하면서 네트워크의 전체 성능을 향상할 수 있는 최적화된 방법을 제안한다.

  • PDF

한국어 음성인식 후처리를 위한 주의집중 기반의 멀티모달 모델 (Attention based multimodal model for Korean speech recognition post-editing)

  • 정영석;오병두;허탁성;최정명;김유섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.145-150
    • /
    • 2020
  • 최근 음성인식 분야에서 신경망 기반의 종단간 모델이 제안되고 있다. 해당 모델들은 음성을 직접 입력받아 전사된 문장을 생성한다. 음성을 직접 입력받는 모델의 특성상 데이터의 품질이 모델의 성능에 많은 영향을 준다. 본 논문에서는 이러한 종단간 모델의 문제점을 해결하고자 음성인식 결과를 후처리하기 위한 멀티모달 기반 모델을 제안한다. 제안 모델은 음성과 전사된 문장을 입력 받는다. 입력된 각각의 데이터는 Encoder를 통해 자질을 추출하고 주의집중 메커니즘을 통해 Decoder로 추출된 정보를 전달한다. Decoder에서는 전달받은 주의집중 메커니즘의 결과를 바탕으로 후처리된 토큰을 생성한다. 본 논문에서는 후처리 모델의 성능을 평가하기 위해 word error rate를 사용했으며, 실험결과 Google cloud speech to text모델에 비해 word error rate가 8% 감소한 것을 확인했다.

  • PDF

Self-supervised Graph Learning을 통한 멀티모달 기상관측 융합 (Multi-modal Meteorological Data Fusion based on Self-supervised Learning for Graph)

  • 전현주;강전호;권인혁
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.589-591
    • /
    • 2023
  • 현재 수치예보 시스템은 항공기, 위성 등 다양한 센서에서 얻은 다종 관측 데이터를 동화하여 대기 상태를 추정하고 있지만, 관측변수 또는 물리량이 서로 다른 관측들을 처리하기 위한 계산 복잡도가 매우 높다. 본 연구에서 기존 시스템의 계산 효율성을 개선하여 관측을 평가하거나 전처리하는 데에 효율적으로 활용하기 위해, 각 관측의 특성을 고려한 자기 지도학습 방법을 통해 멀티모달 기상관측으로부터 실제 대기 상태를 추정하는 방법론을 제안하고자 한다. 비균질적으로 수집되는 멀티모달 기상관측 데이터를 융합하기 위해, (i) 기상관측의 heterogeneous network를 구축하여 개별 관측의 위상정보를 표현하고, (ii) pretext task 기반의 self-supervised learning을 바탕으로 개별 관측의 특성을 표현한다. (iii) Graph neural network 기반의 예측 모델을 통해 실제에 가까운 대기 상태를 추정한다. 제안하는 모델은 대규모 수치 시뮬레이션 시스템으로 수행되는 기존 기술의 한계점을 개선함으로써, 이상 관측 탐지, 관측의 편차 보정, 관측영향 평가 등 관측 전처리 기술로 활용할 수 있다.

ICLAL: 인 컨텍스트 러닝 기반 오디오-언어 멀티 모달 딥러닝 모델 (ICLAL: In-Context Learning-Based Audio-Language Multi-Modal Deep Learning Models)

  • 박준영;여진영 ;이고은 ;최창환;최상일
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.514-517
    • /
    • 2023
  • 본 연구는 인 컨택스트 러닝 (In-Context Learning)을 오디오-언어 작업에 적용하기 위한 멀티모달 (Multi-Modal) 딥러닝 모델을 다룬다. 해당 모델을 통해 학습 단계에서 오디오와 텍스트의 소통 가능한 형태의 표현 (Representation)을 학습하고 여러가지 오디오-텍스트 작업을 수행할 수 있는 멀티모달 딥러닝 모델을 개발하는 것이 본 연구의 목적이다. 모델은 오디오 인코더와 언어 인코더가 연결된 구조를 가지고 있으며, 언어 모델은 6.7B, 30B 의 파라미터 수를 가진 자동회귀 (Autoregressive) 대형 언어 모델 (Large Language Model)을 사용한다 오디오 인코더는 자기지도학습 (Self-Supervised Learning)을 기반으로 사전학습 된 오디오 특징 추출 모델이다. 언어모델이 상대적으로 대용량이기 언어모델의 파라미터를 고정하고 오디오 인코더의 파라미터만 업데이트하는 프로즌 (Frozen) 방법으로 학습한다. 학습을 위한 과제는 음성인식 (Automatic Speech Recognition)과 요약 (Abstractive Summarization) 이다. 학습을 마친 후 질의응답 (Question Answering) 작업으로 테스트를 진행했다. 그 결과, 정답 문장을 생성하기 위해서는 추가적인 학습이 필요한 것으로 보였으나, 음성인식으로 사전학습 한 모델의 경우 정답과 유사한 키워드를 사용하는 문법적으로 올바른 문장을 생성함을 확인했다.

하이퍼네트워크 모델을 이용한 비전-언어 크로스모달 연관정보 추출 (Extraction Analysis for Crossmodal Association Information using Hypernetwork Models)

  • 허민오;하정우;장병탁
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2009년도 학술대회
    • /
    • pp.278-284
    • /
    • 2009
  • 하나의 컨텐츠를 위해 동영상, 이미지, 소리, 문장과 같은 하나 이상의 모달리티로 전달하는 멀티모달 데이터가 증가하고 있다. 이러한 형태의 자료들은 잘 정의되지 않은 형태를 주로 가지기 때문에, 모달리티 간의 정보가 명백히 표현되지 못하는 경우가 많았다. 그래서, 본 연구에서 저자들은 자연계를 다루는 다큐멘터리 동영상 데이터를 이용하여 비전-언어 간의 상호 연관정보인 크로스모달 연관정보를 추출하고 분석하는 방법을 제시하였다. 이를 위해 정글, 바다, 우주의 세 가지 주제로 구성된 다큐멘터리로부터 이미지와 자막의 조합으로 이루어진 데이터를 모은 후, 그로부터 시각언어집합과 문장언어집합을 추출하였다. 분석을 통하여, 이 언어집합들간의 상호 크로스 모달 연관정보를 통해 생성된 다른 모달리티 데이터가 의미적으로 서로 관련이 있음을 확인할 수 있었다.

  • PDF

이미지 캡션 생성을 위한 심층 신경망 모델의 설계 (Design of a Deep Neural Network Model for Image Caption Generation)

  • 김동하;김인철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제6권4호
    • /
    • pp.203-210
    • /
    • 2017
  • 본 논문에서는 이미지 캡션 생성과 모델 전이에 효과적인 심층 신경망 모델을 제시한다. 본 모델은 멀티 모달 순환 신경망 모델의 하나로서, 이미지로부터 시각 정보를 추출하는 컨볼루션 신경망 층, 각 단어를 저차원의 특징으로 변환하는 임베딩 층, 캡션 문장 구조를 학습하는 순환 신경망 층, 시각 정보와 언어 정보를 결합하는 멀티 모달 층 등 총 5 개의 계층들로 구성된다. 특히 본 모델에서는 시퀀스 패턴 학습과 모델 전이에 우수한 LSTM 유닛을 이용하여 순환 신경망 층을 구성하며, 캡션 문장 생성을 위한 매 순환 단계마다 이미지의 시각 정보를 이용할 수 있도록 컨볼루션 신경망 층의 출력을 순환 신경망 층의 초기 상태뿐만 아니라 멀티 모달 층의 입력에도 연결하는 구조를 가진다. Flickr8k, Flickr30k, MSCOCO 등의 공개 데이터 집합들을 이용한 다양한 비교 실험들을 통해, 캡션의 정확도와 모델 전이의 효과 면에서 본 논문에서 제시한 멀티 모달 순환 신경망 모델의 높은 성능을 확인할 수 있었다.