• 제목/요약/키워드: 멀티모달 개념 학습

검색결과 8건 처리시간 0.033초

멀티모달 개념계층모델을 이용한 만화비디오 컨텐츠 학습을 통한 등장인물 기반 비디오 자막 생성 (Character-based Subtitle Generation by Learning of Multimodal Concept Hierarchy from Cartoon Videos)

  • 김경민;하정우;이범진;장병탁
    • 정보과학회 논문지
    • /
    • 제42권4호
    • /
    • pp.451-458
    • /
    • 2015
  • 기존 멀티모달 학습 기법의 대부분은 데이터에 포함된 컨텐츠 모델링을 통한 지식획득보다는 이미지나 비디오 검색 및 태깅 등 구체적 문제 해결에 집중되어 있었다. 본 논문에서는 멀티모달 개념계층모델을 이용하여 만화 비디오로부터 컨텐츠를 학습하는 기법을 제안하고 학습된 모델로부터 등장인물의 특성을 고려한 자막을 생성하는 방법을 제시한다. 멀티모달 개념계층 모델은 개념변수층과 단어와 이미지 패치의 고차 패턴을 표현하는 멀티모달 하이퍼네트워크층으로 구성되며 이러한 모델구조를 통해 각각의 개념변수는 단어와 이미지패치 변수들의 확률분포로 표현된다. 제안하는 모델은 비디오의 자막과 화면 이미지로부터 등장 인물의 특성을 개념으로서 학습하며 이는 순차적 베이지안 학습으로 설명된다. 그리고 학습된 개념을 기반으로 텍스트 질의가 주어질 때 등장인물의 특성을 고려한 비디오 자막을 생성한다. 실험을 위해 총 268분 상영시간의 유아용 비디오 '뽀로로'로부터 등장인물들의 개념이 학습되고 학습된 모델로부터 각각의 등장인물의 특성을 고려한 자막 문장을 생성했으며 이를 기존의 멀티모달 학습모델과 비교했다. 실험결과는 멀티모달 개념계층모델은 다른 모델들에 비해 더 정확한 자막 문장이 생성됨을 보여준다. 또한 동일한 질의어에 대해서도 등장인물의 특성을 반영하는 다양한 문장이 생성됨을 확인하였다.

다중 편광 SAR 영상 목표물 인식을 위한 딥 컨볼루션 뉴럴 네트워크 (Convolutional neural network for multi polarization SAR recognition)

  • 염광영;김문철
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2017년도 하계학술대회
    • /
    • pp.102-104
    • /
    • 2017
  • 최근 Convolutional neural network (CNN)을 도입하여, SAR 영상의 목표물 인식 알고리즘이 높은 성능을 보여주었다. SAR 영상은 4 종류의 polarization 정보로 구성되어있다. 기계와 신호처리의 비용으로 인하여 일부 데이터는 적은 수의 polarization 정보를 가지고 있다. 따라서 우리는 SAR 영상 data 를 멀티모달 데이터로 해석하였다. 그리고 우리는 이러한 멀티모달 데이터에 잘 작동할 수 있는 콘볼루션 신경망을 제안하였다. 우리는 데이터가 포함하는 모달의 수에 반비례 하도록 scale factor 구성하고 이를 입력 크기조절에 사용하였다. 입력의 크기를 조절하여, 네트워크는 특징맵의 크기를 모달의 수와 상관없이 일정하게 유지할 수 있었다. 또한 제안하는 입력 크기조절 방법은 네트워크의 dead filter 의 수를 감소 시켰고, 이는 네트워크가 자신의 capacity 를 잘 활용한다는 것을 의미한다. 또 제안된 네트워크는 특징맵을 구성할 때 다양한 모달을 활용하였고, 이는 네트워크가 모달간의 상관관계를 학습했다는 것을 의미한다. 그 결과, 제안된 네트워크의 성능은 입력 크기조절이 없는 일반적인 네트워크보다 높은 성능을 보여주었다. 또한 우리는 전이학습의 개념을 이용하여 네트워크를 모달의 수가 많은 데이터부터 차례대로 학습시켰다. 전이학습을 통하여 네트워크가 학습되었을 때, 제안된 네트워크는 특정 모달의 조합 경우만을 위해 학습된 네트워크보다 높은 성능을 보여준다.

  • PDF

ICT 인프라 이상탐지를 위한 조건부 멀티모달 오토인코더에 관한 연구 (A Study of Anomaly Detection for ICT Infrastructure using Conditional Multimodal Autoencoder)

  • 신병진;이종훈;한상진;박충식
    • 지능정보연구
    • /
    • 제27권3호
    • /
    • pp.57-73
    • /
    • 2021
  • ICT 인프라의 이상탐지를 통한 유지보수와 장애 예방이 중요해지고 있다. 장애 예방을 위해서 이상탐지에 대한 관심이 높아지고 있으며, 지금까지의 다양한 이상탐지 기법 중 최근 연구들에서는 딥러닝을 활용하고 있으며 오토인코더를 활용한 모델을 제안하고 있다. 이는 오토인코더가 다차원 다변량에 대해서도 효과적으로 처리가 가능하다는 것이다. 한편 학습 시에는 많은 컴퓨터 자원이 소모되지만 추론과정에서는 연산을 빠르게 수행할 수 있어 실시간 스트리밍 서비스가 가능하다. 본 연구에서는 기존 연구들과 달리 오토인코더에 2가지 요소를 가미하여 이상탐지의 성능을 높이고자 하였다. 먼저 다차원 데이터가 가지고 있는 속성별 특징을 최대한 부각하여 활용하기 위해 멀티모달 개념을 적용한 멀티모달 오토인코더를 적용하였다. CPU, Memory, network 등 서로 연관이 있는 지표들을 묶어 5개의 모달로 구성하여 학습 성능을 높이고자 하였다. 또한, 시계열 데이터의 특징을 데이터의 차원을 늘리지 않고 효과적으로 학습하기 위하여 조건부 오토인코더(conditional autoencoder) 구조를 활용하는 조건부 멀티모달 오토인코더(Conditional Multimodal Autoencoder, CMAE)를 제안하였다. 제안한 CAME 모델은 비교 실험을 통해 검증했으며, 기존 연구들에서 많이 활용된 오토인코더와 비교하여 AUC, Accuracy, Precision, Recall, F1-score의 성능 평가를 진행한 결과 유니모달 오토인코더(UAE)와 멀티모달 오토인코더(Multimodal Autoencoder, MAE)의 성능을 상회하는 결과를 얻어 이상탐지에 있어 효과적이라는 것을 확인하였다.

A Bio-Edutainment System to Virus-Vaccine Discovery based on Collaborative Molecular in Real-Time with VR

  • Park, Sung-Jun
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권6호
    • /
    • pp.109-117
    • /
    • 2020
  • 에듀테인먼트 시스템은 학습자가 문제를 효과적으로 인식하고, 문제를 해결하는 데 필요한 중요한 정보를 파악 분류하고, 배운 내용을 전달할 수 있도록 돕는 것을 목표로 한다. 에듀테인먼트를 활용한 콘텐츠는 과학 및 산업 분야의 교육 및 훈련에 유용하게 적용될 수 있다. 본 논문에서는 직관적인 멀티 모달 인터페이스를 활용하여 신약개발에서 활용되고 있는 가상스크리닝에 적용될 수 있는 에듀테인먼트 시스템을 제안한다. 본 연구에서는 분자 구조의 3D 모델을 효과적으로 조작하기 위해 입체 모니터를 활용하여 3차원(3D)거대 분자 모델링을 시각화 하였으며, 멀티 모달 인터페이스를 활용하여 분자 모델을 조작하고 있다. 본 시스템은 신약 개발 혹은 백신 개발에 있어 매우 중요한 방법 중의 하나인 가상 약물 선별 방법 중 하나 인 도킹 시뮬레이션 실험을 게임적 요소를 활용하여 쉽게 해결하는 방법을 제안하고 있다. 레벨 업 개념은 게임 요소가 객체와 사용자의 수에 의해 의존되는 바이오 게임 접근법을 활용하여 구현하였다. 실험 방법으로는 제안된 시스템의 신약 개발 과정에서 인간 면역 결핍 바이러스 (HIV)의 새로운 후보물질을 활용하여 바이러스의 활동 억제를 스크리닝하는 도킹 과정에서의 시간 측정으로 성능 비교 평가하였다.

가상현실 기반의 바이오 교육 콘텐츠 (A Bio Edutainment Contents System based on Virtual Reality)

  • 이준;박성준;김형석;김지인
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2009년도 춘계 종합학술대회 논문집
    • /
    • pp.59-65
    • /
    • 2009
  • 에듀테인먼트는 교육적인 효과와 함께 게임 기술 및 게임 이론들을 적용하여 즐거움 외에 교육을 통한 특정 분야의 문제 해결을 목적으로 가지는 콘텐츠를 말한다. 이러한 에듀테인먼트는 재미뿐만 아니라 교육적인 효과 때문에 과학기술 분야 및 산업기술 분야의 교육 및 훈련에 유용하다. 본 연구에서는 사용자가 직관적인 멀티 모달 인터페이스를 사용하여 생명공학에 적용한 바이오 에듀테인먼트 시스템을 제안한다. 이를 위하여 3차원 분자 구조를 특수 모니터를 사용하여 입체 시각화 하였으며 입체 영상화된 분자 구조를 효율적으로 제어하기 위하여 멀티 모달 인터페이스인 WiiRemote를 사용하였다. 본 논문에서 제안된 시스템은 분자 도킹 시뮬레이션이 가지던 문제점인 3차원 분자 모델들의 결합 및 조작이 사용자의 직관과 경험에 많이 의존하기 때문에 초보자들의 접근이 어려운 점을 게임적 요소를 적용하여 재미를 느끼게 하면서 해결하도록 하였다. 이를 위해 사용자가 조작을 하는 객체와 사용자의 수에 따른 게임적 요소인 레벨 업 개념을 적용하여 반복학습이 이루어지도록 하였다.

  • PDF

기능성 Bio-Game의 활용 방안에 관한 연구 (Research on Effective Use of A Serious Bio-Game)

  • 박성준;이준;김지인
    • 한국게임학회 논문지
    • /
    • 제9권1호
    • /
    • pp.93-103
    • /
    • 2009
  • 기능성 게임은 게임기술과 게임이론을 바탕으로 개발된 하드웨어 및 소프트웨어 애플리케이션으로 즐거움 외에 교육 및 특정 분야의 문제해결 등의 다른 목적을 가지는 게임을 말한다. 이러한 기능성 게임은 게임적인 재미뿐만 아니라 교육적인 효과 때문에 과학기술 분야 및 산업 기술 분야의 교육 및 훈련에 유용하다. 본 연구에서는 사용자가 직관적인 멀티 모달 인터페이스를 사용하여 생명공학에 적용한 기능성 게임을 제안한다. 이를 위하여 3차원 분자 구조를 특수 모니터를 사용하여 입체 시각화 하였으며 입체 영상화된 분자 구조를 효율적으로 제어하기 위하여 멀티 모달 인터페이스인 WiiRemote를 사용하였다. 본 논문에서 제안된 시스템은 분자도킹 시뮬레이션이 가지던 문제점인 3차원 분자 모델들의 결합 및 조작이 사용자의 직관과 경험에 많이 의존하기 때문에 초보자들의 접근이 어려운 점을 게임적 요소를 적용하여 재미를 느끼게 하면서 해결하도록 하였다. 이를 위해 사용자가 조작을 하는 객체와 사용자의 수에 따른 게임적 요소인 레벨 업 개념을 적용하여 반복학습이 이루어지도록 하였다. 실험은 AIDS 바이러스와 신약 치료 후보 물질을 대상으로 사용자가 바이러스와 후보 물질이 결합되는 위치인 Active Site를 찾는 도킹 실험을 하였으며 바이오 기능성 게임을 적용하지 않은 기존의 방법과 비교를 하였다.

  • PDF

장소 정보를 학습한 딥하이퍼넷 기반 TV드라마 소셜 네트워크 분석 (Social Network Analysis of TV Drama via Location Knowledge-learned Deep Hypernetworks)

  • 남장군;김경민;장병탁
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권11호
    • /
    • pp.619-624
    • /
    • 2016
  • Social-aware video는 자유로운 스토리 전개를 통해 인물들간의 관계뿐만 아니라 경제, 정치, 문화 등 다양한 지식을 사람에게 전달해주고 있다. 특히 장소에 따른 사람들간의 대화 습성과 행동 패턴은 사회관계를 분석하는데 있어서 아주 중요한 정보이다. 하지만 멀티모달과 동적인 특성으로 인해 컴퓨터가 비디오로부터 자동으로 지식을 습득하기에는 아직 많은 어려움이 있다. 이러한 문제점들을 해결하기 위해 기존의 연구에서는 딥하이퍼넷 모델을 사용하여 드라마 등장인물의 시각과 언어 정보를 기반으로 계층적 구조를 사용해 소셜 네트워크를 분석하였다. 하지만 장소 정보를 사용하지 않아 전반적인 스토리로부터 소셜 네트워크를 분석할 수밖에 없었다. 본 논문에서는 기존 연구를 바탕으로 장소 정보를 추가하여 각 장소에서의 인물 특성을 분석해 보았다. 본 논문에서는 총 4400분 분량의 TV드라마 "Friends"를 사용했고 C-RNN모델을 통해 등장인물을 인식하였으며 Bag of Features로 장소를 분류하였다. 그리고 딥하이퍼넷 모델을 통해 자동으로 소셜 네트워크를 생성하였고 각 장소에서의 인물 관계 변화를 분석하였다.

IoT 환경에서 인터유저빌리티(Interusability) 개선을 위한 사물성격(Personality of Things)중심의 UI 프로토타이핑에 대한 연구 (A Study on UI Prototyping Based on Personality of Things for Interusability in IoT Environment)

  • 안미경;박남춘
    • 한국HCI학회논문지
    • /
    • 제13권2호
    • /
    • pp.31-44
    • /
    • 2018
  • 사물인터넷(Internet of Things)시대에는 다양한 사물이 연결되어 사물들 스스로가 데이터를 획득하여 이를 바탕으로 학습하고 동작한다. 이는 사물이 사람의 모습을 닮아가고 있다고 볼 수 있고 변화한 사물과 사람이 어떻게 소통하는가를 설계하는 것이 핵심 이슈로 떠오르고 있다. 이러한 IoT 환경이 도래함에 따라 UI 디자인 분야에서도 많은 연구가 진행되었다. 멀티모달리티(Multi-modality)와 인터유저빌리티(Interusability) 등의 키워드를 통해서 UI 분야에서도 복합적인 요소를 고려하려는 연구가 진행됐음을 알 수 있다. 하지만 기존의 UI 디자인 방법론으로는 IoT 환경에서 사용자 인터페이스(UI)를 설계할 때 사물, 사람, 데이터가 상호작용하는 방식에 대해서 구조화하고 테스트하는데 한계가 있다. 따라서 본 연구에서 새로운 UI 프로토타이핑 방법을 제안하였다. 본 논문의 주요 분석과 연구는 다음과 같다: (1) 먼저 사물의 행동 프로세스를 정의하였다. (2) 행동 프로세스를 토대로 기존의 IoT 제품을 분석하였다. (3) 사물성격(Personality of Things)유형을 구분 지을 수 있는 프레임워크를 제작하였다. (4) 프레임워크를 바탕으로 사물성격(Personality of Things) 유형을 도출하였다. (5) 3개의 대표 사물성격(Personality of Things)을 실제 스마트 홈 서비스에 적용하여 프로토타이핑 테스트를 해보았다. 본 연구는 새로운 UI 프로토타이핑 방법을 제안하여 더 총체적인 방식으로 IoT 서비스에 대한 사용자 경험(UX)을 확인할 수 있었다는 데 의의가 있다. 또한, 향후 본 연구를 발전시켜 인공지능(AI) 기술이 발전한 환경에서 지능화된 서비스의 정체성(Identity) 확립의 도구로 사물성격(Personality of Things) 개념을 활용할 수 있을 것이라 생각한다.

  • PDF