• Title/Summary/Keyword: 멀티 모달

Search Result 264, Processing Time 0.03 seconds

Video genre classification using Multimodal features (멀티모달 특징을 이용한 비디오 장르 분류)

  • Jin Sung Ho;Bea Tea Meon;Choo Jin Ho;Ro Yong Man;Kang Kyeongok
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2003.11a
    • /
    • pp.219-222
    • /
    • 2003
  • 본 논문에서는 멀티모달(multimodal) 특징을 이용한 비디오 장르 식별 방법을 제안한다. 비디오 장르 식별 기술은 방대한 양의 방송 컨텐츠를 보다 효율적으로 분류할 뿐 아니라 자동적인 비디오 요약을 위한 전처리 과정으로 활용될 수 있는 기술이다. 따라서, 그 필요성 및 중요성이 부각되고 있다. 본 논문에서 제안하고 있는 방법은 MPEG-7의 오디오 및 비주얼 서술자들을 적용하여 멀티모달 특징을 추출하고 여러 가지 방송 비디오 장르(genre)들로 구성된 데이터베이스에서 장르 분류를 위해 설계된 인식기(classifier)를 통한 성능을 평가한다.

  • PDF

MMA: Multi-modal Message Aggregation for Korean VQA (MMA: 한국어 시각적 질의응답을 위한 멀티 모달 메시지 통합)

  • Park, Sungjin;Park, Chanjun;Seo, Jaehyung;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.468-472
    • /
    • 2020
  • 시각적 질의응답(Visual Question Answering, VQA)은 주어진 이미지에 연관된 다양한 질문에 대한 올바른 답변을 예측하는 기술이다. 해당 기술은 컴퓨터 비전-자연어 처리 연구분야에서 활발히 연구가 진행되고 있으며, 질문의 의도를 정확히 파악하고, 주어진 이미지에서 관련 단서 정보를 찾는 것이 중요하다. 또한, 서로 이질적인 특성을 지닌 정보(이미지 객체, 객체 위치, 질문)를 통합하는 과정도 중요하다. 본 논문은 질문의 의도에 알맞은 정보를 효율적으로 사용하기 위해 멀티 모달 입력 이미지 객체, 객체 위치, 질문)에 대한 Multi-modal Message Aggregation (MMA) 제안하며 이를 통해 한국어 시각적 질의응답 KVQA에서 다른 모델보다 더 좋은 성능을 확인하였다.

  • PDF

Multi-Modal Recommendation System for Web Novels (멀티 모달 딥러닝을 활용한 웹소설 추천 시스템)

  • Mi Ryeo Kim;Hyon Hee Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.552-554
    • /
    • 2023
  • 웹소설 시장의 성장에 따라 웹소설 추천 시스템의 중요성이 높아지고 있다. 본 연구에서는 작품의 특성 및 선호도를 나타낼 수 있는 다양한 데이터를 활용하여 추천시스템을 구현하고 그 성능을 평가하여 표지 이미지와 작품 특성을 모두 고려한 멀티 모달 추천 시스템이 가장 효율적임을 보여주었다. 연구 결과, 단일 변수 추천에서는 작품 소개글과 표지 이미지 기반 추천이 가장 좋은 성능을 보였고, 멀티 모달 추천 시스템에서는 작품 소개글, 이미지, 키워드 순으로 성능에 좋은 영향을 끼치는 것으로 나타났다. 이번 연구 결과는 한국콘텐츠진흥원에서 조사한 웹소설 이용자 실태조사와는 조금 다른 결과를 보여주었다. 설문조사에서는 인기도를 웹소설 선택 시 가장 중요한 영향으로 봤으나, 본 연구에서는 작품 소개글이 가장 중요한 영향을 미친다는 결과가 나타났다. 이러한 연구 결과는 웹소설 추천 시스템의 개발과 운영에 있어서 중요한 참고 자료가 될 것으로 예상된다.

A Personal Video Event Classification Method based on Multi-Modalities by DNN-Learning (DNN 학습을 이용한 퍼스널 비디오 시퀀스의 멀티 모달 기반 이벤트 분류 방법)

  • Lee, Yu Jin;Nang, Jongho
    • Journal of KIISE
    • /
    • v.43 no.11
    • /
    • pp.1281-1297
    • /
    • 2016
  • In recent years, personal videos have seen a tremendous growth due to the substantial increase in the use of smart devices and networking services in which users create and share video content easily without many restrictions. However, taking both into account would significantly improve event detection performance because videos generally have multiple modalities and the frame data in video varies at different time points. This paper proposes an event detection method. In this method, high-level features are first extracted from multiple modalities in the videos, and the features are rearranged according to time sequence. Then the association of the modalities is learned by means of DNN to produce a personal video event detector. In our proposed method, audio and image data are first synchronized and then extracted. Then, the result is input into GoogLeNet as well as Multi-Layer Perceptron (MLP) to extract high-level features. The results are then re-arranged in time sequence, and every video is processed to extract one feature each for training by means of DNN.

Multimodal interface for Korean inputs using speech and keypad (음성/키 패드를 이용한 한글 단어 입력용 멀티모달 인터페이스)

  • Kim, Won-Woo;Jeon, Ho-Hyun;Park, Sung-Chan
    • 한국HCI학회:학술대회논문집
    • /
    • 2007.02a
    • /
    • pp.417-422
    • /
    • 2007
  • 멀티모달 인터페이스(multimodal interface)는 사람과 기계 사이의 통신을 위해 여러 가지 수단을 사용함을 말한다. 본 고에서는 휴대폰 키 패드를 통한 문자 입력과 마이크를 통한 음성 인식의 두 가지 모드를 함께 사용하여 단어를 입력하는 새로운 인터페이스 방법을 제시함으로써 미래지향적 휴먼 인터페이스의 핵심으로 인지되고 있는 음성인식의 한계, 특히 한국어 인식의 문제점을 해결하고자 한다.

  • PDF

An Implementation of Finger Gesture Recognition Using Mobile Phone Camera (모바일 폰 카메라를 이용한 손가락 움직임 인식 구현)

  • Lee, Keun-Il;Rhee, Dea-Woong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.05a
    • /
    • pp.895-898
    • /
    • 2005
  • 최근 미래 컴퓨터 기술에 대한 연구로서, 인터페이스 부분에 초점을 맞춘 다양한 연구가 진행되고 있다. 현재 웨어러블 컴퓨터(Wearable Computer), 유비쿼터스 컴퓨팅(ubiquitous Computing), 가상현실(Virtual Reality), 멀티모달 인터페이스 기술 등 다양한 인터페이스 기술이 연구되고 있다. 본 논문에서는 모바일 폰 카메라를 이용해 손가락 움직임을 인식하는 알고리즘으로 KTF v1.1 Emulator 를 이용하여 모바일 게임을 위한 멀티모달 인터페이스로 적용 가능성을 제안한다.

  • PDF

The design of Multi-modal system for the realization of DARC system controller (DARC 시스템 제어기 구현을 위한 멀티모달 시스템 설계)

  • 최광국;곽상훈;하얀돌이;김유진;김철;최승호
    • Proceedings of the IEEK Conference
    • /
    • 2000.09a
    • /
    • pp.179-182
    • /
    • 2000
  • 본 논문은 DARC 시스템 제어기를 구현하기 위해 음성인식기와 입술인식기를 결합하여 멀티모달 시스템을 설계하였다. DARC 시스템에서 사용하고 있는 22개 단어를 DB로 구축하고, HMM을 적용하여 인식기를 설계하였다. 두 모달간 인식 확률 결합방법은 음성인식기가 입술인식기에 비해 높은 인식률을 가지고 있다는 가정 하에 8:2 비율의 가중치로 결합하였고, 결합시점은 인식 후 확률을 결합하는 방법을 적용하였다. 시스템간 인터페이스에서는 인터넷 프로토콜인 TCP/IP의 소켓을 통신모듈로 설계/구현하고, 인식실험은 테스트 DB를 이용한 방법과 5명의 화자가 실시간 실험을 통해 그 성능 평가를 하였다.

  • PDF

Improved Semantic Segmentation in Multi-modal Network Using Encoder-Decoder Feature Fusion (인코더-디코더 사이의 특징 융합을 통한 멀티 모달 네트워크의 의미론적 분할 성능 향상)

  • Sohn, Chan-Young;Ho, Yo-Sung
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2018.11a
    • /
    • pp.81-83
    • /
    • 2018
  • Fully Convolutional Network(FCN)은 기존의 방법보다 뛰어난 성능을 보였지만, FCN은 RGB 정보만을 사용하기 때문에 세밀한 예측이 필요한 장면에서는 다소 부족한 성능을 보였다. 이를 해결하기 위해 인코더-디코더 구조를 이용하여 RGB와 깊이의 멀티 모달을 활용하기 위한 FuseNet이 제안되었다. 하지만, FuseNet에서는 RGB와 깊이 브랜치 사이의 융합은 있지만, 인코더와 디코더 사이의 특징 지도를 융합하지 않는다. 본 논문에서는 FCN의 디코더 부분의 업샘플링 과정에서 이전 계층의 결과와 2배 업샘플링한 결과를 융합하는 스킵 레이어를 적용하여 FuseNet의 모달리티를 잘 활용하여 성능을 개선했다. 본 실험에서는 NYUDv2와 SUNRGBD 데이터 셋을 사용했으며, 전체 정확도는 각각 77%, 65%이고, 평균 IoU는 47.4%, 26.9%, 평균 정확도는 67.7%, 41%의 성능을 보였다.

  • PDF