• 제목/요약/키워드: Multimodal Contents

검색결과 35건 처리시간 0.027초

멀티모달 패션 추천 대화 시스템을 위한 개선된 트랜스포머 모델 (Improved Transformer Model for Multimodal Fashion Recommendation Conversation System)

  • 박영준;조병철;이경욱;김경선
    • 한국콘텐츠학회논문지
    • /
    • 제22권1호
    • /
    • pp.138-147
    • /
    • 2022
  • 최근 챗봇이 다양한 분야에 적용되어 좋은 성과를 보이면서 쇼핑몰 상품 추천 서비스에도 챗봇을 활용하려는 시도가 많은 이커머스 플랫폼에서 진행되고 있다. 본 논문에서는 사용자와 시스템간의 대화와 패션 이미지 정보에 기반해 사용자가 원하는 패션을 추천하는 챗봇 대화시스템을 위해, 최근 자연어처리, 음성인식, 이미지 인식 등의 다양한 AI 분야에서 좋은 성능을 내고 있는 트랜스포머 모델에 대화 (텍스트) 와 패션 (이미지) 정보를 같이 사용하여 추천의 정확도를 높일 수 있도록 개선한 멀티모달 기반 개선된 트랜스포머 모델을 제안하며, 데이터 전처리(Data preprocessing) 및 학습 데이터 표현(Data Representation)에 대한 분석을 진행하여 데이터 개선을 통한 정확도 향상 방법도 제안한다. 제안 시스템은 추천 정확도는 0.6563 WKT(Weighted Kendall's tau)으로 기존 시스템의 0.3372 WKT를 0.3191 WKT 이상 크게 향상시켰다.

Environmental IoT-Enabled Multimodal Mashup Service for Smart Forest Fires Monitoring

  • Elmisery, Ahmed M.;Sertovic, Mirela
    • Journal of Multimedia Information System
    • /
    • 제4권4호
    • /
    • pp.163-170
    • /
    • 2017
  • Internet of things (IoT) is a new paradigm for collecting, processing and analyzing various contents in order to detect anomalies and to monitor particular patterns in a specific environment. The collected data can be used to discover new patterns and to offer new insights. IoT-enabled data mashup is a new technology to combine various types of information from multiple sources into a single web service. Mashup services create a new horizon for different applications. Environmental monitoring is a serious tool for the state and private organizations, which are located in regions with environmental hazards and seek to gain insights to detect hazards and locate them clearly. These organizations may utilize IoT - enabled data mashup service to merge different types of datasets from different IoT sensor networks in order to leverage their data analytics performance and the accuracy of the predictions. This paper presents an IoT - enabled data mashup service, where the multimedia data is collected from the various IoT platforms, then fed into an environmental cognition service which executes different image processing techniques such as noise removal, segmentation, and feature extraction, in order to detect interesting patterns in hazardous areas. The noise present in the captured images is eliminated with the help of a noise removal and background subtraction processes. Markov based approach was utilized to segment the possible regions of interest. The viable features within each region were extracted using a multiresolution wavelet transform, then fed into a discriminative classifier to extract various patterns. Experimental results have shown an accurate detection performance and adequate processing time for the proposed approach. We also provide a data mashup scenario for an IoT-enabled environmental hazard detection service and experimentation results.

교육용 에이전트를 위한 감성 생성 모델 (Emotion Generation Model for Tutoring Agents)

  • Choo, Moon Won;Choi, Young Mie
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2002년도 춘계학술발표논문집(하)
    • /
    • pp.812-822
    • /
    • 2002
  • 메타포는 인터페이스 구현의 근간을 이루는 방법론으로 인터페이스의 발전과정은 바로 이 메타포의 패러다임적 진화과정이라고 할 수 있다. 지능형 에이전트는 데스크탑 메타포의 발전된 형태로 인터페이스 설계에 새로운 패러다임으로 등장하고 있다. 무엇보다도 감성적 커뮤니케이션의 필요성이 증대됨에 따라 감성 에이전트에 대하여 다양한 분야와 관점에서 심도있는 연구가 진행되고 있다. 본고에서는 인간의 감성을 교육용 에이전트에 적용할 수 있는 인간의 감성 생성 모델을 제시하고자 한다.

  • PDF

Deformable Registration for MRI Medical Image

  • Li, Binglu;Kim, YoungSeop;Lee, Yong-Hwan
    • 반도체디스플레이기술학회지
    • /
    • 제18권2호
    • /
    • pp.63-66
    • /
    • 2019
  • Due to the development of medical imaging technology, different imaging technologies provide a large amount of effective information. However, different imaging method caused the limitations of information integrity by using single type of image. Combining different image together so that doctor can obtain the information from medical image comprehensively. Image registration algorithm based on mutual information has become one of the hotspots in the field of image registration with its high registration accuracy and wide applicability. Because the information theory-based registration technology is not dependent on the gray value difference of the image, and it is very suitable for multimodal medical image registration. However, the method based on mutual information has a robustness problem. The essential reason is that the mutual information itself is not have enough information between the pixel pairs, so that the mutual information is unstable during the registration process. A large number of local extreme values are generated, which finally cause mismatch. In order to overcome the shortages of mutual information registration method, this paper proposes a registration method combined with image spatial structure information and mutual information.

글쓰기 수업에서 음악과의 융합 가능성에 대한 탐색적 연구 (Exploratory Study on the Possibilities of Convergence with Music in Writing Classes)

  • 이란
    • 한국콘텐츠학회논문지
    • /
    • 제20권8호
    • /
    • pp.88-100
    • /
    • 2020
  • 본 연구는 오늘날 대학의 복합양식적 글쓰기 교양 교육의 필요성과 가능성을 조명한 문헌연구 성격의 탐색적 연구이다. 연구 목적은 음악과 글쓰기를 결합시켜 교육에 활용한 기존 연구들을 분석하여 그 교육적 함축을 찾아보고 Meyrowitz의 미디어를 바라보는 세 관점에 따라 그 연구들의 개념과 결과들을 종합 정리하여 글쓰기 교육의 입장에서 음악과의 융합 형태적 가능성을 제시하는 것이다. 기존 연구들은 크게 네 범주로 나누어 볼 수 있었다. 첫째는 범교과적 글쓰기의 관점, 둘째는 치유적 효과의 관점, 셋째는 글쓰기를 위한 사고 자료적 관점, 마지막은 신문식성의 관점이다. 이 개념들을 Meyrowitz의 관점으로 정리해 볼 때, 먼저는 환경으로서 음악을 활용하는 것인데 글쓰기 교육의 배경 음악으로 활용하여 음악이 가진 감성, 회상, 치유적 효과를 간접적으로 활용하는 것이다. 두 번째는 글쓰기 도구로서 음악을 활용하는 것인데 현재 교육 현장에서 가장 보편적으로 활용되는 양식이다. 음악을 일종의 읽기자료로 활용하여 정의적, 인지적, 전략적 영역 모두에서 효과를 얻을 수 있다. 셋째는 음악과 서사의 융·복합적 글쓰기로 제시하였다. 음악이 독자적 언어 매체로서 서사 매체와 상호작용하면서 의미를 구성하는 방식으로 글쓰기를 시도한다. 이 세 가지 차원은 관점은 서로 다르지만 동시에 일어나는 교육 작용일 수 있으며 서로가 결합된 형태로 진행될 수도 있다. 본고는 이러한 수업을 위해서는 글쓰기 교수자에게 음악적 역량이나 음악과의 융합 글쓰기에 대한 전문적인 관심과 노력이 필요하며 팀티칭도 하나의 대안이 될 수 있음을 강조하였다.

A Review of Haptic Perception: Focused on Sensation and Application

  • Song, Joobong;Lim, Ji Hyoun;Yun, Myung Hwan
    • 대한인간공학회지
    • /
    • 제31권6호
    • /
    • pp.715-723
    • /
    • 2012
  • Objective: The aim of this study is to investigate haptic perception related researches into three perspectives: cutaneous & proprioceptive sensations, active & passive touch, and cognition & emotion, then to identify issues for implementing haptic interactions. Background: Although haptic technologies had improved and become practical, more research on the method of application is still needed to actualize the multimodal interaction technology. Systematical approached to explore haptic perception is required to understand emotional experience and social message, as well as tactile feedback. Method: Content analysis were conducted to analyze trend in haptic related research. Changes in issues and topics were investigated using sensational dimensions and the different contents delivered via tactile perception. Result: The found research opportunities were haptic perception in various body segments and emotion related proprioceptive sensation. Conclusion: Once the mechanism of how users perceives haptic stimuli would help to develop effective haptic interactrion and this study provide insights of what to focus for the future of haptic interaction. Application: This research is expected to provide presence, and emotional response applied by haptic perception to fields such as human-robot, human-device, and telecommunication interaction.

멀티 신호를 이용한 환경 인식 성능 개선 (Improvement of Environment Recognition using Multimodal Signal)

  • 박준규;백성준
    • 한국콘텐츠학회논문지
    • /
    • 제10권12호
    • /
    • pp.27-33
    • /
    • 2010
  • 본 연구에서는 9가지 환경에서 마이크로폰과 자이로센서, 가속도센서를 이용하여 얻은 데이터를 특징 추출한 후 각 특징들을 조합하여 GMM (Gaussian Mixture Model)을 이용한 분류실험을 수행하였다. 기존의 환경 인식에 관한 연구들에서는 주로 마이크로폰을 이용한 환경음 데이터를 통해 인식주체의 환경 상황을 인식하고자 하였으나, 여러 노이즈들이 결합한 형태로 좋은 특징을 얻기 어려운 환경음의 구조적 특성으로 인해 그 인식 성능에 한계가 있었다. 이에 본 연구에서는 환경상황을 인식하기 위한 또 다른 방법으로 인식주체의 움직임 특성을 반영하기 위해 자이로센서와 가속도센서의 데이터를 특징에 추가 적용하는 방식을 제안하였다. 실험결과 따르면 마이크로폰을 통해 얻은 환경음의 특징만을 이용하는 기존의 방식들에 비해 가속도센서를 통해 얻은 데이터를 기존의 환경음 특징벡터와 조합한 경우에서 5% 이상 평균 인식률이 개선되는 것을 확인할 수 있었다.

재난 관련 위치 신뢰도 향상을 위한 소셜 미디어 활용 (Leveraging Social Media for Enriching Disaster related Location Trustiness)

  • 뉘엔반퀴엣;뉘엔양쯔엉;뉘엔신응억;김경백
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권3호
    • /
    • pp.567-575
    • /
    • 2017
  • 위치기반 서비스는 재난 경보 시스템 및 추천시스템 등의 다양한 응용에서 중요한 역할을 한다. 이들 응용들은 위치정보(위도, 경도 등) 뿐만 아니라 위치에 대한 사건(지진, 태풍 등)의 영향력을 필요로 한다. 최근 이러한 위치에 대한 사건의 영향력을 제공하기 위해, 다양한 형태의 정보(지진 정보와 센서 정보)를 이용한 위치 신뢰도 계산 방법이 연구 되었다. 이전의 연구에서는 사건의 영향을 선형으로 감소시키는 형태로 위치 신뢰도를 계산하였다. 이 논문에서는 소셜 미디어를 추가적으로 활용하여 사건의 위치에 대한 영향력, 즉 위치 신뢰도를 향상 시키는 만드는 방법을 제안하였다. 우선 지진정보와 소셜 미디어 데이터를 수집하는 시스템을 설계하였다. 두번째로, 지진정보에 기반한 위치 신뢰도 계산 방법을 소개하였다. 최종적으로 소셜 미디어에 기반하여 공간적으로 분산되는 형태로 신뢰도를 증강시키는 방법을 통해 위치 신뢰도 정보를 더욱 풍부하게 제공하는 방법을 제안하였다.

지하공동구 디지털 트윈 체계 및 요구기능 설계에 관한 연구 (A Study on the Design of Digital Twin System and Required Function for Underground Lifelines)

  • 정민우;이희석;신동빈
    • 한국콘텐츠학회논문지
    • /
    • 제21권7호
    • /
    • pp.248-258
    • /
    • 2021
  • 지하공동구의 도시 생명선 기능유지를 위해서는 24시간 모니터링을 수행해야 하며 부족한 인력을 대체하기 위한 기술개발이 필요하다. 일반적인 관리방법으로는 지하 공간 특성을 반영하기 어려워 본 연구에서는 지하공동구를 대상으로 공간정보 기반의 디지털 트윈 시스템 요구사항을 도출하였다. 물리적 공간과 가상공간으로 구분하였으며, 물리적 공간은 멀티모달 영상센서 체계 구축의 기반이 되는 센서의 종류와 배치도를, 가상공간은 지하공동구에 대한 시스템 아키텍처를 구성하였다. 그리고 업무에 따른 시스템 기능을 제시하였다. 지하공동구 디지털 트윈을 통해 재난을 예방하고, 조기에 대응하여 도시 생명선의 기능유지에 효과적일 것으로 예상한다.

오디오와 이미지의 다중 시구간 정보와 GAN을 이용한 영상의 하이라이트 예측 알고리즘 (Video Highlight Prediction Using GAN and Multiple Time-Interval Information of Audio and Image)

  • 이한솔;이계민
    • 방송공학회논문지
    • /
    • 제25권2호
    • /
    • pp.143-150
    • /
    • 2020
  • 최근 다양한 매체를 통해 폭발적인 양의 콘텐츠가 업로드 되고 있으며 그 가운데 게임과 스포츠 영상은 상당한 비율을 차지한다. 방송사에서는 시청자 편의를 위해 경기 영상 중 흥미를 끄는 장면을 모아 하이라이트 영상을 만들어 제공한다. 그러나 이는 시간과 비용이 많이 소요되는 문제가 있다. 본 논문에서는 게임과 스포츠 경기에서 자동으로 하이라이트를 예측하는 모델을 제안한다. 기존의 방법들이 이미지 정보만을 주로 이용하는데 반해 우리는 오디오와 이미지 정보를 함께 사용하며, 영상의 단기적 전후관계와 중장기적 흐름을 동시에 파악하는 방법을 제시한다. 또한 더 좋은 특징벡터를 찾아내기 위해 GAN을 결합한 모델을 설명한다. 제안하는 모델들은 e스포츠 경기 영상과 야구 경기 영상을 이용하여 평가한다.