• 제목/요약/키워드: multimodal input

검색결과 34건 처리시간 0.027초

ICT 인프라 이상탐지를 위한 조건부 멀티모달 오토인코더에 관한 연구 (A Study of Anomaly Detection for ICT Infrastructure using Conditional Multimodal Autoencoder)

  • 신병진;이종훈;한상진;박충식
    • 지능정보연구
    • /
    • 제27권3호
    • /
    • pp.57-73
    • /
    • 2021
  • ICT 인프라의 이상탐지를 통한 유지보수와 장애 예방이 중요해지고 있다. 장애 예방을 위해서 이상탐지에 대한 관심이 높아지고 있으며, 지금까지의 다양한 이상탐지 기법 중 최근 연구들에서는 딥러닝을 활용하고 있으며 오토인코더를 활용한 모델을 제안하고 있다. 이는 오토인코더가 다차원 다변량에 대해서도 효과적으로 처리가 가능하다는 것이다. 한편 학습 시에는 많은 컴퓨터 자원이 소모되지만 추론과정에서는 연산을 빠르게 수행할 수 있어 실시간 스트리밍 서비스가 가능하다. 본 연구에서는 기존 연구들과 달리 오토인코더에 2가지 요소를 가미하여 이상탐지의 성능을 높이고자 하였다. 먼저 다차원 데이터가 가지고 있는 속성별 특징을 최대한 부각하여 활용하기 위해 멀티모달 개념을 적용한 멀티모달 오토인코더를 적용하였다. CPU, Memory, network 등 서로 연관이 있는 지표들을 묶어 5개의 모달로 구성하여 학습 성능을 높이고자 하였다. 또한, 시계열 데이터의 특징을 데이터의 차원을 늘리지 않고 효과적으로 학습하기 위하여 조건부 오토인코더(conditional autoencoder) 구조를 활용하는 조건부 멀티모달 오토인코더(Conditional Multimodal Autoencoder, CMAE)를 제안하였다. 제안한 CAME 모델은 비교 실험을 통해 검증했으며, 기존 연구들에서 많이 활용된 오토인코더와 비교하여 AUC, Accuracy, Precision, Recall, F1-score의 성능 평가를 진행한 결과 유니모달 오토인코더(UAE)와 멀티모달 오토인코더(Multimodal Autoencoder, MAE)의 성능을 상회하는 결과를 얻어 이상탐지에 있어 효과적이라는 것을 확인하였다.

착용형 단말에서의 음성 인식과 제스처 인식을 융합한 멀티 모달 사용자 인터페이스 설계 (Design of Multimodal User Interface using Speech and Gesture Recognition for Wearable Watch Platform)

  • 성기은;박유진;강순주
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권6호
    • /
    • pp.418-423
    • /
    • 2015
  • 기술 발전에 따른 착용형 단말의 기능들은 더 다양하고 복잡해지고 있다. 복잡한 기능 때문에 일반 사용자들도 기능을 사용하기 힘든 경우가 있다. 본 논문에서는 사용자에게 편리하고 간단한 인터페이스 방식을 제공하자는데 목적을 두고 있다. 음성 인식의 경우 사용자 입장에서 직관적이고 사용하기 편리할 뿐만 아니라 다양한 명령어를 입력할 수 있다. 하지만 음성 인식을 착용형 단말에서 사용할 경우 컴퓨팅 파워라든지 소모전력 등 하드웨어적인 제약이 있다. 또한 착용형 단말은 언제 사용자가 음성으로 명령을 내릴지 그 시점을 알 수가 없다. 따라서 명령을 입력 받기 위해서는 음성 인식이 항상 동작하여야 한다. 하지만 소모전력 문제 때문에 이와 같은 방법을 사용하기에는 무리가 있다. 음성 인식이 가지고 있는 문제점을 보완하기 위해 제스처 인식을 사용한다. 본 논문에서는 음성과 제스처를 혼합한 멀티 모달 인터페이스로 사용자에게 어떻게 편리한 인터페이스를 제공할 것인지에 대해 설명하고 있다.

뇌 종양 등급 분류를 위한 심층 멀티모달 MRI 통합 모델 (Deep Multimodal MRI Fusion Model for Brain Tumor Grading)

  • 나인예;박현진
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.416-418
    • /
    • 2022
  • 신경교종(glioma)은 신경교세포에서 발생하는 뇌 종양으로 low grade glioma와 예후가 나쁜 high grade glioma로 분류된다. 자기공명영상(magnetic Resonance Imaging, MRI)은 비침습적 수단으로 이를 이용한 신경교종 진단에 대한 연구가 활발히 진행되고 있다. 또한, 단일 modality의 정보 한계를 극복하기 위해 다중 modality를 조합하여 상호 보완적인 정보를 얻는 연구도 진행되고 있다. 본 논문은 네가지 modality(T1, T1Gd, T2, T2-FLAIR)의 MRI 영상에 입력단 fusion을 적용한 3D CNN 기반의 모델을 제안한다. 학습된 모델은 검증 데이터에 대해 정확도 0.8926, 민감도 0.9688, 특이도 0.6400, AUC 0.9467의 분류 성능을 보였다. 이를 통해 여러 modality 간의 상호관계를 학습하여 신경교종의 등급을 효과적으로 분류함을 확인하였다.

  • PDF

멀티모달 사용자 인터페이스를 위한 펜 제스처인식기의 구현 (Implementation of Pen-Gesture Recognition System for Multimodal User Interface)

  • 오준택;이우범;김욱현
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 추계종합학술대회 논문집(3)
    • /
    • pp.121-124
    • /
    • 2000
  • In this paper, we propose a pen gesture recognition system for user interface in multimedia terminal which requires fast processing time and high recognition rate. It is realtime and interaction system between graphic and text module. Text editing in recognition system is performed by pen gesture in graphic module or direct editing in text module, and has all 14 editing functions. The pen gesture recognition is performed by searching classification features that extracted from input strokes at pen gesture model. The pen gesture model has been constructed by classification features, ie, cross number, direction change, direction code number, position relation, distance ratio information about defined 15 types. The proposed recognition system has obtained 98% correct recognition rate and 30msec average processing time in a recognition experiment.

  • PDF

Improving Transformer with Dynamic Convolution and Shortcut for Video-Text Retrieval

  • Liu, Zhi;Cai, Jincen;Zhang, Mengmeng
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권7호
    • /
    • pp.2407-2424
    • /
    • 2022
  • Recently, Transformer has made great progress in video retrieval tasks due to its high representation capability. For the structure of a Transformer, the cascaded self-attention modules are capable of capturing long-distance feature dependencies. However, the local feature details are likely to have deteriorated. In addition, increasing the depth of the structure is likely to produce learning bias in the learned features. In this paper, an improved Transformer structure named TransDCS (Transformer with Dynamic Convolution and Shortcut) is proposed. A Multi-head Conv-Self-Attention module is introduced to model the local dependencies and improve the efficiency of local features extraction. Meanwhile, the augmented shortcuts module based on a dual identity matrix is applied to enhance the conduction of input features, and mitigate the learning bias. The proposed model is tested on MSRVTT, LSMDC and Activity-Net benchmarks, and it surpasses all previous solutions for the video-text retrieval task. For example, on the LSMDC benchmark, a gain of about 2.3% MdR and 6.1% MnR is obtained over recently proposed multimodal-based methods.

거대언어모델 기반 로봇 인공지능 기술 동향 (Technical Trends in Artificial Intelligence for Robotics Based on Large Language Models)

  • 이준기;박상준;김낙우;김에덴;고석갑
    • 전자통신동향분석
    • /
    • 제39권1호
    • /
    • pp.95-105
    • /
    • 2024
  • In natural language processing, large language models such as GPT-4 have recently been in the spotlight. The performance of natural language processing has advanced dramatically driven by an increase in the number of model parameters related to the number of acceptable input tokens and model size. Research on multimodal models that can simultaneously process natural language and image data is being actively conducted. Moreover, natural-language and image-based reasoning capabilities of large language models is being explored in robot artificial intelligence technology. We discuss research and related patent trends in robot task planning and code generation for robot control using large language models.

이미지 캡션 생성을 위한 심층 신경망 모델의 설계 (Design of a Deep Neural Network Model for Image Caption Generation)

  • 김동하;김인철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제6권4호
    • /
    • pp.203-210
    • /
    • 2017
  • 본 논문에서는 이미지 캡션 생성과 모델 전이에 효과적인 심층 신경망 모델을 제시한다. 본 모델은 멀티 모달 순환 신경망 모델의 하나로서, 이미지로부터 시각 정보를 추출하는 컨볼루션 신경망 층, 각 단어를 저차원의 특징으로 변환하는 임베딩 층, 캡션 문장 구조를 학습하는 순환 신경망 층, 시각 정보와 언어 정보를 결합하는 멀티 모달 층 등 총 5 개의 계층들로 구성된다. 특히 본 모델에서는 시퀀스 패턴 학습과 모델 전이에 우수한 LSTM 유닛을 이용하여 순환 신경망 층을 구성하며, 캡션 문장 생성을 위한 매 순환 단계마다 이미지의 시각 정보를 이용할 수 있도록 컨볼루션 신경망 층의 출력을 순환 신경망 층의 초기 상태뿐만 아니라 멀티 모달 층의 입력에도 연결하는 구조를 가진다. Flickr8k, Flickr30k, MSCOCO 등의 공개 데이터 집합들을 이용한 다양한 비교 실험들을 통해, 캡션의 정확도와 모델 전이의 효과 면에서 본 논문에서 제시한 멀티 모달 순환 신경망 모델의 높은 성능을 확인할 수 있었다.

모수적·비모수적 입력모델링 기법을 이용한 신뢰성 해석 (Reliability Analysis Using Parametric and Nonparametric Input Modeling Methods)

  • 강영진;홍지민;임오강;노유정
    • 한국전산구조공학회논문집
    • /
    • 제30권1호
    • /
    • pp.87-94
    • /
    • 2017
  • 신뢰성 해석 및 신뢰성기반 최적설계는 불확실성을 고려한 확률변수를 입력 값으로 요구하며, 확률변수는 모수적 비모수적 통계모델링 방법을 사용하여 확률분포함수의 형태로 정량화 된다. 신뢰성 해석과 같은 통계적 해석은 입력되는 확률분포함수의 특성이 결과값에 영향을 미치게 되며, 확률분포함수는 통계모델링 방법에 따라 다른 형태를 가지게 된다. 본 연구에서는 모수적 통계모델링 방법인 순차적 통계모델링 방법과 비모수적 방법인 커널밀도추정을 사용하여 데이터의 개수에 따른 통계모델링의 결과를 분석하였다. 또한 수치예제를 통해 두 가지 기법에 따른 신뢰성 해석의 결과를 분석하였고, 데이터의 개수에 따른 적절한 기법을 제안하였다.

A new human-robot interaction method using semantic symbols

  • Park, Sang-Hyun;Hwang, Jung-Hoon;Kwon, Dong-Soo
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2004년도 ICCAS
    • /
    • pp.2005-2010
    • /
    • 2004
  • As robots become more prevalent in human daily life, situations requiring interaction between humans and robots will occur more frequently. Therefore, human-robot interaction (HRI) is becoming increasingly important. Although robotics researchers have made many technical developments in their field, intuitive and easy ways for most common users to interact with robots are still lacking. This paper introduces a new approach to enhance human-robot interaction using a semantic symbol language and proposes a method to acquire the intentions of robot users. In the proposed approach, each semantic symbol represents knowledge about either the environment or an action that a robot can perform. Users'intentions are expressed by symbolized multimodal information. To interpret a users'command, a probabilistic approach is used, which is appropriate for interpreting a freestyle user expression or insufficient input information. Therefore, a first-order Markov model is constructed as a probabilistic model, and a questionnaire is conducted to obtain state transition probabilities for this Markov model. Finally, we evaluated our model to show how well it interprets users'commands.

  • PDF

AN IMAGE THRESHOLDING METHOD BASED ON THE TARGET EXTRACTION

  • Zhang, Yunjie;Li, Yi;Gao, Zhijun;Wang, Weina
    • Journal of applied mathematics & informatics
    • /
    • 제26권3_4호
    • /
    • pp.661-672
    • /
    • 2008
  • In this paper an algorithm, based on extracting a certain target of an image, is proposed that is capable of performing bilevel thresholding of image with multimodal distribution. Each pixel in the image has a membership value which is used to denote the characteristic relationship between the pixel and its belonging region (i.e. the object or background). Using the membership values of image set, a new measurement, which simultaneously measures the measure of fuzziness and the conditional entropy of the image, is calculated. Then, thresholds are found by optimally minimizing calculated measurement. In addition, a fuzzy range is defined to improve the threshold values. The experimental results demonstrate that the proposed approach can select the thresholds automatically and effectively extract the meaningful target from the input image. The resulting image can preserve the object region we target very well.

  • PDF