• Title/Summary/Keyword: 멀티 모달

Search Result 266, Processing Time 0.026 seconds

Past Block Matching Motion Estimation based on Multiple Local Search Using Spatial Temporal Correlation (시공간적 상관성을 이용한 국소 다중 탐색기반 고속 블록정합 움직임 추정)

  • 조영창;남혜영;이태홍
    • Journal of Korea Multimedia Society
    • /
    • v.3 no.4
    • /
    • pp.356-364
    • /
    • 2000
  • Block based fast motion estimation algorithm use the fixed search pattern to reduce the search point, and are based on the assumption that the error in the mean absolute error space monotonically decreases to the global minimum. Therefore, in case of many local minima in a search region we are likely to find local minima instead of the global minimum and highly rely on the initial search points. This situation is evident in the motion boundary. In this paper we define the candidate regions within the search region using the motion information of the neighbor blocks and we propose the multiple local search method (MLSM) which search for the solution throughout the candidate regions to reduce the possibilities of isolation to the local minima. In the MLSM we mark the candidate region in the search point map and we avoid to search the candidate regions already visited to reduce the calculation. In the simulation results the proposed method shows more excellent results than that of other gradient based method especially in the search of motion boundary. Especially, in PSNR the proposed method obtains similar estimate accuracy with the significant reduction of search points to that of full search.

  • PDF

Development of deep learning base trajectory classification technology for multilog platform (다중로그 플랫폼을 위한 딥러닝 기반 경로 분류 기술 개발)

  • Shin, Won-Jae;Kwon, Eunjung;Park, Hyunho;Jung, Eui-Suk;Byon, Sungwon;Jang, Dong-Man;Lee, Yong-Tae
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2019.11a
    • /
    • pp.71-72
    • /
    • 2019
  • 최근 공공안전 분야에서는 국민의 위험상황을 분석하여 선제적으로 예측을 하여 국민의 안전을 보장하기 위한 요구사항이 대두대고 있다. 또한 스마트폰 및 스마트워치와 같은 고성능 모바일 단말 기기들의 대중화로 인해 해당 기기들에 부착된 다양한 센서 데이터들을 융복합하여 분석할 경우, 수집한 센서 데이터의 잠재적 가치를 안전보장 측면에서 사용할 수 있는 장점이 있다. 본 논문에서는 대인, 대물, 장소에 해당하는 로그 데이터들을 융복합 분석하여 보호대상자의 안전을 지원하는 다중로그 플랫폼 기반 이동경로 분석 기법을 제안한다. 다중로그 플랫폼에서 수집하는 보호대상자의 이동 경로 궤적을 활용하여 과거에 축적된 이동경로 패턴과 비교를 통해 현재 경로가 평소에 이용하던 경로와의 유사도를 추천하게 된다. 해당 이동 경로 분석 시스템은 위치기반 멀티모달 센서 데이터를 융복합 하여 보호대상자의 안전을 보장하는데 기여 할 것으로 예상된다.

  • PDF

Human body learning system using multimodal and user-centric interfaces (멀티모달 사용자 중심 인터페이스를 적용한 인체 학습 시스템)

  • Kim, Ki-Min;Kim, Jae-Il;Park, Jin-Ah
    • 한국HCI학회:학술대회논문집
    • /
    • 2008.02a
    • /
    • pp.85-90
    • /
    • 2008
  • This paper describes the human body learning system using the multi-modal user interface. Through our learning system, students can study about human anatomy interactively. The existing learning methods use the one-way materials like images, text and movies. But we propose the new learning system that includes 3D organ surface models, haptic interface and the hierarchical data structure of human organs to serve enhanced learning that utilizes sensorimotor skills.

  • PDF

Audio and Image based Emotion Recognition Framework on Real-time Video Streaming (실시간 동영상 스트리밍 환경에서 오디오 및 영상기반 감정인식 프레임워크)

  • Bang, Jaehun;Lim, Ho Jun;Lee, Sungyoung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.04a
    • /
    • pp.1108-1111
    • /
    • 2017
  • 최근 감정인식 기술은 다양한 IoT 센서 디바이스의 등장으로 단일 소스기반의 감정인식 기술 연구에서 멀티모달 센서기반 감정인식 연구로 변화하고 있으며, 특히 오디오와 영상을 이용한 감정인식 기술의 연구가 활발하게 진행되는 있다. 기존의 오디오 및 영상기반 감정신 연구는 두 개의 센서 테이터를 동시에 입력 저장한 오픈 데이터베이스를 활용하여 다른 이벤트 처리 없이 각각의 데이터에서 특징을 추출하고 하나의 분류기를 통해 감정을 인식한다. 이러한 기법은 사람이 말하지 않는 구간, 얼굴이 보이지 않는 구간의 이벤트 정보처리에 대한 대처가 떨어지고 두 개의 정보를 종합하여 하나의 감정도 도출하는 디시전 레벨의 퓨저닝 연구가 부족하다. 본 논문에서는 이러한 문제를 해결하기 위해 오디오 및 영상에 내포되어 있는 이벤트 정보를 추출하고 오디오 및 영상 기반의 분리된 인지모듈을 통해 감정들을 인식하며, 도출된 감정들을 시간단위로 통합하여 디시전 퓨전하는 실시간 오디오 및 영상기반의 감정인식 프레임워크를 제안한다.

A Divisive Clustering for Mixed Feature-Type Symbolic Data (혼합형태 심볼릭 데이터의 군집분석방법)

  • Kim, Jaejik
    • The Korean Journal of Applied Statistics
    • /
    • v.28 no.6
    • /
    • pp.1147-1161
    • /
    • 2015
  • Nowadays we are considering and analyzing not only classical data expressed by points in the p-dimensional Euclidean space but also new types of data such as signals, functions, images, and shapes, etc. Symbolic data also can be considered as one of those new types of data. Symbolic data can have various formats such as intervals, histograms, lists, tables, distributions, models, and the like. Up to date, symbolic data studies have mainly focused on individual formats of symbolic data. In this study, it is extended into datasets with both histogram and multimodal-valued data and a divisive clustering method for the mixed feature-type symbolic data is introduced and it is applied to the analysis of industrial accident data.

Effects of Multi-modal Guidance for the Acquisition of Sight Reading Skills: A Case Study with Simple Drum Sequences (멀티모달 가이던스가 독보 기능 습득에 미치는 영향: 드럼 타격 시퀀스에서의 사례 연구)

  • Lee, In;Choi, Seungmoon
    • The Journal of Korea Robotics Society
    • /
    • v.8 no.3
    • /
    • pp.217-227
    • /
    • 2013
  • We introduce a learning system for the sight reading of simple drum sequences. Sight reading is a cognitive-motor skill that requires reading of music symbols and actions of multiple limbs for playing the music. The system provides knowledge of results (KR) pertaining to the learner's performance by color-coding music symbols, and guides the learner by indicating the corresponding action for a given music symbol using additional auditory or vibrotactile cues. To evaluate the effects of KR and guidance cues, three learning methods were experimentally compared: KR only, KR with auditory cues, and KR with vibrotactile cues. The task was to play a random 16-note-long drum sequence displayed on a screen. Thirty university students learned the task using one of the learning methods in a between-subjects design. The experimental results did not show statistically significant differences between the methods in terms of task accuracy and completion time.

Semi-automatic Event Structure Frame tagging of WordNet Synset (워드넷 신셋에 대한 사건구조 프레임 반자동 태깅)

  • Im, Seohyun
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.101-105
    • /
    • 2018
  • 이 논문은 가장 잘 알려진 어휘부중 하나인 워드넷의 활용 범위 확장을 위해 워드넷 신셋에 "사건구조 프레임(Event Structure Frame)"을 주석하는 연구에 관한 것이다. 워드넷을 비롯하여 현재 사용되고 있는 어휘부는 풍부한 어휘의미정보가 구조화되어 있지만, 사건구조에 관한 정보를 포함하고 있지는 않다. 이 연구의 가장 큰 기여는 워드넷에 사건구조 프레임을 추가함으로써 워드넷과의 연결만으로 핵심적인 어휘의미정보를 모두 추출할 수 있도록 해준다는 점이다. 예를 들어 텍스트 추론, 자연어처리, 멀티 모달 태스크 등은 어휘의미정보와 배경지식(상식)을 이용하여 태스크를 수행한다. 워드넷에 대한 사건구조 주석은 자동사건구조 주석 시스템인 GESL을 이용하여 워드넷 신셋에 있는 예문에 먼저 자동 주석을 하고, 오류에 대해 수동 수정을 하는 반자동 방식이다. 사전 정의된 23개의 사건구조 프레임에 따라 예문에 출현하는 타겟 동사를 분류하고, 해당 프레임과 매핑한다. 현재 이 연구는 시작 단계이며, 이 논문에서는 빈도 순위가 가장 높은 100개의 동사와 각 사건구조 프레임별 대표 동사를 포함하여 총 106개의 동사 레마에 대해 실험을 진행하였다. 그 동사들에 대한 전체 워드넷 신셋의 수는 1337개이다. 예문이 없어서 GESL이 적용될 수 없는 신셋을 제외하면 1112개 신셋이다. 이 신셋들에 대해 GESL을 적용한 결과 F-Measure는 73.5%이다. 향후 연구에서는 워드넷-사건구조 링크를 계속 업데이트하면서 딥러닝을 이용해 GESL 성능을 향상 할 수 있는 방법을 모색할 것이다.

  • PDF

A Multimodal Interface for Telematics based on Multimodal middleware (미들웨어 기반의 텔레매틱스용 멀티모달 인터페이스)

  • Park, Sung-Chan;Ahn, Se-Yeol;Park, Seong-Soo;Koo, Myoung-Wan
    • Proceedings of the KSPS conference
    • /
    • 2007.05a
    • /
    • pp.41-44
    • /
    • 2007
  • In this paper, we introduce a system in which car navigation scenario is plugged multimodal interface based on multimodal middleware. In map-based system, the combination of speech and pen input/output modalities can offer users better expressive power. To be able to achieve multimodal task in car environments, we have chosen SCXML(State Chart XML), a multimodal authoring language of W3C standard, to control modality components as XHTML, VoiceXML and GPS. In Network Manager, GPS signals from navigation software are converted to EMMA meta language, sent to MultiModal Interaction Runtime Framework(MMI). Not only does MMI handles GPS signals and a user's multimodal I/Os but also it combines them with information of device, user preference and reasoned RDF to give the user intelligent or personalized services. The self-simulation test has shown that middleware accomplish a navigational multimodal task over multiple users in car environments.

  • PDF

Multimodal Emotion Recognition using Face Image and Speech (얼굴영상과 음성을 이용한 멀티모달 감정인식)

  • Lee, Hyeon Gu;Kim, Dong Ju
    • Journal of Korea Society of Digital Industry and Information Management
    • /
    • v.8 no.1
    • /
    • pp.29-40
    • /
    • 2012
  • A challenging research issue that has been one of growing importance to those working in human-computer interaction are to endow a machine with an emotional intelligence. Thus, emotion recognition technology plays an important role in the research area of human-computer interaction, and it allows a more natural and more human-like communication between human and computer. In this paper, we propose the multimodal emotion recognition system using face and speech to improve recognition performance. The distance measurement of the face-based emotion recognition is calculated by 2D-PCA of MCS-LBP image and nearest neighbor classifier, and also the likelihood measurement is obtained by Gaussian mixture model algorithm based on pitch and mel-frequency cepstral coefficient features in speech-based emotion recognition. The individual matching scores obtained from face and speech are combined using a weighted-summation operation, and the fused-score is utilized to classify the human emotion. Through experimental results, the proposed method exhibits improved recognition accuracy of about 11.25% to 19.75% when compared to the most uni-modal approach. From these results, we confirmed that the proposed approach achieved a significant performance improvement and the proposed method was very effective.

Design of the Multimodal Input System using Image Processing and Speech Recognition (음성인식 및 영상처리 기반 멀티모달 입력장치의 설계)

  • Choi, Won-Suk;Lee, Dong-Woo;Kim, Moon-Sik;Na, Jong-Whoa
    • Journal of Institute of Control, Robotics and Systems
    • /
    • v.13 no.8
    • /
    • pp.743-748
    • /
    • 2007
  • Recently, various types of camera mouse are developed using the image processing. The camera mouse showed limited performance compared to the traditional optical mouse in terms of the response time and the usability. These problems are caused by the mismatch between the size of the monitor and that of the active pixel area of the CMOS Image Sensor. To overcome these limitations, we designed a new input device that uses the face recognition as well as the speech recognition simultaneously. In the proposed system, the area of the monitor is partitioned into 'n' zones. The face recognition is performed using the web-camera, so that the mouse pointer follows the movement of the face of the user in a particular zone. The user can switch the zone by speaking the name of the zone. The multimodal mouse is analyzed using the Keystroke Level Model and the initial experiments was performed to evaluate the feasibility and the performance of the proposed system.