• Title/Summary/Keyword: 다중 모달

Search Result 55, Processing Time 0.026 seconds

The Effects of Modal Noise on fiber optic Analog video Transmission (광섬유 아나로그 영상신호 전송에 대한 모달 노이즈 영향)

  • Han, Chi-Mun;Choe, Sang-Sam;Park, Han-Gyu
    • Journal of the Korean Institute of Telematics and Electronics
    • /
    • v.20 no.3
    • /
    • pp.1-5
    • /
    • 1983
  • The effects of modal noise of analog video transmission systems using semiconductor laser diode is investigated. The system linearity degradation due to modal noise is examined for various fiber types. It was concluded that in alalog video transmission systems using multimode fiber, modal noise is so serious that reduction of coherency is essential to the development and that single mode libers are adequate for high quality analog video transmission systems.

  • PDF

Multi-Emotion Regression Model for Recognizing Inherent Emotions in Speech Data (음성 데이터의 내재된 감정인식을 위한 다중 감정 회귀 모델)

  • Moung Ho Yi;Myung Jin Lim;Ju Hyun Shin
    • Smart Media Journal
    • /
    • v.12 no.9
    • /
    • pp.81-88
    • /
    • 2023
  • Recently, communication through online is increasing due to the spread of non-face-to-face services due to COVID-19. In non-face-to-face situations, the other person's opinions and emotions are recognized through modalities such as text, speech, and images. Currently, research on multimodal emotion recognition that combines various modalities is actively underway. Among them, emotion recognition using speech data is attracting attention as a means of understanding emotions through sound and language information, but most of the time, emotions are recognized using a single speech feature value. However, because a variety of emotions exist in a complex manner in a conversation, a method for recognizing multiple emotions is needed. Therefore, in this paper, we propose a multi-emotion regression model that extracts feature vectors after preprocessing speech data to recognize complex, inherent emotions and takes into account the passage of time.

Generating A Synthetic Multimodal Dataset for Vision Tasks Involving Hands (손을 다루는 컴퓨터 비전 작업들을 위한 멀티 모달 합성 데이터 생성 방법)

  • Lee, Changhwa;Lee, Seongyeong;Kim, Donguk;Jeong, Chanyang;Baek, Seungryul
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.11a
    • /
    • pp.1052-1055
    • /
    • 2020
  • 본 논문에서는 3D 메시 정보, RGB-D 손 자세 및 2D/3D 손/세그먼트 마스크를 포함하여 인간의 손과 관련된 다양한 컴퓨터 비전 작업에 사용할 수 있는 새로운 다중 모달 합성 벤치마크를 제안 하였다. 생성된 데이터셋은 기존의 대규모 데이터셋인 BigHand2.2M 데이터셋과 변형 가능한 3D 손 메시(mesh) MANO 모델을 활용하여 다양한 손 포즈 변형을 다룬다. 첫째, 중복되는 손자세를 줄이기 위해 전략적으로 샘플링하는 방법을 이용하고 3D 메시 모델을 샘플링된 손에 피팅한다. 3D 메시의 모양 및 시점 파라미터를 탐색하여 인간 손 이미지의 자연스러운 가변성을 처리한다. 마지막으로, 다중 모달리티 데이터를 생성한다. 손 관절, 모양 및 관점의 데이터 공간을 기존 벤치마크의 데이터 공간과 비교한다. 이 과정을 통해 제안된 벤치마크가 이전 작업의 차이를 메우고 있음을 보여주고, 또한 네트워크 훈련 과정에서 제안된 데이터를 사용하여 RGB 기반 손 포즈 추정 실험을 하여 생성된 데이터가 양질의 질과 양을 가짐을 보여준다. 제안된 데이터가 RGB 기반 3D 손 포즈 추정 및 시맨틱 손 세그멘테이션과 같은 품질 좋은 큰 데이터셋이 부족하여 방해되었던 작업에 대한 발전을 가속화할 것으로 기대된다.

Audio-Visual Scene Aware Dialogue System Utilizing Action From Vision and Language Features (이미지-텍스트 자질을 이용한 행동 포착 비디오 기반 대화시스템)

  • Jungwoo Lim;Yoonna Jang;Junyoung Son;Seungyoon Lee;Kinam Park;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.253-257
    • /
    • 2023
  • 최근 다양한 대화 시스템이 스마트폰 어시스턴트, 자동 차 내비게이션, 음성 제어 스피커, 인간 중심 로봇 등의 실세계 인간-기계 인터페이스에 적용되고 있다. 하지만 대부분의 대화 시스템은 텍스트 기반으로 작동해 다중 모달리티 입력을 처리할 수 없다. 이 문제를 해결하기 위해서는 비디오와 같은 다중 모달리티 장면 인식을 통합한 대화 시스템이 필요하다. 기존의 비디오 기반 대화 시스템은 주로 시각, 이미지, 오디오 등의 다양한 자질을 합성하거나 사전 학습을 통해 이미지와 텍스트를 잘 정렬하는 데에만 집중하여 중요한 행동 단서와 소리 단서를 놓치고 있다는 한계가 존재한다. 본 논문은 이미지-텍스트 정렬의 사전학습 임베딩과 행동 단서, 소리 단서를 활용해 비디오 기반 대화 시스템을 개선한다. 제안한 모델은 텍스트와 이미지, 그리고 오디오 임베딩을 인코딩하고, 이를 바탕으로 관련 프레임과 행동 단서를 추출하여 발화를 생성하는 과정을 거친다. AVSD 데이터셋에서의 실험 결과, 제안한 모델이 기존의 모델보다 높은 성능을 보였으며, 대표적인 이미지-텍스트 자질들을 비디오 기반 대화시스템에서 비교 분석하였다.

  • PDF

Multimodality Image Registration by Optimization of Mutual Information (상호정보 최적화를 통한 다중 모달리티 영상정합)

  • 홍헬렌;김명희
    • Proceedings of the Korea Society for Simulation Conference
    • /
    • 2000.11a
    • /
    • pp.180-185
    • /
    • 2000
  • 방사선 치료계획이나 사전수술계획 등에 컴퓨터 사용이 늘어남에 따라 의료영상별 특성에 따른 복합적 처리를 필요로 한다. 본 논문에서는 다중 모달리티 영상으로부터 의미 있는 정보를 제공하기 위하여 상호정보 최적화를 통한 영상정합 방법을 제안한다. 본 방법은 두 영상에서 대응되는 위치의 명암도간 통계적 의존관계와 정보중복성을 계산하는 상호정보(mutual information)를 통해 영상간 변형관계를 추정함으로써 영상을 정합한다. 실험결과로는 뇌 자기공명영상(MRI)과 컴퓨터단층촬영영상(CT)의 상호정보를 최적화하여 정합 결과를 제시한다. 본 방법은 기존 정합방법에서 사용하는 영상분할이나 특징점 추출 등의 전처리 과정 없이 영상 자체 정보를 기반으로 계산함으로써 정합의 정확도를 높일 수 있다.

  • PDF

Quantitative Analysis of Metabolism for Brain Hippocampus based on Multi-modality Image Registration (다중모달리티 영상정합기반 뇌 해마영역 기능대사 정량분석)

  • Kim, Min-Jeong;Choi, Yoo-Joo;Kim, Myoung-Hee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2004.05a
    • /
    • pp.1645-1648
    • /
    • 2004
  • 해마를 비롯하여, 뇌 기능과 밀접한 관련을 가지는 뇌 하위조직의 분석에 대한 최근 연구로 MR 영상 등의 해부학적 영상으로부터의 볼륨 추출, 형상 복원, 대칭성 비교 등을 들 수 있다. 이러한 연구들은 뇌의 해부학적 정보에만 의존함으로써 관심영역에 대한 신진대사 등의 분석에 한계를 가진다. 본 논문에서는 뇌 해마영역에 대하여 해부학적, 기능적 특성의 동시 분석이 가능한 프로시저를 제안한다. 먼저 해부학적 영상과 기능적 영상의 다중모달리티 영상정합을 수행하고 이를 기반으로 해마 SPECT 볼륨이 추출되며, 나아가 체적 측정 및 강도 분포 등의 정량분석을 수행함으로써 해부학적 영역의 기능정보에 대한 직관적이며 객관적인 분석이 가능하도록 하였다.

  • PDF

Improvement of Face Verification Performance Using Multiple Instances and Matching Algorithms (다중획득 및 매칭을 통한 얼굴 검증 성능 향상)

  • 김도형;윤호섭;이재연
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2003.05b
    • /
    • pp.450-453
    • /
    • 2003
  • 본 논문에서는 멀티모달 생체인식 시나리오 중에서, 단일 생체 특징에 적용되는 다중 획득 및 매칭이 시스템 성능에 기여하는 효과에 대하여 논의한다. 얼굴이라는 단일 생체 검중 시스템에 본 논문에서 제안한 간단한 다중 획득 및 매칭 결합 방법론들을 적용하였고, 실제적인 평가모델과 데이터베이스를 구축하여 이를 실험하고 결과를 분석하였다 실험결과, 단일 획득 및 매칭 시스템보다 25% 가량 향상된 우수한 성능을 나타냈으며, 이는 얼굴 검증 시스템 구축에 있어 반드시 고려되어야 할 사항 중에 하나임을 보여준다.

  • PDF

Character Identification on Multiparty Dialogues using Multimodal Features (멀티모달 자질을 활용한 다중 화자 대화 속 인물 식별)

  • Han, Kijong;Choi, Seong-Ho;Shin, Giyeon;Zhang, Byoung-Tak;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.215-219
    • /
    • 2018
  • 다중 화자 대화 속 인물 식별이란 여러 등장인물이 나오는 대본에서 '그녀', '아버지' 등 인물을 지칭하는 명사 또는 명사구가 실제 어떤 인물을 나타내는지 파악하는 문제이다. 대본 자연어 데이터만을 입력으로 하는 대화 속 인물 식별 문제는 드라마 대본에 대해서 데이터가 구축 되었고 이를 기반으로 여러 연구가 진행되었다. 그러나, 사람도 다중 화자 대화의 문장만 보고는 인물을 지칭하는 명사 또는 명사구가 실제 어떤 인물인지 파악하기 어려운 경우가 있다. 이에 본 논문에서는 발화가 되는 시점의 영상 장면 정보를 추가적으로 활용하여 인물 식별의 성능을 높이는 방법을 제시한다. 또한 기존 대화 속 인물 식별 연구들은 미리 정의된 인물을 대상으로 분류하는 형태로 접근해왔다. 이는 학습에 사용되지 않았던 인물이 나오는 임의의 다른 드라마 대본이나 대화 등에 바로 적용될 수 없다. 이에 본 논문에서는 영상 정보는 활용하되, 한번 학습하면 임의의 대본에 적용될 수 있도록 사전 인물 정보를 사용하지 않는 상호참조해결 기반의 인물 식별 방법도 제시한다.

  • PDF

Enhancing Multimodal Emotion Recognition in Speech and Text with Integrated CNN, LSTM, and BERT Models (통합 CNN, LSTM, 및 BERT 모델 기반의 음성 및 텍스트 다중 모달 감정 인식 연구)

  • Edward Dwijayanto Cahyadi;Hans Nathaniel Hadi Soesilo;Mi-Hwa Song
    • The Journal of the Convergence on Culture Technology
    • /
    • v.10 no.1
    • /
    • pp.617-623
    • /
    • 2024
  • Identifying emotions through speech poses a significant challenge due to the complex relationship between language and emotions. Our paper aims to take on this challenge by employing feature engineering to identify emotions in speech through a multimodal classification task involving both speech and text data. We evaluated two classifiers-Convolutional Neural Networks (CNN) and Long Short-Term Memory (LSTM)-both integrated with a BERT-based pre-trained model. Our assessment covers various performance metrics (accuracy, F-score, precision, and recall) across different experimental setups). The findings highlight the impressive proficiency of two models in accurately discerning emotions from both text and speech data.

Multi - Modal Interface Design for Non - Touch Gesture Based 3D Sculpting Task (비접촉식 제스처 기반 3D 조형 태스크를 위한 다중 모달리티 인터페이스 디자인 연구)

  • Son, Minji;Yoo, Seung Hun
    • Design Convergence Study
    • /
    • v.16 no.5
    • /
    • pp.177-190
    • /
    • 2017
  • This research aims to suggest a multimodal non-touch gesture interface design to improve the usability of 3D sculpting task. The task and procedure of design sculpting of users were analyzed across multiple circumstances from the physical sculpting to computer software. The optimal body posture, design process, work environment, gesture-task relationship, the combination of natural hand gesture and arm movement of designers were defined. The preliminary non-touch 3D S/W were also observed and natural gesture interaction, visual metaphor of UI and affordance for behavior guide were also designed. The prototype of gesture based 3D sculpting system were developed for validation of intuitiveness and learnability in comparison to the current S/W. The suggested gestures were proved with higher performance as a result in terms of understandability, memorability and error rate. Result of the research showed that the gesture interface design for productivity system should reflect the natural experience of users in previous work domain and provide appropriate visual - behavioral metaphor.