• Title/Summary/Keyword: 멀티모달 모델

Search Result 96, Processing Time 0.032 seconds

Improvement of Face Verification Performance Using Multiple Instances and Matching Algorithms (다중획득 및 매칭을 통한 얼굴 검증 성능 향상)

  • 김도형;윤호섭;이재연
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2003.05b
    • /
    • pp.450-453
    • /
    • 2003
  • 본 논문에서는 멀티모달 생체인식 시나리오 중에서, 단일 생체 특징에 적용되는 다중 획득 및 매칭이 시스템 성능에 기여하는 효과에 대하여 논의한다. 얼굴이라는 단일 생체 검중 시스템에 본 논문에서 제안한 간단한 다중 획득 및 매칭 결합 방법론들을 적용하였고, 실제적인 평가모델과 데이터베이스를 구축하여 이를 실험하고 결과를 분석하였다 실험결과, 단일 획득 및 매칭 시스템보다 25% 가량 향상된 우수한 성능을 나타냈으며, 이는 얼굴 검증 시스템 구축에 있어 반드시 고려되어야 할 사항 중에 하나임을 보여준다.

  • PDF

Research on Generative AI for Korean Multi-Modal Montage App (한국형 멀티모달 몽타주 앱을 위한 생성형 AI 연구)

  • Lim, Jeounghyun;Cha, Kyung-Ae;Koh, Jaepil;Hong, Won-Kee
    • Journal of Service Research and Studies
    • /
    • v.14 no.1
    • /
    • pp.13-26
    • /
    • 2024
  • Multi-modal generation is the process of generating results based on a variety of information, such as text, images, and audio. With the rapid development of AI technology, there is a growing number of multi-modal based systems that synthesize different types of data to produce results. In this paper, we present an AI system that uses speech and text recognition to describe a person and generate a montage image. While the existing montage generation technology is based on the appearance of Westerners, the montage generation system developed in this paper learns a model based on Korean facial features. Therefore, it is possible to create more accurate and effective Korean montage images based on multi-modal voice and text specific to Korean. Since the developed montage generation app can be utilized as a draft montage, it can dramatically reduce the manual labor of existing montage production personnel. For this purpose, we utilized persona-based virtual person montage data provided by the AI-Hub of the National Information Society Agency. AI-Hub is an AI integration platform aimed at providing a one-stop service by building artificial intelligence learning data necessary for the development of AI technology and services. The image generation system was implemented using VQGAN, a deep learning model used to generate high-resolution images, and the KoDALLE model, a Korean-based image generation model. It can be confirmed that the learned AI model creates a montage image of a face that is very similar to what was described using voice and text. To verify the practicality of the developed montage generation app, 10 testers used it and more than 70% responded that they were satisfied. The montage generator can be used in various fields, such as criminal detection, to describe and image facial features.

A Virtual Reality System for the Cognitive and Behavioral Assessment of Schizophrenia (정신분열병 환자의 인지적/행동적 특성평가를 위한 가상현실시스템 구현)

  • Lee, Jang-Han;Cho, Won-Geun;Kim, Ho-Sung;Ku, Jung-Hun;Kim, Jae-Hun;Kim, Byoung-Nyun;Kim, Sun-I.
    • Science of Emotion and Sensibility
    • /
    • v.6 no.3
    • /
    • pp.55-62
    • /
    • 2003
  • Patients with schizophrenia have thinking disorders such as delusion or hallucination, because they have a deficit in the ability which to systematize and integrate information. therefore, they cannot integrate or systematize visual, auditory and tactile stimuli. In this study, we suggest a virtual reality system for the assessment of cognitive ability of schizophrenia patients, based on the brain multimodal integration model. The virtual reality system provides multimodal stimuli, such as visual and auditory stimuli, to the patient, and can evaluate the patient's multimodal integration and working memory integration abilities by making the patient interpret and react to multimodal stimuli, which must be remembered for a given period of time. the clinical study showed that the virtual reality program developed is comparable to those of the WCST and the SPM.

  • PDF

Multi-modal Representation Learning for Classification of Imported Goods (수입물품의 품목 분류를 위한 멀티모달 표현 학습)

  • Apgil Lee;Keunho Choi;Gunwoo Kim
    • Journal of Intelligence and Information Systems
    • /
    • v.29 no.1
    • /
    • pp.203-214
    • /
    • 2023
  • The Korea Customs Service is efficiently handling business with an electronic customs system that can effectively handle one-stop business. This is the case and a more effective method is needed. Import and export require HS Code (Harmonized System Code) for classification and tax rate application for all goods, and item classification that classifies the HS Code is a highly difficult task that requires specialized knowledge and experience and is an important part of customs clearance procedures. Therefore, this study uses various types of data information such as product name, product description, and product image in the item classification request form to learn and develop a deep learning model to reflect information well based on Multimodal representation learning. It is expected to reduce the burden of customs duties by classifying and recommending HS Codes and help with customs procedures by promptly classifying items.

방송통신 융합서비스를 위한 콘텐츠 적응 기술

  • ;;Thang Truong Cong
    • Information and Communications Magazine
    • /
    • v.22 no.4
    • /
    • pp.49-64
    • /
    • 2005
  • 방송과 통신이 융합하는 새로운 환경의 도래에 따라 사용자에게 불편함 없이 언제 어디서나 멀티미디어 콘텐츠를 접근(universal) multimedia access)하게 할 수 있는 기술적 필요성이 대두되고 있다. 본 논문에서는 이러한 기술들 중에서 가장 중요한 위치를 차지하고 있는 콘텐츠 적응(content adaptation)에 대해 논한다. 특히 현재의 MPEG-21 표준에서의 콘텐츠 적응에 대한 동향을 살펴보고, 콘텐츠 적응에 속하는 중요 기술들 중에 비디오 트랜스코딩(video transcoding)과 모 달 리 티 변 환 (modality conversion)에 대한 일반적인 사항과 우리의 연구 결과들을 전개하고자 한다. 비디오 트랜스코딩 관점에서는 최적의 트랜스코팅 연산 조합을 찾는 문제에 있어서 비트율-왜곡(rate-distortion) 모델(model)에 기초한 방법과 의미적 개념(semantic concept)이 판단에 미치는 영향에 대해 논한다. 모달리티 면환 관점에서는 최적의 모달리티 변환 경계를 찾기 위한 중첩 콘텐츠 값(overlapped content value, OCV) 모델을 논하고 실질적인 모델링 예제를 통해 OCV 모델의 효율성을 보인다.

Multi-Modal User Distance Estimation System based on Mobile Device (모바일 디바이스 기반의 멀티 모달 사용자 거리 추정 시스템)

  • Oh, Byung-Hun;Hong, Kwang-Seok
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.14 no.2
    • /
    • pp.65-71
    • /
    • 2014
  • This paper present the multi-modal user distance estimation system using mono camera and mono microphone basically equipped with a mobile device. In case of a distance estimation method using an image, we is estimated a distance of the user through the skin color region extraction step, a noise removal step, the face and eyes region detection step. On the other hand, in case of a distance estimation method using speech, we calculates the absolute difference between the value of the sample of speech input. The largest peak value of the calculated difference value is selected and samples before and after the peak are specified as the ROI(Region of Interest). The samples specified perform FFT(Fast Fourier Transform) and calculate the magnitude of the frequency domain. Magnitude obtained is compared with the distance model to calculate the likelihood. We is estimated user distance by adding with weights in the sorted value. The result of an experiment using the multi-modal method shows more improved measurement value than that of single modality.

Audio-Visual Integration based Multi-modal Speech Recognition System (오디오-비디오 정보 융합을 통한 멀티 모달 음성 인식 시스템)

  • Lee, Sahng-Woon;Lee, Yeon-Chul;Hong, Hun-Sop;Yun, Bo-Hyun;Han, Mun-Sung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11a
    • /
    • pp.707-710
    • /
    • 2002
  • 본 논문은 오디오와 비디오 정보의 융합을 통한 멀티 모달 음성 인식 시스템을 제안한다. 음성 특징 정보와 영상 정보 특징의 융합을 통하여 잡음이 많은 환경에서 효율적으로 사람의 음성을 인식하는 시스템을 제안한다. 음성 특징 정보는 멜 필터 캡스트럼 계수(Mel Frequency Cepstrum Coefficients: MFCC)를 사용하며, 영상 특징 정보는 주성분 분석을 통해 얻어진 특징 벡터를 사용한다. 또한, 영상 정보 자체의 인식률 향상을 위해 피부 색깔 모델과 얼굴의 형태 정보를 이용하여 얼굴 영역을 찾은 후 강력한 입술 영역 추출 방법을 통해 입술 영역을 검출한다. 음성-영상 융합은 변형된 시간 지연 신경 회로망을 사용하여 초기 융합을 통해 이루어진다. 실험을 통해 음성과 영상의 정보 융합이 음성 정보만을 사용한 것 보다 대략 5%-20%의 성능 향상을 보여주고 있다.

  • PDF

Predicting User Personality Based on Dynamic Keyframes Using Video Stream Structure (비디오 스트림 구조를 활용한 동적 키프레임 기반 사용자 개성 예측)

  • Mira Lee;Simon S.Woo;Hyedong Jung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.601-604
    • /
    • 2023
  • 기술이 발전함에 따라 복합적인 모달리티 정보를 포함하는 멀티미디어 데이터의 수집이 용이해지면서, 사람의 성격 특성을 이해하고 이를 개인화된 에이전트에 적용하고자 하는 연구가 활발히 진행되고 있다. 본 논문에서는 비디오 스트림 구조를 활용하여 사용자 특성을 예측하기 위한 동적 키프레임 추출 방법을 제안한다. 비디오 데이터를 효과적으로 활용하기 위해서는 무작위로 선택한 프레임에서 특징을 추출하던 기존의 방법을 개선하여 영상 내 시간에 따른 정보와 변화량을 기반으로 중요한 프레임을 선택하는 방법이 필요하다. 본 논문에서는 제 3자가 평가한 Big-five 지표 값이 레이블링된 대표적인 데이터셋인 First Impressions V2 데이터셋을 사용하여 외면에서 발현되는 특징들을 기반으로 영상에서 등장하는 인물들의 성격 특성을 예측했다. 결론에서는 선택된 키프레임에서 멀티 모달리티 정보를 조합하여 성격 특성을 예측한 결과와 베이스라인 모델과의 성능을 비교한다.

A Study on the Recognition System of Faint Situation based on Bimodal Information (바이모달 정보를 이용한 기절상황인식 시스템에 관한 연구)

  • So, In-Mi;Jung, Sung-Tae
    • Journal of Korea Multimedia Society
    • /
    • v.13 no.2
    • /
    • pp.225-236
    • /
    • 2010
  • This study proposes a method for the recognition of emergency situation according to the bimodal information of camera image sensor and gravity sensor. This method can recognize emergency condition by mutual cooperation and compensation between sensors even when one of the sensors malfunction, the user does not carry gravity sensor, or in the place like bathroom where it is hard to acquire camera images. This paper implemented HMM(Hidden Markov Model) based learning and recognition algorithm to recognize actions such as walking, sitting on floor, sitting at sofa, lying and fainting motions. Recognition rate was enhanced when image feature vectors and gravity feature vectors are combined in learning and recognition process. Also, this method maintains high recognition rate by detecting moving object through adaptive background model even in various illumination changes.

Development of a Depression Prevention Platform using Multi-modal Emotion Recognition AI Technology (멀티모달 감정 인식 AI 기술을 이용한 우울증 예방 플랫폼 구축)

  • HyunBeen Jang;UiHyun Cho;SuYeon Kwon;Sun Min Lim;Selin Cho;JeongEun Nah
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.916-917
    • /
    • 2023
  • 본 연구는 사용자의 음성 패턴 분석과 텍스트 분류를 중심으로 이루어지는 한국어 감정 인식 작업을 개선하기 위해 Macaron Net 텍스트 모델의 결과와 MFCC 음성 모델의 결과 가중치 합을 분류하여 최종 감정을 판단하는 기존 82.9%였던 정확도를 텍스트 모델 기준 87.0%, Multi-Modal 모델 기준 88.0%로 개선한 모델을 제안한다. 해당 모델을 우울증 예방 플랫폼의 핵심 모델에 탑재하여 covid-19 팬데믹 이후 사회의 문제점으로 부상한 우울증 문제 해소에 기여 하고자 한다.