• 제목/요약/키워드: 멀티 모달 데이터

검색결과 109건 처리시간 0.021초

한국어 발화 문장에 대한 비언어 표현 정보를 자동으로 생성하는 모델 (A Model to Automatically Generate Non-verbal Expression Information for Korean Utterance Sentence)

  • 김재윤;장진예;김산;정민영;강현욱;신사임
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.91-94
    • /
    • 2023
  • 자연스러운 상호작용이 가능한 인공지능 에이전트를 개발하기 위해서는 언어적 표현뿐 아니라, 비언어적 표현 또한 고려되어야 한다. 본 논문에서는 한국어 발화문으로부터 비언어적 표현인 모션을 생성하는 연구를 소개한다. 유튜브 영상으로부터 데이터셋을 구축하고, Text to Motion의 기존 모델인 T2M-GPT와 이종 모달리티 데이터를 연계 학습한 VL-KE-T5의 언어 인코더를 활용하여 구현한 모델로 실험을 진행하였다. 실험 결과, 한국어 발화 텍스트에 대해 생성된 모션 표현은 FID 스코어 0.11의 성능으로 나타났으며, 한국어 발화 정보 기반 비언어 표현 정보 생성의 가능성을 보여주었다.

  • PDF

멀티모달 정보를 이용한 잡음에 강인한 야구 이벤트 시점 검출 방법 (Noise Robust Baseball Event Detection with Multimodal Information )

  • 김영익 ;정현조 ;나민수;이영현 ;이준수
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2022년도 추계학술대회
    • /
    • pp.136-138
    • /
    • 2022
  • 스포츠 방송/미디어 데이터에서 특정 이벤트 시점을 효율적으로 검출하는 방법은 정보 검색이나 하이라이트, 요약 등을 위해 중요한 기술이다. 이 논문에서는, 야구 중계 방송 데이터에서 투구에 대한 타격 및 포구 이벤트 시점을 강인하게 검출하는 방법으로, 음향 및 영상 정보를 융합하는 방법에 대해 제안한다. 음향 정보에 기반한 이벤트 검출 방법은 계산이 용이하고 정확도가 높은 반면, 영상 정보의 도움 없이는 모호성을 해결하기 힘든 경우가 많이 발생한다. 특히 야구 중계 데이터의 경우, 투수의 투구 시점에 대한 영상 정보를 활용하여 타격 및 포구 이벤트 검출의 정확도를 보다 향상시킬 수 있다. 이 논문에서는 음향 기반의 딥러닝 이벤트 시점 검출 모델과 영상 기반의 보정 방법을 제안하고, 실제 KBO 야구 중계 방송 데이터에 적용한 사례와 실험 결과에 대해 기술한다.

  • PDF

정신건강 위험 예측 및 관리를 위한 멘탈 헬스케어 디지털 트윈 기술 연구 (Mental Healthcare Digital Twin Technology for Risk Prediction and Management)

  • 양세모;이강윤
    • 한국빅데이터학회지
    • /
    • 제7권1호
    • /
    • pp.29-36
    • /
    • 2022
  • 감정 노동 및 서비스업 종사자의 급격한 증가에 따른 감정노동자의 스트레스 및 우울증 유병률이 증가하고 있다. 하지만, 현재 감정노동자의 정신건강 관리는 스트레스 상황 당시의 정서반응을 고려하기 어렵고 개인의 기저 상태가 반영되지 않아 기존 정신건강 관리의 한계가 존재한다. 본 연구에서는 개인 맞춤형 스트레스 위험 관리 솔루션인 멘탈 헬스케어 디지털 트윈 솔루션 기술을 제시한다. 감정노동으로 인한 정신건강 위험 관리를 위해, 정서/신체반응 및 환경 등의 개인별 스트레스 위험요인을 다양한 모달리티로 추출하고 가상 공간에서 동적 객체의 동기화/모델링을 통하여 스트레스 위험도를 정밀 예측하는 솔루션 탐색 시뮬레이션을 수행한다. 사용자에게 맞는 인터벤션을 제공하여, 감정노동자의 환경에 맞게 모달리티와 객체의 구성이 가능하고 사용자의 피드백에 따라 개선 가능한 개인 맞춤형 정신건강 위험 예측을 위한 멘탈 헬스케어 디지털 트윈 솔루션을 제공한다.

멀티모달 감정인식률 향상을 위한 웨이블릿 기반의 통계적 잡음 검출 및 감정분류 방법 연구 (Wavelet-based Statistical Noise Detection and Emotion Classification Method for Improving Multimodal Emotion Recognition)

  • 윤준한;김진헌
    • 전기전자학회논문지
    • /
    • 제22권4호
    • /
    • pp.1140-1146
    • /
    • 2018
  • 최근 인간의 감정을 인식하는 연구 중 딥러닝 모델을 사용하여 복합적인 생체 신호를 분석하는 방법론이 대두되고 있다. 이때 학습하고자 하는 데이터의 종류에 따른 평가 방법 및 신뢰성은 감정 분류의 정확성에 있어 중요한 요소이다. 생체 신호의 경우 데이터의 신뢰성이 잡음 비율에 따라 결정되므로 잡음 검출 방법이 우수할수록 신뢰도가 올라가며, 감정을 정의하는 방법론에 따라 그에 맞는 적절한 감정 평가 방법이 수반될 때보다 정확하게 감정을 분류할 수 있다. 본 논문에서는 Valence와 Arousal로 라벨링 된 멀티모달 생체 신호 데이터에 대해 데이터의 신뢰성을 검증하기 위한 웨이블릿 기반의 잡음 임곗값 설정 알고리듬 및 감정 평가 시 데이터 신뢰도와 Valence-Arousal 값에 따른 가중치를 부여하여 감정 인식률을 향상하는 방법을 제안한다. 웨이블릿 변환을 이용해 신호의 웨이블릿 성분을 추출 후, 해당 성분의 왜도와 첨도를 구하여 햄펄 식별자를 통해 계산된 임곗값으로 잡음을 검출한 후, 원신호에 대한 잡음 비율을 고려하여 데이터의 신뢰성을 평가하고 가중치로 환산한다. 더불어 감정 데이터 분류 시 Valence-Arousal 평면의 중앙값과의 유클리디언 거리를 가중치로 환산하고, 감정 인식률에 대한 종합 평가 시 두 요소를 반영한다. ASCERTAIN 데이터셋을 활용하여 나타난 감정 인식률 개선 정도를 통해 제안된 알고리듬의 성능을 검증한다.

차세대 실감 방송의 구현을 위한 심리 음향의 이해 (Towards a better understanding of psychoacoustics in the future broadcasting)

  • 김성영
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2004년도 정기총회 및 학술대회
    • /
    • pp.215-219
    • /
    • 2004
  • 차세대 실감 방송에서의 오디오 신호는 정보의 전달이라는 기존의 역할을 넘어서 현장감의 재현이라는 실감 방송의 목표를 구현하는 역할을 감당하게 될 것이다. 이 논문에서는 이러한 차세대 실감 방송에서 오디오 신호가 가지는 심리음향학적인(psychoacoustic) 특성을 방송현장의 운용자들을 위해 기존의 연구들에 근거하여 선명하였다. 차세대 방송은 첫째, 멀티채널 오디오 방송, 둘째, 고 해상도 데이터의 활용 그리고 셋째, 멀티 모달 전송로 특정지울 수 있는 새로운 오디오 산업의 기술진행 방향을 통해, 방송으로 전달되어지는 객체에 대하여 개선된 정위(localization), Envelopment 명료도(Clarity)등의 개선된 심리음향학적인 특성을 가지게 한다. 이와 같은 심리음향학적인 개선은 운용자의 올바른 개념적인 이해와 결합하여 보다 현장감 넘치는 방송을 청취자들에게 가져다 줄 것이다.

  • PDF

혼합형태 심볼릭 데이터의 군집분석방법 (A Divisive Clustering for Mixed Feature-Type Symbolic Data)

  • 김재직
    • 응용통계연구
    • /
    • 제28권6호
    • /
    • pp.1147-1161
    • /
    • 2015
  • 오늘날 데이터는 p-차원의 공간에서 점들로써 표현되는 전통적인 형태를 벗어나 시그널(signal), 함수, 이미지(image), 모양(shape) 등과 같은 다양한 형태의 자료들이 데이터로써 고려되고 분석되고있다. 그러한 종류의 새로운 종류의 데이터 중 하나로 심볼릭 데이터(symbolic data)를 고려할 수 있다. 심볼릭 데이터는 구간(interval), 히스토그램(histogram), 목록(list), 통계표, 분포, 또는 모형 등과 같은 다양한 형태들을 가질 수 있다. 지금까지의 연구가 주로 심볼릭 데이터의 각각의 형태별 자료를 고려했다면, 본 연구에서는 이를 확장하여 수집된 히스토그램과 멀티모달의 혼합된 형태로 이루어진 자료에 대한 계층 분할적 군집분석방법을 소개하고 이를 업종별 산업재해자료의 분석을 위해 이용한다.

멀티모달 딥 러닝 기반 이상 상황 탐지 방법론 (Anomaly Detection Methodology Based on Multimodal Deep Learning)

  • 이동훈;김남규
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.101-125
    • /
    • 2022
  • 최근 컴퓨팅 기술의 발전과 클라우드 환경의 개선에 따라 딥 러닝 기술이 발전하게 되었으며, 다양한 분야에 딥 러닝을 적용하려는 시도가 많아지고 있다. 대표적인 예로 정상적인 데이터에서 벗어나는 값이나 패턴을 식별하는 기법인 이상 탐지가 있으며, 이상 탐지의 대표적 유형인 점 이상, 집단적 이상, 맥락적 이중 특히 전반적인 상황을 파악해야 하는 맥락적 이상을 탐지하는 것은 매우 어려운 것으로 알려져 있다. 일반적으로 이미지 데이터의 이상 상황 탐지는 대용량 데이터로 학습된 사전학습 모델을 사용하여 이루어진다. 하지만 이러한 사전학습 모델은 이미지의 객체 클래스 분류에 초점을 두어 생성되었기 때문에, 다양한 객체들이 만들어내는 복잡한 상황을 탐지해야 하는 이상 상황 탐지에 그대로 적용되기에는 한계가 있다. 이에 본 연구에서는 객체 클래스 분류를 학습한 사전학습 모델을 기반으로 이미지 캡셔닝 학습을 추가적으로 수행하여, 객체 파악뿐만 아니라 객체들이 만들어내는 상황까지 이해해야 하는 이상 상황 탐지에 적절한 2 단계 사전학습 모델 구축 방법론을 제안한다. 구체적으로 제안 방법론은 ImageNet 데이터로 클래스 분류를 학습한 사전학습 모델을 이미지 캡셔닝 모델에 전이하고, 이미지가 나타내는 상황을 설명한 캡션을 입력 데이터로 사용하여 학습을 진행한다. 이후 이미지와 캡션을 통해 상황 특질을 학습한 가중치를 추출하고 이에 대한 미세 조정을 수행하여 이상 상황 탐지 모델을 생성한다. 제안 방법론의 성능을 평가하기 위해 직접 구축한 데이터 셋인 상황 이미지 400장에 대해 이상 탐지 실험을 수행하였으며, 실험 결과 제안 방법론이 기존의 단순 사전학습 모델에 비해 이상 상황 탐지 정확도와 F1-score 측면에서 우수한 성능을 나타냄을 확인하였다.

프롬프트 기반 퓨샷 러닝을 통한 한국어 대화형 텍스트 기반 이미지 생성 (Image Generation from Korean Dialogue Text via Prompt-based Few-shot Learning)

  • 이은찬;안상태
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.447-451
    • /
    • 2022
  • 본 논문에서는 사용자가 대화 텍스트 방식의 입력을 주었을 때 이를 키워드 중심으로 변환하여 이미지를 생성해내는 방식을 제안한다. 대화 텍스트란 채팅 등에서 주로 사용하는 형식의 구어체를 말하며 이러한 텍스트 형식은 텍스트 기반 이미지 생성 모델이 적절한 아웃풋 이미지를 생성하기 어렵게 만든다. 이를 해결하기 위해 대화 텍스트를 키워드 중심 텍스트로 바꾸어 텍스트 기반 이미지 생성 모델의 입력으로 변환하는 과정이 이미지 생성의 질을 높이는 좋은 방안이 될 수 있는데 이러한 태스크에 적합한 학습 데이터는 충분하지 않다. 본 논문에서는 이러한 문제를 다루기 위한 하나의 방안으로 사전학습된 초대형 언어모델인 KoGPT 모델을 활용하며, 퓨샷 러닝을 통해 적은 양의 직접 제작한 데이터만을 학습시켜 대화 텍스트 기반의 이미지 생성을 구현하는 방법을 제안한다.

  • PDF

R3 : 테이블의 구조 정보를 활용한 오픈 도메인 질의응답 시스템 (R3 : Open Domain Question Answering System Using Structure Information of Tables)

  • 강덕형;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.455-460
    • /
    • 2022
  • 오픈 도메인 질의 응답에서 질의에 대한 답변은 질의에 대한 관련 문서를 검색한 다음 질의에 대한 답변을 포함할 수 있는 검색된 문서를 분석함으로써 얻어진다. 문서내의 테이블이 질의와 관련이 있을 수 있음에도 불구하고, 기존의 연구는 주로 문서의 텍스트 부분만을 검색하는 데 초점을 맞추고 있었다. 이에 테이블과 텍스트를 모두 고려하는 질의응답과 관련된 연구가 진행되었으나 테이블의 구조적 정보가 손실되는 등의 한계가 있었다. 본 연구에서는 테이블의 구조적 정보를 모델의 추가적인 임베딩을 통해 활용한 오픈 도메인 질의응답 시스템인 R3를 제안한다. R3는 오픈 도메인 질의 응답 데이터셋인 NQ에 기반한 새로운 데이터셋인 NQ-Open-Multi를 이용해 학습 및 평가하였으며, 테이블의 구조적 정보를 활용하지 않은 시스템에 비해 더 좋은 성능을 보임을 확인할 수 있었다.

  • PDF

VL-KE-T5: 한국어와 영어로 구성된 영상-언어 병렬 데이터를 이용한 대조학습 기반 사전학습모델 구축 (VL-KE-T5: A contrastive learning-based pre-trained model using image-language parallel data composed of Korean and English)

  • 김산;신사임
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.337-342
    • /
    • 2022
  • 본 논문은 한국어-영어 기반 영상-언어 모델인 VL-KE-T5를 소개한다. VL-KE-T5는 영상-텍스트 쌍으로 구성된 한국어와 영어 데이터 약 2천 3백만개를 이용하여 영상-언어 모델의 임베딩 벡터들을 정렬시킨 사전학습모델이며, 미세조정을 통하여 여러 영상-언어 작업에 활용할 할 수 있다. VL-KE-T5는 텍스트 기반 영상 검색 작업에서 높은 성능을 보였으나, 세세한 속성을 가진 여러 객체들의 나열이나 객체 간 관계를 포함한 텍스트 기반 영상 검색에서는 비교적 낮은 성능을 보였다.

  • PDF