• 제목/요약/키워드: 멀티모달 생성 AI

검색결과 8건 처리시간 0.02초

한국형 멀티모달 몽타주 앱을 위한 생성형 AI 연구 (Research on Generative AI for Korean Multi-Modal Montage App)

  • 임정현;차경애;고재필;홍원기
    • 서비스연구
    • /
    • 제14권1호
    • /
    • pp.13-26
    • /
    • 2024
  • 멀티모달 (multi-modal) 생성이란 텍스트, 이미지, 오디오 등 다양한 정보를 기반으로 결과를 도출하는 작업을 말한다. AI 기술의 비약적인 발전으로 인해 여러 가지 유형의 데이터를 종합적으로 처리해 결과를 도출하는 멀티모달 기반 시스템 또한 다양해지는 추세이다. 본 논문은 음성과 텍스트 인식을 활용하여 인물을 묘사하면, 몽타주 이미지를 생성하는 AI 시스템의 개발 내용을 소개한다. 기존의 몽타주 생성 기술은 서양인들의 외형을 기준으로 이루어진 반면, 본 논문에서 개발한 몽타주 생성 시스템은 한국인의 안면 특징을 바탕으로 모델을 학습한다. 따라서, 한국어에 특화된 음성과 텍스트의 멀티모달을 기반으로 보다 정확하고 효과적인 한국형 몽타주 이미지를 만들어낼 수 있다. 개발된 몽타주 생성 앱은 몽타주 초안으로 충분히 활용 가능하기 때문에 기존의 몽타주 제작 인력의 수작업을 획기적으로 줄여줄 수 있다. 이를 위해 한국지능정보사회진흥원의 AI-Hub에서 제공하는 페르소나 기반 가상 인물 몽타주 데이터를 활용하였다. AI-Hub는 AI 기술 및 서비스 개발에 필요한 인공지능 학습용 데이터를 구축하여 원스톱 제공을 목적으로 한 AI 통합 플랫폼이다. 이미지 생성 시스템은 고해상도 이미지를 생성하는데 사용하는 딥러닝 모델인 VQGAN과 한국어 기반 영상생성 모델인 KoDALLE 모델을 사용하여 구현하였다. 학습된 AI 모델은 음성과 텍스트를 이용해 묘사한 내용과 매우 유사한 얼굴의 몽타주 이미지가 생성됨을 확인할 수 있다. 개발된 몽타주 생성 앱의 실용성 검증을 위해 10명의 테스터가 사용한 결과 70% 이상이 만족한다는 응답을 보였다. 몽타주 생성 앱은 범죄자 검거 등 얼굴의 특징을 묘사하여 이미지화하는 여러 분야에서 다양하게 사용될 수 있을 것이다.

ChatGPT 기반 한국어 Vision-Language Pre-training을 위한 고품질 멀티모달 데이터셋 구축 방법론 (High-Quality Multimodal Dataset Construction Methodology for ChatGPT-Based Korean Vision-Language Pre-training)

  • 성진;한승헌;신종훈;임수종;권오욱
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.603-608
    • /
    • 2023
  • 본 연구는 한국어 Vision-Language Pre-training 모델 학습을 위한 대규모 시각-언어 멀티모달 데이터셋 구축에 대한 필요성을 연구한다. 현재, 한국어 시각-언어 멀티모달 데이터셋은 부족하며, 양질의 데이터 획득이 어려운 상황이다. 따라서, 본 연구에서는 기계 번역을 활용하여 외국어(영문) 시각-언어 데이터를 한국어로 번역하고 이를 기반으로 생성형 AI를 활용한 데이터셋 구축 방법론을 제안한다. 우리는 다양한 캡션 생성 방법 중, ChatGPT를 활용하여 자연스럽고 고품질의 한국어 캡션을 자동으로 생성하기 위한 새로운 방법을 제안한다. 이를 통해 기존의 기계 번역 방법보다 더 나은 캡션 품질을 보장할 수 있으며, 여러가지 번역 결과를 앙상블하여 멀티모달 데이터셋을 효과적으로 구축하는데 활용한다. 뿐만 아니라, 본 연구에서는 의미론적 유사도 기반 평가 방식인 캡션 투영 일치도(Caption Projection Consistency) 소개하고, 다양한 번역 시스템 간의 영-한 캡션 투영 성능을 비교하며 이를 평가하는 기준을 제시한다. 최종적으로, 본 연구는 ChatGPT를 이용한 한국어 멀티모달 이미지-텍스트 멀티모달 데이터셋 구축을 위한 새로운 방법론을 제시하며, 대표적인 기계 번역기들보다 우수한 영한 캡션 투영 성능을 증명한다. 이를 통해, 우리의 연구는 부족한 High-Quality 한국어 데이터 셋을 자동으로 대량 구축할 수 있는 방향을 보여주며, 이 방법을 통해 딥러닝 기반 한국어 Vision-Language Pre-training 모델의 성능 향상에 기여할 것으로 기대한다.

  • PDF

감정에 기반한 가상인간의 대화 및 표정 실시간 생성 시스템 구현 (Emotion-based Real-time Facial Expression Matching Dialogue System for Virtual Human)

  • 김기락;연희연;은태영;정문열
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제28권3호
    • /
    • pp.23-29
    • /
    • 2022
  • 가상인간은 가상공간(가상 현실, 혼합 현실, 메타버스 등)에서 Unity와 같은 3D Engine 전용 모델링 도구로 구현된다. 실제 사람과 유사한 외모, 목소리, 표정이나 행동 등을 구현하기 위해 다양한 가상인간 모델링 도구가 도입되었고, 어느 정도 수준까지 인간과 의사소통이 가능한 가상인간을 구현할 수 있게 되었다. 하지만, 지금까지의 가상인간 의사소통 방식은 대부분 텍스트 혹은 스피치만을 사용하는 단일모달에 머물러 있다. 최근 AI 기술이 발전함에 따라 가상인간의 의사소통 방식은 과거 기계 중심의 텍스트 기반 시스템에서 인간 중심의 자연스러운 멀티모달 의사소통 방식으로 변화할 수 있게 되었다. 본 논문에서는 다양한 대화 데이터셋으로 미세조정한 인공신경망을 사용해 사용자와 자연스럽게 대화 할 수 있는 가상인간을 구현하고, 해당 가상인간이 생성하는 문장의 감정값을 분석하여 이에 맞는 표정을 발화 중에 나타내는 시스템을 구현하여 사용자와 가상인간 간의 실시간 멀티모달 대화가 가능하게 하였다.

ICLAL: 인 컨텍스트 러닝 기반 오디오-언어 멀티 모달 딥러닝 모델 (ICLAL: In-Context Learning-Based Audio-Language Multi-Modal Deep Learning Models)

  • 박준영;여진영 ;이고은 ;최창환;최상일
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.514-517
    • /
    • 2023
  • 본 연구는 인 컨택스트 러닝 (In-Context Learning)을 오디오-언어 작업에 적용하기 위한 멀티모달 (Multi-Modal) 딥러닝 모델을 다룬다. 해당 모델을 통해 학습 단계에서 오디오와 텍스트의 소통 가능한 형태의 표현 (Representation)을 학습하고 여러가지 오디오-텍스트 작업을 수행할 수 있는 멀티모달 딥러닝 모델을 개발하는 것이 본 연구의 목적이다. 모델은 오디오 인코더와 언어 인코더가 연결된 구조를 가지고 있으며, 언어 모델은 6.7B, 30B 의 파라미터 수를 가진 자동회귀 (Autoregressive) 대형 언어 모델 (Large Language Model)을 사용한다 오디오 인코더는 자기지도학습 (Self-Supervised Learning)을 기반으로 사전학습 된 오디오 특징 추출 모델이다. 언어모델이 상대적으로 대용량이기 언어모델의 파라미터를 고정하고 오디오 인코더의 파라미터만 업데이트하는 프로즌 (Frozen) 방법으로 학습한다. 학습을 위한 과제는 음성인식 (Automatic Speech Recognition)과 요약 (Abstractive Summarization) 이다. 학습을 마친 후 질의응답 (Question Answering) 작업으로 테스트를 진행했다. 그 결과, 정답 문장을 생성하기 위해서는 추가적인 학습이 필요한 것으로 보였으나, 음성인식으로 사전학습 한 모델의 경우 정답과 유사한 키워드를 사용하는 문법적으로 올바른 문장을 생성함을 확인했다.

이미지-텍스트 자질을 이용한 행동 포착 비디오 기반 대화시스템 (Audio-Visual Scene Aware Dialogue System Utilizing Action From Vision and Language Features)

  • 임정우;장윤나;손준영;이승윤;박기남;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.253-257
    • /
    • 2023
  • 최근 다양한 대화 시스템이 스마트폰 어시스턴트, 자동 차 내비게이션, 음성 제어 스피커, 인간 중심 로봇 등의 실세계 인간-기계 인터페이스에 적용되고 있다. 하지만 대부분의 대화 시스템은 텍스트 기반으로 작동해 다중 모달리티 입력을 처리할 수 없다. 이 문제를 해결하기 위해서는 비디오와 같은 다중 모달리티 장면 인식을 통합한 대화 시스템이 필요하다. 기존의 비디오 기반 대화 시스템은 주로 시각, 이미지, 오디오 등의 다양한 자질을 합성하거나 사전 학습을 통해 이미지와 텍스트를 잘 정렬하는 데에만 집중하여 중요한 행동 단서와 소리 단서를 놓치고 있다는 한계가 존재한다. 본 논문은 이미지-텍스트 정렬의 사전학습 임베딩과 행동 단서, 소리 단서를 활용해 비디오 기반 대화 시스템을 개선한다. 제안한 모델은 텍스트와 이미지, 그리고 오디오 임베딩을 인코딩하고, 이를 바탕으로 관련 프레임과 행동 단서를 추출하여 발화를 생성하는 과정을 거친다. AVSD 데이터셋에서의 실험 결과, 제안한 모델이 기존의 모델보다 높은 성능을 보였으며, 대표적인 이미지-텍스트 자질들을 비디오 기반 대화시스템에서 비교 분석하였다.

  • PDF

고위험 현장의 안전관리를 위한 AI 클라우드 플랫폼 설계 (A Design of AI Cloud Platform for Safety Management on High-risk Environment)

  • 김기봉
    • 미래기술융합논문지
    • /
    • 제1권2호
    • /
    • pp.01-09
    • /
    • 2022
  • 최근 기업과 공공기관에서 안전 이슈는 더는 미룰 수 있는 상황이 아니며, 대형 안전사고가 발생했을 때 직접적인 금전적 손실뿐 아니라 해당 기업 및 공공기관에 대한 사회적 신뢰가 함께 떨어지는 간접적인 손실도 매우 커진다. 특히 사망 사고의 경우는 더욱 피해가 심각하다. 이에 따라 기업 및 공공기관은 산업 안전 교육과 예방에 대한 투자를 확대함에 따라, 고위험 상황이 존재하는 산업현장에서 사용자 행동반경에 영향을 받지 않고 안전관리 서비스가 가능한 개방형 AI 학습모델 생성 기술, 에지단말간 AI협업 기술, 클라우드-에지단말 연동 기술, 멀티모달 위험상황 판단기술, AI 모델 학습 지원 기술을 이용한 시스템 개발이 이루어지고 있다. 특히 인공지능 기술의 발전과 확산으로 안전 이슈에도 해당 기술을 적용하기 위한 연구가 활발해지고 있다. 따라서 본 논문에서는 고위험 현장 안전관리를 위해 AI 모델 학습 지원이 가능한 개방형 클라우드 플랫폼 설계 방안을 제시하였다.

가상 휴먼 상호작용 저작 툴킷 (Authoring Toolkit for Interaction with a Virtual Human)

  • 정진호;조동식
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 춘계학술발표대회
    • /
    • pp.564-566
    • /
    • 2021
  • 최근 가상 휴먼은 국방, 의료, 교육, 엔터테인먼트 등 다양한 분야에서 널리 활용되고 있다. 가상 휴먼을 이용한 상호작용은 사용자가 현실 세계의 실제 친구와 대화하는 것처럼 자연스럽게 소통하는 방식으로 운용이 되고, 이를 위해서는 사용자의 음성, 동작, 감정 등 다양한 입력을 기반으로 반응하는 가상 휴먼 출력 등 상호작용 매핑 관계를 제작하여야 한다. 하지만, 기존 가상 휴먼 상호작용 방법은 미리 정해진 패턴을 수작업인 프로그래밍을 통해 제작하여 개발 기간이 오래 걸리고, 수정이 용이하지 못한 단점이 있다. 본 논문에서는 가상 휴먼 상호작용을 위해 음성, 동작, 감정 등 사용자의 멀티모달 입력과 가상 휴먼 반응에 대한 저작을 수행하는 툴킷을 제시한다. 본 논문에서 제시한 저작도구를 통해 쉽고 빠르게 사용자와 가상 휴먼 상호작용 표현을 생성할 수 있다.

자동 적응 기반 메타버스 가상 휴먼 상호작용 기법 (Automatic Adaptation Based Metaverse Virtual Human Interaction)

  • 정진호;조동식
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권2호
    • /
    • pp.101-106
    • /
    • 2022
  • 최근 가상 휴먼은 국방, 의료, 산업, 유통, 문화, 엔터테인먼트 등 다양한 서비스 분야에서 교육, 훈련 정보 가이드, 홍보 전시 등 널리 활용되고 있다. 또한, 가상 휴먼을 통해 원격지에 접속한 사용자와 상호작용하기 위한 메타버스 서비스가 급속히 확대 적용될 것으로 전망하고 있다. 메타버스 환경 안에서 가상 휴먼(혹은 아바타)을 이용한 상호작용은 참여자가 현실 세계의 실제 친구와 대화하는 것처럼 자연스럽게 소통하는 방식으로 운용이 되고, 이를 위해서는 사용자의 음성, 동작, 감정 등 다양한 입력을 기반으로 반응하는 가상 휴먼 상호작용 매핑 관계를 제작하여야 한다. 또한, 현실 세계의 변화에 동작하는 가상 휴먼의 경우 현실의 환경에 기반한 상호작용 동작이 되도록 지원하여야 한다. 하지만, 기존 가상 휴먼 상호작용 방법은 미리 정해진 반응형 패턴을 제작하기 위해 수작업으로 동작 결과를 프로그래밍하여 구현되었다. 이러한 방법은 개발 기간이 상대적으로 많이 소요되고, 상호작용 수정이 쉽게 변경하지 못하는 단점이 있다. 또한, 실제 주변 환경의 영향에 의해 반응적으로 동작하는 상호작용을 지원하기가 어렵다고 할 수 있다. 본 논문에서는 가상 휴먼의 직관적인 상호작용을 위해 음성, 동작, 감정 등 사용자의 멀티모달 입력과 주변 환경에 대한 반응하는 가상 휴먼 제작 방법을 제시한다. 이를 위한 가상 휴먼 상호작용 저작도구를 통해 쉽고 빠르게 사용자와 반응하는 가상 휴먼의 표현을 생성하고, 가상 휴먼이 자동 적응 기반으로 사용자 입력 및 주변 환경에 변화에 동작할 수 있도록 하였다.