• 제목/요약/키워드: Multi-modal Generative AI

검색결과 4건 처리시간 0.021초

한국형 멀티모달 몽타주 앱을 위한 생성형 AI 연구 (Research on Generative AI for Korean Multi-Modal Montage App)

  • 임정현;차경애;고재필;홍원기
    • 서비스연구
    • /
    • 제14권1호
    • /
    • pp.13-26
    • /
    • 2024
  • 멀티모달 (multi-modal) 생성이란 텍스트, 이미지, 오디오 등 다양한 정보를 기반으로 결과를 도출하는 작업을 말한다. AI 기술의 비약적인 발전으로 인해 여러 가지 유형의 데이터를 종합적으로 처리해 결과를 도출하는 멀티모달 기반 시스템 또한 다양해지는 추세이다. 본 논문은 음성과 텍스트 인식을 활용하여 인물을 묘사하면, 몽타주 이미지를 생성하는 AI 시스템의 개발 내용을 소개한다. 기존의 몽타주 생성 기술은 서양인들의 외형을 기준으로 이루어진 반면, 본 논문에서 개발한 몽타주 생성 시스템은 한국인의 안면 특징을 바탕으로 모델을 학습한다. 따라서, 한국어에 특화된 음성과 텍스트의 멀티모달을 기반으로 보다 정확하고 효과적인 한국형 몽타주 이미지를 만들어낼 수 있다. 개발된 몽타주 생성 앱은 몽타주 초안으로 충분히 활용 가능하기 때문에 기존의 몽타주 제작 인력의 수작업을 획기적으로 줄여줄 수 있다. 이를 위해 한국지능정보사회진흥원의 AI-Hub에서 제공하는 페르소나 기반 가상 인물 몽타주 데이터를 활용하였다. AI-Hub는 AI 기술 및 서비스 개발에 필요한 인공지능 학습용 데이터를 구축하여 원스톱 제공을 목적으로 한 AI 통합 플랫폼이다. 이미지 생성 시스템은 고해상도 이미지를 생성하는데 사용하는 딥러닝 모델인 VQGAN과 한국어 기반 영상생성 모델인 KoDALLE 모델을 사용하여 구현하였다. 학습된 AI 모델은 음성과 텍스트를 이용해 묘사한 내용과 매우 유사한 얼굴의 몽타주 이미지가 생성됨을 확인할 수 있다. 개발된 몽타주 생성 앱의 실용성 검증을 위해 10명의 테스터가 사용한 결과 70% 이상이 만족한다는 응답을 보였다. 몽타주 생성 앱은 범죄자 검거 등 얼굴의 특징을 묘사하여 이미지화하는 여러 분야에서 다양하게 사용될 수 있을 것이다.

Audio Generative AI Usage Pattern Analysis by the Exploratory Study on the Participatory Assessment Process

  • Hanjin Lee;Yeeun Lee
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권4호
    • /
    • pp.47-54
    • /
    • 2024
  • 첨단기술을 활용한 문화예술 교육은 기술에 대한 문해력 향상과 자기표현, 그리고 융합적 역량 개발의 측면에서 그 중요성이 증대되고 있다. 이에 혁신적인 멀티모달 AI의 생성과정과 결과평가는 확대된 시청각 경험을 제공하고 창의적 영감을 향상할 수 있다. 특히, AI와 함께 음악을 만드는 과정은 멜로디와 악상을 떠올리는 것부터 가사 개선, 편집과 변주, 악기 연주 등 모든 영역에 걸쳐 혁신적 경험을 제공한다. 이에 본 연구에서는 음악 생성 AI 플랫폼을 활용하여 과제를 수행하고 동료 학습자와 토론하는 과정을 실증적으로 분석하고자 하였다. 그 결과 자발적 참여를 통해 12개의 서비스와 10개의 평가기준 유형을 수집하여 사용패턴과 목적으로 구분할 수 있었다. 이를 토대로 학습자 관점의 AI 기반 교양교육을 위한 학술적, 기술적, 정책적 시사점을 제시하였다.

생성형 AI 용도의 UI/UX (UI/UX for Generative AI)

  • 김태석 ;;;;김용국
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.687-690
    • /
    • 2023
  • 본 논문은 다양한 종류의 생성형 AI 용도의 UI/UX 중 텍스트 기반 UI/UX, 이미지 기반 UI/UX, 오디오 기반 UI/UX, 그리고 Multi-modal 을 기반으로 둔 UI/UX 와 같은 다양한 유형의 UI/UX 를 살펴보고 최신 기술을 활용한 미래전망에 대해 알아 보도록 한다. 현재 생성 모델은 다양한 산업 분야에서 광범위하고 다양한 응용 프로그램으로 사용되고 있으며, 최근 연구자와 실무자들로부터 상당한 관심을 받고 있다.생성형 AI 용도의 UI/UX 를 사용하면 생활에 편리해지며 시간과 돈이 매우 절약이 된다. 특히 사용자들이 편안하게 사용할 수 있는 생성형 AI 의 UI/UX 대한 연구방향에 대해 알아 보도록 한다.

트랜스포머를 이용한 GVQA 모델의 성능 개선에 관한 연구 (A Study on Performance Improvement of GVQA Model Using Transformer)

  • 박성욱;김준영;박준;이한성;정세훈;심춘보
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.749-752
    • /
    • 2021
  • 오늘날 인공지능(Artificial Intelligence, AI) 분야에서 가장 구현하기 어려운 분야 중 하나는 추론이다. 근래 추론 분야에서 영상과 언어가 결합한 다중 모드(Multi-modal) 환경에서 영상 기반의 질의 응답(Visual Question Answering, VQA) 과업에 대한 AI 모델이 발표됐다. 얼마 지나지 않아 VQA 모델의 성능을 개선한 GVQA(Grounded Visual Question Answering) 모델도 발표됐다. 하지만 아직 GVQA 모델도 완벽한 성능을 내진 못한다. 본 논문에서는 GVQA 모델의 성능 개선을 위해 VCC(Visual Concept Classifier) 모델을 ViT-G(Vision Transformer-Giant)/14로 변경하고, ACP(Answer Cluster Predictor) 모델을 GPT(Generative Pretrained Transformer)-3으로 변경한다. 이와 같은 방법들은 성능을 개선하는 데 큰 도움이 될 수 있다고 사료된다.