• 제목/요약/키워드: text-to-speech

검색결과 500건 처리시간 0.027초

한국형 멀티모달 몽타주 앱을 위한 생성형 AI 연구 (Research on Generative AI for Korean Multi-Modal Montage App)

  • 임정현;차경애;고재필;홍원기
    • 서비스연구
    • /
    • 제14권1호
    • /
    • pp.13-26
    • /
    • 2024
  • 멀티모달 (multi-modal) 생성이란 텍스트, 이미지, 오디오 등 다양한 정보를 기반으로 결과를 도출하는 작업을 말한다. AI 기술의 비약적인 발전으로 인해 여러 가지 유형의 데이터를 종합적으로 처리해 결과를 도출하는 멀티모달 기반 시스템 또한 다양해지는 추세이다. 본 논문은 음성과 텍스트 인식을 활용하여 인물을 묘사하면, 몽타주 이미지를 생성하는 AI 시스템의 개발 내용을 소개한다. 기존의 몽타주 생성 기술은 서양인들의 외형을 기준으로 이루어진 반면, 본 논문에서 개발한 몽타주 생성 시스템은 한국인의 안면 특징을 바탕으로 모델을 학습한다. 따라서, 한국어에 특화된 음성과 텍스트의 멀티모달을 기반으로 보다 정확하고 효과적인 한국형 몽타주 이미지를 만들어낼 수 있다. 개발된 몽타주 생성 앱은 몽타주 초안으로 충분히 활용 가능하기 때문에 기존의 몽타주 제작 인력의 수작업을 획기적으로 줄여줄 수 있다. 이를 위해 한국지능정보사회진흥원의 AI-Hub에서 제공하는 페르소나 기반 가상 인물 몽타주 데이터를 활용하였다. AI-Hub는 AI 기술 및 서비스 개발에 필요한 인공지능 학습용 데이터를 구축하여 원스톱 제공을 목적으로 한 AI 통합 플랫폼이다. 이미지 생성 시스템은 고해상도 이미지를 생성하는데 사용하는 딥러닝 모델인 VQGAN과 한국어 기반 영상생성 모델인 KoDALLE 모델을 사용하여 구현하였다. 학습된 AI 모델은 음성과 텍스트를 이용해 묘사한 내용과 매우 유사한 얼굴의 몽타주 이미지가 생성됨을 확인할 수 있다. 개발된 몽타주 생성 앱의 실용성 검증을 위해 10명의 테스터가 사용한 결과 70% 이상이 만족한다는 응답을 보였다. 몽타주 생성 앱은 범죄자 검거 등 얼굴의 특징을 묘사하여 이미지화하는 여러 분야에서 다양하게 사용될 수 있을 것이다.

증강현실을 이용한 선택적 가이드 시스템 -관람자의 관심에 따라 박물관 관람을 안내 하는 가이드 시스템 (Augmented Reality based Museum Guidance System Selective Viewing)

  • 박준석;이동현;박준
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2008년도 학술대회 1부
    • /
    • pp.45-48
    • /
    • 2008
  • 박물관이나 전시관에서 많은 관람객들은 전시물에 대한 멀티미디어 정보를 얻기를 원할 뿐만 아니라 특정한 스타일, 작가, 주제별로 관람하고 싶어 한다. 박물관이나 전시관에는 증강 현실을 이용한 선택적 가이드 시스템을 이용하여 글이나 그림, 다국어 음성, 비디오와 같은 전시물에 대한 정보를 관람객에게 제공하며 관람자들의 흥미에 따른 관람 경로를 관람자에게 제공 해준다. 다음 전시물까지 가는 경로의 정보는 증강현실을 이용하거나, 멀티미디어 정보를 이용해서 관람자들에게 제공한다. 이 시스템은 외관적으로는, UMPC(Ultra Mobile PC)와 카메라, 그리고 관성 센서로 구성되어 있다. 처음 이 시스템을 시작하면, 관람자는 자신의 흥미에 맞는 전시물을 메뉴를 선택한다. 그 후, 시스템은 선택된 전시물과 연관된 관람 경로를 설정하고 다음 전시물에 대한 방향과 거리 그리고 어디로 가는지, 어느 방향에 있는지, 얼마나 멀리 있는지 그리고 전시물에 대한 시각적 실마리의 정보가 주어진다. 해당 정보를 이용하여 다음 전시물을 찾고 화면에 표시된 시각적 실마리와 카메라에서 얻어지는 전시물의 영상을 일치시키면 전시물에 대한 정보를 멀티미디어 형태로 보여준다. 사용자들의 간단한 실험을 통해서 이 시스템은 큰 전시실에도 관람자로 하여금 유익하게 관람할 수 있다.

  • PDF

스마트 FA를 위한 음성인식 지능로봇제어에 관한 연구 (A Study On Intelligent Robot Control Based On Voice Recognition For Smart FA)

  • 심현석;김민성;최민혁;배호영;김희진;김두범;한성현
    • 한국산업융합학회 논문집
    • /
    • 제21권2호
    • /
    • pp.87-93
    • /
    • 2018
  • This Study Propose A New Approach To Impliment A Intelligent Robot Control Based on Voice Recognition For Smart Factory Automation Since human usually communicate each other by voices, it is very convenient if voice is used to command humanoid robots or the other type robot system. A lot of researches has been performed about voice recognition systems for this purpose. Hidden Markov Model is a robust statistical methodology for efficient voice recognition in noise environments. It has being tested in a wide range of applications. A prediction approach traditionally applied for the text compression and coding, Prediction by Partial Matching which is a finite-context statistical modeling technique and can predict the next characters based on the context, has shown a great potential in developing novel solutions to several language modeling problems in speech recognition. It was illustrated the reliability of voice recognition by experiments for humanoid robot with 26 joints as the purpose of application to the manufacturing process.

황순원 「소나기」의 문화융합 콘텐츠 사례를 통해 본 인문학적 상상력 (Humanistic Imagination through the Case of Cultural Convergence Contents of Hwang Soon-won 「Sonagi」)

  • 이내관
    • 한국융합학회논문지
    • /
    • 제9권10호
    • /
    • pp.199-208
    • /
    • 2018
  • 본 논문은 1953년 5월 "신문학"지에 발표된 황순원의 "소나기"가 텔레비전 단막극, 애니메이션, 영화, 뮤지컬, CF, 문학콘서트 등과 같은 다양한 문화융합 콘텐츠로 재생산 되면서 원작과 달라진 부분을 인문학적 상상력 측면에서 고찰한 것이다. TV문학관 <소나기>에서는 원작에 존재하지 않은 인물인 소녀의 '엄마'와 소년의 동생인 '석이'라는 인물을 새롭게 창조하여 스토리를 보다 치밀하게 전개하였고, 애니메이션에서는 주인공의 대화가 말소리로 제시되어 작품의 주제를 효과적으로 드러내었다는 점이 특징적이다. 영화에서 여주인공은 "소나기"의 결말 부분이 마음에 들지 않는다면서 "죽거든 저를 업어준 사내애를 산 채로 같이 묻어 달라"는 독특한 상상력으로 소설을 차용한다. 어린이의 손목시계 겸 휴대폰 기능이 있는 키즈워치 CF에서도 "소나기"가 변용되었다. 또한 뮤지컬 <소나기>에서는 약 2톤 정도의 물을 사용하여 관객들에게 보다 생생함과 현장감을 주었다. 이처럼 소설을 원작으로 한 다양한 문화융합 콘텐츠에서는 원작의 내용이 매체의 특성에 따라 변용되면서 연출가의 독특한 상상력의 세계가 관객과 시청자에게 전달되었다.

유비쿼터스 정보네트워크에서의 편리한 정보액세스를 위한 한글 자음모음 도메인명의 응용 (Application of Korean Alphabet Domain-Names for Convenient Information Access in a Ubiquitous Information Network)

  • 김영복
    • 정보처리학회논문지C
    • /
    • 제12C권7호
    • /
    • pp.1067-1074
    • /
    • 2005
  • 모바일 사용자 인터페이스가, 특히 유비쿼터스 컴퓨팅 환경에서, 정보를 빨리 그리고 편리하게 액세스하는데 중요해지고 있다. 모바일 컴퓨팅 환경에서의 많은 신규서비스들 중에서, 한글1자 도메인명을 포함하여, 한글알파벳(자음과 모음) 도메인명을 이용한 유비쿼터스 정보네트워킹서비스가 연구되었다. 긴 영어나 한글의 URL 스트링 대신에, 정보 액세스를 위한 편리한 사용자 인터페이스로서, 유선 인터넷에서 뿐만아니라 모바일 인터넷에서, 한글1자/자음/모음 도메인명이 정보를 액세스하고 정보를 알리는데 긴 URL스트링보다 더 편리하다. PC뿐만아니라 휴대폰에서 한글1자/자음/모음 도메인명의 편리함을 연구하였고, 음성변환(TTS) 기능을 가지고 있으며 한글1자/자음/모음 도메인명으로 액세스할 수 있는 유비쿼터스 정보포털의 구현과 응용을 소개한다

YOLO와 OCR 알고리즘에 기반한 시각 장애우를 위한 유통기한 알림 시스템 (Expiration Date Notification System Based on YOLO and OCR algorithms for Visually Impaired Person)

  • 김민수;문미경;한창희
    • 한국전자통신학회논문지
    • /
    • 제16권6호
    • /
    • pp.1329-1338
    • /
    • 2021
  • 점자를 제외한 시각 장애우들이 유통기한을 확인할 수 있는 효과적인 방법이 거의 개발되어 있지 않으며, 이로 인하여 시각 장애우들의 식품 안전성이 위협받고 있다. 본 연구에서는 시각 장애우의 식품 안전성 확보를 위해 실시간 객체 인식 알고리즘(you only look once, YOLO) 및 광학 문자 인식 (optical character recognition, OCR)에 기반한 유통기한 알림 시스템을 개발했다. 제안하는 시스템은 총 4가지 단계로 시각 장애우에게 유통기한 정보를 전달한다: (1) 표적 제품의 바코드 스캔을 통한 제품 확인 (2) 실시간으로 입력되는 제품 영상에서 YOLO 알고리즘을 활용하여 유통기한이 표기된 이미지 영역 검출; (3) 검출된 이미지 영역에서 OCR 알고리즘을 활용하여 유통기한 문자 인식; (4) Text to Speech (TTS) 기술을 활용하여 유통기한 정보를 사용자에게 전달. 성능 평가를 위한 온라인 실험 결과, 앞이 보이지 않는 피험자가 개발한 시스템을 사용해서 제품의 유통기한을 평균 86%의 높은 정확도로 확인할 수 있음이 검증되었다. 이러한 결과는 제안하는 시스템이 저시력자를 포함한 시각 장애우들의 식품 안전성 확보에 이바지할 수 있음을 보여준다.

감정에 기반한 가상인간의 대화 및 표정 실시간 생성 시스템 구현 (Emotion-based Real-time Facial Expression Matching Dialogue System for Virtual Human)

  • 김기락;연희연;은태영;정문열
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제28권3호
    • /
    • pp.23-29
    • /
    • 2022
  • 가상인간은 가상공간(가상 현실, 혼합 현실, 메타버스 등)에서 Unity와 같은 3D Engine 전용 모델링 도구로 구현된다. 실제 사람과 유사한 외모, 목소리, 표정이나 행동 등을 구현하기 위해 다양한 가상인간 모델링 도구가 도입되었고, 어느 정도 수준까지 인간과 의사소통이 가능한 가상인간을 구현할 수 있게 되었다. 하지만, 지금까지의 가상인간 의사소통 방식은 대부분 텍스트 혹은 스피치만을 사용하는 단일모달에 머물러 있다. 최근 AI 기술이 발전함에 따라 가상인간의 의사소통 방식은 과거 기계 중심의 텍스트 기반 시스템에서 인간 중심의 자연스러운 멀티모달 의사소통 방식으로 변화할 수 있게 되었다. 본 논문에서는 다양한 대화 데이터셋으로 미세조정한 인공신경망을 사용해 사용자와 자연스럽게 대화 할 수 있는 가상인간을 구현하고, 해당 가상인간이 생성하는 문장의 감정값을 분석하여 이에 맞는 표정을 발화 중에 나타내는 시스템을 구현하여 사용자와 가상인간 간의 실시간 멀티모달 대화가 가능하게 하였다.

Bidirectional LSTM CRF 기반의 개체명 인식을 위한 단어 표상의 확장 (Expansion of Word Representation for Named Entity Recognition Based on Bidirectional LSTM CRFs)

  • 유홍연;고영중
    • 정보과학회 논문지
    • /
    • 제44권3호
    • /
    • pp.306-313
    • /
    • 2017
  • 개체명 인식이란 문서 내에서 인명, 기관명, 지명, 시간, 날짜 등 고유한 의미를 가지는 개체명을 추출하여 그 종류를 결정하는 것을 말한다. 최근 개체명 인식 연구에서 가장 우수한 성능을 보여주고 있는 모델은 Bidirectional LSTM CRFs 모델이다. 이러한 LSTM 기반의 딥 러닝 모델은 입력이 되는 단어 표상에 의존적이다. 따라서 입력이 되는 단어를 잘 표현하기 위하여 단어 표상을 확장하는 방법에 대한 연구가 많이 진행되어지고 있다. 본 논문에서는 한국어 개체명 인식을 위하여 Bidirectional LSTM CRFs모델을 사용하고, 그 입력으로 사용되는 단어 표상을 확장하기 위해 사전 학습된 단어 임베딩 벡터, 품사 임베딩 벡터, 음절 기반에서 확장된 단어 임베딩 벡터, 그리고 개체명 사전 자질 벡터를 사용한다. 최종 단어 표상 확장 결과 사전 학습된 단어 임베딩 벡터만 사용한 것 보다 8.05%p의 성능 향상을 보였다.

지능형 서비스 로봇을 위한 잡음에 강인한 문맥독립 화자식별 시스템 (Noise Robust Text-Independent Speaker Identification for Ubiquitous Robot Companion)

  • 김성탁;지미경;김회린;김혜진;윤호섭
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2008년도 학술대회 1부
    • /
    • pp.190-194
    • /
    • 2008
  • 본 논문은 지능형 서비스 로봇의 여러 기술들 중에서 기본적인 기술인 화자식별 기술에 관한 내용이다. 화자식별 기술은 화자의 음성신호를 이용하여 등록된 화자들 중에서 가장 유사한 화자를 찾아내는 것이다. 기존의 mel-frequency cepstral coefficient 를 이용한 화자식별 시스템은 무잡음 환경에서는 높은 성능을 보장하지만 잡음환경에서는 성능이 급격하게 떨어진다. 이렇게 잡음환경에서 성능이 떨어지는 요인은 등록환경과 식별환경이 다른 불일치문제 때문이다. 본 논문에서는 불일치문제를 해결하기 위해 relative autocorrelation sequence mel-frequency cepstral coefficient 를 사용하였다. 또한, 기존의 relative autocorrelation sequence mel-frequency cepstral coefficient 의 제한된 정보문제와 잔여잡음문제를 해결하기 위해 멀티스트리밍 방법과 멀티스트리밍 방법에 특정벡터 재결합 방법을 결합한 하이브리드 방법을 제한 하였다. 실험결과 제한된 방법들이 기존의 특정벡터보다 잡음환경에서 높은 화자식별 성능을 보여주었다.

  • PDF

구문 관계와 운율 특성을 이용한 한국어 운율구 경계 예측 (Prediction of Prosodic Break Using Syntactic Relations and Prosodic Features)

  • 정영임;조선호;윤애선;권혁철
    • 인지과학
    • /
    • 제19권1호
    • /
    • pp.89-105
    • /
    • 2008
  • 본 논문에서는 자연스러운 한국어 운율구 경계를 예측하기 위해 (1) 문장 성분을 하위범주화하고, (2) 세분화된 문장 성분 간 의존관계를 이용하여 통사구를 추출하며 (3) 추출한 통사구의 유형에 따른 운율구 경계 예측 규칙을 설정하였다. 또한, (4) 통사적 정보 외에도 통사구와 문장의 길이, 통사구의 문장 내 위치, 문맥의 의미 정보 등에 따라 가변적인 운율구 경계를 판단하여 보다 자연스러운 한국어 운율구 경계 예측 시스템을 개발하였다. 그 결과 통사구 경계와 상관관계가 높은 강한 운율구 경계 예측과 운율구 내부 비경계 예측에 있어 90% 이상의 높은 재현율과 정확도를 보였으며, 전체 운율구 경계 예측에 있어서도 87% 이상의 성능을 보였다.

  • PDF