통합 검색 | Korea Science

x-vector를 이용한 다화자 음성합성 시스템 (A Multi-speaker Speech Synthesis System Using X-vector)

조민수;권철홍
- 문화기술의 융합
- /
- 제7권4호
- /
- pp.675-681
- /
- 2021
최근 인공지능 스피커 시장이 성장하면서 사용자와 자연스러운 대화가 가능한 음성합성 기술에 대한 수요가 증가하고 있다. 따라서 다양한 음색의 목소리를 생성할 수 있는 다화자 음성합성 시스템이 필요하다. 자연스러운 음성을 합성하기 위해서는 대용량의 고품질 음성 DB로 학습하는 것이 요구된다. 그러나 많은 화자가 발화한 고품질의 대용량 음성 DB를 수집하는 것은 녹음 시간과 비용 측면에서 매우 어려운 일이다. 따라서 각 화자별로는 소량의 학습 데이터이지만 매우 많은 화자의 음성 DB를 사용하여 음성합성 시스템을 학습하고, 이로부터 다화자의 음색과 운율 등을 자연스럽게 표현하는 기술이 필요하다. 본 논문에서는 화자인식 기술에서 사용하는 딥러닝 기반 x-vector 기법을 적용하여 화자 인코더를 구성하고, 화자 인코더를 통해 소량의 데이터로 새로운 화자의 음색을 합성하는 기술을 제안한다. 다화자 음성합성 시스템에서 텍스트 입력에서 멜-스펙트로그램을 합성하는 모듈은 Tacotron2로, 합성음을 생성하는 보코더는 로지스틱 혼합 분포가 적용된 WaveNet으로 구성되어 있다. 학습된 화자 임베딩 신경망에서 추출한 x-vector를 Tacotron2에 입력으로 추가하여 원하는 화자의 음색을 표현한다.
https://doi.org/10.17703/JCCT.2021.7.4.675 인용 PDF KSCI

증강현실 캐릭터 구현을 위한 AI기반 객체인식 연구 (AI-Based Object Recognition Research for Augmented Reality Character Implementation)

이석환;이정금;심현
- 한국전자통신학회논문지
- /
- 제18권6호
- /
- pp.1321-1330
- /
- 2023
본 연구는 증강현실에서 적용할 캐릭터 생성에서 단일 이미지를 통해 여러 객체에 대한 3D 자세 추정 문제를 연구한다. 기존 top-down 방식에서는 이미지 내의 모든 객체를 먼저 감지하고, 그 후에 각각의 객체를 독립적으로 재구성한다. 문제는 이렇게 재구성된 객체들 사이의 중첩이나 깊이 순서가 불일치 하는 일관성 없는 결과가 발생할 수 있다. 본 연구의 목적은 이러한 문제점을 해결하고, 장면 내의 모든 객체에 대한 일관된 3D 재구성을 제공하는 단일 네트워크를 개발하는 것이다. SMPL 매개변수체를 기반으로 한 인체 모델을 top-down 프레임워크에 통합이 중요한 선택이 되었으며, 이를 통해 거리 필드 기반의 충돌 손실과 깊이 순서를 고려하는 손실 두 가지를 도입하였다. 첫 번째 손실은 재구성된 사람들 사이의 중첩을 방지하며, 두 번째 손실은 가림막 추론과 주석이 달린 인스턴스 분할을 일관되게 렌더링하기 위해 객체들의 깊이 순서를 조정한다. 이러한 방법은 네트워크에 이미지의 명시적인 3D 주석 없이도 깊이 정보를 제공하게 한다. 실험 결과, 기존의 Interpenetration loss 방법은 MuPoTS-3D가 114, PoseTrack이 654에 비해서 본 연구의 방법론인 Lp 손실로 네트워크를 훈련시킬 때 MuPoTS-3D가 34, PoseTrack이 202로 충돌수가 크게 감소하는 것으로 나타났다. 본 연구 방법은 표준 3D 자세벤치마크에서 기존 방법보다 더 나은 성능을 보여주었고, 제안된 손실들은 자연 이미지에서 더욱 일관된 재구성을 실현하게 하였다.
https://doi.org/10.13067/JKIECS.2023.18.6.1321 인용 PDF

휠체어 탄 인공지능: 자율적 기술에서 상호의존과 돌봄의 기술로 (Artificial Intelligence In Wheelchair: From Technology for Autonomy to Technology for Interdependence and Care)

하대청
- 과학기술학연구
- /
- 제19권2호
- /
- pp.169-206
- /
- 2019
이 글은 인공지능이 만들어내는 문화적 상상을 분석하면서 기술과 인간 사이의 새로운 윤리를 모색한다. 과학기술을 돌봄물(matter of care)로 이해하는 페미니스트 과학기술학 연구(Puig de la Bellacas, 2011)에 기댄 이 글은 우선 인공지능이 자율성을 문화적 상상으로 강력하게 생산하고 있다는 점에 주목한다. 스스로의 경험과 학습을 통해 새로운 환경에 적응할 수 있는 능력으로 정의된 이 자율성은 기술적 영역을 넘어 이상적인 인간상을 정의하고 있다. 하지만 데이터에 기반한 딥러닝 기법과 무장한 무인 비행기가 예증하듯, 인공지능 기술은 보이지 않는 인간노동과 복잡한 물질적 장치에 의존하고 있으며, 자율성은 허구에 가깝다. 또한 이른바 '조수 기술 (assistant technology)'이 보여주듯, 가사노동을 부불노동화하는 우리 사회의 오래된 젠더화된 노동인식에 기초해 수많은 인간의 돌봄 노동은 비가시화되는 반면, 기계의 돌봄노동은 적극적으로 가시화되고 있다. 또한 인공지능의 문화적 상상은 자율성과 행위능력을 이상적인 인간의 특질로 정의하면서 장애의 몸과 이 몸이 갖는 가치인 연약함과 의존성의 연대는 가치 없는 것으로 만들고 있다. 인공지능과 그 문화적 상상은 능력이 있는 몸(abled-bodies)을 이상화하고 기술의 자율성을 우선 가치로 삼으면서 서로 의존하는 인간과 기술의 현실적 관계를 삭제하고 있다. 결론에서 저자는 우리에게 필요한 기술은 타자의 비정형적인 몸과 인간의 돌봄노동을 가치 없게 여기도록 하는 것이 아니라 이들을 있는 그대로 드러내면서 그 가치를 인정하는 것이어야 한다고 주장한다. 책임 있게 응답하는 기술은 주변화된 존재들에 공감하고 의존성을 긍정하고 연약성 사이의 연대를 촉진하는 것이어야 한다. 저자는 이런 대안적인 기술을 형상화하기 위해 예술가 수 오스틴의 퍼포먼스에서 영감을 얻어 '휠체어 탄 인공지능'을 제안한다. '휠체어 탄 인공지능'은 자율성을 과시하기보다는 타자의 몸과 노동을 부정하지 않고 이들의 존재론적 가능성을 함께 만들어가려 노력하는 상호의존과 돌봄의 기술이다.
PDF KSCI

전자결제서비스 이용 사업자 폐업 예측에서 비재무정보 활용을 통한 머신러닝 모델의 정확도 향상에 관한 연구 (A study on improving the accuracy of machine learning models through the use of non-financial information in predicting the Closure of operator using electronic payment service)

공현정;황유진;박성혁
- 지능정보연구
- /
- 제29권3호
- /
- pp.361-381
- /
- 2023
기업 부도 예측에 관한 연구는 재무정보를 중심으로 연구되어 왔다. 기업의 재무정보는 분기별로 갱신되기 때문에 실시간으로 기업의 폐업 가능성을 예측하는 데 있어 적시성이 부족하게 되는 문제가 발생한다. 이를 개선하고자 하는 평가 기업에서는 대상 기업의 건전성을 판단하기 위한 재무정보 외의 정보를 활용한 기업의 건전성을 판단하는 방법이 필요하다. 이를 위해 정보 기술의 발달로 기업에 대한 비재무정보 수집이 용이해지면서 기업 부도 예측에 재무정보 외의 추가적인 변수와 여러 가지 방법론을 적용하는 연구가 진행되어 왔으며, 이 중에서도 어떤 변수들이 기업의 부도를 예측하는데 영향을 주는지를 밝히는 것이 중요한 연구 과제가 되었다. 본 연구에서는 전자결제서비스를 이용하는 사업자의 폐업을 예측할 때 비재무정보를 구성하는 전자결제 정보들이 얼마나 영향을 미치는지를 살펴보았으며, 재무정보와 비재무정보 결합에 따른 폐업 예측 정확도 차이를 살펴보았다. 구체적으로, 재무정보 모형과 비재무정보 모형, 그리고 이를 결합한 모형으로 구성된 세 가지 연구 모형을 설계하였으며 Multi Layer Perceptron(MLP) 알고리즘을 포함한 여섯 가지 알고리즘으로 폐업 예측 정확도를 확인하였다. 재무정보와 비재무정보를 결합한 모형이 가장 높은 예측 정확도를 보였으며, 그 다음으로는 비재무정보 모형, 재무정보 모형의 순서로 예측 정확도가 확인되었다. 알고리즘별 폐업 예측 정확도는 여섯 가지의 알고리즘 중 XGBoost가 가장 높은 예측 정확도를 보였다. 사업자의 폐업 예측에 활용된 전체 87개의 변수를 대상으로 상대적 중요도를 살펴본 결과 폐업 예측에 중요하게 영향을 미친 변수는 상위 20개 중 70% 이상이 비재무정보인 것으로 확인되었다. 이를 통해 비재무정보의 전자결제 정보가 사업자의 폐업을 예측하는 중요한 변수임을 확인하였으며, 비재무 정보가 재무정보의 대안적 정보로서 활용할 수 있는 가능성 역시 살펴볼 수 있었다. 본 연구를 기반으로 사업자의 폐업을 예측할 수 있는 정보로서 비재무정보의 수집과 활용에 대한 중요성을 인식하고 기업의 의사결정에 활용할 수 있는 방안에 대해서도 다루었다.
https://doi.org/10.13088/jiis.2023.29.3.361 인용 PDF

한국어 음소 단위 LSTM 언어모델을 이용한 문장 생성 (Korean Sentence Generation Using Phoneme-Level LSTM Language Model)

안성만;정여진;이재준;양지헌
- 지능정보연구
- /
- 제23권2호
- /
- pp.71-88
- /
- 2017
언어모델은 순차적으로 입력된 자료를 바탕으로 다음에 나올 단어나 문자를 예측하는 모델로 언어처리나 음성인식 분야에 활용된다. 최근 딥러닝 알고리즘이 발전되면서 입력 개체 간의 의존성을 효과적으로 반영할 수 있는 순환신경망 모델과 이를 발전시킨 Long short-term memory(LSTM) 모델이 언어모델에 사용되고 있다. 이러한 모형에 자료를 입력하기 위해서는 문장을 단어 혹은 형태소로 분해하는 과정을 거친 후 단어 레벨 혹은 형태소 레벨의 모형을 사용하는 것이 일반적이다. 하지만 이러한 모형은 텍스트가 포함하는 단어나 형태소의 수가 일반적으로 매우 많기 때문에 사전 크기가 커지게 되고 이에 따라 모형의 복잡도가 증가하는 문제가 있고 사전에 포함된 어휘 외에는 생성이 불가능하다는 등의 단점이 있다. 특히 한국어와 같이 형태소 활용이 다양한 언어의 경우 형태소 분석기를 통한 분해과정에서 오류가 더해질 수 있다. 이를 보완하기 위해 본 논문에서는 문장을 자음과 모음으로 이루어진 음소 단위로 분해한 뒤 입력 데이터로 사용하는 음소 레벨의 LSTM 언어모델을 제안한다. 본 논문에서는 LSTM layer를 3개 또는 4개 포함하는 모형을 사용한다. 모형의 최적화를 위해 Stochastic Gradient 알고리즘과 이를 개선시킨 다양한 알고리즘을 사용하고 그 성능을 비교한다. 구약성경 텍스트를 사용하여 실험을 진행하였고 모든 실험은 Theano를 기반으로 하는 Keras 패키지를 사용하여 수행되었다. 모형의 정량적 비교를 위해 validation loss와 test set에 대한 perplexity를 계산하였다. 그 결과 Stochastic Gradient 알고리즘이 상대적으로 큰 validation loss와 perplexity를 나타냈고 나머지 최적화 알고리즘들은 유사한 값들을 보이며 비슷한 수준의 모형 복잡도를 나타냈다. Layer 4개인 모형이 3개인 모형에 비해 학습시간이 평균적으로 69% 정도 길게 소요되었으나 정량지표는 크게 개선되지 않거나 특정 조건에서는 오히려 악화되는 것으로 나타났다. 하지만 layer 4개를 사용한 모형이 3개를 사용한 모형에 비해 완성도가 높은 문장을 생성했다. 본 논문에서 고려한 어떤 시뮬레이션 조건에서도 한글에서 사용되지 않는 문자조합이 생성되지 않았고 명사와 조사의 조합이나 동사의 활용, 주어 동사의 결합 면에서 상당히 완성도 높은 문장이 발생되었다. 본 연구결과는 현재 대두되고 있는 인공지능 시스템의 기초가 되는 언어처리나 음성인식 분야에서 한국어 처리를 위해 다양하게 활용될 수 있을 것으로 기대된다.
https://doi.org/10.13088/jiis.2017.23.2.071 인용 PDF KSCI

정확히 재가중되는 온라인 전체 에러율 최소화 기반의 객체 추적 (Object Tracking Based on Exactly Reweighted Online Total-Error-Rate Minimization)

장세인;박충식
- 지능정보연구
- /
- 제25권4호
- /
- pp.53-65
- /
- 2019
영상 기반의 보안 시스템의 증가함에 따라 각 용도마다 다른 다양한 객체들에 대한 처리들이 중요해지고 있다. 객체 추적은 객체 인식, 검출과 같은 작업들과 함께 필수적인 작업으로 다뤄진다. 이 객체 추적을 달성하기 위해서 다양한 머신러닝이 적용될 수 있다. 성공적인 분류기로써 전체 에러율 최소화(total-error-rate minimization) 기반의 방법론이 사용될 수 있다. 이 전체 에러율 최소화 기반의 방법론은 오프라인 학습을 기반으로 하고 있다. 객체 추적은 실시간으로 처리하며 갱신해야하는 것이 필수적이므로 온라인 학습(online learning)을 기반으로 하는 것이 적합하다. 온라인 전체 에러율 최소화 방법론이 개발되었지만 점근적으로 재가중되는(approximately reweighted) 작업이 포함되어 에러를 누적시킬 수 있다는 단점이 있다. 본 논문에서는 정확하게 재가중되는(exactly reweighted) 방법론을 제안하면서 온라인 전체 에러율 최소화가 달성되었다. 이 제안된 온라인 학습 방법론을 객체 추적에 적용하여 총 8개의 데이터베이스에서 다른 추적 방법론들 보다 좋은 성능이 달성되었다.
https://doi.org/10.13088/jiis.2019.25.4.053 인용 PDF KSCI

효과적인 입력변수 패턴 학습을 위한 시계열 그래프 기반 합성곱 신경망 모형: 주식시장 예측에의 응용 (A Time Series Graph based Convolutional Neural Network Model for Effective Input Variable Pattern Learning : Application to the Prediction of Stock Market)

이모세;안현철
- 지능정보연구
- /
- 제24권1호
- /
- pp.167-181
- /
- 2018
지난 10여 년간 딥러닝(Deep Learning)은 다양한 기계학습 알고리즘 중에서 많은 주목을 받아 왔다. 특히 이미지를 인식하고 분류하는데 효과적인 알고리즘으로 알려져 있는 합성곱 신경망(Convolutional Neural Network, CNN)은 여러 분야의 분류 및 예측 문제에 널리 응용되고 있다. 본 연구에서는 기계학습 연구에서 가장 어려운 예측 문제 중 하나인 주식시장 예측에 합성곱 신경망을 적용하고자 한다. 구체적으로 본 연구에서는 그래프를 입력값으로 사용하여 주식시장의 방향(상승 또는 하락)을 예측하는 이진분류기로써 합성곱 신경망을 적용하였다. 이는 그래프를 보고 주가지수가 오를 것인지 내릴 것인지에 대해 경향을 예측하는 이른바 기술적 분석가를 모방하는 기계학습 알고리즘을 개발하는 과제라 할 수 있다. 본 연구는 크게 다음의 네 단계로 수행된다. 첫 번째 단계에서는 데이터 세트를 5일 단위로 나눈다. 두 번째 단계에서는 5일 단위로 나눈 데이터에 대하여 그래프를 만든다. 세 번째 단계에서는 이전 단계에서 생성된 그래프를 사용하여 학습용과 검증용 데이터 세트를 나누고 합성곱 신경망 분류기를 학습시킨다. 네 번째 단계에서는 검증용 데이터 세트를 사용하여 다른 분류 모형들과 성과를 비교한다. 제안한 모델의 유효성을 검증하기 위해 2009년 1월부터 2017년 2월까지의 약 8년간의 KOSPI200 데이터 2,026건의 실험 데이터를 사용하였다. 실험 데이터 세트는 CCI, 모멘텀, ROC 등 한국 주식시장에서 사용하는 대표적인 기술지표 12개로 구성되었다. 결과적으로 실험 데이터 세트에 합성곱 신경망 알고리즘을 적용하였을 때 로지스틱회귀모형, 단일계층신경망, SVM과 비교하여 제안모형인 CNN이 통계적으로 유의한 수준의 예측 정확도를 나타냈다.
https://doi.org/10.13088/jiis.2018.24.1.167 인용 PDF KSCI

합성곱 신경망의 비지니스 응용: 런웨이 이미지를 사용한 의류 분류를 중심으로 (Business Application of Convolutional Neural Networks for Apparel Classification Using Runway Image)

서이안;신경식
- 지능정보연구
- /
- 제24권3호
- /
- pp.1-19
- /
- 2018
최근 딥러닝은 오디오, 텍스트 및 이미지 데이터와 같은 비 체계적인 데이터를 대상으로 다양한 추정, 분류 및 예측 문제에 사용 및 적용되고 있다. 특히, 의류산업에 적용될 경우 딥러닝 기법을 활용한 의류 인식, 의류 검색, 자동 제품 추천 등의 심층 학습을 기반으로 한 응용이 가능하다. 이 때의 핵심모형은 합성곱 신경망을 사용한 이미지 분류이다. 합성곱 신경망은 입력이 전달되고 출력에 도달하는 과정에서 가중치와 같은 매개 변수를 학습하는 뉴런으로 구성되고, 영상 분류에 가장 적합한 방법론으로 사용된다. 기존의 의류 이미지 분류 작업에서 대부분의 분류 모형은 의류 이미지 자체 또는 전문모델 착용 의류와 같이 통제된 상황에서 촬영되는 온라인 제품 이미지를 사용하여 학습을 수행한다. 하지만 본 연구에서는 통제되지 않은 상황에서 촬영되고 사람들의 움직임과 다양한 포즈가 포함된 스트릿 패션 이미지 또는 런웨이 이미지를 분류하려는 상황을 고려하여 분류 모형을 훈련시키는 효과적인 방법을 제안한다. 이동성을 포착하는 런웨이 의류 이미지로 모형을 학습시킴으로써 분류 모형의 다양한 쿼리 이미지에 대한 적응력을 높일 수 있다. 모형 학습 시 먼저 ImageNet 데이터셋을 사용하여 pre-training 과정을 거치고 본 연구를 위해 수집된 32 개 주요 패션 브랜드의 2426개 런웨이 이미지로 구성된 데이터셋을 사용하여 fine-tuning을 수행한다. 학습 과정의 일반화를 고려해 10번의 실험을 수행하고 제안된 모형은 최종 테스트에서 67.2 %의 정확도를 기록했다. 본 연구 모형은 쿼리 이미지가 런웨이 이미지, 제품 이미지 또는 스트릿 패션 이미지가 될 수 있는 다양한 분류 환경에 적용될 수 있다. 구체적으로는 패션 위크에서 모바일 어플리케이션 서비스를 통해 브랜드 검색을 용이하게 하는 서비스를 제공하거나, 패션 잡지사의 편집 작업에 사용되어 브랜드나 스타일을 분류하고 라벨을 붙일 수 있으며, 온라인 쇼핑몰에서 아이템 정보를 제공하거나 유사한 아이템을 추천하는 등의 다양한 목적에 적용될 수 있다.
https://doi.org/10.13088/jiis.2018.24.3.001 인용 PDF KSCI

글로벌 사업 진출을 위한 산학협력 협업촉진모델: 경남 G대학 GTEP 사업 실험사례연구 (A Study on the UIC(University & Industry Collaboration) Model for Global New Business)

백종옥;박상혁;설병문
- 벤처창업연구
- /
- 제10권6호
- /
- pp.69-80
- /
- 2015
협업을 촉진할 수 있는 환경과 시스템을 갖추는 것은 기업경쟁력 확보에 중요한 요인으로 인식되고 있다. 협업이란 여러 사람이 협동적이고 조직적으로 일하며, 공동의 목표 혹은 가치를 추구하여 정보와 프로세스를 공유함으로써 노동 생산성을 향상시키는 상호작용을 의미한다. 협업을 촉진시키는 요인에는 비전 공유, 비전을 반영한 조직의 원칙 및 규칙, 온라인 시스템 구축, 의사소통 등이 있다. 첫째, 비전을 구체화 할수록 조직원의 적극적이고 자발적인 참여가 이루어질 수 있다. 둘째, 구성원이 수용하는 규칙이나 원칙이 단합과 좋은 성과로 이어지게 된다. 또한 능력에 맞는 업무 분담과 자기 계발을 위한 활동이 업무로 이어지고 정기적인 팀 활동을 만들어 협업 환경 및 분위기를 조성하는데 도움이 된다. 셋째, 체계적인 온라인 협업 시스템의 구축으로 효율적이고 신속한 업무가 이루어진다. 기업들은 클라우드 서비스와 소셜미디어를 활용하여 업무의 저비용과 고효율을 이룰 수 있었으며, 이때 구성원들의 적극적 활용과 참여를 유도하는 지속적 교육이 반드시 수반되어야 한다. 넷째, 기업을 알리고 조직 내 외부 사람들과 적극적으로 소통하는 활동은 기업의 이미지를 바꾸고, 기업 성과를 창출해 내는 기반이 된다. 본 연구의 목적은 글로벌 사업진출과정에 발생하는 문제해결 방안으로 산학협력 협업촉진모델을 제안하는데 있다. 이를 위하여 기업조직에서 협업이 잘 이루어지기 위한 촉진요인을 전략적 연동 모형(strategic alignment model)을 기반으로 협업을 이해하고, 스마트워크 도구를 활용하는 팀 사례분석을 통한 성공요인을 도출한다. 연구결과 체계적인 협업촉진모델을 만들기 위하여 조직 구성 단계에 맞는 역할들을 도출하였다. 첫째, 리더는 확고하고 명확한 비전을 만들어 조직구성원에게 전파하여 공감과 믿음 그리고 소속감을 가지도록 하여야 한다. 둘째, 중간관리자를 포함한 리더는 조직의 비전을 팀원간에 전파하기 위해 규칙과 원칙을 만들고, 시스템을 구축하고 효율적으로 사용할 수 있도록 관리하여야 한다. 셋째, 팀원은 기업의 비전을 내재화하여 역할에 책임을 다할 뿐만 아니라 외부로 기업을 알리는 역할에 충실해야 한다. 연구결과는 향후 실증 연구를 위한 기반을 제시할 것으로 기대된다.
PDF

한국형 멀티모달 몽타주 앱을 위한 생성형 AI 연구 (Research on Generative AI for Korean Multi-Modal Montage App)

임정현;차경애;고재필;홍원기
- 서비스연구
- /
- 제14권1호
- /
- pp.13-26
- /
- 2024
멀티모달 (multi-modal) 생성이란 텍스트, 이미지, 오디오 등 다양한 정보를 기반으로 결과를 도출하는 작업을 말한다. AI 기술의 비약적인 발전으로 인해 여러 가지 유형의 데이터를 종합적으로 처리해 결과를 도출하는 멀티모달 기반 시스템 또한 다양해지는 추세이다. 본 논문은 음성과 텍스트 인식을 활용하여 인물을 묘사하면, 몽타주 이미지를 생성하는 AI 시스템의 개발 내용을 소개한다. 기존의 몽타주 생성 기술은 서양인들의 외형을 기준으로 이루어진 반면, 본 논문에서 개발한 몽타주 생성 시스템은 한국인의 안면 특징을 바탕으로 모델을 학습한다. 따라서, 한국어에 특화된 음성과 텍스트의 멀티모달을 기반으로 보다 정확하고 효과적인 한국형 몽타주 이미지를 만들어낼 수 있다. 개발된 몽타주 생성 앱은 몽타주 초안으로 충분히 활용 가능하기 때문에 기존의 몽타주 제작 인력의 수작업을 획기적으로 줄여줄 수 있다. 이를 위해 한국지능정보사회진흥원의 AI-Hub에서 제공하는 페르소나 기반 가상 인물 몽타주 데이터를 활용하였다. AI-Hub는 AI 기술 및 서비스 개발에 필요한 인공지능 학습용 데이터를 구축하여 원스톱 제공을 목적으로 한 AI 통합 플랫폼이다. 이미지 생성 시스템은 고해상도 이미지를 생성하는데 사용하는 딥러닝 모델인 VQGAN과 한국어 기반 영상생성 모델인 KoDALLE 모델을 사용하여 구현하였다. 학습된 AI 모델은 음성과 텍스트를 이용해 묘사한 내용과 매우 유사한 얼굴의 몽타주 이미지가 생성됨을 확인할 수 있다. 개발된 몽타주 생성 앱의 실용성 검증을 위해 10명의 테스터가 사용한 결과 70% 이상이 만족한다는 응답을 보였다. 몽타주 생성 앱은 범죄자 검거 등 얼굴의 특징을 묘사하여 이미지화하는 여러 분야에서 다양하게 사용될 수 있을 것이다.
https://doi.org/10.18807/jsrs.2024.14.1.013 인용 PDF

검색결과 654건 처리시간 0.028초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)