• 제목/요약/키워드: Image-text generation

검색결과 67건 처리시간 0.023초

다중 스케일 그라디언트 조건부 적대적 생성 신경망을 활용한 문장 기반 영상 생성 기법 (Text-to-Face Generation Using Multi-Scale Gradients Conditional Generative Adversarial Networks)

  • ;;추현승
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.764-767
    • /
    • 2021
  • While Generative Adversarial Networks (GANs) have seen huge success in image synthesis tasks, synthesizing high-quality images from text descriptions is a challenging problem in computer vision. This paper proposes a method named Text-to-Face Generation Using Multi-Scale Gradients for Conditional Generative Adversarial Networks (T2F-MSGGANs) that combines GANs and a natural language processing model to create human faces has features found in the input text. The proposed method addresses two problems of GANs: model collapse and training instability by investigating how gradients at multiple scales can be used to generate high-resolution images. We show that T2F-MSGGANs converge stably and generate good-quality images.

DSP 임베디드 숫자-점자 변환 영상처리 알고리즘의 구현 (Implementation of DSP Embedded Number-Braille Conversion Algorithm based on Image Processing)

  • 채진영;우다라;김원호
    • 한국위성정보통신학회논문지
    • /
    • 제11권2호
    • /
    • pp.14-17
    • /
    • 2016
  • 본 논문은 시각 장애인들을 위해 영상처리 기반의 숫자-자동 점자 변환기의 설계 및 구현에 관한 내용을 기술한다. 영상처리 기반의 숫자-점자 변환 알고리즘은 카메라로 획득한 입력 영상을 이진 영상화 한 다음, 문자 영역을 팽창과 라벨링 연산을 수행하고 저장되어 있는 문자 패턴 영상과 상호 상관도를 계산하여 해당되는 점자로 변환한다. 컴퓨터 시뮬레이션을 통하여 제안한 알고리즘을 모의실험한 결과, A4 용지에 인쇄된 숫자(0-9)에 대하여 91.8% 변환 성공률을 보여 주었고, DSP 영상처리 보드에 구현한 시제품 시험을 통하여 90% 변환 성능을 확인함으로서 구현된 숫자-자동 점자 변환기의 실용화 가능성을 확인하였다.

에지 및 컬러 양자화를 이용한 모바일 폰 카메라 기반장면 텍스트 검출 (Mobile Phone Camera Based Scene Text Detection Using Edge and Color Quantization)

  • 박종천;이근왕
    • 한국산학기술학회논문지
    • /
    • 제11권3호
    • /
    • pp.847-852
    • /
    • 2010
  • 자연 영상 내에 포함된 텍스트는 영상의 다양하고 중요한 특징을 갖는다. 그러므로 텍스트를 검출하고 추출하여 인식하는 것이 중요한 연구대상으로 연구되고 있다. 최근 모바일 폰 카메라를 기반으로 다양한 분야에서 많은 응용 기술이 연구 개발되고 있다. 본 논문은 에지 및 연결요소를 이용한 장면 텍스트 검출 방법을 제안한다. 그레이스케일 영상으로부터 에지 성분 검출과 지역적 표준편차를 이용하여 텍스트 영역의 경계선을 검출하고, RGB 컬러공간의 유클리디안 거리를 기준으로 연결요소를 검출한다. 검출된 에지 및 연결요소를 레이블링하고 각각 영역의 외곽사각형을 구한다. 텍스트의 휴리스틱 이용하여 후보 텍스트를 추출한다. 후보 텍스트 영역을 병합하여 하나의 후보 텍스트 영역을 생성하고, 후보 텍스트의 지역적 인접성과 구조적 유사성으로 후보 텍스트를 검증함으로서 최종적인 텍스트 영역을 검출하였다. 실험결과 에지 및 컬러 연결요소 특징을 상호 보완함으로서 텍스트 영역의 검출률을 향상시켰다.

Midjourney와 Stable Diffusion을 이용한 AI 생성 이미지의 차이 비교 (Comparison of the Differences in AI-Generated Images Using Midjourney and Stable Diffusion)

  • 부이두엉화이린;이강희
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.563-564
    • /
    • 2023
  • Midjourney and Stable Diffusion are two popular AI-generated image programs nowadays. With AI's outstanding image-generation capabilities, everyone can create artistic paintings in just a few minutes. Therefore, "Comparison of differences between AI-generated images using Midjourney and Stable Diffusion" will help see each program's advantages and assist the users in identifying the tool suitable for their needs.

  • PDF

한국형 멀티모달 몽타주 앱을 위한 생성형 AI 연구 (Research on Generative AI for Korean Multi-Modal Montage App)

  • 임정현;차경애;고재필;홍원기
    • 서비스연구
    • /
    • 제14권1호
    • /
    • pp.13-26
    • /
    • 2024
  • 멀티모달 (multi-modal) 생성이란 텍스트, 이미지, 오디오 등 다양한 정보를 기반으로 결과를 도출하는 작업을 말한다. AI 기술의 비약적인 발전으로 인해 여러 가지 유형의 데이터를 종합적으로 처리해 결과를 도출하는 멀티모달 기반 시스템 또한 다양해지는 추세이다. 본 논문은 음성과 텍스트 인식을 활용하여 인물을 묘사하면, 몽타주 이미지를 생성하는 AI 시스템의 개발 내용을 소개한다. 기존의 몽타주 생성 기술은 서양인들의 외형을 기준으로 이루어진 반면, 본 논문에서 개발한 몽타주 생성 시스템은 한국인의 안면 특징을 바탕으로 모델을 학습한다. 따라서, 한국어에 특화된 음성과 텍스트의 멀티모달을 기반으로 보다 정확하고 효과적인 한국형 몽타주 이미지를 만들어낼 수 있다. 개발된 몽타주 생성 앱은 몽타주 초안으로 충분히 활용 가능하기 때문에 기존의 몽타주 제작 인력의 수작업을 획기적으로 줄여줄 수 있다. 이를 위해 한국지능정보사회진흥원의 AI-Hub에서 제공하는 페르소나 기반 가상 인물 몽타주 데이터를 활용하였다. AI-Hub는 AI 기술 및 서비스 개발에 필요한 인공지능 학습용 데이터를 구축하여 원스톱 제공을 목적으로 한 AI 통합 플랫폼이다. 이미지 생성 시스템은 고해상도 이미지를 생성하는데 사용하는 딥러닝 모델인 VQGAN과 한국어 기반 영상생성 모델인 KoDALLE 모델을 사용하여 구현하였다. 학습된 AI 모델은 음성과 텍스트를 이용해 묘사한 내용과 매우 유사한 얼굴의 몽타주 이미지가 생성됨을 확인할 수 있다. 개발된 몽타주 생성 앱의 실용성 검증을 위해 10명의 테스터가 사용한 결과 70% 이상이 만족한다는 응답을 보였다. 몽타주 생성 앱은 범죄자 검거 등 얼굴의 특징을 묘사하여 이미지화하는 여러 분야에서 다양하게 사용될 수 있을 것이다.

의상 이미지의 응용 기호론적 연구(I)-엘자 스키아파렐리의 3가지 의상 이미지에 관하여- (A Study on the Semiotic Application about the Image Vestmental)

  • 최인순
    • 복식
    • /
    • 제38권
    • /
    • pp.101-122
    • /
    • 1998
  • The purpose of this study is to define the fundamentals of one symbolic concept, so calles vestment-sign, based on the logical relationship of sign system about the trichotomy by charles S. Peice's sign concept for the communication system of meaning in the non-linguistic image domain. To prove the argument of vestment-sign, I selected 3 type of vestment language by styliste, Elsa Schiaparel-li. The third image vestmental chosen here, titled“Larme-Illusion(1938)”,printed by Salvad-or Dali will produce one symbolic proposition as a logical result which is generated and developed through the interpretation of other images. First of all the text, which is manifested by Elsa Schiaparelli's first image vestmental, tit-led“Notation Musical(1937)”and is symbolized as one category in the representation of the form, is regarded symbolic and metaphorical from a standpoint that the title and the meaning is connected to the form. The second image vestment, titled“Ruches Noirs(1938)”represents externally splendid feminity man-ifested by the symbolic and metaphorical expression. And the purity of sensitivity aiming to humanity in the detail of the poetic feeling of naturalism makes us imagine the battle fild of furious sensitivity. Like as the result of the battle, the third image stimulated our eyesight with the“absence”of dressing function. The proposition of the text,《Death》which the third image delivers, constructs sign system to bring up a meaning with the disappearance of physical“signifier”. This establishment of the symbolic concept presents the etymological authority of symbol generation called“Design”.

  • PDF

에지 및 형태학적 재구성에 의한 연결요소를 이용한 자연영상의 문자영역 검출 (Character Region Detection in Natural Image Using Edge and Connected Component by Morphological Reconstruction)

  • 권교현;박종천;전병민
    • 한국엔터테인먼트산업학회논문지
    • /
    • 제5권1호
    • /
    • pp.127-133
    • /
    • 2011
  • 자연영상에 내포되어 있는 문자는 다양한 내용을 표현하는 중요한 정보이다. 기존의 문자 검출 알고리즘은 영상의 복잡도와 주변의 조명, 문자와 유사한 배경색 등의 환경에서 문자영역을 검출하지 못하는 문제점이 있으므로 본 논문에서는 에지 및 형태학적 재구성에 의한 연결요소를 이용한 자연영상에 포함된 문자영역을 검출하는 방법을 제안한다. 첫 번째 단계로, 명암도 영상에서 캐니에지(Canny-Edge) 검출기를 이용한 에지 성분과 형태학적 연산에 의한 지역적 최소/최대값을 갖는 연결요소를 검출하고, 각각 검출된 연결성분을 레이블링하고, 레이블링 된 각 성분에 대해 문자가 갖는 특징을 이용한 후보 문자영역을 검출한다. 마지막으로 검출된 후보 문자 영역을 서로 합병하여 하나의 후보 문자 영역을 생성하고, 후보 문자 영역의 인접성과 유사성으로 후보 문자 영역을 검증하여 최종 문자 영역을 검출한다. 실험결과 제안한 에지 및 연결요소 성분을 이용한 방법은 문자영역 검출의 정확성이 개선되었다.

이미지 생성을 위한 변동 자동 인코더 분산 제약 (Variational Auto Encoder Distributed Restrictions for Image Generation)

  • 김용길
    • 한국인터넷방송통신학회논문지
    • /
    • 제23권3호
    • /
    • pp.91-97
    • /
    • 2023
  • GAN(Generative Adversarial Networks)이 합성 이미지 생성 및 기타 다양한 응용 프로그램에 현재 사용되고 있지만, 생성 모델을 제어하기가 어렵다. 문제는 생성 모델의 잠재 공간에 있는데, 이미지 생성과 관련하여 입력된 잠재코드를 받아 특정 텍스트 및 신호에 따라 지정된 대상 속성이 향상되도록 하고 다른 속성은 크게 영향을 받지 않도록 하기 위해서는 상당한 제약이 요구된다. 본 연구에서는 이미지 생성 및 조작과 관련하여 변동 자동 인코더의 잠재 벡터에 관해 특정 제약을 수반한 모델을 제안한다. 제안된 모델에 관해 TensorFlow의 변동 자동 인코더를 통해 실험한 결과 이미지의 생성 및 조작과 관련하여 비교적 우수한 성능을 갖는 것으로 확인된다.

국내 걸그룹 외모에 나타난 사회문화적 의미 분석 - 세대별 걸그룹 외모 변화를 중심으로 - (An Analysis of the Social-Cultural Meaning of Korean Girl Groups' Appearances -Focusing on the Change of Girl Groups' Appearances across Generations-)

  • 한자영
    • 패션비즈니스
    • /
    • 제21권1호
    • /
    • pp.12-31
    • /
    • 2017
  • Korean commercial-organized girl groups were remarkable in the late 1990's. However, by the late 2000's, girl groups had an even more profound effect on Korean popular music compare to past influences. This study aimed to analyze the social-cultural meaning of the changing appearance of girl group between the first and second-generations. For this purpose, this study analyzed media image and text, based on a social-cultural context, about 13 girl groups. The results are as follows. First, while the first -generation girl group tended to maintain girlish/sexy images trying to the male desire, the second -generation girl group strategically showed various sexual identities such as femininity, masculinity, masculinity and androgyny along with contextual sexual images. The reason why girl groups increased the number of strategic images featuring various sexual identities was in order to appeal to a wide, diverse audience. Second, the second generation girl groups had - slim bodies with great athleticism, basically due to trainee system. Because of this, their semiotic body images have been commercially used to promote the consumption. Third, the second generation girl groups - were the bigger stars than first generation girl groups - because the members worked in many different fields. Therefore, the group members' images were successful consumed directly and then reproduced symbolically. Fourth, each member of the second -generation girl groups characterized by appearing in diverse, yet familiar images, through various media sources. Although the intention of this was to have recognition and popularity, it became difficult for them to change their image once one particular image was deemed popular.

AI 기반 이미지 생성 기술의 농업 적용 가능성 (Agricultural Applicability of AI based Image Generation)

  • 윤승리;이예영;정은규;안태인
    • 생물환경조절학회지
    • /
    • 제33권2호
    • /
    • pp.120-128
    • /
    • 2024
  • 2022년 ChatGPT 출시 이후, 생성형 AI 산업은 엄청난 규모로 성장하였으며, 인지 작업에 혁신을 가져올 것으로 기대되고 있다. 특히 AI 기반 이미지 생성 기술은 현재 디지털 세계의 핵심적인 변화를 주도하고 있다. 본 연구는 대표적인 AI 이미지 생성 도구인 미드저니, 스테이블 디퓨전, 그리고 파이어플라이의 기술적 원리를 분석하고, 이미지 생성 결과를 비교함으로써 그 유용성을 평가하였다. 실험 결과, 이 AI 도구들은 대표 시설원예 작물인 토마토, 딸기, 파프리카, 오이의 과실 이미지를 실제와 유사하게 재현하였다. 특히 파이어플라이는 실제 온실 재배 작물 이미지를 매우 사실적으로 묘사하는 능력을 보여주었다. 그러나 모든 도구들은 작물이 자라는 온실의 환경적 맥락을 완전히 반영하는 데에 있어서 다소 한계를 보였다. 프롬프트 개선 및 레퍼런스 이미지를 활용하여 딸기과실 이미지와 시설 딸기재배 시스템을 보다 정교하게 생성하는 과정도 포함되었으며, 이러한 접근은 AI 이미지 생성 기술의 세밀한 조정이 가능함을 보여준다. 오이 과실 이미지 생성능력을 비교한 결과, AI 생성 도구들은 실제 이미지와 매우 유사한 이미지를 생성해 냄으로써 이미지 생성 점수(CLIP score)에 있어서 통계적 차이를 보이지 않았다. 본 연구는 AI 기반 이미지 생성 이미지 기술이 농업 분야에 활용될 수 있는 방안을 모색하며, 생성형 AI의 농업에 대한 적용을 긍정적으로 전망한다.