• 제목/요약/키워드: Image-text generation

검색결과 67건 처리시간 0.023초

Automatic Poster Generation System Using Protagonist Face Analysis

  • Yeonhwi You;Sungjung Yong;Hyogyeong Park;Seoyoung Lee;Il-Young Moon
    • Journal of information and communication convergence engineering
    • /
    • 제21권4호
    • /
    • pp.287-293
    • /
    • 2023
  • With the rapid development of domestic and international over-the-top markets, a large amount of video content is being created. As the volume of video content increases, consumers tend to increasingly check data concerning the videos before watching them. To address this demand, video summaries in the form of plot descriptions, thumbnails, posters, and other formats are provided to consumers. This study proposes an approach that automatically generates posters to effectively convey video content while reducing the cost of video summarization. In the automatic generation of posters, face recognition and clustering are used to gather and classify character data, and keyframes from the video are extracted to learn the overall atmosphere of the video. This study used the facial data of the characters and keyframes as training data and employed technologies such as DreamBooth, a text-to-image generation model, to automatically generate video posters. This process significantly reduces the time and cost of video-poster production.

디지털 네이티브 세대를 위한 제안, 움직이는 픽토그램 (Moving Pictogram, a Suggestion for the Digital Native Generation)

  • 공수경
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권6호
    • /
    • pp.1017-1024
    • /
    • 2017
  • 기술의 발달은 콘텐츠 미디어의 변화를 가져왔다. 구술 시대의 음성, 소리 미디어에서 시작하여 텍스트, 페인팅을 거쳐, 사실성의 사진 미디어, 이미지에 사운드를 더한 영상 미디어의 발달로 이어져 왔다. 여기서 생각해보아야 할 것은 기술의 발달로 인한 미디어의 변화라는 일방적 영향만이 아니라, 어떤 세대가 어떤 미디어를 접하느냐에 따라 정보의 이해도 및 집중력, 몰입도 등이 달라진다는 것이다. 이에 디지털을 주미디어로 활용하고 있는 디지털 네이티브 세대에 주목하게 된다. 디지털 네이티브 세대의 특징으로는 시각정보를 빠르게 처리하며, 멀티태스킹이 가능하고, 분할주의 능력을 지니고 있는 세대로 연구된 바 있다. 이에 본 논문에서는 디지털 네이티브 세대를 위하여 움직이는 픽토그램을 제안, 픽토그램 중에서도 한계성을 보이고 있는 비상구 픽토그램을 움직이는 픽토그램으로 제안하였으며, 설문지를 통하여 근거를 마련하였다. 디지털 네이티브 세대 특성에 맞춘 새로운 동적 픽토그램, 더 나아가 인터랙티브 동적 픽토그램은 생각하고 연구되어야 하는 분야로 본 논문은 첫 발을 내딛는 연구라고 볼 수 있다.

딥 러닝 기반 이미지 생성 모델을 활용한 객체 인식 사례 연구 (A Case Study of Object detection via Generated image Using deep learning model based on image generation)

  • 강다빈;홍지수;김재홍;송민지;김동휘;박상효
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2022년도 추계학술대회
    • /
    • pp.203-206
    • /
    • 2022
  • 본 논문에서는 생성된 이미지에 대한 YOLO 모델의 객체 인식의 성능을 확인하고 사례를 연구하는 것을 목적으로 한다. 최근 영상 처리 기술이 발전함에 따라 적대적 공격의 위험성이 증가하고, 이로 인해 객체 인식의 성능이 현저히 떨어질 수 있는 문제가 발생하고 있다. 본 연구에서는 앞서 언급한 문제를 해결하기 위해 text-to-image 모델을 활용하여 기존에 존재하지 않는 새로운 이미지를 생성하고, 생성된 이미지에 대한 객체 인식을 사례 별로 연구한다. 총 8가지의 동물 카테고리로 분류한 후 객체 인식 성능을 확인한 결과 86.46%의 정확도로 바운딩 박스를 생성하였고, 동물에 대한 116개의 60.41%의 정확도를 보여주었다.

  • PDF

A Study on Character Consistency Generated in [Midjourney V6] Technology

  • Xi Chen;Jeanhun Chung
    • International journal of advanced smart convergence
    • /
    • 제13권2호
    • /
    • pp.142-147
    • /
    • 2024
  • The emergence of programs like Midjourney, particularly known for its text-to-image capability, has significantly impacted design and creative industries. Midjourney continually updates its database and algorithms to enhance user experience, with a focus on character consistency. This paper's examination of the latest V6 version of Midjourney reveals notable advancements in its characteristics and design principles, especially in the realm of character generation. By comparing V6 with its predecessors, this study underscores the significant strides made in ensuring consistent character portrayal across different plots and timelines.Such improvements in AI-driven character consistency are pivotal for storytelling. They ensure coherent and reliable character representation, which is essential for narrative clarity, emotional resonance, and overall effectiveness. This coherence supports a more immersive and engaging storytelling experience, fostering deeper audience connection and enhancing creative expression.The findings of this study encourage further exploration of Midjourney's capabilities for artistic innovation. By leveraging its advanced character consistency, creators can push the boundaries of storytelling, leading to new and exciting developments in the fusion of technology and art.

장면 텍스트 추출을 위한 캐니 연산자의 적응적 임계값을 이용한 AEMSER (AEMSER Using Adaptive Threshold Of Canny Operator To Extract Scene Text)

  • 박순화;김동현;임현수;김홍훈;백재경;박재흥;서영건
    • 디지털콘텐츠학회 논문지
    • /
    • 제16권6호
    • /
    • pp.951-959
    • /
    • 2015
  • 장면 텍스트 추출은 현대 스마트 시대에서 쏟아져 나오는 다양한 영상 기반 응용에 중요한 정보를 제공하기 때문에 중요하다. 기본적인 MSER(Maximally Stable Extremal Regions) 추출 후에 캐니 연산자를 이용하여 경계를 강화시키는 Edge-Enhanced MSER은 텍스트 추출 측면에서 뛰어난 성능을 보인다. 하지만 캐니 연산자의 임계값 설정에 따라 Edge-Enhanced MSER의 결과영상이 다르게 나타나므로 임계값 설정을 계산하는 방법이 필요하다. 본 논문에서는 캐니 연산자의 임계값을 설정하는 방법 중 히스토그램의 중앙값을 이용하여 경계를 추출하고 이를 Edge-Enhanced MSER에 적용한 AEMSER(Adaptive Edge-enhanced MSER)을 제안한다. 이 방법은 명확한 경계에 대해서만 영역을 추출하기 때문에 기존의 방법보다 더 좋은 결과영상을 얻을 수 있다.

전문성 이식을 통한 딥러닝 기반 전문 이미지 해석 방법론 (Deep Learning-based Professional Image Interpretation Using Expertise Transplant)

  • 김태진;김남규
    • 지능정보연구
    • /
    • 제26권2호
    • /
    • pp.79-104
    • /
    • 2020
  • 최근 텍스트와 이미지 딥러닝 기술의 괄목할만한 발전에 힘입어, 두 분야의 접점에 해당하는 이미지 캡셔닝에 대한 관심이 급증하고 있다. 이미지 캡셔닝은 주어진 이미지에 대한 캡션을 자동으로 생성하는 기술로, 이미지 이해와 텍스트 생성을 동시에 다룬다. 다양한 활용 가능성 덕분에 인공지능의 핵심 연구 분야 중 하나로 자리매김하고 있으며, 성능을 다양한 측면에서 향상시키고자 하는 시도가 꾸준히 이루어지고 있다. 하지만 이처럼 이미지 캡셔닝의 성능을 고도화하기 위한 최근의 많은 노력에도 불구하고, 이미지를 일반인이 아닌 분야별 전문가의 시각에서 해석하기 위한 연구는 찾아보기 어렵다. 동일한 이미지에 대해서도 이미지를 접한 사람의 전문 분야에 따라 관심을 갖고 주목하는 부분이 상이할 뿐 아니라, 전문성의 수준에 따라 이를 해석하고 표현하는 방식도 다르다. 이에 본 연구에서는 전문가의 전문성을 활용하여 이미지에 대해 해당 분야에 특화된 캡션을 생성하기 위한 방안을 제안한다. 구체적으로 제안 방법론은 방대한 양의 일반 데이터에 대해 사전 학습을 수행한 후, 소량의 전문 데이터에 대한 전이 학습을 통해 해당 분야의 전문성을 이식한다. 또한 본 연구에서는 이 과정에서 발생하게 되는 관찰간 간섭 문제를 해결하기 위해 '특성 독립 전이 학습' 방안을 제안한다. 제안 방법론의 실현 가능성을 파악하기 위해 MSCOCO의 이미지-캡션 데이터 셋을 활용하여 사전 학습을 수행하고, 미술 치료사의 자문을 토대로 생성한 '이미지-전문 캡션' 데이터를 활용하여 전문성을 이식하는 실험을 수행하였다. 실험 결과 일반 데이터에 대한 학습을 통해 생성된 캡션은 전문적 해석과 무관한 내용을 다수 포함하는 것과 달리, 제안 방법론에 따라 생성된 캡션은 이식된 전문성 관점에서의 캡션을 생성함을 확인하였다. 본 연구는 전문 이미지 해석이라는 새로운 연구 목표를 제안하였고, 이를 위해 전이 학습의 새로운 활용 방안과 특정 도메인에 특화된 캡션을 생성하는 방법을 제시하였다.

생성적 적대 네트워크로 자동 생성한 감성 텍스트의 성능 평가 (Evaluation of Sentimental Texts Automatically Generated by a Generative Adversarial Network)

  • 박천용;최용석;이공주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권6호
    • /
    • pp.257-264
    • /
    • 2019
  • 최근 자연언어처리 분야에서 딥러닝 모델이 좋은 성과를 보이고 있다. 이러한 딥러닝 모델의 성능을 향상시키기 위해서는 많은 양의 데이터가 필요하다. 하지만 많은 양의 데이터를 모으기 위해서는 많은 인력과 시간이 소요되기 때문에 데이터 확장을 통해 이와 같은 문제를 해소할 수 있다. 그러나 문장 데이터의 경우 이미지 데이터에 비해 데이터 변형이 어렵기 때문에 다양한 문장을 생성할 수 있는 생성 모델을 통해 문장 데이터 자동 확장을 해보고자 한다. 본 연구에서는 최근 이미지 생성 모델에서 좋은 성능을 보이고 있는 생성적 적대 신경망 중 하나인 CS-GAN을 사용하여 학습 데이터로부터 새로운 문장들을 생성해 보고 유용성을 다양한 지표로 평가하였다. 평가 결과 CS-GAN이 기존의 언어 모델을 사용할 때보다 다양한 문장을 생성할 수 있었고 생성된 문장을 감성 분류기에 학습시켰을 때 감성 분류기의 성능이 향상됨을 보였다.

이미지 캡션 및 재귀호출을 통한 스토리 생성 방법 (Automated Story Generation with Image Captions and Recursiva Calls)

  • 전이슬;조동하;문미경
    • 융합신호처리학회논문지
    • /
    • 제24권1호
    • /
    • pp.42-50
    • /
    • 2023
  • 기술의 발전은 제작 기법, 편집 기술 등 미디어 산업 전반에 걸쳐 디지털 혁신을 이루어 왔고, OTT 서비스와 스트리밍 시대를 관통하며 소비자 관람 형태의 다양성을 가져왔다. 빅데이터와 딥러닝 네트워크의 융합으로 뉴스 기사, 소설, 대본 등 형식을 갖춘 글을 자동으로 생성하였으나 작가의 의도를 반영하고 문맥적으로 매끄러운 스토리를 생성한 연구는 부족하였다. 본 논문에서는 이미지 캡션 생성 기술로 스토리보드 속 사진의 흐름을 파악하고, 언어모델을 통해 이야기 흐름이 자연스러운 스토리를 자동 생성하는 것을 기술한다. 합성곱 신경망(CNN)과 주의 집중기법(Attention)을 활용한 이미지 캡션 생성 기술을 통해 스토리보드의 사진을 묘사하는 문장을 생성하고, 첫 번째 이미지 캡션을 KoGPT-2에 입력하여 생성된 새로운 글과 두 번째 이미지의 캡션을 다음 입력값으로 활용한 재귀적 접근 방안을 제안하여 전후 문맥이 자연스럽고 기획 의도에 맞는 스토리를 생성하는 연구를 진행한다. 본 논문으로 인공지능을 통해 작가의 의도를 반영한 스토리를 자동으로 대량 생성하여 콘텐츠 창작의 고통을 경감시키고, 인공지능이 디지털 콘텐츠 제작의 전반적인 과정에 참여하여 미디어 지능화를 활성화한다.

패턴매칭에 의한 이진 한글문서의 유.무손실 압축에 관한 연구 (The Study on Lossy and Lossless Compression of Binary Hangul Textual Images by Pattern Matching)

  • 김영태;고형화
    • 한국통신학회논문지
    • /
    • 제22권4호
    • /
    • pp.726-736
    • /
    • 1997
  • The textual image compression by pattern matching is a coding scheme that exploits the correlations between patterns. When we compress the Hangul (Korean character) text by patern matching, the collerations between patterns may decrease due to randoem contacts between phonemes. Therefore in this paper we separate connected phonemes to exploit effectively the corrlation between patterns by inducting the amtch. In the process of sequation, we decide whether the patterns have vowel component or not, and then vowels connected with consonant ae separated. When we compare the proposed algorithm with the existing algorith, the compression ratio is increased by 1.3%-3.0% than PMS[5] in lossy mode, by 3.4%-9.1% in lossless mode than that of SPM[7] which is submitted to standard committe for second generation binary compression algorithm.

  • PDF

Multimedia Messaging Service Adaptation for the Mobile Learning System Based on CC/PP

  • Kim, Su-Do;Park, Man-Gon
    • 한국멀티미디어학회논문지
    • /
    • 제11권6호
    • /
    • pp.883-890
    • /
    • 2008
  • It becomes enabled to provide variety of multimedia contents through mobile service with the development of high-speed 3rd generation mobile communication and handsets. MMS (Multimedia Messaging Service) can be displayed in the presentation format which is unified the various multimedia contents such as text, audio, image, video, etc. It is applicable as a new type of ubiquitous learning. In this study we propose to design a mobile learning system by providing profiles which meets the standard of CC/PP and by generating multimedia messages based on SMIL language through the adaptation steps according to the learning environment, the content type, and the device property of learners.

  • PDF