• 제목/요약/키워드: image caption

검색결과 51건 처리시간 0.033초

이미지 캡션 및 재귀호출을 통한 스토리 생성 방법 (Automated Story Generation with Image Captions and Recursiva Calls)

  • 전이슬;조동하;문미경
    • 융합신호처리학회논문지
    • /
    • 제24권1호
    • /
    • pp.42-50
    • /
    • 2023
  • 기술의 발전은 제작 기법, 편집 기술 등 미디어 산업 전반에 걸쳐 디지털 혁신을 이루어 왔고, OTT 서비스와 스트리밍 시대를 관통하며 소비자 관람 형태의 다양성을 가져왔다. 빅데이터와 딥러닝 네트워크의 융합으로 뉴스 기사, 소설, 대본 등 형식을 갖춘 글을 자동으로 생성하였으나 작가의 의도를 반영하고 문맥적으로 매끄러운 스토리를 생성한 연구는 부족하였다. 본 논문에서는 이미지 캡션 생성 기술로 스토리보드 속 사진의 흐름을 파악하고, 언어모델을 통해 이야기 흐름이 자연스러운 스토리를 자동 생성하는 것을 기술한다. 합성곱 신경망(CNN)과 주의 집중기법(Attention)을 활용한 이미지 캡션 생성 기술을 통해 스토리보드의 사진을 묘사하는 문장을 생성하고, 첫 번째 이미지 캡션을 KoGPT-2에 입력하여 생성된 새로운 글과 두 번째 이미지의 캡션을 다음 입력값으로 활용한 재귀적 접근 방안을 제안하여 전후 문맥이 자연스럽고 기획 의도에 맞는 스토리를 생성하는 연구를 진행한다. 본 논문으로 인공지능을 통해 작가의 의도를 반영한 스토리를 자동으로 대량 생성하여 콘텐츠 창작의 고통을 경감시키고, 인공지능이 디지털 콘텐츠 제작의 전반적인 과정에 참여하여 미디어 지능화를 활성화한다.

Meme Analysis using Image Captioning Model and GPT-4

  • Marvin John Ignacio;Thanh Tin Nguyen;Jia Wang;Yong-Guk Kim
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.628-631
    • /
    • 2023
  • We present a new approach to evaluate the generated texts by Large Language Models (LLMs) for meme classification. Analyzing an image with embedded texts, i.e. meme, is challenging, even for existing state-of-the-art computer vision models. By leveraging large image-to-text models, we can extract image descriptions that can be used in other tasks, such as classification. In our methodology, we first generate image captions using BLIP-2 models. Using these captions, we use GPT-4 to evaluate the relationship between the caption and the meme text. The results show that OPT6.7B provides a better rating than other LLMs, suggesting that the proposed method has a potential for meme classification.

Textual Inversion을 활용한 Adversarial Prompt 생성 기반 Text-to-Image 모델에 대한 멤버십 추론 공격 (Membership Inference Attack against Text-to-Image Model Based on Generating Adversarial Prompt Using Textual Inversion)

  • 오윤주;박소희;최대선
    • 정보보호학회논문지
    • /
    • 제33권6호
    • /
    • pp.1111-1123
    • /
    • 2023
  • 최근 생성 모델이 발전함에 따라 생성 모델을 위협하는 연구도 활발히 진행되고 있다. 본 논문은 Text-to-Image 모델에 대한 멤버십 추론 공격을 위한 새로운 제안 방법을 소개한다. 기존의 Text-to-Image 모델에 대한 멤버십 추론 공격은 쿼리 이미지의 caption으로 단일 이미지를 생성하여 멤버십을 추론하였다. 반면, 본 논문은 Textual Inversion을 통해 쿼리 이미지에 personalization된 임베딩을 사용하고, Adversarial Prompt 생성 방법으로 여러 장의 이미지를 효과적으로 생성하는 멤버십 추론 공격을 제안한다. 또한, Text-to-Image 모델 중 주목받고 있는 Stable Diffusion 모델에 대한 멤버십 추론 공격을 최초로 진행하였으며, 최대 1.00의 Accuracy를 달성한다.

중요도 맵과 최댓값 필터를 이용한 영상 자막 영역 추출 (Image Caption Area extraction using Saliency Map and Max Filter)

  • 김영진;김만배
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2014년도 추계학술대회
    • /
    • pp.63-64
    • /
    • 2014
  • 본 논문에서는 Saliency map과 Max Filter를 이용한 영상의 자막영역을 추출 한다. Saliency map은 눈에 띄는 영역, 즉 영상에서 주변영역에 비해 밝기 차이가 심한 영역과 윤곽선에 대한 특징이 강한 영역을 돌출하는 것을 말하며, MaxFilter는 중심 픽셀을 최대 윈도우 값을 사용하는 것으로 극단적인 Impulse Noise를 제거하는데 효과적이며 특히 어두운 스파이크를 제거하는데 유용하게 사용된다. 이 두 가지의 특징들을 이용하여 영상의 자막 영역을 추출한다.

  • PDF

저해상도 하수관거의 균열 탐지를 위한 영상처리 알고리즘 (Image Processing Algorithm for Crack Detection of Sewer with low resolution)

  • 손병직;전준용;허광희
    • 한국산학기술학회논문지
    • /
    • 제18권2호
    • /
    • pp.590-599
    • /
    • 2017
  • 국내에서 하수관로 탐사장치는 200만 화소 이상의 고해상도 디지털 카메라를 이용한 제품이 개발되어 있으나 30만 화소 이하의 장치가 대부분 사용되고 있다. 특히, 10만화소 이하의 장치가 아직도 많이 사용되고 있어, 영상처리를 위한 환경이 매우 열악하다. 본 연구에서 다루는 하수관 영상은 매우 저해상도($240{\times}320$ = 76,800화소)로 균열탐지가 매우 어렵다. 국내에서 이러한 저해상도 하수관거 영상이 대부분이기 때문에, 이를 연구대상으로 선택하였다. 이러한 저해상도 영상으로 하수 관거의 균열을 자동으로 탐지하는 기법을 디지털 영상처리 기술을 이용하여 연구하였다. 총8단계를 거쳐 균열을 자동으로 탐지하는 프로그램을 개발하였으며, 기본적으로 Matlab 프로그램의 함수를 이용하였다. 2단계에서 최적의 임계값을 찾는 알고리즘과 5단계에서 균열을 판단하는 알고리즘을 개발하였다. 2단계는 자막이 흰색이기 때문에 자막이 없는 원래 영상보다 Otsu's 임계값(threshold)이 높게 계산이 되는 점에 착안하여 Otsu 임계값을 시작으로 0.01씩 감소시키면서 최적의 임계값을 찾는 방법 알고리즘이며, 5단계는 길이가 10mm(40픽셀) 이상이고 폭이 1mm(4픽셀) 이상으로 판단하여, 균열을 탐지하는 알고리즘이다. 해석 결과 매우 저해상도 영상임에도 불구하고 균열 탐지 결과가 우수한 것으로 판단된다.

이미지 캡셔닝 기반의 새로운 위험도 측정 모델 (A Novel Image Captioning based Risk Assessment Model)

  • 전민성;고재필;최경주
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제32권4호
    • /
    • pp.119-136
    • /
    • 2023
  • Purpose We introduce a groundbreaking surveillance system explicitly designed to overcome the limitations typically associated with conventional surveillance systems, which often focus primarily on object-centric behavior analysis. Design/methodology/approach The study introduces an innovative approach to risk assessment in surveillance, employing image captioning to generate descriptive captions that effectively encapsulate the interactions among objects, actions, and spatial elements within observed scenes. To support our methodology, we developed a distinctive dataset comprising pairs of [image-caption-danger score] for training purposes. We fine-tuned the BLIP-2 model using this dataset and utilized BERT to decipher the semantic content of the generated captions for assessing risk levels. Findings In a series of experiments conducted with our self-constructed datasets, we illustrate that these datasets offer a wealth of information for risk assessment and display outstanding performance in this area. In comparison to models pre-trained on established datasets, our generated captions thoroughly encompass the necessary object attributes, behaviors, and spatial context crucial for the surveillance system. Additionally, they showcase adaptability to novel sentence structures, ensuring their versatility across a range of contexts.

형태와 칼러성분을 이용한 효율적인 내용 기반의 이미지 검색 방법 (Efficient Content-Based Image Retrieval Method using Shape and Color feature)

  • 염성주;김우생
    • 한국정보처리학회논문지
    • /
    • 제3권4호
    • /
    • pp.733-744
    • /
    • 1996
  • 내용을 기반으로 한 이미지 데이타 검색은 이미지로부터 자동적으로 특징값들을 추출하여 사용자가 원하는 이미지를 검색하는 방법이다. 본 논문에서는 이미지 데이타 로부터 형태적 특징과 컬러 특징을 자동적으로 추출하여 내용을 기반으로 이미지 데이타를 검색할 수 있는 방법을 제안한다. 이를 위하여 필요한 일련의 이미지 처리 과정을 소개하고 추출된 특징값들을 빠르게 검색하기 위해 변형된 트라이와 R 트리를 사용한 인덱싱기법을 제안한다. 제안하는 검색 방법은 형태와 컬러에 대한 특징값들을 모두 취급하므로 보다 신뢰성 있는 검색을 할 수 있다. 또한 본 논문에서는 이를 바탕으로 구현된 이미지 데이타베이스와 약 200여개의 이미지 데이타를 대상으로한 검색 실험 결과를 보이며, 검색 결과를 통해 형태적 특징과 컬러 특징이 이미지가 데이타 검색에 미친 영향을 고찰해 본다.

  • PDF

The Examination of Reliability of Lower Limb Joint Angles with Free Software ImageJ

  • Kim, Heung Youl
    • 대한인간공학회지
    • /
    • 제34권6호
    • /
    • pp.583-595
    • /
    • 2015
  • Objective: The purpose of this study was to determine the reliability of lower limb joint angles computed with the software ImageJ during jumping movements. Background: Kinematics is the study of bodies in motion without regard to the forces or torques that may produce the motion. The most common method for collecting motion data uses an imaging and motion-caption system to record the 2D or 3D coordinates of markers attached to a moving object, followed by manual or automatic digitizing software. Above all, passive optical motion capture systems (e.g. Vicon system) have been regarded as the gold standards for collecting motion data. On the other hand, ImageJ is used widely for an image analysis as free software, and can collect the 2D coordinates of markers. Although much research has been carried out into the utilizations of the ImageJ software, little is known about their reliability. Method: Seven healthy female students participated as the subject in this study. Seventeen reflective markers were attached on the right and left lower limbs to measure two and three-dimensional joint angular motions. Jump performance was recorded by ten-vicon camera systems (250Hz) and one digital video camera (240Hz). The joint angles of the ankle and knee joints were calculated using 2D (ImageJ) and 3D (Vicon-MX) motion data, respectively. Results: Pearson's correlation coefficients between the two methods were calculated, and significance tests were conducted (${\alpha}=1%$). Correlation coefficients between the two were over 0.98. In Vicon-MX and ImageJ, there is no systematic error by examination of the validity using the Bland-Altman method, and all data are in the 95% limits of agreement. Conclusion: In this study, correlation coefficients are generally high, and the regression line is near the identical line. Therefore, it is considered that motion analysis using ImageJ is a useful tool for evaluation of human movements in various research areas. Application: This result can be utilized as a practical tool to analyze human performance in various fields.

거리경관에 대한 청각적 이미지의 평가구조 - 대학생들의 음풍경 체험을 통한 의미론적 고찰 - (The Evaluation Structure of Auditory Images on the Streetscapes - The Semantic Issues of Soundscape based on the Students' Fieldwork -)

  • 한명호
    • 한국음향학회지
    • /
    • 제24권8호
    • /
    • pp.481-491
    • /
    • 2005
  • 이 연구의 목적은 사운드스케이프의 의미론적 관점에 기초하여 도시의 거리경관에 관한 청각적 이미지의 평가구조를 파악하는 것이다. 캡션평가법이라는 새로운 환경심리조사수법을 이용하여 2001년부터 2005년까지 총45명의 대학생이 남원시의 주요 거리를 걸으면서 듣고 느끼는 소리의 이미지 파악을 위한 현장조사에 참가하고, 그 결과 청각적 경관에 대한 요소, 특징, 인상 및 선호도 등을 포함한 다양한 자료를 얻을 수 있었다. 남원시에 있어서, 청각적 이미지의 구성 요소는 자연음, 그리고 기계음, 사회음, 지시음 등을 포함한 인공음으로 분류되고, 청각적 경관의 특징은 소리종류, 양태, 상황, 성질, 주변관계, 이미지 등으로, 그리고 청각적 경관의 인상은 인간의 감성, 거리의 분위기, 소리 자체의 특성이라는 3가지 카테고리로 분류된다. 청각적 경관과 판단과의 관계로 부터, 청각적 경관의 요소, 특징, 인상 등은 긍정적, 중립적, 부정적 이미지 등의 항목으로 구성된다. 또한, 남원시의 거리경관의 평가구조모델로부터 그 장소 또는 공간의 청각적 이미지특성을 파악할 수 있었다.

이미지 캡션 생성을 위한 심층 신경망 모델 학습과 전이 (Learning and Transferring Deep Neural Network Models for Image Caption Generation)

  • 김동하;김인철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 추계학술발표대회
    • /
    • pp.617-620
    • /
    • 2016
  • 본 논문에서는 이미지 캡션 생성과 모델 전이에 효과적인 심층 신경망 모델을 제시한다. 본 모델은 멀티 모달 순환 신경망 모델의 하나로서, 이미지로부터 시각 정보를 추출하는 컨볼루션 신경망 층, 각 단어를 저차원의 특징으로 변환하는 임베딩 층, 캡션 문장 구조를 학습하는 순환 신경망 층, 시각 정보와 언어 정보를 결합하는 멀티 모달 층 등 총 5 개의 계층들로 구성된다. 특히 본 모델에서는 시퀀스 패턴 학습과 모델 전이에 우수한 LSTM 유닛을 이용하여 순환 신경망 층을 구성하고, 컨볼루션 신경망 층의 출력을 임베딩 층뿐만 아니라 멀티 모달 층에도 연결함으로써, 캡션 문장 생성을 위한 매 단계마다 이미지의 시각 정보를 이용할 수 있는 연결 구조를 가진다. Flickr8k, Flickr30k, MSCOCO 등의 공개 데이터 집합들을 이용한 다양한 비교 실험을 통해, 캡션의 정확도와 모델 전이의 효과 면에서 본 논문에서 제시한 멀티 모달 순환 신경망 모델의 우수성을 입증하였다.