• 제목/요약/키워드: image captioning

검색결과 15건 처리시간 0.022초

유사도 기반 이미지 캡션을 이용한 시각질의응답 연구 (Using similarity based image caption to aid visual question answering)

  • 강준서;임창원
    • 응용통계연구
    • /
    • 제34권2호
    • /
    • pp.191-204
    • /
    • 2021
  • 시각질의응답과 이미지 캡셔닝은 이미지의 특징과 문장의 언어적인 특징을 이해하는 것을 요구하는 작업이다. 따라서 두 가지 작업 모두 이미지와 텍스트를 연결해 줄 수 있는 공동 어텐션이 핵심이라고 할 수 있다. 본 논문에서는 MSCOCO 데이터 셋에 대하여 사전 훈련된 transformer 모델을 이용 하여 캡션을 생성한 후 이를 활용해 시각질의응답의 성능을 높이는 모델을 제안하고자 한다. 이때 질 문과 관계없는 캡션은 오히려 시각질의응답에서 답을 맞히는데 방해가 될 수 있기 때문에 질문과의 유사도를 기반으로 질문과 유사한 일부의 캡션을 활용하도록 하였다. 또한 캡션에서 불용어는 답을 맞히는데 영향을 주지 못하거나 방해가 될 수 있기 때문에 제거한 후에 실험을 진행하였다. 기존 시 각질의응답에서 이미지와 텍스트간의 공동 어텐션을 활용하여 좋은 성능을 보였던 deep modular co-attention network (MCAN)과 유사도 기반의 선별된 캡션을 사용하여 VQA-v2 데이터에 대하여 실험을 진행하였다. 그 결과 기존의 MCAN모델과 비교하여 유사도 기반으로 선별된 캡션을 활용했을 때 성능 향상을 확인하였다.

Meme Analysis using Image Captioning Model and GPT-4

  • Marvin John Ignacio;Thanh Tin Nguyen;Jia Wang;Yong-Guk Kim
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.628-631
    • /
    • 2023
  • We present a new approach to evaluate the generated texts by Large Language Models (LLMs) for meme classification. Analyzing an image with embedded texts, i.e. meme, is challenging, even for existing state-of-the-art computer vision models. By leveraging large image-to-text models, we can extract image descriptions that can be used in other tasks, such as classification. In our methodology, we first generate image captions using BLIP-2 models. Using these captions, we use GPT-4 to evaluate the relationship between the caption and the meme text. The results show that OPT6.7B provides a better rating than other LLMs, suggesting that the proposed method has a potential for meme classification.

프레임 병합을 이용한 스포츠 동영상 위치 검색 시스템 (Sports Video Position Retrival System Using Frame Merging)

  • 이지현;임정훈;이양원
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2002년도 추계종합학술대회
    • /
    • pp.619-623
    • /
    • 2002
  • 스포츠 비디오에 빼놓을 수 없는 정보로 자막을 들 수 있다. 자막을 인식함으로 해서 스포츠 하이라이트를 구성할 수 있게 된다. 이 논문에서는 자막에 위치를 검색하고 판별함으로 해서 자락을 분석하는 중간단계에 꼭 필요한 작업이다. 이 논문은 전처리과정에서 영상을 향상과 탁월한 문턱치 알고리즘을 통해 영상을 단순화시키고 제안한 다중 프레임병합 알고리즘을 통해 자막을 추출할 수 있는 방법을 사용한다. 기존에 있는 legion growing 방법에 비해 간단하고 보다 빠른 수행속도를 보이게 된다.

  • PDF

행동 인식 참조 이미지 캡셔닝 (Action Recognition Reference Image Captioning)

  • 박은수;김승환;유재성;김선대;굴람 무즈타바;류은석
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2019년도 하계학술대회
    • /
    • pp.21-24
    • /
    • 2019
  • 본 논문에서 기존의 이미지 캡셔닝의 문제점인 행동 인식 관련한 문제를 해결한다. 이미지 캡셔닝 모델의 학습 데이터의 행동 부분 즉, 동사 부분으로 행동 인식 데이터 셋을 만들었을 경우 많은 클래스, 각 클래스에는 적은 데이터로 구성됨을 보였다. 따라서, 본 논문에서 행동 인식 모델을 추가하고, 임계값을 두어 이미지 캡셔닝의 동사 부분의 정확도가 낮을 경우, 그리고 행동 인식 모델의 정확도가 높을 경우 두 결과물을 교체하는 방식으로 이미지 캡셔닝의 문제점을 해결한다. 본 논문에서 제안하는 모델에 대한 설명과 구현 과정 및 행동 인식에 강인한 이미지 캡셔닝 실험 결과를 보인다.

  • PDF

Deep Learning in Radiation Oncology

  • Cheon, Wonjoong;Kim, Haksoo;Kim, Jinsung
    • 한국의학물리학회지:의학물리
    • /
    • 제31권3호
    • /
    • pp.111-123
    • /
    • 2020
  • Deep learning (DL) is a subset of machine learning and artificial intelligence that has a deep neural network with a structure similar to the human neural system and has been trained using big data. DL narrows the gap between data acquisition and meaningful interpretation without explicit programming. It has so far outperformed most classification and regression methods and can automatically learn data representations for specific tasks. The application areas of DL in radiation oncology include classification, semantic segmentation, object detection, image translation and generation, and image captioning. This article tries to understand what is the potential role of DL and what can be more achieved by utilizing it in radiation oncology. With the advances in DL, various studies contributing to the development of radiation oncology were investigated comprehensively. In this article, the radiation treatment process was divided into six consecutive stages as follows: patient assessment, simulation, target and organs-at-risk segmentation, treatment planning, quality assurance, and beam delivery in terms of workflow. Studies using DL were classified and organized according to each radiation treatment process. State-of-the-art studies were identified, and the clinical utilities of those researches were examined. The DL model could provide faster and more accurate solutions to problems faced by oncologists. While the effect of a data-driven approach on improving the quality of care for cancer patients is evidently clear, implementing these methods will require cultural changes at both the professional and institutional levels. We believe this paper will serve as a guide for both clinicians and medical physicists on issues that need to be addressed in time.