• 제목/요약/키워드: 이미지 질의 응답

검색결과 24건 처리시간 0.027초

유사도 기반 이미지 캡션을 이용한 시각질의응답 연구 (Using similarity based image caption to aid visual question answering)

  • 강준서;임창원
    • 응용통계연구
    • /
    • 제34권2호
    • /
    • pp.191-204
    • /
    • 2021
  • 시각질의응답과 이미지 캡셔닝은 이미지의 특징과 문장의 언어적인 특징을 이해하는 것을 요구하는 작업이다. 따라서 두 가지 작업 모두 이미지와 텍스트를 연결해 줄 수 있는 공동 어텐션이 핵심이라고 할 수 있다. 본 논문에서는 MSCOCO 데이터 셋에 대하여 사전 훈련된 transformer 모델을 이용 하여 캡션을 생성한 후 이를 활용해 시각질의응답의 성능을 높이는 모델을 제안하고자 한다. 이때 질 문과 관계없는 캡션은 오히려 시각질의응답에서 답을 맞히는데 방해가 될 수 있기 때문에 질문과의 유사도를 기반으로 질문과 유사한 일부의 캡션을 활용하도록 하였다. 또한 캡션에서 불용어는 답을 맞히는데 영향을 주지 못하거나 방해가 될 수 있기 때문에 제거한 후에 실험을 진행하였다. 기존 시 각질의응답에서 이미지와 텍스트간의 공동 어텐션을 활용하여 좋은 성능을 보였던 deep modular co-attention network (MCAN)과 유사도 기반의 선별된 캡션을 사용하여 VQA-v2 데이터에 대하여 실험을 진행하였다. 그 결과 기존의 MCAN모델과 비교하여 유사도 기반으로 선별된 캡션을 활용했을 때 성능 향상을 확인하였다.

설명 문장 생성을 통한 해석 가능한 시각적 질의응답 모델 분석 (Interpretable Visual Question Answering via Explain Sentence Generation)

  • 김단일;한보형
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2020년도 제62차 하계학술대회논문집 28권2호
    • /
    • pp.359-362
    • /
    • 2020
  • 본 연구에서는 설명 문장 생성을 통한 해석 가능한 시각적 질의응답 모델을 설계하고 학습 방법을 제시한다. 설명 문장은 시각적 질의응답 모델이 응답을 예측하는 데에 필요한 이미지 및 질문 정보와 적절한 논리적인 정보의 조합 및 정답 추론 과정이 함의되어 있을 것으로 기대한다. 설명 문장 생성 과정이 포함된 시각적 질의응답의 기본적인 모델을 기반으로 여러 가지 학습방법을 통해 설명 문장 생성 과정과 응답 예측 과정간의 상호관계를 분석한다. 이러한 상호작용을 적극적으로 활용할 수 있는 보다 개선 시각적 질의응답 모델을 제안한다. 또한 학습한 결과를 바탕으로 설명 문장의 특성을 활용하여 시각적 질의응답 추론 과정을 개선함으로써 시각적 질의응답 모델의 발전 방향을 논의한다. 본 실험을 통해서 응답 예측에 적절한 설명 문장을 제시하는 해석 가능한 시각적 질의응답 모델을 제공한다.

  • PDF

MMA: 한국어 시각적 질의응답을 위한 멀티 모달 메시지 통합 (MMA: Multi-modal Message Aggregation for Korean VQA)

  • 박성진;박찬준;서재형;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.468-472
    • /
    • 2020
  • 시각적 질의응답(Visual Question Answering, VQA)은 주어진 이미지에 연관된 다양한 질문에 대한 올바른 답변을 예측하는 기술이다. 해당 기술은 컴퓨터 비전-자연어 처리 연구분야에서 활발히 연구가 진행되고 있으며, 질문의 의도를 정확히 파악하고, 주어진 이미지에서 관련 단서 정보를 찾는 것이 중요하다. 또한, 서로 이질적인 특성을 지닌 정보(이미지 객체, 객체 위치, 질문)를 통합하는 과정도 중요하다. 본 논문은 질문의 의도에 알맞은 정보를 효율적으로 사용하기 위해 멀티 모달 입력 이미지 객체, 객체 위치, 질문)에 대한 Multi-modal Message Aggregation (MMA) 제안하며 이를 통해 한국어 시각적 질의응답 KVQA에서 다른 모델보다 더 좋은 성능을 확인하였다.

  • PDF

비디오 질의 응답 시스템을 위한 전이 학습 기반의 멀티 모달 퓨전 정답 선택 모델 (Transfer Learning-based Multi-Modal Fusion Answer Selection Model for Video Question Answering System)

  • 박규민;박성배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.548-553
    • /
    • 2021
  • 비디오 질의 응답은 입력으로 주어진 비디오와 질문에 적절할 정답을 제공하기 위해 텍스트, 이미지 등 다양한 정보처리가 요구되는 대표적인 multi-modal 문제이다. 질의 응답 시스템은 질의 응답의 성능을 높이기 위해 다수의 서로 다른 응답 모듈을 사용하기도 하며 생성된 정답 후보군 중 가장 적절할 정답을 선택하는 정답 선택 모듈이 필요하다. 정답 선택 모듈은 응답 모듈의 서로 다른 관점을 고려하여 응답 선택을 선택할 필요성이 있다. 하지만 응답 모듈이 black-box 모델인 경우 정답 선택 모듈은 응답 모듈의 parameter와 예측 분포를 통해 지식을 전달 받기 어렵다. 그리고 학습 데이터셋은 응답 모듈이 학습에 사용했기 때문에 과적합 문제로 각 모듈의 관점을 학습하기엔 어려우며 학습 데이터셋 이외 비교적 적은 데이터셋으로 학습해야 하는 문제점이 있다. 본 논문에서는 정답 선택 성능을 높이기 위해 전이 학습 기반의 멀티모달 퓨전 정답 선택 모델을 제안한다. DramaQA 데이터셋을 통해 성능을 측정하여 제안된 모델의 우수성을 실험적으로 증명하였다.

  • PDF

FiD를 이용한 멀티 모달 오픈 도메인 질의 응답 (Fusion-in-Decoder for Open Domain Multi-Modal Question Answering)

  • 박은환;이성민;서대룡;전동현;강인호;나승훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.95-99
    • /
    • 2022
  • 오픈 도메인 질의 응답 (ODQA, Open-Domain Question Answering)은 주어진 질문에 대한 답을 찾는 과업으로서 질문과 관련있는 지식을 찾는 "검색" 단계를 필요로 한다. 최근 이미지, 테이블 등의 검색을 요구하는 멀티 모달 ODQA에 대한 연구가 많이 진행되었을 뿐만 아니라 산업에서의 중요도 또한 높아지고 있다. 본 논문은 여러 종류의 멀티 모달 ODQA 중에서도 테이블 - 텍스트 기반 멀티 모달 ODQA 데이터 집합으로 Fusion-in-Decoder (FiD)를 이용한 멀티 모달 오픈 도메인 질의 응답 연구를 제안하며 베이스라인 대비 최대 EM 20.5, F1 23.2 향상을 보였다.

  • PDF

적합성 피드백을 적용한 효율적인 자동 이미지 키워드 연결 (Efficient Automatic Image Annotation with Relevance Feedback)

  • 송지영;김우철;김승우;박상현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 추계학술발표대회 및 정기총회
    • /
    • pp.31-34
    • /
    • 2005
  • 디지털 이미지의 양이 증가함에 따라 원하는 이미지를 정확하고 빠르게 찾을 수 있는 방법의 필요성이 증가하고 있다. 이미지 검색 방법으로는 이미지의 색상이나 명암과 같은 시각적 특성을 검색 조건으로 이용하는 내용 기반 검색과 이미지를 설명하는 키워드를 검색 조건으로 이용하는 키워드 기반 검색이 있다. 하지만 이러한 방법만으로는 사용자가 원하는 이미지를 정확하게 찾기 힘들다는 문제점이 제기되어 왔다. 따라서 최근에는 검색 도중 사용자의 응답을 받아 사용자의 요구를 파악함으로써 향상된 검색 결과를 제공하는 적합성 피드백에 대한 연구가 많이 진행되고 있다. 하지만 적합성 피드백을 이용하는 방법들도 원하는 결과를 얻기 위해서는 여러 번의 피드백을 필요로 하고 질의 수행이 완료된 후에는 얻어진 피드백 정보를 재사용하지 못한다는 단점이 있다. 따라서 본 논문에서는 이미지에 키워드를 연결한 후 사용자의 피드백 정보를 반영하여 키워드의 신뢰도를 조절함으로써 키워드 기반 이미지 검색의 정확도를 높일 수 있는 모델을 제안한다. 제안된 모델에서는 사용자로부터 피드백을 받은 이미지뿐만 아니라 긍정적 피드백을 받은 이미지들이 공통적으로 가지는 시각적 특성과 유사한 시각적 특성을 가지는 다른 이미지들까지도 키워드의 신뢰도를 조정함으로써 좀 더 빠른 시간 내에 검색 결과의 정확도를 높이도록 한다.

  • PDF

요양보호사의 효의식이 직무만족에 미치는 영향 : 노인이미지 매개효과 (The Effect of the HYO Consciousness on Job Satisfaction in Care Worker : The Mediation Effect of the Elderly Image)

  • 장나연
    • 한국콘텐츠학회논문지
    • /
    • 제20권8호
    • /
    • pp.408-417
    • /
    • 2020
  • 본 연구는 요양보호사들의 효의식이 노인에 대한 이미지를 매개변인으로 직무만족에 어떠한 영향을 미치는 지 알아보고자 하는데 목적이 있다. 이를 위해 서울·경기도에 속해 있는 장기요양기관 10개소를 선정하여 각 시설별 요양보호사 총 450을 선정하여 설문지를 사용하여 조사하였다. 배포된 설문지는 중 미수거와 불성실한 응답 21부를 제외하고 최종 429부의 설문지가 분석에 사용되었다. 수집된 자료는 SPSS 23.0 프로그램을 이용하여 빈도분석, 기술통계분석, 상관분석, 회귀분석을 실시하였다. 분석 결과, 첫째, 효의식과 노인이미지는 직무만족에 정의 영향을 미치는 것으로 나타났으며, 둘째, 효의식은 노인이미지에 정의 영향을 미치는 것으로 나타났다. 마지막으로 효의식과 직무만족의 관계에서 노인이미지가 매개역할을 하는 것으로 나타났다. 이와 같은 연구결과는 효의식과 노인이미지 등에 대한 긍정적 심리가 간접적으로 서비스 질과 직무만족의 향상을 가져오고, 다시 직무만족은 서비스 질에도 긍정적인 영향을 끼쳐 개입요인이 되는 것으로 확인할 수 있었다. 따라서 정책적으로 요양보호사를 위한 교육기회를 활용하여 효의식과 노인에 대한 긍정적 이미지를 함양하고 요양보호사의 내재적 직무기회로 삼는 방안을 강구해야 할 것으로 사료된다.

분산환경에서 대용량 공간데이타의 선인출 전략 (A Prefetch Policy for Large Spatial Data in Distributed Environment)

  • 박동주;이석호;김형주
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권12호
    • /
    • pp.1404-1417
    • /
    • 1999
  • 웹과 같은 분산 환경에서는, 웹 브라우저 상에서 SQL 형식의 공간 질의를 수행시키는 것과 또한 서버로부터 그 질의 결과를 보는 것이 가능하다. 그러나, 격자 이미지(raster image)와 같은 대용량 공간 데이타를 포함하는 질의 결과를 웹 브라우징할 때 발생하는 많은 문제점들 중에서, 사용자 응답 시간의 지연은 매우 중요한 문제이다. 본 논문에서는 사용자의 재요청(callback) 접근 패턴이 공간적 근접성(spatial locality)을 따른다는 가정하에서의, 사용자 응답 시간을 최소화하기 위한 새로운 프리페치(prefetch) 전략에 대해서 서술한다. 본 논문의 프리페치 전략은 다음과 같이 요약될 수 있다. 첫째, 프리페치 알고리즘은 사용자의 접근 패턴을 잘 반영하는 힐버트 곡선(Hilbert-curve) 모델을 바탕으로 한다. 둘째, 프리페치 전송 비용을 줄이기 위해서 사용자의 재요청 시간 간격(think time)을 이용한다. 본 논문에서는, 힐버트 곡선을 이용한 프리페치 전략의 성능 평가를 위해서 다양한 실험을 하였으며, 그 결과로 프리페치를 하지 않는 방식보다 높은 성능 향상이 있음을 보인다.Abstract In distributed environment(e.g., WWW), it would be possible for the users to submit SQL-like spatial queries and to see their query results from the server on the Web browser. However, of many obstacles which result from browsing query results including large spatial data such as raster image, the delay of user response time is very critical. In this paper we present a new prefetch policy which can alleviate user response time on the assumption that user's callback access pattern has spatial locality. Our prefetch policy can be summerized as follows: 1) our prefetch algorithm is based on the Hibert-curve model which well replects user's access pattern, and 2) it utilizes user's callback interval to reduce prefetch network transmission cost. In this paper we conducted diverse experiments to show that our prefetch policy achieves higher performance improvement compared to other non-prefetch methods.

적합성 피드백을 통해 결정된 가중치를 갖는 시각적 특성에 기반을 둔 이미지 검색 모델 (A Image Retrieval Model Based on Weighted Visual Features Determined by Relevance Feedback)

  • 송지영;김우철;김승우;박상현
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권3호
    • /
    • pp.193-205
    • /
    • 2007
  • 디지털 이미지의 양이 증가함에 따라 원하는 이미지를 정확하고 빠르게 찾을 수 있는 방법의 필요성이 증가하고 있다. 이미지 검색 방법으로는 이미지의 색상이나 명암과 같은 시각적 특성을 검색 조건으로 이용하는 내용 기반 검색과 이미지를 설명하는 키워드를 검색 조건으로 이용하는 키워드 기반 검색이 있다. 하지만 이러한 방법만으로는 사용자가 원하는 이미지를 정확하게 찾기 힘들다는 문제점이 제기되어 왔다. 따라서 최근에는 검색 도중 사용자의 응답을 받아 사용자의 요구를 파악함으로써 향상된 검색 결과를 제공하는 적합성 피드백에 대한 연구가 많이 진행되고 있다. 하지만 적합성 피드백을 이용하는 방법들도 원하는 결과를 얻기 위해서는 여러 번의 피드백을 필요로 하고 질의 수행이 완료된 후에는 얻어진 피드백 정보를 재사용하지 못한다는 단점이 있다. 따라서 본 논문에서는 이미지에 키워드를 연결한 후 사용자의 피드백 정보를 반영하여 키워드의 신뢰도를 조절함으로써 키워드 기반 이미지 검색의 정확도를 높일 수 있는 모델을 제안한다. 제안된 모델에서는 사용자로부터 피드백을 받은 이미지뿐만 아니라 긍정적 피드백을 받은 이미지들이 공통적으로 가지는 시각적 특성과 유사한 시각적 특성을 가지는 다른 이미지들까지도 키워드의 신뢰도를 조정함으로써 좀 더 빠른 시간 내에 검색 결과의 정확도를 높이도록 한다. 제안한 방법의 정확성을 검증하기 위한 실험 결과에 따르면, 같은 횟수의 피드백을 받으면서도 재현율과 정확률은 빠른 증가를 보이는 것으로 나타났다.

동영상 기반 디자인 지식 공유 시스템 개발 (The Development of Video Based System for Sharing Design Knowledge)

  • 한현영;박우영;이준호;이상용
    • 디지털융복합연구
    • /
    • 제15권3호
    • /
    • pp.313-318
    • /
    • 2017
  • PhotoShop 등과 같은 디자인 관련 소프트웨어의 사용자들은 관련 지식에 관하여 알고 싶을 경우, 일반적으로 인터넷을 검색하게 된다. 그러나 인터넷에서 원하는 디자인 관련 지식만을 검색하기는 매우 어려운 실정이다. 왜냐하면 기존의 지식 공유 시스템들은 다루는 분야가 광범위하고, 디자인에 특화된 다양한 형태의 질문 및 답변, 지식 거래 등을 제공하는 곳은 거의 없기 때문이다. 본 논문에서는 디자인 지식의 특성을 반영하여 텍스트 뿐만 아니라 이미지, 동영상 등을 통한 자유로운 질의 응답 기능, 강의 기능, 지식거래 기능 등을 제공하는 동영상 기반 디자인 지식 공유 시스템을 개발하였다. 본 시스템을 이용하여 디자인 지식을 공유함으로써 제품 경쟁력 확보에 기여할 수 있을 것으로 기대된다. 향후 본 시스템은 디자인 지식뿐만 아니라 다양한 지식을 공유할 수 있는 프레임으로 확대가 필요할 것이다.