• 제목/요약/키워드: 시각적 질의응답

검색결과 16건 처리시간 0.035초

설명 문장 생성을 통한 해석 가능한 시각적 질의응답 모델 분석 (Interpretable Visual Question Answering via Explain Sentence Generation)

  • 김단일;한보형
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2020년도 제62차 하계학술대회논문집 28권2호
    • /
    • pp.359-362
    • /
    • 2020
  • 본 연구에서는 설명 문장 생성을 통한 해석 가능한 시각적 질의응답 모델을 설계하고 학습 방법을 제시한다. 설명 문장은 시각적 질의응답 모델이 응답을 예측하는 데에 필요한 이미지 및 질문 정보와 적절한 논리적인 정보의 조합 및 정답 추론 과정이 함의되어 있을 것으로 기대한다. 설명 문장 생성 과정이 포함된 시각적 질의응답의 기본적인 모델을 기반으로 여러 가지 학습방법을 통해 설명 문장 생성 과정과 응답 예측 과정간의 상호관계를 분석한다. 이러한 상호작용을 적극적으로 활용할 수 있는 보다 개선 시각적 질의응답 모델을 제안한다. 또한 학습한 결과를 바탕으로 설명 문장의 특성을 활용하여 시각적 질의응답 추론 과정을 개선함으로써 시각적 질의응답 모델의 발전 방향을 논의한다. 본 실험을 통해서 응답 예측에 적절한 설명 문장을 제시하는 해석 가능한 시각적 질의응답 모델을 제공한다.

  • PDF

MMA: 한국어 시각적 질의응답을 위한 멀티 모달 메시지 통합 (MMA: Multi-modal Message Aggregation for Korean VQA)

  • 박성진;박찬준;서재형;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.468-472
    • /
    • 2020
  • 시각적 질의응답(Visual Question Answering, VQA)은 주어진 이미지에 연관된 다양한 질문에 대한 올바른 답변을 예측하는 기술이다. 해당 기술은 컴퓨터 비전-자연어 처리 연구분야에서 활발히 연구가 진행되고 있으며, 질문의 의도를 정확히 파악하고, 주어진 이미지에서 관련 단서 정보를 찾는 것이 중요하다. 또한, 서로 이질적인 특성을 지닌 정보(이미지 객체, 객체 위치, 질문)를 통합하는 과정도 중요하다. 본 논문은 질문의 의도에 알맞은 정보를 효율적으로 사용하기 위해 멀티 모달 입력 이미지 객체, 객체 위치, 질문)에 대한 Multi-modal Message Aggregation (MMA) 제안하며 이를 통해 한국어 시각적 질의응답 KVQA에서 다른 모델보다 더 좋은 성능을 확인하였다.

  • PDF

네비게이션 모델을 이용한 QALT의 설계 및 구현 (Design and Implementation of QALT using Navigation Model)

  • 김행곤;신호준;김정수;한은주
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (2)
    • /
    • pp.601-603
    • /
    • 2001
  • 초고속 인터넷 망의 구축에 따라 정보통신 교육이 활성화에 힘입어 직.간접적으로 응용하기 위한 노력이 지속적으로 진행되어 왔다. 웹 기반 원격강의는 원거리 학습자들의 학습욕구를 자기 주도적인 학습이 되도록 전체적인 수업을 진행하므로 학습과정에서의 질의 응답을 교수자에게 면대면으로 제공하지 못하였다. 따라서 학습자가 요구한 질의 내용을 잘못 이해함에 따라 교수자가 학습과정에서의 피드백 제공을 하지 못함으로써 개인학습의 동기부여가 감소됨에 따라 흥미를 입게 되었다. 따라서, 본 논문에서는 웹 기반 서비스에 대한 체계적인 분석 및 설계를 위해 네비게이션 모델을 통해 질의 응답을 지원하는 QALT(Question Answer Learning Tool)를 설계 및 구현한다. 원격강의는 웹 상에서 기본적인 컨텐츠를 제시하고 그를 통해 수업이 진행되는 과정에서의 질의 응답의 문제점을 개선하기 위해 일다대(One-To-Many)의 서비스를 제공한다. 또한. 학습자는 교수자가 지정한 교육용 서버를 통해 텍스트 형식이 아닌 강의자료로 쓰인 문서파일에 직접 작성하여 질의 응답을 가능하게 된다. 그로 인해 교수자와 학생간의 질의 응답을 통해 상호작용을 원활하게 할 수 있는 보조학습도구로써의 사용이 증가될 것이다. 또한 서버에서의 폴더 서비스와 메일링 서비스를 통해 실시간 질의 응답이 가능함으로써 학습자는 강의파일에서 그림에 관한 질문에 효과를 볼 수 있고 교수자는 질문 받은 내용의 위치를 시각적으로 쉽게 볼 수 있으므로 빠른 응답이 가능하게 될 것이다.

  • PDF

USN 질의 및 응답의 효과적인 시각적 표현을 위한 웹 페이지 디자인 (Design of Web Page for Effective Visual Representation of USN Request and Reply)

  • 이종범;신세용;전봉환;김도윤;안병태;한재일
    • 한국IT서비스학회:학술대회논문집
    • /
    • 한국IT서비스학회 2008년도 춘계학술대회
    • /
    • pp.419-424
    • /
    • 2008
  • 최근 네트워크 및 정보통신 기술의 발달로 유비쿼터스(Ubiquitous) 환경이 구체화되면서 미래의 정보 기술 산업을 주도할 유비쿼터스 센서 네트워크(Ubiquitous Sensor Network : USN)가 주목받고 있다. 이러한 USN기반의 서비스는 각종 센서들로부터 인식된 데이터를 수집하고 이를 가공하여 사용자가 이해하기 쉽게 USN 자원에 대한 정보를 전달해야 한다. 그러나 USN자원에 대한 정보를 사용자가 이해하기 쉽도록 웹 상에서 시각적으로 표현하기 위한 연구는 보이지 않고 있다. 본 논문에서는 USN 데이터를 크게 센싱데이터와 메타데이터로 분류하고 이를 효과적으로 표현할 수 있는 시각적 요소들을 제안하였다. 그리고 사용자 질의에 대한 응답을 분석하여 각 응답 유형에 따라 시각적 요소를 효과적으로 조합하여 사용자가 쉽게 인지할 수 있는 웹 페이지를 설계 및 구현하였다.

  • PDF

관계 추론 심층 신경망 모델의 성능개선 연구 (A Study on Improving Performance of the Deep Neural Network Model for Relational Reasoning)

  • 이현옥;임희석
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제7권12호
    • /
    • pp.485-496
    • /
    • 2018
  • 지금까지 인공지능의 한 분야인 딥러닝 방법은 구조화되지 않은 데이터로부터 문제를 해결하는 놀라울만한 성과를 이루어왔지만, 인간처럼 여러 상황들을 종합적으로 판단, 그것들의 연관성을 추론하고, 그 다음 상황을 예측하는 수준의 지능을 갖는데 도달하지 못하였다. 최근 발표된 복잡한 관계 추론을 수행하는 심층 신경망은 인공지능이 인간의 핵심 지적 능력인 관계 추론을 보유할 수 있다는 것을 증명하였다. 본 논문에서는 관계 추론 심층 신경망 중에서 Relation Networks (RN)의 성능을 분석 및 관찰해 보고자 Sort-of-CLEVR 데이터 셋을 사용한 시각적 질의응답과 bAbI task를 사용한 텍스트 기반 질의응답 두 유형의 RN 기반 심층 신경망 모델을 구축하여 baseline 모델과의 비교를 통한 성능검증을 하였다. 또한 모델의 성능을 극대화하기 위하여 하이퍼 파라미터 튜닝 등 다양각도의 성능개선 실험으로 관계 추론을 위한 RN 기반 심층 신경망 모델의 성능개선 방법을 제안하였다. 제안한 성능개선 방법은 시각적 질의응답 모델과 텍스트 기반 질의응답 모델에 적용하여 그 효과를 검증하였고, 기존의 RN 모델에서 사용해보지 않았던 Dialog-based LL 데이터 셋을 사용하여 새로운 도메인에서의 제안한 성능개선 방법의 효과를 다시 한 번 검증하였다. 실험 결과 두 유형의 RN 모델 모두에서 초기 학습률이 모델의 성능을 결정하는 핵심 요인임을 알 수 있었고, 제안한 random search 방법에 의해 찾은 최적의 초기 학습률 설정이 모델의 성능을 최고 99.8%까지 향상 시킬 수 있다는 것을 확인하였다.

유사도 기반 이미지 캡션을 이용한 시각질의응답 연구 (Using similarity based image caption to aid visual question answering)

  • 강준서;임창원
    • 응용통계연구
    • /
    • 제34권2호
    • /
    • pp.191-204
    • /
    • 2021
  • 시각질의응답과 이미지 캡셔닝은 이미지의 특징과 문장의 언어적인 특징을 이해하는 것을 요구하는 작업이다. 따라서 두 가지 작업 모두 이미지와 텍스트를 연결해 줄 수 있는 공동 어텐션이 핵심이라고 할 수 있다. 본 논문에서는 MSCOCO 데이터 셋에 대하여 사전 훈련된 transformer 모델을 이용 하여 캡션을 생성한 후 이를 활용해 시각질의응답의 성능을 높이는 모델을 제안하고자 한다. 이때 질 문과 관계없는 캡션은 오히려 시각질의응답에서 답을 맞히는데 방해가 될 수 있기 때문에 질문과의 유사도를 기반으로 질문과 유사한 일부의 캡션을 활용하도록 하였다. 또한 캡션에서 불용어는 답을 맞히는데 영향을 주지 못하거나 방해가 될 수 있기 때문에 제거한 후에 실험을 진행하였다. 기존 시 각질의응답에서 이미지와 텍스트간의 공동 어텐션을 활용하여 좋은 성능을 보였던 deep modular co-attention network (MCAN)과 유사도 기반의 선별된 캡션을 사용하여 VQA-v2 데이터에 대하여 실험을 진행하였다. 그 결과 기존의 MCAN모델과 비교하여 유사도 기반으로 선별된 캡션을 활용했을 때 성능 향상을 확인하였다.

Graphgen: REST API를 이용한 시계열 데이터의 실시간 시각화 마이크로서비스 (Graphgen: Real-time Visualization Microservice for Time Series Data Using REST API)

  • 권동우;옥기수;지영민
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 추계학술발표대회
    • /
    • pp.581-584
    • /
    • 2018
  • 최근 다양한 분야에서 대량의 데이터를 수집하여 처리하고 분석하는 빅데이터 기술이 활용되고 있다. 빅데이터 분석을 위해서는 데이터 시각화 기술이 필수적이다. 본 논문에서는 REST API를 사용하여 시계열 데이터베이스에 데이터를 질의하고, 응답받은 시계열 데이터를 다양한 형태의 차트로 시각화하는 마이크로서비스(Graphgen)를 설계하고 구현한다. 이 서비스는 데이터의 변동에 따라 실시간으로 시각화 객체를 갱신하며, 대용량 데이터 처리의 성능저하를 최소화하도록 개발된다. Graphgen은 InfluxDB와 OpenTSDB 시계열 데이터베이스와 Bokeh 시각화 라이브러리를 지원하며, 추후 서비스 확장이 용이하도록 개발된다. 또한 부하 분산과 통합 배포 관리를 위하여 컨테이너를 기반으로 개발된다.

적합성 피드백을 적용한 효율적인 자동 이미지 키워드 연결 (Efficient Automatic Image Annotation with Relevance Feedback)

  • 송지영;김우철;김승우;박상현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 추계학술발표대회 및 정기총회
    • /
    • pp.31-34
    • /
    • 2005
  • 디지털 이미지의 양이 증가함에 따라 원하는 이미지를 정확하고 빠르게 찾을 수 있는 방법의 필요성이 증가하고 있다. 이미지 검색 방법으로는 이미지의 색상이나 명암과 같은 시각적 특성을 검색 조건으로 이용하는 내용 기반 검색과 이미지를 설명하는 키워드를 검색 조건으로 이용하는 키워드 기반 검색이 있다. 하지만 이러한 방법만으로는 사용자가 원하는 이미지를 정확하게 찾기 힘들다는 문제점이 제기되어 왔다. 따라서 최근에는 검색 도중 사용자의 응답을 받아 사용자의 요구를 파악함으로써 향상된 검색 결과를 제공하는 적합성 피드백에 대한 연구가 많이 진행되고 있다. 하지만 적합성 피드백을 이용하는 방법들도 원하는 결과를 얻기 위해서는 여러 번의 피드백을 필요로 하고 질의 수행이 완료된 후에는 얻어진 피드백 정보를 재사용하지 못한다는 단점이 있다. 따라서 본 논문에서는 이미지에 키워드를 연결한 후 사용자의 피드백 정보를 반영하여 키워드의 신뢰도를 조절함으로써 키워드 기반 이미지 검색의 정확도를 높일 수 있는 모델을 제안한다. 제안된 모델에서는 사용자로부터 피드백을 받은 이미지뿐만 아니라 긍정적 피드백을 받은 이미지들이 공통적으로 가지는 시각적 특성과 유사한 시각적 특성을 가지는 다른 이미지들까지도 키워드의 신뢰도를 조정함으로써 좀 더 빠른 시간 내에 검색 결과의 정확도를 높이도록 한다.

  • PDF

웹 기반의 상호작용 교육용 시스템 개발 (Development of a Web-based Interactive Education systems)

  • 장충성;임화경;최효현
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권12호
    • /
    • pp.177-185
    • /
    • 2014
  • 현대 사회는 스마트 기기의 이용이 증가함에 따라서 스마트 기기를 활용하여 교수자와 학습자간의 상호작용을 할 수 있는 수업 방식의 중요성을 강조하고 있다. 하지만 중요성에 비해 국내에서 시행되고 있는 스마트기기를 활용한 수업 방식이 해외에서 시행되고 있는 것에 비해 부족하다. 따라서 본 논문은 국내에서 교수자와 학습자간의 질의응답을 통한 상호작용을 할 수 있는 시스템을 모바일 웹 페이지를 활용하여 구현하였다. 구현 된 시스템은 스마트기기 등 인터넷을 사용할 수 있는 기기 어디에서나 사용이 가능하며, 교수자가 문제나 의견을 출제하여 학습자가 응답하는 방법을 사용하였으며, 실시간으로 학습자들의 이해 여부와 의견을 시각적으로 확인할 수 있도록 구현하였다. 또한, 출제되었던 문제는 데이터베이스에 남아 있어 학습자와 교수자 모두 지난 문제에 대해 자신의 부족한 점을 보완할 수 있고, 교수자는 결과를 엑셀 형태로 다운 받아 따로 보관이 가능하게 하였다. 구현된 시스템을 학생들과 함께 진행해본 결과 대다수의 학생들이 긍정적인 반응을 보였으며, 사용의도를 묻는 질문에 과반수이상이 긍정적으로 응답하였다.

CERES: 백본망 로그 기반 대화형 웹 분석 시스템 (CERES: A Log-based, Interactive Web Analytics System for Backbone Networks)

  • 서일현;정연돈
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권10호
    • /
    • pp.651-657
    • /
    • 2015
  • 웹 응용 프로그램의 급격한 증가와 함께 웹 트래픽이 증가하고 있다. 웹에 대한 요청과 그 응답에 대한 기록인 웹 로그 또한 폭발적으로 증가하고 있다. 웹 로그로부터 가치 있는 정보를 취득하기 위해서는 매우 큰 용량의 데이터를 효과적이고 다양한 방법으로 다룰 수 있는 시스템이 필요하다. 본 논문에서는 백본망 로그 기반 대화형 웹 분석 시스템인 CERES를 소개한다. 기존의 웹 분석 시스템들과 달리, CERES는 하나의 웹 서버에 대한 분석이 아닌 백본망에서 생성되는 모든 웹 로그의 분석을 목적으로 한다. CERES는 하둡 분산 파일 시스템 (HDFS)을 저장소로 하는 서버 클러스터에 배포되며, 대용량의 로그에 기반한 분석을 분산 처리를 통해 지원한다. CERES는 백본망에서 생성된 웹 로그 데이터를 관계형 데이터로 변환하고, 사용자는 변환된 관계형 데이터에 대해 SQL을 이용하여 질의를 요청할 수 있다. 내부적으로 CERES는 웹 로그의 통계적 분석에 대한 질의를 효과적으로 처리하기 위해 데이터 큐브를 활용한다. 또한, CERES는 다양한 통계적 분석을 지원하기 위해 대화형 SQL 질의 인터페이스를 포함한 세 가지 형태의 웹 인터페이스를 제공하며 사용자는 이를 통해 쉽게 질의를 요청할 수 있고 그 결과를 시각적으로 확인할 수 있다.