• Title/Summary/Keyword: 시각적 질의응답

Search Result 15, Processing Time 0.033 seconds

Interpretable Visual Question Answering via Explain Sentence Generation (설명 문장 생성을 통한 해석 가능한 시각적 질의응답 모델 분석)

  • Kim, Danil;Han, Bohyung
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2020.07a
    • /
    • pp.359-362
    • /
    • 2020
  • 본 연구에서는 설명 문장 생성을 통한 해석 가능한 시각적 질의응답 모델을 설계하고 학습 방법을 제시한다. 설명 문장은 시각적 질의응답 모델이 응답을 예측하는 데에 필요한 이미지 및 질문 정보와 적절한 논리적인 정보의 조합 및 정답 추론 과정이 함의되어 있을 것으로 기대한다. 설명 문장 생성 과정이 포함된 시각적 질의응답의 기본적인 모델을 기반으로 여러 가지 학습방법을 통해 설명 문장 생성 과정과 응답 예측 과정간의 상호관계를 분석한다. 이러한 상호작용을 적극적으로 활용할 수 있는 보다 개선 시각적 질의응답 모델을 제안한다. 또한 학습한 결과를 바탕으로 설명 문장의 특성을 활용하여 시각적 질의응답 추론 과정을 개선함으로써 시각적 질의응답 모델의 발전 방향을 논의한다. 본 실험을 통해서 응답 예측에 적절한 설명 문장을 제시하는 해석 가능한 시각적 질의응답 모델을 제공한다.

  • PDF

MMA: Multi-modal Message Aggregation for Korean VQA (MMA: 한국어 시각적 질의응답을 위한 멀티 모달 메시지 통합)

  • Park, Sungjin;Park, Chanjun;Seo, Jaehyung;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.468-472
    • /
    • 2020
  • 시각적 질의응답(Visual Question Answering, VQA)은 주어진 이미지에 연관된 다양한 질문에 대한 올바른 답변을 예측하는 기술이다. 해당 기술은 컴퓨터 비전-자연어 처리 연구분야에서 활발히 연구가 진행되고 있으며, 질문의 의도를 정확히 파악하고, 주어진 이미지에서 관련 단서 정보를 찾는 것이 중요하다. 또한, 서로 이질적인 특성을 지닌 정보(이미지 객체, 객체 위치, 질문)를 통합하는 과정도 중요하다. 본 논문은 질문의 의도에 알맞은 정보를 효율적으로 사용하기 위해 멀티 모달 입력 이미지 객체, 객체 위치, 질문)에 대한 Multi-modal Message Aggregation (MMA) 제안하며 이를 통해 한국어 시각적 질의응답 KVQA에서 다른 모델보다 더 좋은 성능을 확인하였다.

  • PDF

Design and Implementation of QALT using Navigation Model (네비게이션 모델을 이용한 QALT의 설계 및 구현)

  • 김행곤;신호준;김정수;한은주
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10b
    • /
    • pp.601-603
    • /
    • 2001
  • 초고속 인터넷 망의 구축에 따라 정보통신 교육이 활성화에 힘입어 직.간접적으로 응용하기 위한 노력이 지속적으로 진행되어 왔다. 웹 기반 원격강의는 원거리 학습자들의 학습욕구를 자기 주도적인 학습이 되도록 전체적인 수업을 진행하므로 학습과정에서의 질의 응답을 교수자에게 면대면으로 제공하지 못하였다. 따라서 학습자가 요구한 질의 내용을 잘못 이해함에 따라 교수자가 학습과정에서의 피드백 제공을 하지 못함으로써 개인학습의 동기부여가 감소됨에 따라 흥미를 입게 되었다. 따라서, 본 논문에서는 웹 기반 서비스에 대한 체계적인 분석 및 설계를 위해 네비게이션 모델을 통해 질의 응답을 지원하는 QALT(Question Answer Learning Tool)를 설계 및 구현한다. 원격강의는 웹 상에서 기본적인 컨텐츠를 제시하고 그를 통해 수업이 진행되는 과정에서의 질의 응답의 문제점을 개선하기 위해 일다대(One-To-Many)의 서비스를 제공한다. 또한. 학습자는 교수자가 지정한 교육용 서버를 통해 텍스트 형식이 아닌 강의자료로 쓰인 문서파일에 직접 작성하여 질의 응답을 가능하게 된다. 그로 인해 교수자와 학생간의 질의 응답을 통해 상호작용을 원활하게 할 수 있는 보조학습도구로써의 사용이 증가될 것이다. 또한 서버에서의 폴더 서비스와 메일링 서비스를 통해 실시간 질의 응답이 가능함으로써 학습자는 강의파일에서 그림에 관한 질문에 효과를 볼 수 있고 교수자는 질문 받은 내용의 위치를 시각적으로 쉽게 볼 수 있으므로 빠른 응답이 가능하게 될 것이다.

  • PDF

Design of Web Page for Effective Visual Representation of USN Request and Reply (USN 질의 및 응답의 효과적인 시각적 표현을 위한 웹 페이지 디자인)

  • Lee, Jong-Beom;Shin, Se-Yong;Jun, Bong-Hwan;Kim, Do-Yun;Ahn, Byeong-Tae;Han, Jae-Il
    • 한국IT서비스학회:학술대회논문집
    • /
    • 2008.05a
    • /
    • pp.419-424
    • /
    • 2008
  • 최근 네트워크 및 정보통신 기술의 발달로 유비쿼터스(Ubiquitous) 환경이 구체화되면서 미래의 정보 기술 산업을 주도할 유비쿼터스 센서 네트워크(Ubiquitous Sensor Network : USN)가 주목받고 있다. 이러한 USN기반의 서비스는 각종 센서들로부터 인식된 데이터를 수집하고 이를 가공하여 사용자가 이해하기 쉽게 USN 자원에 대한 정보를 전달해야 한다. 그러나 USN자원에 대한 정보를 사용자가 이해하기 쉽도록 웹 상에서 시각적으로 표현하기 위한 연구는 보이지 않고 있다. 본 논문에서는 USN 데이터를 크게 센싱데이터와 메타데이터로 분류하고 이를 효과적으로 표현할 수 있는 시각적 요소들을 제안하였다. 그리고 사용자 질의에 대한 응답을 분석하여 각 응답 유형에 따라 시각적 요소를 효과적으로 조합하여 사용자가 쉽게 인지할 수 있는 웹 페이지를 설계 및 구현하였다.

  • PDF

A Study on Improving Performance of the Deep Neural Network Model for Relational Reasoning (관계 추론 심층 신경망 모델의 성능개선 연구)

  • Lee, Hyun-Ok;Lim, Heui-Seok
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.7 no.12
    • /
    • pp.485-496
    • /
    • 2018
  • So far, the deep learning, a field of artificial intelligence, has achieved remarkable results in solving problems from unstructured data. However, it is difficult to comprehensively judge situations like humans, and did not reach the level of intelligence that deduced their relations and predicted the next situation. Recently, deep neural networks show that artificial intelligence can possess powerful relational reasoning that is core intellectual ability of human being. In this paper, to analyze and observe the performance of Relation Networks (RN) among the neural networks for relational reasoning, two types of RN-based deep neural network models were constructed and compared with the baseline model. One is a visual question answering RN model using Sort-of-CLEVR and the other is a text-based question answering RN model using bAbI task. In order to maximize the performance of the RN-based model, various performance improvement experiments such as hyper parameters tuning have been proposed and performed. The effectiveness of the proposed performance improvement methods has been verified by applying to the visual QA RN model and the text-based QA RN model, and the new domain model using the dialogue-based LL dataset. As a result of the various experiments, it is found that the initial learning rate is a key factor in determining the performance of the model in both types of RN models. We have observed that the optimal initial learning rate setting found by the proposed random search method can improve the performance of the model up to 99.8%.

Using similarity based image caption to aid visual question answering (유사도 기반 이미지 캡션을 이용한 시각질의응답 연구)

  • Kang, Joonseo;Lim, Changwon
    • The Korean Journal of Applied Statistics
    • /
    • v.34 no.2
    • /
    • pp.191-204
    • /
    • 2021
  • Visual Question Answering (VQA) and image captioning are tasks that require understanding of the features of images and linguistic features of text. Therefore, co-attention may be the key to both tasks, which can connect image and text. In this paper, we propose a model to achieve high performance for VQA by image caption generated using a pretrained standard transformer model based on MSCOCO dataset. Captions unrelated to the question can rather interfere with answering, so some captions similar to the question were selected to use based on a similarity to the question. In addition, stopwords in the caption could not affect or interfere with answering, so the experiment was conducted after removing stopwords. Experiments were conducted on VQA-v2 data to compare the proposed model with the deep modular co-attention network (MCAN) model, which showed good performance by using co-attention between images and text. As a result, the proposed model outperformed the MCAN model.

Graphgen: Real-time Visualization Microservice for Time Series Data Using REST API (Graphgen: REST API를 이용한 시계열 데이터의 실시간 시각화 마이크로서비스)

  • Kwon, Dongwoo;Ok, Kisu;Ji, Youngmin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.10a
    • /
    • pp.581-584
    • /
    • 2018
  • 최근 다양한 분야에서 대량의 데이터를 수집하여 처리하고 분석하는 빅데이터 기술이 활용되고 있다. 빅데이터 분석을 위해서는 데이터 시각화 기술이 필수적이다. 본 논문에서는 REST API를 사용하여 시계열 데이터베이스에 데이터를 질의하고, 응답받은 시계열 데이터를 다양한 형태의 차트로 시각화하는 마이크로서비스(Graphgen)를 설계하고 구현한다. 이 서비스는 데이터의 변동에 따라 실시간으로 시각화 객체를 갱신하며, 대용량 데이터 처리의 성능저하를 최소화하도록 개발된다. Graphgen은 InfluxDB와 OpenTSDB 시계열 데이터베이스와 Bokeh 시각화 라이브러리를 지원하며, 추후 서비스 확장이 용이하도록 개발된다. 또한 부하 분산과 통합 배포 관리를 위하여 컨테이너를 기반으로 개발된다.

Efficient Automatic Image Annotation with Relevance Feedback (적합성 피드백을 적용한 효율적인 자동 이미지 키워드 연결)

  • Song, Ji-Young;Kim, Woo-Cheol;Kim, Seung-Woo;Park, Sang-Hyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.11a
    • /
    • pp.31-34
    • /
    • 2005
  • 디지털 이미지의 양이 증가함에 따라 원하는 이미지를 정확하고 빠르게 찾을 수 있는 방법의 필요성이 증가하고 있다. 이미지 검색 방법으로는 이미지의 색상이나 명암과 같은 시각적 특성을 검색 조건으로 이용하는 내용 기반 검색과 이미지를 설명하는 키워드를 검색 조건으로 이용하는 키워드 기반 검색이 있다. 하지만 이러한 방법만으로는 사용자가 원하는 이미지를 정확하게 찾기 힘들다는 문제점이 제기되어 왔다. 따라서 최근에는 검색 도중 사용자의 응답을 받아 사용자의 요구를 파악함으로써 향상된 검색 결과를 제공하는 적합성 피드백에 대한 연구가 많이 진행되고 있다. 하지만 적합성 피드백을 이용하는 방법들도 원하는 결과를 얻기 위해서는 여러 번의 피드백을 필요로 하고 질의 수행이 완료된 후에는 얻어진 피드백 정보를 재사용하지 못한다는 단점이 있다. 따라서 본 논문에서는 이미지에 키워드를 연결한 후 사용자의 피드백 정보를 반영하여 키워드의 신뢰도를 조절함으로써 키워드 기반 이미지 검색의 정확도를 높일 수 있는 모델을 제안한다. 제안된 모델에서는 사용자로부터 피드백을 받은 이미지뿐만 아니라 긍정적 피드백을 받은 이미지들이 공통적으로 가지는 시각적 특성과 유사한 시각적 특성을 가지는 다른 이미지들까지도 키워드의 신뢰도를 조정함으로써 좀 더 빠른 시간 내에 검색 결과의 정확도를 높이도록 한다.

  • PDF

Development of a Web-based Interactive Education systems (웹 기반의 상호작용 교육용 시스템 개발)

  • Jang, Chung-Seong;Rim, Hwa-Kyung;Choi, Hyo Hyun
    • Journal of the Korea Society of Computer and Information
    • /
    • v.19 no.12
    • /
    • pp.177-185
    • /
    • 2014
  • The smart devices are used more and more, these days. It make the teaching method using smart devices possible and it is considered as important method in the modern society. Though this kind of approach is prospering in foreign countries, it is not so in the domestic education system. Therefore, this paper proposes the mobile web system supporting the active interaction between the teacher and the students for the domestic education. This system can be used everywhere smart device is connected to the internet. The teacher set a question and the students answers against it through the system in real time. All questions and answers are written into the system and it can be checked again visually. It makes teachers and students trace and evaluate their interaction. And the teacher can download those result in microsoft Excel file format. We did a survey on this system to students and got positive response.

CERES: A Log-based, Interactive Web Analytics System for Backbone Networks (CERES: 백본망 로그 기반 대화형 웹 분석 시스템)

  • Suh, Ilhyun;Chung, Yon Dohn
    • KIISE Transactions on Computing Practices
    • /
    • v.21 no.10
    • /
    • pp.651-657
    • /
    • 2015
  • The amount of web traffic has increased as a result of the rapid growth of the use of web-based applications. In order to obtain valuable information from web logs, we need to develop systems that can support interactive, flexible, and efficient ways to analyze and handle large amounts of data. In this paper, we present CERES, a log-based, interactive web analytics system for backbone networks. Since CERES focuses on analyzing web log records generated from backbone networks, it is possible to perform a web analysis from the perspective of a network. CERES is designed for deployment in a server cluster using the Hadoop Distributed File System (HDFS) as the underlying storage. We transform and store web log records from backbone networks into relations and then allow users to use a SQL-like language to analyze web log records in a flexible and interactive manner. In particular, we use the data cube technique to enable the efficient statistical analysis of web log. The system provides users a web-based, multi-modal user interface.