DOI QR코드

DOI QR Code

Analyzing and Solving GuessWhat?!

GuessWhat?! 문제에 대한 분석과 파훼

  • 이상우 (서울대학교 컴퓨터공학부) ;
  • 한철호 (서울대학교 컴퓨터공학부) ;
  • 허유정 (서울대학교 컴퓨터공학부) ;
  • 강우영 (서울대학교 컴퓨터공학부) ;
  • 전재현 (서울대학교 뇌과학협동과정) ;
  • 장병탁 (서울대학교 컴퓨터공학부)
  • Received : 2017.07.11
  • Accepted : 2017.11.09
  • Published : 2018.01.15

Abstract

GuessWhat?! is a game in which two machine players, composed of questioner and answerer, ask and answer yes-no-N/A questions about the object hidden for the answerer in the image, and the questioner chooses the correct object. GuessWhat?! has received much attention in the field of deep learning and artificial intelligence as a testbed for cutting-edge research on the interplay of computer vision and dialogue systems. In this study, we discuss the objective function and characteristics of the GuessWhat?! game. In addition, we propose a simple solver for GuessWhat?! using a simple rule-based algorithm. Although a human needs four or five questions on average to solve this problem, the proposed method outperforms state-of-the-art deep learning methods using only two questions, and exceeds human performance using five questions.

GuessWhat?!은 질문자와 답변자로 구성된 두 플레이어가 이미지를 보고 질문자에게 비밀로 감추어진 정답 물체에 대해 예/아니오/잘 모르겠음 셋 중 하나로 묻고 답하며, 정답 물체를 추려 나가는 문제이다. GuessWhat?!은 최근 컴퓨터 비전과 인공지능 대화 시스템의 테스트베드로서 컴퓨터 비전과 인공지능 학계의 많은 관심을 받았다. 본 논문에서, 우리는 GuessWhat?! 게임 프레임워크가 가지는 특성에 대해 논의한다. 더 나아가, 우리는 제안된 틀을 기반으로 GuessWhat?!의 간단한 solution을 제안한다. 사람이 평균 4~5개 정도의 질문을 통하여 맞추는 이 문제에 대하여, 우리가 제안한 방법은 2개의 질문만으로 기존 딥러닝 기반 기술의 성능을 상회하는 성능을 보이며, 5개의 질문이 허용되면 인간 수준의 성능을 능가한다.

Keywords

Acknowledgement

Supported by : 정보통신기술진흥센터, 한국산업기술평가관리원

References

  1. Ham de vries et al., "GuessWhat?! Visual Object Discovery through Multi-modal Dialogue," CVPR, 2017.
  2. Ian J Goodfellow et al., "Generative Adversial Nets," NIPS, 2014.
  3. Oriol Vinyals and Quoc Le, "A Neural Conversation Model," ICML deep learning workshop, 2015.
  4. Junhua Mao et al., "Generation and comprehension of unambiguous object descriptions," CVPR, 2016.
  5. Martin Arjovsky et al., "Wasserstein Gan," arXiv, 2017.
  6. Mike Lewis et al., "Deal or no deal? end-to-end learning for negotiation dialogues," arXiv, 2017.
  7. Florian Strub et al., "End-to-end optimization of goal-driven and visually grounded dialogue systems," IJCAI, 2017.