• 제목/요약/키워드: Vision-and-Language Navigation

검색결과 6건 처리시간 0.021초

시각-언어 이동 에이전트를 위한 복합 학습 (Hybrid Learning for Vision-and-Language Navigation Agents)

  • 오선택;김인철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제9권9호
    • /
    • pp.281-290
    • /
    • 2020
  • 시각-언어 이동 문제는 시각 이해와 언어 이해 능력을 함께 요구하는 복합 지능 문제이다. 본 논문에서는 시각-언어 이동 에이전트를 위한 새로운 학습 모델을 제안한다. 이 모델은 데모 데이터에 기초한 모방 학습과 행동 보상에 기초한 강화 학습을 함께 결합한 복합 학습을 채택하고 있다. 따라서 이 모델은 데모 데이터에 편향될 수 있는 모방 학습의 문제와 상대적으로 낮은 데이터 효율성을 갖는 강화 학습의 문제를 상호 보완적으로 해소할 수 있다. 또한, 제안 모델에서는 기존의 목표 기반 보상 함수들의 문제점을 해결하기 위해 설계된 새로운 경로 기반 보상 함수를 이용한다. 본 논문에서는 Matterport3D 시뮬레이션 환경과 R2R 벤치마크 데이터 집합을 이용한 다양한 실험들을 통해, 제안 모델의 높은 성능을 입증하였다.

LVLN: 시각-언어 이동을 위한 랜드마크 기반의 심층 신경망 모델 (LVLN : A Landmark-Based Deep Neural Network Model for Vision-and-Language Navigation)

  • 황지수;김인철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권9호
    • /
    • pp.379-390
    • /
    • 2019
  • 본 논문에서는 시각-언어 이동 문제를 위한 새로운 심층 신경망 모델인 LVLN을 제안한다. LVLN 모델에서는 자연어 지시의 언어적 특징과 입력 영상 전체의 시각적 특징들 외에, 자연어 지시에서 언급하는 주요 장소와 랜드마크 물체들을 입력 영상에서 탐지해내고 이 정보들을 추가적으로 이용한다. 또한 이 모델은 자연어 지시 내 각 개체와 영상 내 각 관심 영역, 그리고 영상에서 탐지된 개별 물체 및 장소 간의 서로 연관성을 높일 수 있도록 맥락 정보 기반의 주의 집중 메커니즘을 이용한다. 그뿐만 아니라, LVLN 모델은 에이전트의 목표 도달 성공율을 향상시키기 위해, 목표를 향한 실질적인 접근을 점검할 수 있는 진척 점검기 모듈도 포함하고 있다. Matterport3D 시뮬레이터와 Room-to-Room (R2R) 벤치마크 데이터 집합을 이용한 다양한 실험들을 통해, 본 논문에서 제안하는 LVLN 모델의 높은 성능을 확인할 수 있었다.

로봇의 위치보정을 통한 경로계획 (Path finding via VRML and VISION overlay for Autonomous Robotic)

  • 손은호;박종호;김영철;정길도
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2006년 학술대회 논문집 정보 및 제어부문
    • /
    • pp.527-529
    • /
    • 2006
  • In this paper, we find a robot's path using a Virtual Reality Modeling Language and overlay vision. For correct robot's path we describe a method for localizing a mobile robot in its working environment using a vision system and VRML. The robt identifies landmarks in the environment, using image processing and neural network pattern matching techniques, and then its performs self-positioning with a vision system based on a well-known localization algorithm. After the self-positioning procedure, the 2-D scene of the vision is overlaid with the VRML scene. This paper describes how to realize the self-positioning, and shows the overlap between the 2-D and VRML scenes. The method successfully defines a robot's path.

  • PDF

VRML과 영상오버레이를 이용한 로봇의 경로추적 (A Path tracking algorithm and a VRML image overlay method)

  • 손은호;;김영철;정길도
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2006년도 하계종합학술대회
    • /
    • pp.907-908
    • /
    • 2006
  • We describe a method for localizing a mobile robot in its working environment using a vision system and Virtual Reality Modeling Language (VRML). The robot identifies landmarks in the environment, using image processing and neural network pattern matching techniques, and then its performs self-positioning with a vision system based on a well-known localization algorithm. After the self-positioning procedure, the 2-D scene of the vision is overlaid with the VRML scene. This paper describes how to realize the self-positioning, and shows the overlap between the 2-D and VRML scenes. The method successfully defines a robot's path.

  • PDF

3차원 공간 맵핑을 통한 로봇의 경로 구현 (Implementation of Path Finding Method using 3D Mapping for Autonomous Robotic)

  • 손은호;김영철;정길도
    • 제어로봇시스템학회논문지
    • /
    • 제14권2호
    • /
    • pp.168-177
    • /
    • 2008
  • Path finding is a key element in the navigation of a mobile robot. To find a path, robot should know their position exactly, since the position error exposes a robot to many dangerous conditions. It could make a robot move to a wrong direction so that it may have damage by collision by the surrounding obstacles. We propose a method obtaining an accurate robot position. The localization of a mobile robot in its working environment performs by using a vision system and Virtual Reality Modeling Language(VRML). The robot identifies landmarks located in the environment. An image processing and neural network pattern matching techniques have been applied to find location of the robot. After the self-positioning procedure, the 2-D scene of the vision is overlaid onto a VRML scene. This paper describes how to realize the self-positioning, and shows the overlay between the 2-D and VRML scenes. The suggested method defines a robot's path successfully. An experiment using the suggested algorithm apply to a mobile robot has been performed and the result shows a good path tracking.

Recurrent Neural Network를 이용한 이미지 캡션 생성 (Image Caption Generation using Recurrent Neural Network)

  • 이창기
    • 정보과학회 논문지
    • /
    • 제43권8호
    • /
    • pp.878-882
    • /
    • 2016
  • 이미지의 내용을 설명하는 캡션을 자동으로 생성하는 기술은 이미지 인식과 자연어처리 기술을 필요로 하는 매우 어려운 기술이지만, 유아 교육이나 이미지 검색, 맹인들을 위한 네비게이션 등에 사용될 수 있는 중요한 기술이다. 본 논문에서는 이미지 캡션 생성을 위해 Convolutional Neural Network(CNN)으로 인코딩된 이미지 정보를 입력으로 갖는 이미지 캡션 생성에 최적화된 Recurrent Neural Network(RNN) 모델을 제안하고, 실험을 통해 본 논문에서 제안한 모델이 Flickr 8K와 Flickr 30K, MS COCO 데이터 셋에서 기존의 연구들보다 높은 성능을 얻음을 보인다.