DOI QR코드

DOI QR Code

Evaluation of Human Demonstration Augmented Deep Reinforcement Learning Policy Optimization Methods Using Object Manipulation with an Anthropomorphic Robot Hand

휴먼형 로봇 손의 사물 조작 수행을 이용한 인간 행동 복제 강화학습 정책 최적화 방법 성능 평가

  • Park, Na Hyeon (Dept. of Electronics and Information Convergence Engineering, Kyung Hee University) ;
  • Oh, Ji Heon (Dept. of Electronics and Information Convergence Engineering, Kyung Hee University) ;
  • Ryu, Ga Hyun (Dept. of Electronics and Information Convergence Engineering, Kyung Hee University) ;
  • Anazco, Edwin Valarezo (Dept. of Electronics and Information Convergence Engineering, Kyung Hee University) ;
  • Lopez, Patricio Rivera (Dept. of Electronics and Information Convergence Engineering, Kyung Hee University) ;
  • Won, Da Seul (Dept. of Biomedical Engineering, College of Electronics and Information, Kyung Hee University) ;
  • Jeong, Jin Gyun (Dept. of Biomedical Engineering, College of Electronics and Information, Kyung Hee University) ;
  • Chang, Yun Jung (Dept. of Biomedical Engineering, College of Electronics and Information, Kyung Hee University) ;
  • Kim, Tae-Seong (Dept. of Electronics and Information Convergence Engineering, Kyung Hee University)
  • 박나현 (경희대학교 전자정보대학 전자정보융합공학과) ;
  • 오지헌 (경희대학교 전자정보대학 전자정보융합공학과) ;
  • 류가현 (경희대학교 전자정보대학 전자정보융합공학과) ;
  • ;
  • ;
  • 원다슬 (경희대학교 전자정보대학 생체의공학과) ;
  • 정진균 (경희대학교 전자정보대학 생체의공학과) ;
  • 장윤정 (경희대학교 전자정보대학 생체의공학과) ;
  • 김태성 (경희대학교 전자정보대학 전자정보융합공학과)
  • Published : 2020.11.05

Abstract

로봇이 사람과 같이 다양하고 복잡한 사물 조작을 하기 위해서 휴먼형 로봇손의 사물 파지 작업이 필수적이다. 자유도 (Degree of Freedom, DoF)가 높은 휴먼형(anthropomorphic) 로봇손을 학습시키기 위하여 사람 데모(human demonstration)가 결합된 강화학습 최적화 방법이 제안되었다. 본 연구에서는 강화학습 최적화 방법에 사람 데모가 결합된 Demonstration Augmented Natural Policy Gradient(DA-NPG)와 NPG 의 성능 비교를 통하여 행동 복제의 효율성을 확인하고, DA-NPG, DA-Trust Region Policy Optimization (DA-TRPO), DA-Proximal Policy Optimization (DA-PPO)의 최적화 방법의 성능 평가를 위하여 6 종의 물체에 대한 휴먼형 로봇손의 사물 조작 작업을 수행한다. 그 결과, DA-NPG 와 NPG를 비교한 결과를 통해 휴먼형 로봇손의 사물 조작 강화학습에 행동 복제가 효율적임을 증명하였다. 또한, DA-NPG 는 DA-TRPO 와 유사한 성능을 보이면서 모든 물체에 대한 사물 파지에 성공하여 가장 안정적이었다. 반면, DA-TRPO 와 DA-PPO 는 사물 조작에 실패한 물체가 존재하여 불안정한 성능을 보였다. 본 연구에서 제안하는 방법은 향후 실제 휴먼형 로봇에 적용하여 휴먼형 로봇 손의 사물조작 지능 개발에 유용할 것으로 전망된다.

Keywords

Acknowledgement

이 논문은 2019 년도 정부(교육과학기술부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임(2019R1A2C1003713). 이 논문은 2020 년도 정부(미래창조과학부)의 재원으로 한국연구재단 -현장맞춤형 이공계 인재양성 지원사업의 지원을 받아 수행된 연구임(No. 2017H1D8A1031522). 본 연구는 과학기술정보통신부 및 정보통신기획평가원의 디지털콘텐츠원천기술개발사업의 연구결과로 수행되었음 (IITP-2017-0-00655).