Differentially Responsible Adaptive Critic Learning ( DRACL ) for the Self-Learning Control of Multiple-Input System

多入力 시스템의 자율학습제어를 위한 차등책임 적응비평학습

  • Kim, Hyong-Suk (School of Electrical Eng., Mechatronics Research Center, Chonbuk National Universtiy)
  • 김형석 (전북대학교 전기전자제어공학부 메카트로닉스 연구소)
  • Published : 1999.02.01

Abstract

Differentially Responsible Adaptive Critic Learning technique is proposed for learning the control technique with multiple control inputs as in robot system using reinforcement learning. The reinforcement learning is a self-learning technique which learns the control skill based on the critic information Learning is a after a long series of control actions. The Adaptive Critic Learning (ACL) is the representative reinforcement learning structure. The ACL maximizes the learning performance using the two learning modules called the action and the critic modules which exploit the external critic value obtained seldomly. Drawback of the ACL is the fact that application of the ACL is limited to the single input system. In the proposed Differentially Responsible Action Dependant Adaptive Critic learning structure, the critic function is constructed as a function of control input elements. The responsibility of the individual control action element is computed based on the partial derivative of the critic function in terms of each control action element. The proposed learning structure has been constructed with the CMAC neural networks and some simulations have been done upon the two dimensional Cart-Role system and robot squatting problem. The simulation results are included.

재 강화 학습 방법을 다수의 제어입력을 가진 시스템에 대한 자율적 제어 기법 습득에 활용하기 위해서 차등책임 적응비평 학습구조를 제안하였다. 재 강화 학습은 여러 단계의 제어동작 끝에 얻어지는 최종 비평값을 활용하여 그 전에 행해졌던 제어 동작을 강화 혹은 약화 학습하는 자율적 학습방법이다. 대표적인 재강화학습 방법은 적응비평학습 구조를 이용하는 방법인데 비평모듈과 동작모듈을 이용하여 외부 비평 값을 최대로 활용함으로써 학습효과를 극대화시키는 방법이다. 이 학습방법에서는 단일한 제어입력을 갖는 시스템으로만 적용이 제한된다는 단점이 있다. 제안한 차등책임 적응비평 학습 구조에서는 비평함수를 제어 입력 인자의 함수로 구축한 다음 제어인자에 대한 차별 화된 비평 값을 부분미분을 통하여 산출함으로써 다수의 제어입력을 가진 시스템의 제어기술 학습이 가능하게 하였다. 제안한 학습제어 구조는 학습속도가 빠른 CMAC 신경회로망을 이용하여 구축하였으며 2개의 제어입력을 갖는 2-D Cart-Pole 시스템과 3 개의 제어입력을 갖는 인간구조 로봇시스템의 앉는 동작의 학습제어 시뮬레이션을 통하여 효용성을 확인하였다.

Keywords