초록
본 논문에서는 보상신호를 수반하는 인공지능 기반의 가상 로봇 학습 행위 모델을 제안하고 이 모델을 3가지 환경에 적용시킨 후에 보상 방법에 따른 가상 로봇의 학습 속도를 비교 검토하였다. 결과로서 환경이 다소 복잡하면 즉, 로봇 집단의 크기, 먹이 수, 장애물 수가 다소 많은 경우 학습 세대가 충분하다면 강화 보상 방법이 강화와 억제를 혼합한 보상 방법 보다 우월함을 알 수 있었다. 하지만 복잡하지 않은 환경에서는 혼합 보상 방법이 우수했다.
In this paper we suggest a model that the virtual robot based on artificial intelligence performs learning with compensation signals and compare the leaning speed of the virtual robot according to the compensation method after applying it to three type environments. As a result our model has showed that positive compensation is superior to hybrid one mixed positive and negative if there are enough time for learning in case of more or less complicated environment with the numerous foods, obstacles and robots. Otherwise hybrid method is better than positive one.