• Title/Summary/Keyword: 다중 에이전트 학습

Search Result 51, Processing Time 0.024 seconds

SOM-Based State Generalization for Multiagent Reinforcement Learning (다중에이전트 강화학습을 위한 SOM기반의 상태 일한화)

  • 임문택;김인철
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2002.11a
    • /
    • pp.399-408
    • /
    • 2002
  • 다중 에이전트 학습이란 다중 에이전트 환경에서 에이전트간의 조정을 위한 행동전략을 학습하는 것을 말한다. 본 논문에서는 에이전트간의 통신이 불가능한 다중 에이전트 환경에서 각 에이전트들이 서로 독립적으로 대표적인 강화학습법인 Q학습을 전개함으로써 서로 효과적으로 협조할 수 있는 행동전략을 학습하려고 한다. 하지만 단일 에이전트 경우에 비해 보다 큰 상태-행동 공간을 갖는 다중 에이전트환경에서는 강화학습을 통해 효과적으로 최적의 행동 전략에 도달하기 어렵다는 문제점이 있다. 이 문제에 대한 기존의 접근방법은 크게 모듈화 방법과 일반화 방법이 제안되었으나 모두 나름의 제한을 가지고 있다. 본 논문에서는 대표적인 다중 에이전트 학습 문제의 예로서 먹이와 사냥꾼 문제(Prey and Hunters Problem)를 소개하고 이 문제영역을 통해 이와 같은 강화학습의 문제점을 살펴보고, 해결책으로 신경망 SOM을 이용한 일반화 방법인 QSOM 학습법을 제안한다. 이 방법은 기존의 일반화 방법과는 달리 군집화 기능을 제공하는 신경망 SOM을 이용함으로써 명확한 다수의 훈련 예가 없어도 효과적으로 이전에 경험하지 못했던 상태-행동들에 대한 Q값을 예측하고 이용할 수 있다는 장점이 있다. 또한 본 논문에서는 실험을 통해 QSOM 학습법의 일반화 효과와 성능을 평가하였다.

  • PDF

Efficient Reinforcement Learning System in Multi-Agent Environment (다중 에이전트 환경에서 효율적인 강화학습 시스템)

  • Hong, Jung-Hwan;Kang, Jin-Beom;Choi, Joong-Min
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10b
    • /
    • pp.393-396
    • /
    • 2006
  • 강화학습은 환경과 상호작용하는 과정을 통하여 목표를 이루기 위한 전략을 학습하는 방법으로써 에이전트의 학습방법으로 많이 사용한다. 독립적인 에이전트가 아닌 상호 의사소통이 가능한 다중 에이전트 환경에서 에이전트의 학습정보를 서로 검색 및 공유가 가능하다면 환경이 거대하더라도 기존의 강화학습 보다 빠르게 학습이 이루어질 것이다. 하지만 아직 다중 에이전트 환경에서 학습 방법에 대한 연구가 미흡하여 학습정보의 검색과 공유에 대해 다양한 방법들이 요구되고 있다. 본 논문에서는 대상 에이전트 학습 정보와 주변 에이전트들의 학습 정보 사이에 편집거리를 비교하여 유사한 에이전트를 찾고 그 에이전트 정보를 강화학습 사전정보로 사용함으로써 학습속도를 향상시킨 ED+Q-Learning 시스템을 제안한다.

  • PDF

A Performance Improvement Technique for Nash Q-learning using Macro-Actions (매크로 행동을 이용한 내시 Q-학습의 성능 향상 기법)

  • Sung, Yun-Sik;Cho, Kyun-Geun;Um, Ky-Hyun
    • Journal of Korea Multimedia Society
    • /
    • v.11 no.3
    • /
    • pp.353-363
    • /
    • 2008
  • A multi-agent system has a longer learning period and larger state-spaces than a sin91e agent system. In this paper, we suggest a new method to reduce the learning time of Nash Q-learning in a multi-agent environment. We apply Macro-actions to Nash Q-learning to improve the teaming speed. In the Nash Q-teaming scheme, when agents select actions, rewards are accumulated like Macro-actions. In the experiments, we compare Nash Q-learning using Macro-actions with general Nash Q-learning. First, we observed how many times the agents achieve their goals. The results of this experiment show that agents using Nash Q-learning and 4 Macro-actions have 9.46% better performance than Nash Q-learning using only 4 primitive actions. Second, when agents use Macro-actions, Q-values are accumulated 2.6 times more. Finally, agents using Macro-actions select less actions about 44%. As a result, agents select fewer actions and Macro-actions improve the Q-value's update. It the agents' learning speeds improve.

  • PDF

SOM_Based Generalization for Multiagent Reinforcement Learning (다중 에이전트 강화학습을 위한 SOM 기반의 일반화)

  • Lim, Mun-Tack;Kim, In-Cheol
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.04a
    • /
    • pp.565-568
    • /
    • 2002
  • 본 논문에서는 에이전트간의 통신이 불가능한 다중 에이전트 환경에서 각 에이전트들이 독립적이면서 대표적인 강화학습법인 Q-학습을 전개함으로써 서로 효과적으로 협조할 수 있는 행동전략을 학습하려고 한다. 하지만 단일 에이전트 경우에 비해 보다 큰 상태-행동공간을 갖는 다중 에이전트환경에서는 강화학습을 통해 효과적으로 최적의 행동 전략에 도달하기 어렵다는 문제점이 있다. 이 문제에 대한 기존의 접근방법은 크게 모듈화 방법과 일반화 방법이 제안되었으나 모두 나름의 제한을 가지고 있다. 본 논문에서는 대표적인 다중 에이전트 학습 문제의 예로서 the Prey and Hunters Problem를 소개하고 이 문제영역을 통해 이와 같은 강화학습의 문제점을 살펴보고, 해결책으로 신경망 SOM 을 이용한 일반화 방법을 제안한다. 이 방법은 다층 퍼셉트론 신경망과 역전파 알고리즘을 이용한 기존의 일반화 방법과는 달리 군집화 기능을 제공하는 신경망 SOM 을 이용함으로써 명확한 다수의 훈련 예가 없어도 효과적으로 채 경험하지 못한 상태-행동들에 대한 Q 값을 예측하고 이용할 수 있다는 장점이 있다.

  • PDF

Continual Multiagent Reinforcement Learning in Dynamic Environments (동적 환경에서의 지속적인 다중 에이전트 강화 학습)

  • Jung, Kyuyeol;Kim, Incheol
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.11a
    • /
    • pp.988-991
    • /
    • 2020
  • 다양한 실세계 응용 분야들에서 공동의 목표를 위해 여러 에이전트들이 상호 유기적으로 협력할 수 있는 행동 정책을 배우는 것은 매우 중요하다. 이러한 다중 에이전트 강화 학습(MARL) 환경에서 기존의 연구들은 대부분 중앙-집중형 훈련과 분산형 실행(CTDE) 방식을 사실상 표준 프레임워크로 채택해왔다. 하지만 이러한 다중 에이전트 강화 학습 방식은 훈련 시간 동안에는 경험하지 못한 새로운 환경 변화가 실전 상황에서 끊임없이 발생할 수 있는 동적 환경에서는 효과적으로 대처하기 어렵다. 이러한 동적 환경에 효과적으로 대응하기 위해, 본 논문에서는 새로운 다중 에이전트 강화 학습 체계인 C-COMA를 제안한다. C-COMA는 에이전트들의 훈련 시간과 실행 시간을 따로 나누지 않고, 처음부터 실전 상황을 가정하고 지속적으로 에이전트들의 협력적 행동 정책을 학습해나가는 지속 학습 모델이다. 본 논문에서는 대표적인 실시간 전략게임인 StarcraftII를 토대로 동적 미니게임을 구현하고 이 환경을 이용한 다양한 실험들을 수행함으로써, 제안 모델인 C-COMA의 효과와 우수성을 입증한다.

State Space Tiling and Probabilistic Action Selection for Multi-Agent Reinforcement Learning (다중 에이전트 강화 학습을 위한 상태 공간 타일링과 확률적 행동 선택)

  • Duk Kwon-Ki;Cheol Kim-In
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06b
    • /
    • pp.106-108
    • /
    • 2006
  • 강화 학습은 누적 보상 값을 최대화할 수 있는 행동 선택 전략을 학습하는 온라인 학습의 한 형태이다. 효과적인 강화학습을 위해 학습 에이전트가 매 순간 고민해야 하는 문제가 탐험(exploitation)과 탐색(exploration)의 문제이다. 경험과 학습이 충분치 않은 상태의 에이전트는 어느 정도의 보상 값을 보장하는 과거에 경험한 행동을 선택하느냐 아니면 보상 값을 예측할 수 없는 새로운 행동을 시도해봄으로써 학습의 폭을 넓힐 것이냐를 고민하게 된다. 특히 단일 에이전트에 비해 상태공간과 행동공간이 더욱 커지는 다중 에이전트 시스템의 경우, 효과적인 강화학습을 위해서는 상태 공간 축소방법과 더불어 탐색의 기회가 많은 행동 선택 전략이 마련되어야 한다. 본 논문에서는 로봇축구 Keepaway를 위한 효율적인 다중 에이전트 강화학습 방법을 설명한다. 이 방법의 특징은 상태 공간 축소를 위해 함수근사방법의 하나인 타일 코딩을 적용하였고, 다양한 행동 선택을 위해 룰렛 휠 선택 전략을 적용한 것이다. 본 논문에서는 이 방법의 효과를 입증하기 위한 실험결과를 소개한다.

  • PDF

Multagent Control Strategy Using Reinforcement Learning (강화학습을 이용한 다중 에이전트 제어 전략)

  • Lee, Hyong-Ill;Kim, Byung-Cheon
    • The KIPS Transactions:PartB
    • /
    • v.10B no.3
    • /
    • pp.249-256
    • /
    • 2003
  • The most important problems in the multi-agent system are to accomplish a goal through the efficient coordination of several agents and to prevent collision with other agents. In this paper, we propose a new control strategy for succeeding the goal of the prey pursuit problem efficiently. Our control method uses reinforcement learning to control the multi-agent system and consider the distance as well as the space relationship between the agents in the state space of the prey pursuit problem.

A Study of Collaborative and Distributed Multi-agent Path-planning using Reinforcement Learning

  • Kim, Min-Suk
    • Journal of the Korea Society of Computer and Information
    • /
    • v.26 no.3
    • /
    • pp.9-17
    • /
    • 2021
  • In this paper, an autonomous multi-agent path planning using reinforcement learning for monitoring of infrastructures and resources in a computationally distributed system was proposed. Reinforcement-learning-based multi-agent exploratory system in a distributed node enable to evaluate a cumulative reward every action and to provide the optimized knowledge for next available action repeatedly by learning process according to a learning policy. Here, the proposed methods were presented by (a) approach of dynamics-based motion constraints multi-agent path-planning to reduce smaller agent steps toward the given destination(goal), where these agents are able to geographically explore on the environment with initial random-trials versus optimal-trials, (b) approach using agent sub-goal selection to provide more efficient agent exploration(path-planning) to reach the final destination(goal), and (c) approach of reinforcement learning schemes by using the proposed autonomous and asynchronous triggering of agent exploratory phases.

C-COMA: A Continual Reinforcement Learning Model for Dynamic Multiagent Environments (C-COMA: 동적 다중 에이전트 환경을 위한 지속적인 강화 학습 모델)

  • Jung, Kyueyeol;Kim, Incheol
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.10 no.4
    • /
    • pp.143-152
    • /
    • 2021
  • It is very important to learn behavioral policies that allow multiple agents to work together organically for common goals in various real-world applications. In this multi-agent reinforcement learning (MARL) environment, most existing studies have adopted centralized training with decentralized execution (CTDE) methods as in effect standard frameworks. However, this multi-agent reinforcement learning method is difficult to effectively cope with in a dynamic environment in which new environmental changes that are not experienced during training time may constantly occur in real life situations. In order to effectively cope with this dynamic environment, this paper proposes a novel multi-agent reinforcement learning system, C-COMA. C-COMA is a continual learning model that assumes actual situations from the beginning and continuously learns the cooperative behavior policies of agents without dividing the training time and execution time of the agents separately. In this paper, we demonstrate the effectiveness and excellence of the proposed model C-COMA by implementing a dynamic mini-game based on Starcraft II, a representative real-time strategy game, and conducting various experiments using this environment.

Comparative Analysis of Multi-Agent Reinforcement Learning Algorithms Based on Q-Value (상태 행동 가치 기반 다중 에이전트 강화학습 알고리즘들의 비교 분석 실험)

  • Kim, Ju-Bong;Choi, Ho-Bin;Han, Youn-Hee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.05a
    • /
    • pp.447-450
    • /
    • 2021
  • 시뮬레이션을 비롯한 많은 다중 에이전트 환경에서는 중앙 집중 훈련 및 분산 수행(centralized training with decentralized execution; CTDE) 방식이 활용되고 있다. CTDE 방식 하에서 중앙 집중 훈련 및 분산 수행 환경에서의 다중 에이전트 학습을 위한 상태 행동 가치 기반(state-action value; Q-value) 다중 에이전트 알고리즘들에 대한 많은 연구가 이루어졌다. 이러한 알고리즘들은 Independent Q-learning (IQL)이라는 강력한 벤치 마크 알고리즘에서 파생되어 다중 에이전트의 공동의 상태 행동 가치의 분해(Decomposition) 문제에 대해 집중적으로 연구되었다. 본 논문에서는 앞선 연구들에 관한 알고리즘들에 대한 분석과 실용적이고 일반적인 도메인에서의 실험 분석을 통해 검증한다.