• Title/Summary/Keyword: 강화 학습 에이전트

Search Result 135, Processing Time 0.024 seconds

Cooperative Multi-agent Reinforcement Learning on Sparse Reward Battlefield Environment using QMIX and RND in Ray RLlib

  • Minkyoung Kim
    • Journal of the Korea Society of Computer and Information
    • /
    • v.29 no.1
    • /
    • pp.11-19
    • /
    • 2024
  • Multi-agent systems can be utilized in various real-world cooperative environments such as battlefield engagements and unmanned transport vehicles. In the context of battlefield engagements, where dense reward design faces challenges due to limited domain knowledge, it is crucial to consider situations that are learned through explicit sparse rewards. This paper explores the collaborative potential among allied agents in a battlefield scenario. Utilizing the Multi-Robot Warehouse Environment(RWARE) as a sparse reward environment, we define analogous problems and establish evaluation criteria. Constructing a learning environment with the QMIX algorithm from the reinforcement learning library Ray RLlib, we enhance the Agent Network of QMIX and integrate Random Network Distillation(RND). This enables the extraction of patterns and temporal features from partial observations of agents, confirming the potential for improving the acquisition of sparse reward experiences through intrinsic rewards.

Potential-based Reinforcement Learning Combined with Case-based Decision Theory (사례 기반 결정 이론을 융합한 포텐셜 기반 강화 학습)

  • Kim, Eun-Sun;Chang, Hyeong-Soo
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.15 no.12
    • /
    • pp.978-982
    • /
    • 2009
  • This paper proposes a potential-based reinforcement learning, called "RLs-CBDT", which combines multiple RL agents and case-base decision theory designed for decision making in uncertain environment as an expert knowledge in RL. We empirically show that RLs-CBDT converges to an optimal policy faster than pre-existing RL algorithms through a Tetris experiment.

The multi agent control heuristic using direction vector (방향 벡터를 이용한 다중에이전트 휴리스틱)

  • Kim Hyun;Lee SeungGwan;Chung TaeChoong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2004.11a
    • /
    • pp.525-528
    • /
    • 2004
  • 먹이추적문제(prey pursuit problem)는 가상 격자로 이루어진 공간 내에 다중의 에이전트를 이용하여 먹이를 포획하는 것이다. 에이전트들은 먹이를 포획하기 위해 $30{\times}30$으로 이루어진 격자공간 (gride)안에서 기존 제안된 지역 제어, 분산 제어, 강화학습을 이용한 분산 제어 전략들을 적용하여 먹이를 포획하는 전략을 구현하였다. 제한된 격자 공간은 현실세계를 표현하기에는 너무도 역부족이어서 본 논문에서는 제한된 격자공간이 아닌 현실 세계와 흡사한 무한 공간 환경을 표현하고자 하였다. 표현된 환경의 모델은 순환구조(circular)형 격자 공간이라는 새로운 실험 공간이며, 새로운 공간에 맞는 전략은 에이전트와 먹이와의 추적 관계를 방향 벡터를 고려한 모델로 구현하였다. 기존 실험과는 차별화 된 환경에서 에이전트들은 휴리스틱을 통한 학습을 할 수 있다는 가정과 먹이의 효율적 포획, 충돌문제 해결이라는 결과를 얻었다.

  • PDF

Comparative Analysis of Multi-Agent Reinforcement Learning Algorithms Based on Q-Value (상태 행동 가치 기반 다중 에이전트 강화학습 알고리즘들의 비교 분석 실험)

  • Kim, Ju-Bong;Choi, Ho-Bin;Han, Youn-Hee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.05a
    • /
    • pp.447-450
    • /
    • 2021
  • 시뮬레이션을 비롯한 많은 다중 에이전트 환경에서는 중앙 집중 훈련 및 분산 수행(centralized training with decentralized execution; CTDE) 방식이 활용되고 있다. CTDE 방식 하에서 중앙 집중 훈련 및 분산 수행 환경에서의 다중 에이전트 학습을 위한 상태 행동 가치 기반(state-action value; Q-value) 다중 에이전트 알고리즘들에 대한 많은 연구가 이루어졌다. 이러한 알고리즘들은 Independent Q-learning (IQL)이라는 강력한 벤치 마크 알고리즘에서 파생되어 다중 에이전트의 공동의 상태 행동 가치의 분해(Decomposition) 문제에 대해 집중적으로 연구되었다. 본 논문에서는 앞선 연구들에 관한 알고리즘들에 대한 분석과 실용적이고 일반적인 도메인에서의 실험 분석을 통해 검증한다.

Multi-Agent Reinforcement Learning-based Behavior Control of Parcel Sortation System (소포물 분류 시스템의 다중 에이전트 강화 학습 기반 행동 제어)

  • Choi, Ho-Bin;Kim, Ju-Bong;Hwang, Gyu-Young;Han, Youn-Hee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.11a
    • /
    • pp.1034-1035
    • /
    • 2020
  • 인공지능은 스스로 학습하며 기존 통계 분석보다 탁월한 분석 역량을 지니고 있어 스마트팩토리 혁신에 새로운 전기를 마련할 것으로 기대된다. 이를 증명하듯 스마트팩토리의 주요 분야인 공정 간 연계 제어, 전문가 공정 제어, 로봇 자동화 등에서 활발한 연구가 이어지고 있다. 본 논문에서는 소포물 분류 시스템에 전통적인 룰 기반의 제어 방식 대신 다중 에이전트 강화 학습 제어 방식을 설계 및 적용하여 효과적인 행동 제어가 가능함을 입증한다.

Evaluating SR-Based Reinforcement Learning Algorithm Under the Highly Uncertain Decision Task (불확실성이 높은 의사결정 환경에서 SR 기반 강화학습 알고리즘의 성능 분석)

  • Kim, So Hyeon;Lee, Jee Hang
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.11 no.8
    • /
    • pp.331-338
    • /
    • 2022
  • Successor representation (SR) is a model of human reinforcement learning (RL) mimicking the underlying mechanism of hippocampal cells constructing cognitive maps. SR utilizes these learned features to adaptively respond to the frequent reward changes. In this paper, we evaluated the performance of SR under the context where changes in latent variables of environments trigger the reward structure changes. For a benchmark test, we adopted SR-Dyna, an integration of SR into goal-driven Dyna RL algorithm in the 2-stage Markov Decision Task (MDT) in which we can intentionally manipulate the latent variables - state transition uncertainty and goal-condition. To precisely investigate the characteristics of SR, we conducted the experiments while controlling each latent variable that affects the changes in reward structure. Evaluation results showed that SR-Dyna could learn to respond to the reward changes in relation to the changes in latent variables, but could not learn rapidly in that situation. This brings about the necessity to build more robust RL models that can rapidly learn to respond to the frequent changes in the environment in which latent variables and reward structure change at the same time.

Earthwork Planning via Reinforcement Learning with Heterogeneous Construction Equipment (강화학습을 이용한 이종 장비 토목 공정 계획)

  • Ji, Min-Gi;Park, Jun-Keon;Kim, Do-Hyeong;Jung, Yo-Han;Park, Jin-Kyoo;Moon, Il-Chul
    • Journal of the Korea Society for Simulation
    • /
    • v.27 no.1
    • /
    • pp.1-13
    • /
    • 2018
  • Earthwork planning is one of the critical issues in a construction process management. For the construction process management, there are some different approaches such as optimizing construction with either mathematical methodologies or heuristics with simulations. This paper propose a simulated earthwork scenario and an optimal path for the simulation using a reinforcement learning. For reinforcement learning, we use two different Markov decision process, or MDP, formulations with interacting excavator agent and truck agent, sequenced learning, and independent learning. The simulation result shows that two different formulations can reach the optimal planning for a simulated earthwork scenario. This planning could be a basis for an automatic construction management.

Object Interaction Animation Using Imitation Learning and Motion Blending (모방학습과 모션 블렌딩을 이용한 객체 상호작용 애니메이션)

  • Jeong-Min-Shin;Sang-Won Han;Byeong-Seok Shin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.571-574
    • /
    • 2023
  • 애니메이션은 주어진 키프레임(key frame)에 맞추어 움직이기 때문에, 다른 객체와 상호작용할 때 상대편 물체의 위치나 방향을 애니메이션에 맞추어 변환해야 한다. 이 논문에서는 모방학습으로 애니메이션을 학습하고, 모션 블렌딩(motion blending) 기법으로 객체 간 상호작용을 학습하여 새로운 애니메이션을 생성하는 방법을 제안한다. 에이전트(agent)는 오브젝트의 상태를 관측하고 주어진 모션들을 블렌딩하는 방법으로 다양한 행동을 취하고 목적에 대한 보상을 받는다. 에이전트가 행동하는 과정에서 모션 블렌딩 비율에 대한 가중치를 계산하는 함수를 설계하고, 생성되는 애니메이션이 사람이 취할 수 있는 동작에 가깝도록 회전 각도 clamping 함수와 보상 시스템을 설계하여 반영한다. 모방학습 기반 모션 블렌딩 기법은 객체의 변화에 상호작용하는 애니메이션을 기존 강화학습 기반 애니메이션 생성 기법보다 적은 학습량으로 생성할 수 있음을 확인했다.

Web Information Search Using Reinforcement Learning (강화학습을 이용한 웹 정보 검색)

  • 정태진;장병탁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10b
    • /
    • pp.94-96
    • /
    • 2001
  • 현재 인터넷상에서 제공되고 있는 대부분의 서치엔진들은 정보소스에 접근해서 이를 가져오는 웹 로봇(webbot)이라고 불리우는 에이전트를 이용한다. 그런데 이런 웹 로봇들이 웹 문서를 검색하는 방법은 극히 단순하다. 물론 많은 정보를 가지고 오는 것에 초점이 맞추어져 있어서 정확도를 중시하지 않는 것에도 한 원인이 있다. 범용 검색엔진과는 달리 검색하는 영역을 축소하여 특정 주제에 관련된 정보만을 더 정확히 찾아주는 검색엔진의 필요성이 증가하고 있다. 이에 본 논문에서는 강화 학습 방법을 이용하여 웹 상에 존재하는 정보 중에서 특정 주제의 웹 페이지를 보다 더 정확히 찾는 방법을 제시한다. 강화 학습은 웹 상의 하이퍼링크를 따라가는 문제에 있어서 미래에 이로움을 주는 행동의 효용성을 측정하는데 있어서 이점을 보인다. 강화 학습을 이용하여 제시된 방법을 통한 실험에서는 일반적인 방법보다 더 적은 링크를 따라가고도 더 정확한 결과를 보였다.

  • PDF

The Design and Practice of Disaster Response RL Environment Using Dimension Reduction Method for Training Performance Enhancement (학습 성능 향상을 위한 차원 축소 기법 기반 재난 시뮬레이션 강화학습 환경 구성 및 활용)

  • Yeo, Sangho;Lee, Seungjun;Oh, Sangyoon
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.10 no.7
    • /
    • pp.263-270
    • /
    • 2021
  • Reinforcement learning(RL) is the method to find an optimal policy through training. and it is one of popular methods for solving lifesaving and disaster response problems effectively. However, the conventional reinforcement learning method for disaster response utilizes either simple environment such as. grid and graph or a self-developed environment that are hard to verify the practical effectiveness. In this paper, we propose the design of a disaster response RL environment which utilizes the detailed property information of the disaster simulation in order to utilize the reinforcement learning method in the real world. For the RL environment, we design and build the reinforcement learning communication as well as the interface between the RL agent and the disaster simulation. Also, we apply the dimension reduction method for converting non-image feature vectors into image format which is effectively utilized with convolution layer to utilize the high-dimensional and detailed property of the disaster simulation. To verify the effectiveness of our proposed method, we conducted empirical evaluations and it shows that our proposed method outperformed conventional methods in the building fire damage.