• 제목/요약/키워드: 멀티 에이 전트 강화학습

검색결과 20건 처리시간 0.024초

플레이 수준 조절이 가능한 강화학습 기반 카드형 대전 게임 에이전트 (Card Battle Game Agent Based on Reinforcement Learning with Play Level Control)

  • 이용철;이칠우
    • 스마트미디어저널
    • /
    • 제13권2호
    • /
    • pp.32-43
    • /
    • 2024
  • 게임 플레이를 위한 행동 주체인 에이전트는 게임 만족도를 높일 수 있는 중요한 요소이다. 하지만 다양한 게임 난이도와 게임 환경, 여러 플레이어를 위한 게임 에이전트 개발에는 많은 시간과 노력이 필요하다. 또한 캐릭터 추가나 업데이트와 같은 게임 환경 변화가 일어나면 새로운 게임 에이전트의 개발이 필요하고, 개발 난이도는 점차 높아진다는 단점이 존재한다. 이와 함께 다양한 플레이어의 수준에 맞는 세분화된 게임 에이전트 역시 중요하다. 단순히 강한 게임 에이전트보다는 세분화된 수준의 게임 플레이가 가능한 게임 에이전트가 활용성이 높고, 플레이어에 대한 만족도를 높일 수 있기 때문이다. 본 논문에서는 카드형 대전 게임을 대상으로 빠른 게임 에이전트 학습과 세분화된 플레이 수준 조절이 가능한 방법을 제안한다. 제안된 방법은 먼저 행동 구성에 대한 높은 자유도와 멀티 에이전트 환경에서의 빠른 학습을 위해 정책(Policy) 기반 분산형 강화학습 방법 중 하나인 IMPALA를 적용한다. 세분화된 플레이 수준 조절은 Temperature-Softmax를 통해 얻은 행동별 확률 값의 샘플링을 통해 수행한다. 논문에서는 Temperature 값의 증가에 따라 게임 에이전트의 플레이 수준이 낮아지는 결과와 이 수치를 다변화하여 손쉽게 다양한 플레이 수준 조절이 가능함을 확인하였다.

학습기법을 이용한 멀티에이전트 시스템 개발에 관한 연구 (A Study on for Multi-Agent System Development using Learning Method)

  • 이향란;박성수;이말례
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 추계학술발표논문집 (상)
    • /
    • pp.597-600
    • /
    • 2001
  • 멀티에이전트 시스템은 분산적이고 개방적인 인터넷 환경에 잘 부합된다. 멀티 에이전트 시스템에서는 각 에이전트들이 자신의 목적을 위해 행동하기 때문에 에이전트간 충돌이 발생하는 경우에 조정을 통해 협력할 수 있어야 한다. 그러나 기존의 멀티 에이전트 시스템에서의 에이전트 간 협력 방법에 관한 연구 방법들은 동적 환경에서 서로 다른 목적을 갖는 에이전트간의 협동 문제를 올바로 해결할 수 없다는 문제가 있었다. 본 논문에서는 신경망과 강화학습을 이용하여 목적 패턴을 정확히 결정할 수 없는 복잡하고 동적인 환경에 멀티 에이전트의 시스템 모델을 제안한다.

  • PDF

Cooperative Multi-agent Reinforcement Learning on Sparse Reward Battlefield Environment using QMIX and RND in Ray RLlib

  • Minkyoung Kim
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권1호
    • /
    • pp.11-19
    • /
    • 2024
  • 멀티에이전트는 전장 교전 상황, 무인 운송 차량 등 다양한 실제 협동 환경에 사용될 수 있다. 전장 교전 상황에서는 도메인 정보의 제한으로 즉각적인 보상(Dense Reward) 설계의 어려움이 있어 명백한 희소 보상(Sparse Reward)으로 학습되는 상황을 고려해야 한다. 본 논문에서는 전장 교전 상황에서의 아군 에이전트 간 협업 가능성을 확인하며, 희소 보상 환경인 Multi-Robot Warehouse Environment(RWARE)를 활용하여 유사한 문제와 평가 기준을 정의하고, 강화학습 라이브러리인 Ray RLlib의 QMIX 알고리즘을 사용하여 학습 환경을 구성한다. 정의한 문제에 대해 QMIX의 Agent Network를 개선하고 Random Network Distillation(RND)을 적용한다. 이를 통해 에이전트의 부분 관측값에 대한 패턴과 시간 특징을 추출하고, 에이전트의 내적 보상(Intrinsic Reward)을 통해 희소 보상 경험 획득 개선이 가능함을 실험을 통해 확인한다.

다중 에이전트 강화학습 기반 특징 선택에 대한 연구 (Study for Feature Selection Based on Multi-Agent Reinforcement Learning)

  • 김민우;배진희;왕보현;임준식
    • 디지털융복합연구
    • /
    • 제19권12호
    • /
    • pp.347-352
    • /
    • 2021
  • 본 논문은 다중 에이전트 강화학습 방식을 사용하여 입력 데이터로부터 분류에 효과적인 특징 집합을 찾아내는 방식을 제안한다. 기계 학습 분야에 있어서 분류에 적합한 특징들을 찾아내는 것은 매우 중요하다. 데이터에는 수많은 특징들이 존재할 수 있으며, 여러 특징들 중 일부는 분류나 예측에 효과적일 수 있지만 다른 특징들은 잡음 역할을 함으로써 올바른 결과를 생성하는 데에 오히려 악영향을 줄 수 있다. 기계 학습 문제에서 분류나 예측 정확도를 높이기 위한 특징 선택은 매우 중요한 문제 중 하나이다. 이러한 문제를 해결하기 위해 강화학습을 통한 특징 선택 방법을 제시한다. 각각의 특징들은 하나의 에이전트를 가지게 되며, 이 에이전트들은 특징을 선택할 것인지 말 것인지에 대한 여부를 결정한다. 에이전트들에 의해 선택된 특징들과 선택되지 않은 특징들에 대해서 각각 보상을 구한 뒤, 보상에 대한 비교를 통해 에이전트의 Q-value 값을 업데이트 한다. 두 하위 집합에 대한 보상 비교는 에이전트로 하여금 자신의 행동이 옳은지에 대한 판단을 내릴 수 있도록 도와준다. 이러한 과정들을 에피소드 수만큼 반복한 뒤, 최종적으로 특징들을 선별한다. 이 방법을 통해 Wisconsin Breast Cancer, Spambase, Musk, Colon Cancer 데이터 세트에 적용한 결과, 각각 0.0385, 0.0904, 0.1252, 0.2055의 정확도 향상을 보여주었으며, 최종적으로 0.9789, 0.9311, 0.9691, 0.9474의 분류 정확도를 보여주었다. 이는 우리가 제안한 방법이 분류에 효과적인 특징들을 잘 선별하고 분류에 대한 정확도를 높일 수 있음을 보여준다.

학습기법을 이용한 멀티 에이전트 시스템 자동 조정 모델 (The Automatic Coordination Model for Multi-Agent System Using Learning Method)

  • 이말례;김상근
    • 정보처리학회논문지B
    • /
    • 제8B권6호
    • /
    • pp.587-594
    • /
    • 2001
  • 멀티 에이전트 시스템은 분산적이고 개방적인 인터넷 환경에 잘 부합된다. 멀티 에이전트 시스템에서는 각 에이전트들이 자신의 목적을 위해 행동하기 때문에 에이전트간 충돌이 발생하는 경우에 조정을 통해 협력할 수 있어야 한다. 그러나 기존의 멀티 에이전트 시스템에서의 에이전트 간 협력 방법에 관한 연구 방법들은 동적 환경에서 서로 다른 목적을 갖는 에이전트간의 협동 문제를 올바로 해결할 수 없다는 문제가 있었다. 본 논문에서는 신경망과 강화학습을 이용하여 목적 패턴을 정확히 결정할 수 없는 복잡하고 동적인 환경하에서 멀티 에이전트의 자동조정 모델을 제안한다. 이를 위해 복잡한 환경과 다양한 행동을 갖는 멀티 에이전트간의 경쟁 실험을 통해 멀티 에이전트들의 행동의 영향을 분석 평가하여 제안한 방법이 타당함을 보였다.

  • PDF

강화학습을 이용한 멀티 에이전트 시스템의 자동 협력 조정 모델 (An Automatic Cooperative coordination Model for the Multiagent System using Reinforcement Learning)

  • 정보윤;윤소정;오경환
    • 인지과학
    • /
    • 제10권1호
    • /
    • pp.1-11
    • /
    • 1999
  • 최근 에이전트 기반 시스템 기술은 소프트웨어 시스템의 개념화, 설계, 구현을 위한 새로운 패러다임을 제공하며 많은 기대를 받아왔다. 특히 멀티 에이전트 시스템은 분산적이고 개방적인 인터넷 환경에 잘 부합되는 특징을 가지고 있어서 많은 연구가 진행되고 있다. 멀티 에이전트 시스템에서는 각 에이전트들이 자신의 목적을 위해 행동하기 때문에 에이전트간 충돌이 발생하는 경우에 조정을 통해 협력할 수 있어야 한다. 그러나 기존의 멀티 에이전트 시스템에서의 에이전트 간 협력 방법에 관한 연구 방법들은 동적 환경에서 서로 다른 목적을 갖는 에이전트간의 협동 문제를 올바로 해결할 수 없다는 문제가 있었다. 본 논문에서는 강화학습을 이용한 자동 역할 조정 방법을 통하여 에이전트가 처한 동적 환경에서 서로 다른 목적을 갖는 에이전트간의 협력 문제를 해결한다. 이를 위하여 멀티 에이전트 시스템 분야의 전통적인 문제인 추적 문제에 동적 환경과 서로 다른 목표를 갖는 에이전트들을 모델 링 하여, 두 가지 수정된 추적 문제를 제안하고 이 문제의 해결을 통하여 제안한 방법이 타당함을 보였다.

  • PDF

A Study of Collaborative and Distributed Multi-agent Path-planning using Reinforcement Learning

  • Kim, Min-Suk
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권3호
    • /
    • pp.9-17
    • /
    • 2021
  • 동적 시스템 환경에서 지능형 협업 자율 시스템을 위한 기계학습 기반의 다양한 방법들이 연구 및 개발되고 있다. 본 연구에서는 분산 노드 기반 컴퓨팅 방식의 자율형 다중 에이전트 경로 탐색 방법을 제안하고 있으며, 지능형 학습을 통한 시스템 최적화를 위해 강화학습 방법을 적용하여 다양한 실험을 진행하였다. 강화학습 기반의 다중 에이전트 시스템은 에이전트의 연속된 행동에 따른 누적 보상을 평가하고 이를 학습하여 정책을 개선하는 지능형 최적화 기계학습 방법이다. 본 연구에서 제안한 방법은 강화학습 기반 다중 에이전트 최적화 경로 탐색 성능을 높이기 위해 학습 초기 경로 탐색 방법을 개선한 최적화 방법을 제안하고 있다. 또한, 분산된 다중 목표를 구성하여 에이전트간 정보 공유를 이용한 학습 최적화를 시도하였으며, 비동기식 에이전트 경로 탐색 기능을 추가하여 실제 분산 환경 시스템에서 일어날 수 있는 다양한 문제점 및 한계점에 대한 솔루션을 제안하고자 한다.

평균 필드 게임 기반의 강화학습을 통한 무기-표적 할당 (Mean Field Game based Reinforcement Learning for Weapon-Target Assignment)

  • 신민규;박순서;이단일;최한림
    • 한국군사과학기술학회지
    • /
    • 제23권4호
    • /
    • pp.337-345
    • /
    • 2020
  • The Weapon-Target Assignment(WTA) problem can be formulated as an optimization problem that minimize the threat of targets. Existing methods consider the trade-off between optimality and execution time to meet the various mission objectives. We propose a multi-agent reinforcement learning algorithm for WTA based on mean field game to solve the problem in real-time with nearly optimal accuracy. Mean field game is a recent method introduced to relieve the curse of dimensionality in multi-agent learning algorithm. In addition, previous reinforcement learning models for WTA generally do not consider weapon interference, which may be critical in real world operations. Therefore, we modify the reward function to discourage the crossing of weapon trajectories. The feasibility of the proposed method was verified through simulation of a WTA problem with multiple targets in realtime and the proposed algorithm can assign the weapons to all targets without crossing trajectories of weapons.

SDN에서 심층강화학습 기반 라우팅 알고리즘 (A Routing Algorithm based on Deep Reinforcement Learning in SDN)

  • 이성근
    • 한국전자통신학회논문지
    • /
    • 제16권6호
    • /
    • pp.1153-1160
    • /
    • 2021
  • 본 논문은 소프트웨어 정의 네트워크에서 심층강화학습을 활용하여 최적의 경로를 결정하는 라우팅 알고리즘을 제안한다. 학습을 위한 심층강화학습 모델은 DQN 을 기반으로 하고, 입력은 현재 네트워크 상태, 발신지, 목적지 노드이고, 출력은 발신지에서 목적지까지의 경로 리스트를 반환한다. 라우팅 작업을 이산 제어 문제로 정의하며, 라우팅을 위한 서비스 품질 파라미터는 지연, 대역폭, 손실률을 고려하였다. 라우팅 에이전트는 사용자의 서비스 품질 프로파일에 따라 적절한 서비스 등급으로 분류하고, SDN에서 수집된 현재 네트워크 상태로부터 각 링크 별로 제공할 수 있는 서비스 등급을 변환한다. 이러한 변환된 정보를 토대로 발신지에서부터 목적지까지 요구되는 서비스 등급을 만족시키는 경로를 선택하도록 학습을 한다. 시뮬레이션 결과는 제안한 알고리즘이 일정한 에피소드를 진행하게 되면 올바른 경로를 선택하게 되고, 학습이 성공적으로 수행됨을 나타냈다.

멀티모달 맥락정보 융합에 기초한 다중 물체 목표 시각적 탐색 이동 (Multi-Object Goal Visual Navigation Based on Multimodal Context Fusion)

  • 최정현;김인철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권9호
    • /
    • pp.407-418
    • /
    • 2023
  • MultiOn(Multi-Object Goal Visual Navigation)은 에이전트가 미지의 실내 환경 내 임의의 위치에 놓인 다수의 목표 물체들을 미리 정해준 일정한 순서에 따라 찾아가야 하는 매우 어려운 시각적 탐색 이동 작업이다. MultiOn 작업을 위한 기존의 모델들은 행동 선택을 위해 시각적 외관 지도나 목표 지도와 같은 단일 맥락 지도만을 이용할 뿐, 다양한 멀티모달 맥락정보에 관한 종합적인 관점을 활용할 수 없다는 한계성을 가지고 있다. 이와 같은 한계성을 극복하기 위해, 본 논문에서는 MultiOn 작업을 위한 새로운 심층 신경망 기반의 에이전트 모델인 MCFMO(Multimodal Context Fusion for MultiOn tasks)를 제안한다. 제안 모델에서는 입력 영상의 시각적 외관 특징외에 환경 물체의 의미적 특징, 목표 물체 특징도 함께 포함한 멀티모달 맥락 지도를 행동 선택에 이용한다. 또한, 제안 모델은 점-단위 합성곱 신경망 모듈을 이용하여 3가지 서로 이질적인 맥락 특징들을 효과적으로 융합한다. 이 밖에도 제안 모델은 효율적인 이동 정책 학습을 유도하기 위해, 목표 물체의 관측 여부와 방향, 그리고 거리를 예측하는 보조 작업 학습 모듈을 추가로 채용한다. 본 논문에서는 Habitat-Matterport3D 시뮬레이션 환경과 장면 데이터 집합을 이용한 다양한 정량 및 정성 실험들을 통해, 제안 모델의 우수성을 확인하였다.