• Title/Summary/Keyword: multi-agent learning

검색결과 112건 처리시간 0.029초

ACS & 방향벡터 알고리즘을 이용한 비 대화형 멀티에이전트 전략에 관한 연구 (A research on non-interactive multi agents by ACS & Direction vector algorithm)

  • 김현;윤석현;정태충
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권12호
    • /
    • pp.11-18
    • /
    • 2010
  • 본 논문에서는 비대화형 에이전트(독립에이전트)를 바탕으로 멀티 에이전트 연구의 대표적 실험 모델인 먹이추적문제(prey pursuit problem)의 해결에 대한 전략을 제안하고 있다. 먹이추적문제는 가상 격자로 이루어진 공간 내에서 4개의 멀티 에이전트가 1개의 먹이(목표)를 포획하는 실험이다. 이것은 오래전부터 대화형 에이전트, 비대화형 에이전트로 구분되어 연구 되어왔으며 우리는 비대화형 에이전트를 이용하여 문제의 새로운 해법을 찾고자 하였다. 그리고 기존의 제한된 환경과는 전혀 다른 순환구조형 격자 공간에서 ACS를 이용한 방향 벡터 알고리즘을 통해 비대화형 전략의 새로운 해법을 제안할 수 있었다. 에이전트들은 개미의 습성을 응용한 ACS를 이용하여 학습을 하고 목표인 먹이는 에이전트의 학습 속도를 증가시키는 환경변수를 이용하여 이동방향과 경로를 결정하게 된다. 이전에 제기되었던 에이전트간의 정보교환(대화형 에이전트)방식에서 벗어나 비 정보교환(비대화형 에이전트) 방식을 새롭게 적용하여 이를 해결할 수 있는 해법을 찾을 수 있었다는 것에 기존의 다른 멀티에이전트 연구와는 차별성이 있다.

The Application of Industrial Inspection of LED

  • 왕숙;정길도
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2009년도 정보 및 제어 심포지움 논문집
    • /
    • pp.91-93
    • /
    • 2009
  • In this paper, we present the Q-learning method for adaptive traffic signal control on the basis of In this paper, we present the Q-learning method for adaptive traffic signal control on the basis of multi-agent technology. The structure is composed of sixphase agents and one intersection agent. Wireless communication network provides the possibility of the cooperation of agents. As one kind of reinforcement learning, Q-learning is adopted as the algorithm of the control mechanism, which can acquire optical control strategies from delayed reward; furthermore, we adopt dynamic learning method instead of static method, which is more practical. Simulation result indicates that it is more effective than traditional signal system.

  • PDF

A Navigation System for Mobile Robot

  • 장원량;정길도
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2009년도 정보 및 제어 심포지움 논문집
    • /
    • pp.118-120
    • /
    • 2009
  • In this paper, we present the Q-learning method for adaptive traffic signal control on the basis of multi-agent technology. The structure is composed of sixphase agents and one intersection agent. Wireless communication network provides the possibility of the cooperation of agents. As one kind of reinforcement learning, Q-learning is adopted as the algorithm of the control mechanism, which can acquire optical control strategies from delayed reward; furthermore, we adopt dynamic learning method instead of static method, which is more practical. Simulation result indicates that it is more effective than traditional signal system.

  • PDF

C-COMA: 동적 다중 에이전트 환경을 위한 지속적인 강화 학습 모델 (C-COMA: A Continual Reinforcement Learning Model for Dynamic Multiagent Environments)

  • 정규열;김인철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권4호
    • /
    • pp.143-152
    • /
    • 2021
  • 다양한 실세계 응용 분야들에서 공동의 목표를 위해 여러 에이전트들이 상호 유기적으로 협력할 수 있는 행동 정책을 배우는 것은 매우 중요하다. 이러한 다중 에이전트 강화 학습(MARL) 환경에서 기존의 연구들은 대부분 중앙-집중형 훈련과 분산형 실행(CTDE) 방식을 사실상 표준 프레임워크로 채택해왔다. 하지만 이러한 다중 에이전트 강화 학습 방식은 훈련 시간 동안에는 경험하지 못한 새로운 환경 변화가 실전 상황에서 끊임없이 발생할 수 있는 동적 환경에서는 효과적으로 대처하기 어렵다. 이러한 동적 환경에 효과적으로 대응하기 위해, 본 논문에서는 새로운 다중 에이전트 강화 학습 체계인 C-COMA를 제안한다. C-COMA는 에이전트들의 훈련 시간과 실행 시간을 따로 나누지 않고, 처음부터 실전 상황을 가정하고 지속적으로 에이전트들의 협력적 행동 정책을 학습해나가는 지속 학습 모델이다. 본 논문에서는 대표적인 실시간 전략게임인 StarcraftII를 토대로 동적 미니게임을 구현하고 이 환경을 이용한 다양한 실험들을 수행함으로써, 제안 모델인 C-COMA의 효과와 우수성을 입증한다.

A Multi-Agent Simulation for the Electricity Spot Market

  • Oh, Hyungna
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2003년도 춘계학술대회
    • /
    • pp.255-263
    • /
    • 2003
  • A multi-agent system designed to represent newly deregulated electricity markets in the USA is aimed at testing the capability of the multi-agent model to replicate the observed price behavior in the wholesale market and developing a smart business intelligence which quickly searches the optimum offer strategy responding to the change in market environments. Simulation results show that the optimum offer strategy is to withhold expensive generating units and submit relatively low offers when demand is low, regardless of firm size; the optimum offer strategy during a period of high demand is either to withhold capacity or speculate for a large firm, while it is to be a price taker a small firm: all in all, the offer pattern observed in the market is close to the optimum strategy. From the firm's perspective, the demand-side participation as well as the intense competition dramatically reduces the chance of high excess profit.

  • PDF

협력학습 지원을 위한 에이전트 간의 의사소통 데이터 모델에 관한 연구 (The Study about Agent to Agent Communication Data Model for e-Learning)

  • 한태인
    • 전자공학회논문지CI
    • /
    • 제48권3호
    • /
    • pp.36-45
    • /
    • 2011
  • 소셜러닝의 대표적 학습인 협력학습에서의 에이전트란 학습자에게 현황이든, 환경이든, 과제이든 설명해 줄 수 있거나, 보편적이고 일반적인 방법으로 독립적인 기능을 수행할 수 있는 것이다, 이를 위해서는 에이전트 사이에서의 의사소통에 관한 정보기술 표준화 방법이 요구된다. 본 연구는 협력학습에서 사용되는 각종 에이전트들의 의사소통에 관한 데이터 모델에 관한 기술을 제시한다. 따라서 이러닝 협력학습 환경을 지원하는 많은 에이전트들의 유형을 파악하고, 이 에이전트들 간의 상호 의사소통에 관한 규칙을 갖는 데이터 모델을 설계하여 그 요소들을 정의하고자 한다. 이렇게 제시된 표준화된 데이터 모델을 기반으로 하는 다중 에이전트 시스템은 여러 응용 에이전트가 독립된 프로세스로 활동할 수 있도록 정의된 통신 데이터모델에 의해 메시지 상호 교환이 가능해진다. 본 연구는 소셜러닝에서 주를 이루는 학습방법인 협력학습 중에서 다양한 에이전트를 활용하는 경우 이를 지원하는 에이전트간의 통신에 관한 의사소통 모델 응용을 통해 원활한 협력학습이 구현되도록 기여할 것으로 기대한다.

매크로 행동을 이용한 내시 Q-학습의 성능 향상 기법 (A Performance Improvement Technique for Nash Q-learning using Macro-Actions)

  • 성연식;조경은;엄기현
    • 한국멀티미디어학회논문지
    • /
    • 제11권3호
    • /
    • pp.353-363
    • /
    • 2008
  • 단일 에이전트 환경에서는 Q-학습의 학습 시간을 줄이기 위해서 학습결과를 전파시키거나 일렬의 행동을 패턴으로 만들어 학습한다. 다중 에이전트 환경에서는 동적인 환경과 다수의 에이전트 상태를 고려해야하기 때문에 학습에 필요한 시간이 단일 에이전트 환경보다 길어지게 된다. 이 논문에서는 단일 에이전트 환경에서 시간 단축을 위해서 유한개의 행동으로 정책을 만들어 학습하는 매크로 행동을 다중 에이전트 환경에 적합한 내시 Q-학습에 적용함으로써 다중 에이전트 환경에서 Q-학습 시간을 줄이고 성능을 높이는 방법을 제안한다. 실험에서는 다중 에이전트 환경에서 매크로 행동을 이용한 에이전트와 기본 행동만 이용한 에이전트의 내시 Q-학습 성능을 비교했다. 이 실험에서 네 개의 매크로 행동을 이용한 에이전트가 목표를 수행할 성공률이 기본 행동만 이용한 에이전트 보다 9.46% 높은 결과를 얻을 수 있었다. 매크로 행동은 기본 행동만을 이용해서 적합한 이동 행동을 찾아도 매크로 행동을 이용한 더 낳은 방법을 찾기 때문에 더 많은 Q-값의 변화가 발생되었고 전체 Q-값 합이 2.6배 높은 수치를 보였다. 마지막으로 매크로 행동을 이용한 에이전트는 약 절반의 행동 선택으로도 시작위치에서 목표위치까지 이동함을 보였다. 결국 에이전트는 다중 에이전트 환경에서 매크로 행동을 사용함으로써 성능을 향상시키고 목표위치까지 이동하는 거리를 단축해서 학습 속도를 향상시킨다.

  • PDF

지능로봇: 지능 에이전트를 기초로 한 접근방법 (Intelligent Robot Design: Intelligent Agent Based Approach)

  • 강진식
    • 한국지능시스템학회논문지
    • /
    • 제14권4호
    • /
    • pp.457-467
    • /
    • 2004
  • 본 논문에서는 로봇을 하나의 에이전트로 보고 로봇에 필요한 기능-환경인지, 지능, 행동-등을 부-에이전트로 하는 로봇 구조를 제안하였다. 각각의 부 에이전트들은 로봇 기능의 기초단위를 구성하는 마이크로 에이전트로 구성된다. 로봇의 제어 구조는 행위기반 반사행동 제어 형태와 행동 선택 에이전트로 구성되며, 행동 선택 에이전트에서의 행동 선택은 행동 우선순위, 수행성능, 강화학습에 의한 학습기능을 부가하였다. 제시된 로봇 구조는 다중 부-에이전트 구조로 각각의 기능에 대하여 지능을 부여하기 쉬우며 다중 로봇 제어를 위한 새로운 접근 방법이다. 제시된 로봇을 장애물을 회피와 chaotic한 탐색을 목표로 하여 모의실험을 수행하였으며 8bit 마이크로 콘트롤러를 이용하여 제작 실험하였다.

Aspect-based Sentiment Analysis of Product Reviews using Multi-agent Deep Reinforcement Learning

  • M. Sivakumar;Srinivasulu Reddy Uyyala
    • Asia pacific journal of information systems
    • /
    • 제32권2호
    • /
    • pp.226-248
    • /
    • 2022
  • The existing model for sentiment analysis of product reviews learned from past data and new data was labeled based on training. But new data was never used by the existing system for making a decision. The proposed Aspect-based multi-agent Deep Reinforcement learning Sentiment Analysis (ADRSA) model learned from its very first data without the help of any training dataset and labeled a sentence with aspect category and sentiment polarity. It keeps on learning from the new data and updates its knowledge for improving its intelligence. The decision of the proposed system changed over time based on the new data. So, the accuracy of the sentiment analysis using deep reinforcement learning was improved over supervised learning and unsupervised learning methods. Hence, the sentiments of premium customers on a particular site can be explored to other customers effectively. A dynamic environment with a strong knowledge base can help the system to remember the sentences and usage State Action Reward State Action (SARSA) algorithm with Bidirectional Encoder Representations from Transformers (BERT) model improved the performance of the proposed system in terms of accuracy when compared to the state of art methods.

QLGR: A Q-learning-based Geographic FANET Routing Algorithm Based on Multi-agent Reinforcement Learning

  • Qiu, Xiulin;Xie, Yongsheng;Wang, Yinyin;Ye, Lei;Yang, Yuwang
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권11호
    • /
    • pp.4244-4274
    • /
    • 2021
  • The utilization of UAVs in various fields has led to the development of flying ad hoc network (FANET) technology. In a network environment with highly dynamic topology and frequent link changes, the traditional routing technology of FANET cannot satisfy the new communication demands. Traditional routing algorithm, based on geographic location, can "fall" into a routing hole. In view of this problem, we propose a geolocation routing protocol based on multi-agent reinforcement learning, which decreases the packet loss rate and routing cost of the routing protocol. The protocol views each node as an intelligent agent and evaluates the value of its neighbor nodes through the local information. In the value function, nodes consider information such as link quality, residual energy and queue length, which reduces the possibility of a routing hole. The protocol uses global rewards to enable individual nodes to collaborate in transmitting data. The performance of the protocol is experimentally analyzed for UAVs under extreme conditions such as topology changes and energy constraints. Simulation results show that our proposed QLGR-S protocol has advantages in performance parameters such as throughput, end-to-end delay, and energy consumption compared with the traditional GPSR protocol. QLGR-S provides more reliable connectivity for UAV networking technology, safeguards the communication requirements between UAVs, and further promotes the development of UAV technology.