• 제목/요약/키워드: multi-agent Q-learning

검색결과 30건 처리시간 0.025초

Application of reinforcement learning to hyper-redundant system Acquisition of locomotion pattern of snake like robot

  • Ito, K.;Matsuno, F.
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2001년도 The Pacific Aisan Confrence On Intelligent Systems 2001
    • /
    • pp.65-70
    • /
    • 2001
  • We consider a hyper-redundant system that consists of many uniform units. The hyper-redundant system has many degrees of freedom and it can accomplish various tasks. Applysing the reinforcement learning to the hyper-redundant system is very attractive because it is possible to acquire various behaviors for various tasks automatically. In this paper we present a new reinforcement learning algorithm "Q-learning with propagation of motion". The algorithm is designed for the multi-agent systems that have strong connections. The proposed algorithm needs only one small Q-table even for a large scale system. So using the proposed algorithm, it is possible for the hyper-redundant system to learn the effective behavior. In this algorithm, only one leader agent learns the own behavior using its local information and the motion of the leader is propagated to another agents with time delay. The reward of the leader agent is given by using the whole system information. And the effective behavior of the leader is learned and the effective behavior of the system is acquired. We apply the proposed algorithm to a snake-like hyper-redundant robot. The necessary condition of the system to be Markov decision process is discussed. And the computer simulation of learning the locomotion is demonstrated. From the simulation results we find that the task of the locomotion of the robot to the desired point is learned and the winding motion is acquired. We can conclude that our proposed system and our analysis of the condition, that the system is Markov decision process, is valid.

  • PDF

다중 에이전트 강화학습 기반 특징 선택에 대한 연구 (Study for Feature Selection Based on Multi-Agent Reinforcement Learning)

  • 김민우;배진희;왕보현;임준식
    • 디지털융복합연구
    • /
    • 제19권12호
    • /
    • pp.347-352
    • /
    • 2021
  • 본 논문은 다중 에이전트 강화학습 방식을 사용하여 입력 데이터로부터 분류에 효과적인 특징 집합을 찾아내는 방식을 제안한다. 기계 학습 분야에 있어서 분류에 적합한 특징들을 찾아내는 것은 매우 중요하다. 데이터에는 수많은 특징들이 존재할 수 있으며, 여러 특징들 중 일부는 분류나 예측에 효과적일 수 있지만 다른 특징들은 잡음 역할을 함으로써 올바른 결과를 생성하는 데에 오히려 악영향을 줄 수 있다. 기계 학습 문제에서 분류나 예측 정확도를 높이기 위한 특징 선택은 매우 중요한 문제 중 하나이다. 이러한 문제를 해결하기 위해 강화학습을 통한 특징 선택 방법을 제시한다. 각각의 특징들은 하나의 에이전트를 가지게 되며, 이 에이전트들은 특징을 선택할 것인지 말 것인지에 대한 여부를 결정한다. 에이전트들에 의해 선택된 특징들과 선택되지 않은 특징들에 대해서 각각 보상을 구한 뒤, 보상에 대한 비교를 통해 에이전트의 Q-value 값을 업데이트 한다. 두 하위 집합에 대한 보상 비교는 에이전트로 하여금 자신의 행동이 옳은지에 대한 판단을 내릴 수 있도록 도와준다. 이러한 과정들을 에피소드 수만큼 반복한 뒤, 최종적으로 특징들을 선별한다. 이 방법을 통해 Wisconsin Breast Cancer, Spambase, Musk, Colon Cancer 데이터 세트에 적용한 결과, 각각 0.0385, 0.0904, 0.1252, 0.2055의 정확도 향상을 보여주었으며, 최종적으로 0.9789, 0.9311, 0.9691, 0.9474의 분류 정확도를 보여주었다. 이는 우리가 제안한 방법이 분류에 효과적인 특징들을 잘 선별하고 분류에 대한 정확도를 높일 수 있음을 보여준다.

QLGR: A Q-learning-based Geographic FANET Routing Algorithm Based on Multi-agent Reinforcement Learning

  • Qiu, Xiulin;Xie, Yongsheng;Wang, Yinyin;Ye, Lei;Yang, Yuwang
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권11호
    • /
    • pp.4244-4274
    • /
    • 2021
  • The utilization of UAVs in various fields has led to the development of flying ad hoc network (FANET) technology. In a network environment with highly dynamic topology and frequent link changes, the traditional routing technology of FANET cannot satisfy the new communication demands. Traditional routing algorithm, based on geographic location, can "fall" into a routing hole. In view of this problem, we propose a geolocation routing protocol based on multi-agent reinforcement learning, which decreases the packet loss rate and routing cost of the routing protocol. The protocol views each node as an intelligent agent and evaluates the value of its neighbor nodes through the local information. In the value function, nodes consider information such as link quality, residual energy and queue length, which reduces the possibility of a routing hole. The protocol uses global rewards to enable individual nodes to collaborate in transmitting data. The performance of the protocol is experimentally analyzed for UAVs under extreme conditions such as topology changes and energy constraints. Simulation results show that our proposed QLGR-S protocol has advantages in performance parameters such as throughput, end-to-end delay, and energy consumption compared with the traditional GPSR protocol. QLGR-S provides more reliable connectivity for UAV networking technology, safeguards the communication requirements between UAVs, and further promotes the development of UAV technology.

상태 행동 가치 기반 다중 에이전트 강화학습 알고리즘들의 비교 분석 실험 (Comparative Analysis of Multi-Agent Reinforcement Learning Algorithms Based on Q-Value)

  • 김주봉;최호빈;한연희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 춘계학술발표대회
    • /
    • pp.447-450
    • /
    • 2021
  • 시뮬레이션을 비롯한 많은 다중 에이전트 환경에서는 중앙 집중 훈련 및 분산 수행(centralized training with decentralized execution; CTDE) 방식이 활용되고 있다. CTDE 방식 하에서 중앙 집중 훈련 및 분산 수행 환경에서의 다중 에이전트 학습을 위한 상태 행동 가치 기반(state-action value; Q-value) 다중 에이전트 알고리즘들에 대한 많은 연구가 이루어졌다. 이러한 알고리즘들은 Independent Q-learning (IQL)이라는 강력한 벤치 마크 알고리즘에서 파생되어 다중 에이전트의 공동의 상태 행동 가치의 분해(Decomposition) 문제에 대해 집중적으로 연구되었다. 본 논문에서는 앞선 연구들에 관한 알고리즘들에 대한 분석과 실용적이고 일반적인 도메인에서의 실험 분석을 통해 검증한다.

다중 에이전트 환경에서 효율적인 강화학습 시스템 (Efficient Reinforcement Learning System in Multi-Agent Environment)

  • 홍정환;강진범;최중민
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (B)
    • /
    • pp.393-396
    • /
    • 2006
  • 강화학습은 환경과 상호작용하는 과정을 통하여 목표를 이루기 위한 전략을 학습하는 방법으로써 에이전트의 학습방법으로 많이 사용한다. 독립적인 에이전트가 아닌 상호 의사소통이 가능한 다중 에이전트 환경에서 에이전트의 학습정보를 서로 검색 및 공유가 가능하다면 환경이 거대하더라도 기존의 강화학습 보다 빠르게 학습이 이루어질 것이다. 하지만 아직 다중 에이전트 환경에서 학습 방법에 대한 연구가 미흡하여 학습정보의 검색과 공유에 대해 다양한 방법들이 요구되고 있다. 본 논문에서는 대상 에이전트 학습 정보와 주변 에이전트들의 학습 정보 사이에 편집거리를 비교하여 유사한 에이전트를 찾고 그 에이전트 정보를 강화학습 사전정보로 사용함으로써 학습속도를 향상시킨 ED+Q-Learning 시스템을 제안한다.

  • PDF

적대적 멀티 에이전트 환경에서 효율적인 강화 학습을 위한 정책 모델링 (Policy Modeling for Efficient Reinforcement Learning in Adversarial Multi-Agent Environments)

  • 권기덕;김인철
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제35권3호
    • /
    • pp.179-188
    • /
    • 2008
  • 멀티 에이전트 강화 학습에서 해결해야 할 중요한 문제는 자신의 작업 성능에 영향을 미칠 수 있는 다른 에이전트들이 존재하는 동적 환경에서 한 에이전트가 시행착오적 상호작용을 통해 어떻게 자신의 최적 행동 정책을 학습할 수 있느냐 하는 것이다. 멀티 에이전트 강화 학습을 위한 기존 연구들은 대부분 단일 에이전트 MDP 기반의 강화 학습기법들을 큰 변화 없이 그대로 적용하거나 비록 다른 에이전트에 관한 별도의 모델을 이용하더라도 다른 에이전트에 관해 요구되는 정보나 가정이 현실적이지 못하다는 한계점을 가지고 있다. 본 논문에서는 멀티 에이전트 강화 학습기술에 기초가 되는 기본 개념들을 정형화하고 이들을 기초로 기존 연구들의 특징과 한계점을 비교한다. 그리고 새로운 행동 정책 모델을 소개한 뒤, 이것을 이용한 강화 학습 방법을 설명한다. 본 논문에서 제안하는 멀티 에이전트 강화학습 방법은 상대 모델을 이용하는 기존의 멀티 에이전트 강화 학습 연구들에서 주로 시도되었던 상대 에이전트의 Q 평가 함수 모델 대신 상대 에이전트의 행동 정책 모델을 학습하며, 표현력은 풍부하나 학습에 시간과 노력이 많이 요구되는 유한 상태 오토마타나 마코프 체인과 같은 행동 정책 모델들에 비해 비교적 간단한 형태의 행동 정책 모델을 이용함으로써 학습의 효율성을 높였다. 또한, 본 논문에서는 대표적인 적대적 멀티 에이전트 환경인 고양이와 쥐게임을 소개하고, 이 게임을 테스베드삼아 비교 실험들을 수행하고 그 결과를 설명함으로써 본 논문에서 제안하는 정책 모델 기반의 멀티 에이전트 강화 학습의 효과를 분석해본다.

마이크로그리드에서 강화학습 기반 에너지 사용량 예측 기법 (Prediction Technique of Energy Consumption based on Reinforcement Learning in Microgrids)

  • 선영규;이지영;김수현;김수환;이흥재;김진영
    • 한국인터넷방송통신학회논문지
    • /
    • 제21권3호
    • /
    • pp.175-181
    • /
    • 2021
  • 본 논문은 단기 에너지 사용량 예측을 위해 인공지능 기반의 접근법에 대해 분석한다. 본 논문에서는 단기 에너지 사용량 예측 기술에 자주 활용되는 지도학습 알고리즘의 한계를 개선하기 위해 강화학습 알고리즘을 활용한다. 지도학습 알고리즘 기반의 접근법은 충분한 성능을 위해 에너지 사용량 데이터뿐만 아니라 contextual information이 필요하여 높은 복잡성을 가진다. 데이터와 학습모델의 복잡성을 개선하기 위해 다중 에이전트 기반의 심층 강화학습 알고리즘을 제안하여 에너지 사용량 데이터로만 에너지 사용량을 예측한다. 공개된 에너지 사용량 데이터를 통해 시뮬레이션을 진행하여 제안한 에너지 사용량 예측 기법의 성능을 확인한다. 제안한 기법은 이상점의 특징을 가지는 데이터를 제외하고 실제값과 유사한 값을 예측하는 것을 보여준다.

다중에이전트 행동기반의 강화학습에 관한 연구 (A Study on Reinforcement Learning of Behavior-based Multi-Agent)

  • 도현호;정태충
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (상)
    • /
    • pp.369-372
    • /
    • 2002
  • 다양한 특성들을 가지고 있는 멀티에이전트 시스템의 행동학습은 에이전트 설계에 많은 부담을 덜어준다. 특성들로부터 나오는 다양한 행동의 효과적인 학습은 에이전트들이 환경에 대한 자율성과 반응성을 높여준 수 있다. 행동학습은 model-based learning과 같은 교사학습보다는 각 상태를 바로 지각하여 학습하는 강화학습과 같은 비교사 학습이 효과적이다. 본 논문은 로봇축구환경에 에이전트들의 행동을 개선된 강화학습법인 Modular Q-learning을 적용하여 복잡한 상태공간을 효과적으로 나누어 에이전트들의 자율성과 반응성을 높일 수 있는 강화학습구조를 제안한다.

  • PDF

기계학습을 이용한 염화물 확산계수 예측모델 개발 (Development of Prediction Model of Chloride Diffusion Coefficient using Machine Learning)

  • 김현수
    • 한국공간구조학회논문집
    • /
    • 제23권3호
    • /
    • pp.87-94
    • /
    • 2023
  • Chloride is one of the most common threats to reinforced concrete (RC) durability. Alkaline environment of concrete makes a passive layer on the surface of reinforcement bars that prevents the bar from corrosion. However, when the chloride concentration amount at the reinforcement bar reaches a certain level, deterioration of the passive protection layer occurs, causing corrosion and ultimately reducing the structure's safety and durability. Therefore, understanding the chloride diffusion and its prediction are important to evaluate the safety and durability of RC structure. In this study, the chloride diffusion coefficient is predicted by machine learning techniques. Various machine learning techniques such as multiple linear regression, decision tree, random forest, support vector machine, artificial neural networks, extreme gradient boosting annd k-nearest neighbor were used and accuracy of there models were compared. In order to evaluate the accuracy, root mean square error (RMSE), mean square error (MSE), mean absolute error (MAE) and coefficient of determination (R2) were used as prediction performance indices. The k-fold cross-validation procedure was used to estimate the performance of machine learning models when making predictions on data not used during training. Grid search was applied to hyperparameter optimization. It has been shown from numerical simulation that ensemble learning methods such as random forest and extreme gradient boosting successfully predicted the chloride diffusion coefficient and artificial neural networks also provided accurate result.

AI World Cup 환경을 이용한 멀티 에이전트 기반 지능형 가상 축구 에이전트 구현 (Developing artificial football agents based upon multi-agent techniques in the AI world cup)

  • 이은후;성현아;정민지;이혜인;정진우;이의철;이지항
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.819-822
    • /
    • 2021
  • AI World Cup 환경은 다수 가상 에이전트들이 팀을 이뤄서 서로 상호작용하며 대전이 가능한 가상 축구 환경이다. 본 논문에서는 AI World Cup 환경에서 멀티 에이전트기반 학습/추론 기술을 사용하여 다양한 전략과 전술을 구사하는 가상 축구 에이전트 구현과 시뮬레이션 결과를 소개한다. 먼저, 역할을 바탕으로 협동하여 상대방과 대전할 수 있는 논리 기반 추론형 멀티 에이전트 기술이 적용된 Dynamic planning 축구 에이전트 9 세트를 구현하였다. 이후, 강화학습 에이전트 기반, 단일 에이전트를 조합한 Independent Q-Learning 방식의 학습형 축구 에이전트를 구현한 후, 이를 멀티 에이전트 강화학습으로 확장하여 역할 기반 전략 학습이 가능한 가상 축구 에이전트를 구현하고 시뮬레이션 하였다. 구현된 가상 축구 에이전트들 간 대전을 통해 승률을 확인하고, 전략의 우수성을 분석하였다. 시뮬레이션 예제는 다음에서 확인할 수 있다 (https://github.com/I-hate-Soccer/Simulation).