• 제목/요약/키워드: proximal policy optimization

검색결과 29건 처리시간 0.022초

2차원 사각주 주위 유동의 플라즈마 능동제어에 대한 연구 (Active control of flow around a 2D square cylinder using plasma actuators)

  • 파라스코비아 콜레소바;무스타파 요시프;임희창
    • 한국가시화정보학회지
    • /
    • 제22권2호
    • /
    • pp.44-54
    • /
    • 2024
  • This study investigates the effectiveness of using a plasma actuator for active control of turbulent flow around a finite square cylinder. The primary objective is to analyze the impact of plasma actuators on flow separation and wake region characteristics, which are critical for reducing drag and suppressing vortex-induced vibrations. Direct Numerical Simulation (DNS) was employed to explore the flow dynamics at various operational parameters, including different actuation frequencies and voltages. The proposed methodology employs a neural network trained using the Proximal Policy Optimization (PPO) algorithm to determine optimal control policies for plasma actuators. This network is integrated with a computational fluid dynamics (CFD) solver for real-time control. Results indicate that this deep reinforcement learning (DRL)-based strategy outperforms existing methods in controlling flow, demonstrating robustness and adaptability across various flow conditions, which highlights its potential for practical applications.

근접 정책 최적화 기반의 적 대공 방어 위협하 수리온 에이전트의 최적 기동경로 도출 연구 (Proximal Policy Optimization Reinforcement Learning based Optimal Path Planning Study of Surion Agent against Enemy Air Defense Threats)

  • 김재환;김종환
    • 한국시뮬레이션학회논문지
    • /
    • 제33권2호
    • /
    • pp.37-44
    • /
    • 2024
  • 한국형 헬기 개발사업의 성공적인 결과로 인하여 노후화된 UH-1및 500MD 헬기를 대체하는 수리온(Surion)에 대한 연구가 활발히 진행되고 있다. 특히, 높은 기동성을 보유한 수리온은 미래 전장에서의 병력수송 및 특수작전 등 다양한 임무를 수행할 것으로 예상되며 이를 지원하기 위한 저고도 전술기동 능력이 요구되고 있다. 그러나 수리온 운용시, 대공 위협 요소를 고려한 최적 저고도 전술기동에 대한 연구는 아직까지 미흡한 실정이다. 본 연구는 강화학습 기반의 알고리즘 중에 하나인 Proximal Policy Optimization(PPO) 알고리즘과 적 대공위협을 고려하여 수리온이 작전 목표지역까지 도달하도록 하는 저고도 상에서의 최적화된 기동 경로를 산출하는 방법론을 제안한다. 이를 위해, Unity 환경과 ML-Agents 라이브러리 상에서 실사화된 수리온 모델을 기초로 약 2×107 회의 강화학습을 진행하였고, 제안하는 방법을 적용하여 수리온의 최단시간 및 최소피해를 달성하는 최적 저고도 전술기동 경로를 산출하는 정책을 도출하였다. 그 결과, '최단 시간' 및 '최소 피해'라는 두 가지 기준을 충족하는 최적 경로가 도출되었다. 본 연구의 결과는 수리온 및 수리온 무인체계를 운용하는 다양한 작전에 활용되어 기동계획을 수립할 시 기동성, 작전성공율, 그리고 생존율을 예측하는데 보탬이 되기를 기대한다.

PGA: An Efficient Adaptive Traffic Signal Timing Optimization Scheme Using Actor-Critic Reinforcement Learning Algorithm

  • Shen, Si;Shen, Guojiang;Shen, Yang;Liu, Duanyang;Yang, Xi;Kong, Xiangjie
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권11호
    • /
    • pp.4268-4289
    • /
    • 2020
  • Advanced traffic signal timing method plays very important role in reducing road congestion and air pollution. Reinforcement learning is considered as superior approach to build traffic light timing scheme by many recent studies. It fulfills real adaptive control by the means of taking real-time traffic information as state, and adjusting traffic light scheme as action. However, existing works behave inefficient in complex intersections and they are lack of feasibility because most of them adopt traffic light scheme whose phase sequence is flexible. To address these issues, a novel adaptive traffic signal timing scheme is proposed. It's based on actor-critic reinforcement learning algorithm, and advanced techniques proximal policy optimization and generalized advantage estimation are integrated. In particular, a new kind of reward function and a simplified form of state representation are carefully defined, and they facilitate to improve the learning efficiency and reduce the computational complexity, respectively. Meanwhile, a fixed phase sequence signal scheme is derived, and constraint on the variations of successive phase durations is introduced, which enhances its feasibility and robustness in field applications. The proposed scheme is verified through field-data-based experiments in both medium and high traffic density scenarios. Simulation results exhibit remarkable improvement in traffic performance as well as the learning efficiency comparing with the existing reinforcement learning-based methods such as 3DQN and DDQN.

MAPPO 기반 CNN 하이퍼 파라미터 최적화 (MAPPO based Hyperparameter Optimization for CNN)

  • 마지흔;조인휘
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.446-447
    • /
    • 2022
  • 대부분의 머신러닝 및 딥러닝 모델의 경우 하이퍼 파라미터 선택은 모델의 성능에 큰 영향을 미친다. 따라서 전문가들은 작업을 수행하기 위해 모델을 구축할 때 하이퍼 파라미터 튜닝을 수행하는 데 상당한 시간을 소비해야 한다. Hyperparameter Optimization(HPO)을 해결하기 위한 알고리즘은 많지만 대부분의 방법은 검색을 수행하기 위해 각 epoch에서 실제 실험 결과를 필요로 한다. 따라서 HPO 검색을 위한 시간과 계산 지원을 줄이기 위해 본 논문에서는 Multi-agent Proximal Policy Optimization(MAPPO) 강화 학습 알고리즘을 제안한다. 2개의 이미지 분류 데이터 세트에 대한 실험 결과는 우리의 모델이 속도와 정확성에서 다른 기존 방법보다 우수하다는 것을 보여준다.

OpenAI Gym 환경에서 A3C와 PPO의 실험적 분석 (Experimental Analysis of A3C and PPO in the OpenAI Gym Environment)

  • 황규영;임현교;허주성;한연희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 춘계학술발표대회
    • /
    • pp.545-547
    • /
    • 2019
  • Policy Gradient 방식의 학습은 최근 강화학습 분야에서 많이 연구되고 있는 주제로, 본 논문에서는 강화학습을 적용시킬 수 있는 OpenAi Gym 의 'CartPole-v0' 와 'Pendulum-v0' 환경에서 Policy Gradient 방식의 Asynchronous Advantage Actor-Critic (A3C) 알고리즘과 Proximal Policy Optimization (PPO) 알고리즘의 학습 성능을 비교 분석한 결과를 제시한다. 딥러닝 모델 등 두 알고리즘이 동일하게 지닐 수 있는 조건들은 가능한 동일하게 맞추면서 Episode 진행에 따른 Score 변화 과정을 실험하였다. 본 실험을 통해서 두 가지 서로 다른 환경에서 PPO 가 A3C 보다 더 나은 성능을 보임을 확인하였다.

매치 3 게임 플레이를 위한 PPO 알고리즘을 이용한 강화학습 에이전트의 설계 및 구현 (Design and Implementation of Reinforcement Learning Agent Using PPO Algorithim for Match 3 Gameplay)

  • 박대근;이완복
    • 융합정보논문지
    • /
    • 제11권3호
    • /
    • pp.1-6
    • /
    • 2021
  • 매치 3 퍼즐 게임들은 주로 MCTS(Monte Carlo Tree Search) 알고리즘을 사용하여 자동 플레이를 구현하였지만 MCTS의 느린 탐색 속도로 인해 MCTS와 DNN(Deep Neural Network)을 함께 적용하거나 강화학습으로 인공지능을 구현하는 것이 일반적인 경향이다. 본 연구에서는 매치 3 게임 개발에 주로 사용되는 유니티3D 엔진과 유니티 개발사에서 제공해주는 머신러닝 SDK를 이용하여 PPO(Proximal Policy Optimization) 알고리즘을 적용한 강화학습 에이전트를 설계 및 구현하여, 그 성능을 확인해본 결과, 44% 정도 성능이 향상되었음을 확인하였다. 실험 결과 에이전트가 게임 규칙을 배우고 실험이 진행됨에 따라 더 나은 전략적 결정을 도출 해 낼 수 있는 것을 확인할 수 있었으며 보통 사람들보다 퍼즐 게임을 더 잘 수행하는 결과를 확인하였다. 본 연구에서 설계 및 구현한 에이전트가 일반 사람들보다 더 잘 플레이하는 만큼, 기계와 인간 플레이 수준 사이의 간극을 조절하여 게임의 레벨 디지인에 적용된다면 향후 빠른 스테이지 개발에 도움이 될 것으로 기대된다.

강화학습을 이용한 포트폴리오 투자 프로세스 최적화에 대한 연구 (Reinforcement learning portfolio optimization based on portfolio theory)

  • 손형진;임동휘;한영우
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.961-962
    • /
    • 2023
  • 포트폴리오 구성문제는 과거부터 현재까지 많은 연구가 이루어지고 있다. 현재는 강화학습을 통해 포트폴리오를 구성하는 연구가 많이 진행되고있다. 포트폴리오를 구성함에 있어 종목선택과 각 종목을 얼만큼 투자할 것인지는 둘 다 중요한 문제이다. 본 연구에서는 과거부터 많이 사용해오던 방식을 차용하여 강화학습 방법과 접목시켰고 이를 통해 설명력이 높은 모델을 만들려고 노력하였다. 강화학습에 사용한 모델은 PPO(Proximal Policy Optimization)을 기본으로 하였고 인공신경망은 LSTM을 활용하였다. 실험결과 실험 기간 동안(2023년 3월 30일 부터 108 영업일 까지)의 코스피 수익률은 5%인데 반해 본 연구에서 제시한 모델의 수익률은 평균 약 9%를 기록했다.

A reinforcement learning-based network path planning scheme for SDN in multi-access edge computing

  • MinJung Kim;Ducsun Lim
    • International journal of advanced smart convergence
    • /
    • 제13권2호
    • /
    • pp.16-24
    • /
    • 2024
  • With an increase in the relevance of next-generation integrated networking environments, the need to effectively utilize advanced networking techniques also increases. Specifically, integrating Software-Defined Networking (SDN) with Multi-access Edge Computing (MEC) is critical for enhancing network flexibility and addressing challenges such as security vulnerabilities and complex network management. SDN enhances operational flexibility by separating the control and data planes, introducing management complexities. This paper proposes a reinforcement learning-based network path optimization strategy within SDN environments to maximize performance, minimize latency, and optimize resource usage in MEC settings. The proposed Enhanced Proximal Policy Optimization (PPO)-based scheme effectively selects optimal routing paths in dynamic conditions, reducing average delay times to about 60 ms and lowering energy consumption. As the proposed method outperforms conventional schemes, it poses significant practical applications.

Flexible operation and maintenance optimization of aging cyber-physical energy systems by deep reinforcement learning

  • Zhaojun Hao;Francesco Di Maio;Enrico Zio
    • Nuclear Engineering and Technology
    • /
    • 제56권4호
    • /
    • pp.1472-1479
    • /
    • 2024
  • Cyber-Physical Energy Systems (CPESs) integrate cyber and hardware components to ensure a reliable and safe physical power production and supply. Renewable Energy Sources (RESs) add uncertainty to energy demand that can be dealt with flexible operation (e.g., load-following) of CPES; at the same time, scenarios that could result in severe consequences due to both component stochastic failures and aging of the cyber system of CPES (commonly overlooked) must be accounted for Operation & Maintenance (O&M) planning. In this paper, we make use of Deep Reinforcement Learning (DRL) to search for the optimal O&M strategy that, not only considers the actual system hardware components health conditions and their Remaining Useful Life (RUL), but also the possible accident scenarios caused by the failures and the aging of the hardware and the cyber components, respectively. The novelty of the work lies in embedding the cyber aging model into the CPES model of production planning and failure process; this model is used to help the RL agent, trained with Proximal Policy Optimization (PPO) and Imitation Learning (IL), finding the proper rejuvenation timing for the cyber system accounting for the uncertainty of the cyber system aging process. An application is provided, with regards to the Advanced Lead-cooled Fast Reactor European Demonstrator (ALFRED).

Application of reinforcement learning to fire suppression system of an autonomous ship in irregular waves

  • Lee, Eun-Joo;Ruy, Won-Sun;Seo, Jeonghwa
    • International Journal of Naval Architecture and Ocean Engineering
    • /
    • 제12권1호
    • /
    • pp.910-917
    • /
    • 2020
  • In fire suppression, continuous delivery of water or foam to the fire source is essential. The present study concerns fire suppression in a ship under sea condition, by introducing reinforcement learning technique to aiming of fire extinguishing nozzle, which works in a ship compartment with six degrees of freedom movement by irregular waves. The physical modeling of the water jet and compartment motion was provided using Unity 3D engine. In the reinforcement learning, the change of the nozzle angle during the scenario was set as the action, while the reward is proportional to the ratio of the water particle delivered to the fire source area. The optimal control of nozzle aiming for continuous delivery of water jet could be derived. Various algorithms of reinforcement learning were tested to select the optimal one, the proximal policy optimization.