• 제목/요약/키워드: policy gradient

검색결과 73건 처리시간 0.029초

Deep Deterministic Policy Gradient 알고리즘을 응용한 자전거의 자율 주행 제어 (Autonomous control of bicycle using Deep Deterministic Policy Gradient Algorithm)

  • 최승윤;레 팜 투옌;정태충
    • 융합보안논문지
    • /
    • 제18권3호
    • /
    • pp.3-9
    • /
    • 2018
  • DDPG(Deep Deterministic Policy Gradient)알고리즘은 인공신경망과 강화학습을 사용하여 학습하는 알고리즘이다. 최근 많은 연구가 이루어지고 있는 강화학습과 관련된 연구 중에서도 DDPG 알고리즘은 오프폴리시로 학습하기 때문에 잘못된 행동이 누적되어 학습에 영향을 미치는 경우를 방지하는 장점이 있다. 본 연구에서는 DDPG 알고리즘을 응용하여 자전거를 자율주행 하도록 제어하는 실험을 진행하였다. 다양한 환경을 설정하여 시뮬레이션을 진행하였고 실험을 통해서 사용된 방법이 시뮬레이션 상에서 안정적으로 동작함을 보였다.

  • PDF

정책 기울기 값 강화학습을 이용한 적응적인 QoS 라우팅 기법 연구 (A Study of Adaptive QoS Routing scheme using Policy-gradient Reinforcement Learning)

  • 한정수
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권2호
    • /
    • pp.93-99
    • /
    • 2011
  • 본 논문에서는 강화학습(RL : Reinforcement Learning) 환경 하에서 정책 기울기 값 기법을 사용하는 적응적인 QoS 라우팅 기법을 제안하였다. 이 기법은 기존의 강화학습 환경 하에 제공하는 기법에 비해 기대 보상값의 기울기 값을 정책에 반영함으로써 빠른 네트워크 환경을 학습함으로써 보다 우수한 라우팅 성공률을 제공할 수 있는 기법이다. 이를 검증하기 위해 기존의 기법들과 비교 검증함으로써 그 우수성을 확인하였다.

수중운동체의 롤 제어를 위한 Deep Deterministic Policy Gradient 기반 강화학습 (Reinforcement Learning based on Deep Deterministic Policy Gradient for Roll Control of Underwater Vehicle)

  • 김수용;황연걸;문성웅
    • 한국군사과학기술학회지
    • /
    • 제24권5호
    • /
    • pp.558-568
    • /
    • 2021
  • The existing underwater vehicle controller design is applied by linearizing the nonlinear dynamics model to a specific motion section. Since the linear controller has unstable control performance in a transient state, various studies have been conducted to overcome this problem. Recently, there have been studies to improve the control performance in the transient state by using reinforcement learning. Reinforcement learning can be largely divided into value-based reinforcement learning and policy-based reinforcement learning. In this paper, we propose the roll controller of underwater vehicle based on Deep Deterministic Policy Gradient(DDPG) that learns the control policy and can show stable control performance in various situations and environments. The performance of the proposed DDPG based roll controller was verified through simulation and compared with the existing PID and DQN with Normalized Advantage Functions based roll controllers.

저가 Redundant Manipulator의 최적 경로 생성을 위한 Deep Deterministic Policy Gradient(DDPG) 학습 (Learning Optimal Trajectory Generation for Low-Cost Redundant Manipulator using Deep Deterministic Policy Gradient(DDPG))

  • 이승현;진성호;황성현;이인호
    • 로봇학회논문지
    • /
    • 제17권1호
    • /
    • pp.58-67
    • /
    • 2022
  • In this paper, we propose an approach resolving inaccuracy of the low-cost redundant manipulator workspace with low encoder and low stiffness. When the manipulators are manufactured with low-cost encoders and low-cost links, the robots can run into workspace inaccuracy issues. Furthermore, trajectory generation based on conventional forward/inverse kinematics without taking into account inaccuracy issues will introduce the risk of end-effector fluctuations. Hence, we propose an optimization for the trajectory generation method based on the DDPG (Deep Deterministic Policy Gradient) algorithm for the low-cost redundant manipulators reaching the target position in Euclidean space. We designed the DDPG algorithm minimizing the distance along with the jacobian condition number. The training environment is selected with an error rate of randomly generated joint spaces in a simulator that implemented real-world physics, the test environment is a real robotic experiment and demonstrated our approach.

Proximal Policy Optimization을 이용한 게임서버의 부하분산에 관한 연구 (A Study on Load Distribution of Gaming Server Using Proximal Policy Optimization)

  • 박정민;김혜영;조성현
    • 한국게임학회 논문지
    • /
    • 제19권3호
    • /
    • pp.5-14
    • /
    • 2019
  • 게임 서버는 분산 서버를 기본으로 하고 있다. 분산 게임서버는 서버의 작업 부하를 분산하기 위한 일련의 알고리즘에 의해 각 게임 서버의 부하를 일정하게 나누어서 클라이언트들의 요청에 대한 서버의 응답시간 및 서버의 가용성을 효율적으로 관리한다. 본 논문에서는 시뮬레이션 환경에서 기존 연구 방식인 Greedy 알고리즘과, Reinforcement Learning의 한 줄기인 Policy Gradient 중 PPO(Proximal Policy Optimazation)을 이용한 부하 분산 Agent를 제안하고, 시뮬레이션 한 후 기존 연구들과의 비교 분석을 통해 성능을 평가하였다.

OpenAI Gym 환경에서 A3C와 PPO의 실험적 분석 (Experimental Analysis of A3C and PPO in the OpenAI Gym Environment)

  • 황규영;임현교;허주성;한연희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 춘계학술발표대회
    • /
    • pp.545-547
    • /
    • 2019
  • Policy Gradient 방식의 학습은 최근 강화학습 분야에서 많이 연구되고 있는 주제로, 본 논문에서는 강화학습을 적용시킬 수 있는 OpenAi Gym 의 'CartPole-v0' 와 'Pendulum-v0' 환경에서 Policy Gradient 방식의 Asynchronous Advantage Actor-Critic (A3C) 알고리즘과 Proximal Policy Optimization (PPO) 알고리즘의 학습 성능을 비교 분석한 결과를 제시한다. 딥러닝 모델 등 두 알고리즘이 동일하게 지닐 수 있는 조건들은 가능한 동일하게 맞추면서 Episode 진행에 따른 Score 변화 과정을 실험하였다. 본 실험을 통해서 두 가지 서로 다른 환경에서 PPO 가 A3C 보다 더 나은 성능을 보임을 확인하였다.

심층 결정론적 정책 경사법을 이용한 선박 충돌 회피 경로 결정 (Determination of Ship Collision Avoidance Path using Deep Deterministic Policy Gradient Algorithm)

  • 김동함;이성욱;남종호;요시타카 후루카와
    • 대한조선학회논문집
    • /
    • 제56권1호
    • /
    • pp.58-65
    • /
    • 2019
  • The stability, reliability and efficiency of a smart ship are important issues as the interest in an autonomous ship has recently been high. An automatic collision avoidance system is an essential function of an autonomous ship. This system detects the possibility of collision and automatically takes avoidance actions in consideration of economy and safety. In order to construct an automatic collision avoidance system using reinforcement learning, in this work, the sequential decision problem of ship collision is mathematically formulated through a Markov Decision Process (MDP). A reinforcement learning environment is constructed based on the ship maneuvering equations, and then the three key components (state, action, and reward) of MDP are defined. The state uses parameters of the relationship between own-ship and target-ship, the action is the vertical distance away from the target course, and the reward is defined as a function considering safety and economics. In order to solve the sequential decision problem, the Deep Deterministic Policy Gradient (DDPG) algorithm which can express continuous action space and search an optimal action policy is utilized. The collision avoidance system is then tested assuming the $90^{\circ}$intersection encounter situation and yields a satisfactory result.

Prediction of Daphnia Production along a Trophic Gradient

  • Park, Sang-Kyu;Goldman, C.R.
    • Journal of Ecology and Environment
    • /
    • 제31권2호
    • /
    • pp.125-129
    • /
    • 2008
  • To predict Daphnia secondary productivity along a trophic gradient indexed as total phosphorus (TP) concentration, we estimated energy transfer efficiencies from food quality for Daphnia such as eicosa-pentaenoic acid (EPA) or docosahexaenoic acid (DHA) content. Eleven flow-through Daphnia magna growth experiments were conducted with seston from 9 lakes, ponds and river waters. Primary productivities were estimated from food supply rates in the flow-through experiments, producing energy transfer efficiencies from seston to D. magna. We found DHA content was the best predictor of energy transfer efficiencies among the essential fatty acids. An asymptotic saturation model explained 79.6% of the variability In energy transfer efficiencies. Based on empirical data in this study and empirical models from literature, we predict that Daphnia productivity would peak in mesotrophic systems by decreasing food quality and Increasing food quantity along trophic gradient.

강화학습을 이용한 1축 드론 수평 제어 (Hovering Control of 1-Axial Drone with Reinforcement Learning)

  • 이태우;유진후;박희민
    • 한국멀티미디어학회논문지
    • /
    • 제21권2호
    • /
    • pp.250-260
    • /
    • 2018
  • In order to control the quadcopter using reinforcement learning, hovering of 1-axial drones prototype is implemented through reinforcement learning. A complementary filter is used to measure the correct angle, and the range of angles is from -180 degrees to +180 degrees using modified complementary filter. The policy gradient method is used together with the REINFORCE algorithm for reinforcement learning. The prototype learned in this way confirmed the difference in performance depending on the length of the episode.

RLS 기반 Actor-Critic 학습을 이용한 로봇이동 (Robot Locomotion via RLS-based Actor-Critic Learning)

  • 김종호;강대성;박주영
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2005년도 추계학술대회 학술발표 논문집 제15권 제2호
    • /
    • pp.234-237
    • /
    • 2005
  • 강화학습을 위한 많은 방법 중 정책 반복을 이용한 actor-critic 학습 방법이 많은 적용 사례를 통해서 그 가능성을 인정받고 있다. Actor-critic 학습 방법은 제어입력 선택 전략을 위한 actor 학습과 가치 함수 근사를 위한 critic 학습이 필요하다. 본 논문은 critic의 학습을 위해 빠른 수렴성을 보장하는 RLS(recursive least square)를 사용하고, actor의 학습을 위해 정책의 기울기(policy gradient)를 이용하는 새로운 알고리즘을 제안하였다. 그리고 이를 실험적으로 확인하여 제안한 논문의 성능을 확인해 보았다.

  • PDF