• 제목/요약/키워드: reinforcement algorithms

검색결과 149건 처리시간 0.034초

이종 병렬설비에서 총납기지연 최소화를 위한 강화학습 기반 일정계획 알고리즘 (Scheduling Algorithm, Based on Reinforcement Learning for Minimizing Total Tardiness in Unrelated Parallel Machines)

  • 이태희;김재곤;유우식
    • 대한안전경영과학회지
    • /
    • 제25권4호
    • /
    • pp.131-140
    • /
    • 2023
  • This paper proposes an algorithm for the Unrelated Parallel Machine Scheduling Problem(UPMSP) without setup times, aiming to minimize total tardiness. As an NP-hard problem, the UPMSP is hard to get an optimal solution. Consequently, practical scenarios are solved by relying on operator's experiences or simple heuristic approaches. The proposed algorithm has adapted two methods: a policy network method, based on Transformer to compute the correlation between individual jobs and machines, and another method to train the network with a reinforcement learning algorithm based on the REINFORCE with Baseline algorithm. The proposed algorithm was evaluated on randomly generated problems and the results were compared with those obtained using CPLEX, as well as three scheduling algorithms. This paper confirms that the proposed algorithm outperforms the comparison algorithms, as evidenced by the test results.

SGA 기반 강화학습 알고리즘을 이용한 로봇 제어 (Robot Control via SGA-based Reinforcement Learning Algorithms)

  • 박주영;김종호;신호근
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2004년도 추계학술대회 학술발표 논문집 제14권 제2호
    • /
    • pp.63-66
    • /
    • 2004
  • The SGA(stochastic gradient ascent) algorithm is one of the most important tools in the area of reinforcement learning, and has been applied to a wide range of practical problems. In particular, this learning method was successfully applied by Kimura et a1. [1] to the control of a simple creeping robot which has finite number of control input choices. In this paper, we considered the application of the SGA algorithm to Kimura's robot control problem for the case that the control input is not confined to a finite set but can be chosen from a infinite subset of the real numbers. We also developed a MATLAB-based robot animation program, which showed the effectiveness of the training algorithms vividly.

  • PDF

강화학습과 분산유전알고리즘을 이용한 자율이동로봇군의 행동학습 및 진화 (Behavior leaning and evolution of collective autonomous mobile robots using reinforcement learning and distributed genetic algorithms)

  • 이동욱;심귀보
    • 전자공학회논문지S
    • /
    • 제34S권8호
    • /
    • pp.56-64
    • /
    • 1997
  • In distributed autonomous robotic systems, each robot must behaves by itself according to the its states and environements, and if necessary, must cooperates with other orbots in order to carray out a given task. Therefore it is essential that each robot has both learning and evolution ability to adapt the dynamic environments. In this paper, the new learning and evolution method based on reinforement learning having delayed reward ability and distributed genectic algorithms is proposed for behavior learning and evolution of collective autonomous mobile robots. Reinforement learning having delayed reward is still useful even though when there is no immediate reward. And by distributed genetic algorithm exchanging the chromosome acquired under different environments by communication each robot can improve its behavior ability. Specially, in order to improve the perfodrmance of evolution, selective crossover using the characteristic of reinforcement learning is adopted in this paper, we verify the effectiveness of the proposed method by applying it to cooperative search problem.

  • PDF

동적 저궤도 위성 네트워크를 위한 Dueling DQN 기반 라우팅 기법 (Dueling DQN-based Routing for Dynamic LEO Satellite Networks)

  • 김도형;이상현;이헌철;원동식
    • 대한임베디드공학회논문지
    • /
    • 제18권4호
    • /
    • pp.173-183
    • /
    • 2023
  • This paper deals with a routing algorithm which can find the best communication route to a desired point considering disconnected links in the LEO (low earth orbit) satellite networks. If the LEO satellite networks are dynamic, the number and distribution of the disconnected links are varying, which makes the routing problem challenging. To solve the problem, in this paper, we propose a routing method based on Dueling DQN which is one of the reinforcement learning algorithms. The proposed method was successfully conducted and verified by showing improved performance by reducing convergence times and converging more stably compared to other existing reinforcement learning-based routing algorithms.

강화학습법을 이용한 유역통합 저수지군 운영 (Basin-Wide Multi-Reservoir Operation Using Reinforcement Learning)

  • 이진희;심명필
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2006년도 학술발표회 논문집
    • /
    • pp.354-359
    • /
    • 2006
  • The analysis of large-scale water resources systems is often complicated by the presence of multiple reservoirs and diversions, the uncertainty of unregulated inflows and demands, and conflicting objectives. Reinforcement learning is presented herein as a new approach to solving the challenging problem of stochastic optimization of multi-reservoir systems. The Q-Learning method, one of the reinforcement learning algorithms, is used for generating integrated monthly operation rules for the Keum River basin in Korea. The Q-Learning model is evaluated by comparing with implicit stochastic dynamic programming and sampling stochastic dynamic programming approaches. Evaluation of the stochastic basin-wide operational models considered several options relating to the choice of hydrologic state and discount factors as well as various stochastic dynamic programming models. The performance of Q-Learning model outperforms the other models in handling of uncertainty of inflows.

  • PDF

카트-폴 균형 문제를 위한 실시간 강화 학습 (On-line Reinforcement Learning for Cart-pole Balancing Problem)

  • 김병천;이창훈
    • 한국인터넷방송통신학회논문지
    • /
    • 제10권4호
    • /
    • pp.157-162
    • /
    • 2010
  • Cart-pole 균형 문제는 유전자 알고리즘, 인공신경망, 강화학습 등을 이용한 제어 전략 분야의 표준 문제이다. 본 논문에서는 cart-pole 균형문제를 해결하기 위해 실시간 강화 학습을 이용한 접근 방법을 제안하였다. 본 논문의 목적은 cart-pole 균형 문제에서 OREL 학습 시스템의 학습 방법을 분석하는데 있다. 실험을 통해, 본 논문에서 제안한 OREL 학습 방법은 Q-학습보다 최적 값 함수에 더 빠르게 접근함을 알 수 있었다.

Deep Reinforcement Learning in ROS-based autonomous robot navigation

  • Roland, Cubahiro;Choi, Donggyu;Jang, Jongwook
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.47-49
    • /
    • 2022
  • Robot navigation has seen a major improvement since the the rediscovery of the potential of Artificial Intelligence (AI) and the attention it has garnered in research circles. A notable achievement in the area was Deep Learning (DL) application in computer vision with outstanding daily life applications such as face-recognition, object detection, and more. However, robotics in general still depend on human inputs in certain areas such as localization, navigation, etc. In this paper, we propose a study case of robot navigation based on deep reinforcement technology. We look into the benefits of switching from traditional ROS-based navigation algorithms towards machine learning approaches and methods. We describe the state-of-the-art technology by introducing the concepts of Reinforcement Learning (RL), Deep Learning (DL) and DRL before before focusing on visual navigation based on DRL. The case study preludes further real life deployment in which mobile navigational agent learns to navigate unbeknownst areas.

  • PDF

강화학습을 이용한 주행경로 최적화 알고리즘 개발 (Optimal Route Finding Algorithms based Reinforcement Learning)

  • 정희석;이종수
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2003년도 춘계 학술대회 학술발표 논문집
    • /
    • pp.157-161
    • /
    • 2003
  • 본 논문에서는 차량의 주행경로 최적화를 위해 강화학습 개념을 적용하고자 한다. 강화학습의 특징은 관심 대상에 대한 구체적인 지배 규칙의 정보 없이도 최적화된 행동 방식을 학습시킬 수 있는 특징이 있어서, 실제 차량의 주행경로와 같이 여러 교통정보 및 시간에 따른 변화 등에 대한 복잡한 고려가 필요한 시스템에 적합하다. 또한 학습을 위한 강화(보상, 벌칙)의 정도 및 기준을 조절해 즘으로써 다양한 최적주행경로를 제공할 수 있다. 따라서, 본 논문에서는 강화학습 알고리즘을 이용하여 다양한 최적주행경로를 제공해 주는 시스템을 구현한다.

  • PDF

강화 학습에 기반한 뉴로-퍼지 제어기 (Neuro-Fuzzy Controller Based on Reinforcement Learning)

  • 박영철;심귀보
    • 한국지능시스템학회논문지
    • /
    • 제10권5호
    • /
    • pp.395-400
    • /
    • 2000
  • 본 논문에서는 강화학습에 기반한 새로운 뉴로-퍼지 제어기를 제안한다. 시스템은 개체의 행동을 결정하는 뉴로-퍼지 제어기와 그 행동을 평가하는 동적 귀환 신경회로망으로 구성된다. 뉴로-퍼지 제어기의 후건부 소속함수는 강화학습을 한다. 한편, 유전자 알고리즘을 통하여 진화하는 동적 귀환 신경회로망은 환경으로부터 받는 외부 강화신호와 로봇의 상태로부터 내부강화 신호를 만들어낸다. 이 출력(내부강화신호)은 뉴로-퍼지 제어기의 교사신호로 사용되어 제어기가 학습을 지속하도록 만든다. 제안한 시스템은 미지의 환경에서 제어기의 최적화 및 적응에 사용할 수 있다. 제안한 알고리즘은 컴퓨터 시뮬레이션 상에서 자율 이동로봇의 장애물 회피에 적용하여 그 유효성을 확인한다.

  • PDF

강화학습을 이용한 트레이딩 전략 (Trading Strategies Using Reinforcement Learning)

  • 조현민;신현준
    • 한국산학기술학회논문지
    • /
    • 제22권1호
    • /
    • pp.123-130
    • /
    • 2021
  • 최근 컴퓨터 기술이 발전하면서 기계학습 분야에 관한 관심이 높아지고 있고 다양한 분야에 기계학습 이론을 적용하는 사례가 크게 증가하고 있다. 특히 금융 분야에서는 금융 상품의 미래 가치를 예측하는 것이 난제인데 80년대부터 지금까지 기술적 및 기본적 분석에 의존하고 있다. 기계학습을 이용한 미래 가치 예측 모형들은 다양한 잠재적 시장변수에 대응하기 위한 모형 설계가 무엇보다 중요하다. 따라서 본 논문은 기계학습의 하나인 강화학습 모형을 이용해 KOSPI 시장에 상장되어 있는 개별 종목들의 주가 움직임을 정량적으로 판단하여 이를 주식매매 전략에 적용한다. 강화학습 모형은 2013년 구글 딥마인드에서 제안한 DQN와 A2C 알고리즘을 이용하여 KOSPI에 상장된 14개 업종별 종목들의 과거 약 13년 동안의 시계열 주가에 기반한 데이터세트를 각각 입력 및 테스트 데이터로 사용한다. 데이터세트는 8개의 주가 관련 속성들과 시장을 대표하는 2개의 속성으로 구성하였고 취할 수 있는 행동은 매입, 매도, 유지 중 하나이다. 실험 결과 매매전략의 평균 연 환산수익률 측면에서 DQN과 A2C이 대안 알고리즘들보다 우수하였다.