• 제목/요약/키워드: Approximate Dynamic Programming

검색결과 16건 처리시간 0.029초

Approximate Dynamic Programming Strategies and Their Applicability for Process Control: A Review and Future Directions

  • Lee, Jong-Min;Lee, Jay H.
    • International Journal of Control, Automation, and Systems
    • /
    • 제2권3호
    • /
    • pp.263-278
    • /
    • 2004
  • This paper reviews dynamic programming (DP), surveys approximate solution methods for it, and considers their applicability to process control problems. Reinforcement Learning (RL) and Neuro-Dynamic Programming (NDP), which can be viewed as approximate DP techniques, are already established techniques for solving difficult multi-stage decision problems in the fields of operations research, computer science, and robotics. Owing to the significant disparity of problem formulations and objective, however, the algorithms and techniques available from these fields are not directly applicable to process control problems, and reformulations based on accurate understanding of these techniques are needed. We categorize the currently available approximate solution techniques fur dynamic programming and identify those most suitable for process control problems. Several open issues are also identified and discussed.

Approximate Dynamic Programming-Based Dynamic Portfolio Optimization for Constrained Index Tracking

  • Park, Jooyoung;Yang, Dongsu;Park, Kyungwook
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제13권1호
    • /
    • pp.19-30
    • /
    • 2013
  • Recently, the constrained index tracking problem, in which the task of trading a set of stocks is performed so as to closely follow an index value under some constraints, has often been considered as an important application domain for control theory. Because this problem can be conveniently viewed and formulated as an optimal decision-making problem in a highly uncertain and stochastic environment, approaches based on stochastic optimal control methods are particularly pertinent. Since stochastic optimal control problems cannot be solved exactly except in very simple cases, approximations are required in most practical problems to obtain good suboptimal policies. In this paper, we present a procedure for finding a suboptimal solution to the constrained index tracking problem based on approximate dynamic programming. Illustrative simulation results show that this procedure works well when applied to a set of real financial market data.

주행문제를 위한 최신 근사적 동적계획법의 적용 (Application of Recent Approximate Dynamic Programming Methods for Navigation Problems)

  • 민대홍;정근우;권기영;박주영
    • 한국지능시스템학회논문지
    • /
    • 제21권6호
    • /
    • pp.737-742
    • /
    • 2011
  • 주행문제는 불확실한 외란의 영향을 받는 이동로봇 등의 시스템에 대하여 각종 제약조건들을 만족하도록 하는 제어 입력을 결정하는 과제를 포함한다. 이러한 과제는 제약조건을 갖는 확률 제어 문제로 모델링될 수 있다. 이러한 종류의 제어문제를 풀기 위하여, 최적 가치함수 개념에 의존하는 동적 계획법의 활용을 시도해볼 수 있다. 하지만, 대부분의 실제 문제에서 이러한 시도는 많은 어려움, 예컨대, 시스템의 완벽한 모델이 알려지지 않거나, 최적 제어정책을 구하기 위한 계산이 불가능하거나, 수없이 많은 계산 자원을 필요로 하는 등의 문제점을 안겨줄 수 있다. 이러한 동적 계획법의 어려움을 극복하기 위한 전략으로, 근사적 가치함수에 의존하여 준최적 제어정책을 구하는 근사적 동적 계획법을 사용할 수 있다. 본 논문에서는 최근에 제시된 근사 동적 계획법들을 복잡한 제약조건을 갖는 주행 문제에 적용하여 보고 그 결과로 얻어지는 성능 특성을 관찰해 본다.

SOLVING A SYSTEM OF THE NONLINEAR EQUATIONS BY ITERATIVE DYNAMIC PROGRAMMING

  • Effati, S.;Roohparvar, H.
    • Journal of applied mathematics & informatics
    • /
    • 제24권1_2호
    • /
    • pp.399-409
    • /
    • 2007
  • In this paper we use iterative dynamic programming in the discrete case to solve a wide range of the nonlinear equations systems. First, by defining an error function, we transform the problem to an optimal control problem in discrete case. In using iterative dynamic programming to solve optimal control problems up to now, we have broken up the problem into a number of stages and assumed that the performance index could always be expressed explicitly in terms of the state variables at the last stage. This provided a scheme where we could proceed backwards in a systematic way, carrying out optimization at each stage. Suppose that the performance index can not be expressed in terms of the variables at the last stage only. In other words, suppose the performance index is also a function of controls and variables at the other stages. Then we have a nonseparable optimal control problem. Furthermore, we obtain the path from the initial point up to the approximate solution.

Control of pH Neutralization Process using Simulation Based Dynamic Programming in Simulation and Experiment (ICCAS 2004)

  • Kim, Dong-Kyu;Lee, Kwang-Soon;Yang, Dae-Ryook
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2004년도 ICCAS
    • /
    • pp.620-626
    • /
    • 2004
  • For general nonlinear processes, it is difficult to control with a linear model-based control method and nonlinear controls are considered. Among the numerous approaches suggested, the most rigorous approach is to use dynamic optimization. Many general engineering problems like control, scheduling, planning etc. are expressed by functional optimization problem and most of them can be changed into dynamic programming (DP) problems. However the DP problems are used in just few cases because as the size of the problem grows, the dynamic programming approach is suffered from the burden of calculation which is called as 'curse of dimensionality'. In order to avoid this problem, the Neuro-Dynamic Programming (NDP) approach is proposed by Bertsekas and Tsitsiklis (1996). To get the solution of seriously nonlinear process control, the interest in NDP approach is enlarged and NDP algorithm is applied to diverse areas such as retailing, finance, inventory management, communication networks, etc. and it has been extended to chemical engineering parts. In the NDP approach, we select the optimal control input policy to minimize the value of cost which is calculated by the sum of current stage cost and future stages cost starting from the next state. The cost value is related with a weight square sum of error and input movement. During the calculation of optimal input policy, if the approximate cost function by using simulation data is utilized with Bellman iteration, the burden of calculation can be relieved and the curse of dimensionality problem of DP can be overcome. It is very important issue how to construct the cost-to-go function which has a good approximate performance. The neural network is one of the eager learning methods and it works as a global approximator to cost-to-go function. In this algorithm, the training of neural network is important and difficult part, and it gives significant effect on the performance of control. To avoid the difficulty in neural network training, the lazy learning method like k-nearest neighbor method can be exploited. The training is unnecessary for this method but requires more computation time and greater data storage. The pH neutralization process has long been taken as a representative benchmark problem of nonlin ar chemical process control due to its nonlinearity and time-varying nature. In this study, the NDP algorithm was applied to pH neutralization process. At first, the pH neutralization process control to use NDP algorithm was performed through simulations with various approximators. The global and local approximators are used for NDP calculation. After that, the verification of NDP in real system was made by pH neutralization experiment. The control results by NDP algorithm was compared with those by the PI controller which is traditionally used, in both simulations and experiments. From the comparison of results, the control by NDP algorithm showed faster and better control performance than PI controller. In addition to that, the control by NDP algorithm showed the good results when it applied to the cases with disturbances and multiple set point changes.

  • PDF

근사적 동적계획을 활용한 요격통제 및 동시교전 효과분석 (Approximate Dynamic Programming Based Interceptor Fire Control and Effectiveness Analysis for M-To-M Engagement)

  • 이창석;김주현;최봉완;김경택
    • 한국항공우주학회지
    • /
    • 제50권4호
    • /
    • pp.287-295
    • /
    • 2022
  • 저고도 궤적의 장사정포 위협이 대두됨에 따라 이를 방어할 요격 시스템의 개발이 시작될 예정이다. 이러한 장사정포의 공격을 방어하는 문제는 전형적인 동적 무기 표적 할당 문제다. 동적 무기 표적 할당 문제에서는 한 시점에서의 의사결정 결과가 이후 시점의 의사결정 과정에 영향을 주며, 이는 마코브 의사결정 모형의 특징이기도 하다. 장사정포의 공격을 방어하기 위한 의사결정 과정에 허용되는 시간은 공격자와 방어자의 거리를 고려할 때 저고도 궤적의 동시 다발성 발사체에 대한 대응은 수 초 이내에 결정되어야 하나, 짧은 시간 내에 마코브 의사결정 과정으로 최적해를 구하는 것은 불가능하다. 본 논문에서는 장사정포 공격을 방어하는 동적 무기 표적 할당 문제를 마코브 의사결정 문제로 나타내고, 3가지 시나리오를 작성한 후 근사적 동적계획 방법을 적용하여 요격이 가능 시간 안에 해의 도출이 가능한지를 시뮬레이션을 통하여 확인하였다. 도출된 해의 품질을 검증하기 위하여 각 시나리오에 대하여 근사적 동적계획을 적용한 결과와 Shoot-Shoot-Look 방법을 적용한 결과를 비교하였다. 시뮬레이션 결과, 장사정포의 방어 시나리오에 대하여 근사적 동적계획의 결과가 Shoot-Shoot-Look 방법을 이용한 결과보다 우수함을 보였다.

데이터 기반 확률론적 최적제어와 근사적 추론 기반 강화 학습 방법론에 관한 고찰 (Investigations on data-driven stochastic optimal control and approximate-inference-based reinforcement learning methods)

  • 박주영;지승현;성기훈;허성만;박경욱
    • 한국지능시스템학회논문지
    • /
    • 제25권4호
    • /
    • pp.319-326
    • /
    • 2015
  • 최근들어, 확률론적 최적제어(stochastic optimal control) 및 강화학습(reinforcement learning) 분야에서는 데이터를 활용하여 준최적 제어 전략을 찾는 문제를 위한 많은 연구 노력이 있어 왔다. 가치함수(value function) 기반 동적 계획법(dynamic programming)으로 최적제어기를 구하는 고전적인 이론은 확률론적 최적 제어 문제를 풀기위해 확고한 이론적 근거 아래 확립된바 있다. 하지만, 이러한 고전적 이론은 매우 간단한 경우에만 성공적으로 적용될 수 있다. 그러므로, 엄밀한 수학적 분석 대신에 상태 전이 및 보상 신호 값 등의 관련 데이터를 활용하여 준최적해를 구하고자 하는 데이터 기반 현대적 접근 방법들은 실용적인 응용분야에서 특히 매력적이다. 본 논문에서는 확률론적 최적제어 전략과 근사적 추론 및 기계학습 기반 데이터 처리 방법을 접목하는 방법론들을 고려한다. 그리고 이러한 고려를 통하여 얻어진 방법론들을 금융공학을 포함한 다양한 응용 분야에 적용하고 그들의 성능을 관찰해보도록 한다.

접촉 마찰을 고려한 다중 로봇 시스템의 조작도 해석 (Dynamic Manipulability for Cooperating Multiple Robot Systems with Frictional Contacts)

  • 변재민;이지홍
    • 전자공학회논문지SC
    • /
    • 제43권5호
    • /
    • pp.10-18
    • /
    • 2006
  • 본 논문에서는 다중 로봇 시스템에서 물체와 로봇 팔끝 간에 접촉 마찰이 존재할 때 이 로봇 시스템의 조작도를 해석하는 새로운 방법을 제안한다. 로봇이 물체를 떨어뜨리지 않고 잡고 있으려면, 로봇이 물체에 가하는 힘 벡터가 friction cone 내부에 존재 해야만 한다. 이러한 friction cone 내부를 나타내는 식은 일반적으로 비선형 형태로 되어 있기 때문에 기존의 조작도 분석 방법에 이 식을 구속 조건으로 적용하기가 쉽지 않다. 따라서 본 논문에서는 이러한 friction cone 내부를 다각뿔로 근사함으로써 선형적인 구속 조건으로 표현하였다. 또한 선행 연구에서 찾지 못했던 부분을 새롭게 찾아내었다. 그리고 다중 로봇 시스템에 조작도를 나타내는 물체 중심의 가속도를 구하기 위해서, 먼저 선형계획법을 통해서 허용 가능한 토크의 영역을 구하였다. 이 토크의 영역을 선형 변환을 통해 최종적으로 물체의 최대 가속도의 영역을 구하였다. 본 방법의 타당성을 입증하기 위해서 두 대로 구성 된 다중 로봇 시스템과 PUMA560 로봇 시스템에 적용하였다.

안정도 단계가 고려된 LQ 최적 제어에 대한 근사 다이나믹 프로그래밍 (Approximate Dynamic Programming for Linear Quadratic Optimal Control with Degree of Stability)

  • 이재영;박진배;최윤호
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2009년도 제40회 하계학술대회
    • /
    • pp.1794_1795
    • /
    • 2009
  • 본 논문에서는 안정도 단계(degree of stability)가 고려된 LQ 최적 제어에 대한 근사 다이나믹 프로그래밍 기법을 제안한다. 제안된 근사 다이나믹 프로그래밍 기법은 시스템 행렬(system matrix)를 모르는 경우에도 구현할 수 있으며, 특정 조건하에서 수렴성을 가짐을 수학적으로 증명하였다. 또한 제안된 알고리즘을 토대로 하는 최소 자승법 기반 실시간 구현 방법에 대해 소개하였으며, 컴퓨터 모의 실험을 통해 제안된 근사 다이나믹 프로그래밍의 성능을 입증하였다.

  • PDF

대형 유클리드 최소신장트리 문제해결을 위한 다항시간 근사 법 (A Polynomial Time Approximation Scheme for Enormous Euclidean Minimum Spanning Tree Problem)

  • 김인범
    • 전자공학회논문지CI
    • /
    • 제48권5호
    • /
    • pp.64-73
    • /
    • 2011
  • 유클리드 최소 신장 트리(EMST) 문제는 2차원 평면상에 존재하는 입력노드들을 최소 비용으로 연결하는 것이다. EMST와 같은 다항 시간문제에 대하여 연구된 알고리즘들은 수많은 입력들에 대하여 최적의 해를 얻기 위해 매우 많은 시간을 필요로 한다. 본 논문에서는 이 문제에 대한 해를 구하기 위해 분할과 병렬기법을 활용한 다항 시간 근사법(PTAS)을 제안하는데, 이 기법은 비교적 짧은 시간 내에 매우 큰 근사 EMST를 생성할 수 있다. 순수 PTAS는 비-다항 시간문제를 위해 개발되었지만, 다이내믹 프로그래밍을 활용하여 이것을 대형 EMST에 적용하였다. 제안된 방법에 의해 생성된 15,000개의 입력 단말노드와 16개의 분할 영역으로 구성된 근사 EMST의 생성 실험에서, 직렬 방식은 89%, 병렬 방식은 99%의 실행시간의 감축을 보였다. 따라서 본 논문에서 제안하는 방법은 평면상의 매우 많은 수의 입력 단말 노드에 대하여 근사 EMST를 신속히 구축해야 하는 응용에 잘 적용될 수 있다.