• 제목/요약/키워드: stochastic DP

검색결과 4건 처리시간 0.019초

강화학습법을 이용한 유역통합 저수지군 운영 (Basin-Wide Multi-Reservoir Operation Using Reinforcement Learning)

  • 이진희;심명필
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2006년도 학술발표회 논문집
    • /
    • pp.354-359
    • /
    • 2006
  • The analysis of large-scale water resources systems is often complicated by the presence of multiple reservoirs and diversions, the uncertainty of unregulated inflows and demands, and conflicting objectives. Reinforcement learning is presented herein as a new approach to solving the challenging problem of stochastic optimization of multi-reservoir systems. The Q-Learning method, one of the reinforcement learning algorithms, is used for generating integrated monthly operation rules for the Keum River basin in Korea. The Q-Learning model is evaluated by comparing with implicit stochastic dynamic programming and sampling stochastic dynamic programming approaches. Evaluation of the stochastic basin-wide operational models considered several options relating to the choice of hydrologic state and discount factors as well as various stochastic dynamic programming models. The performance of Q-Learning model outperforms the other models in handling of uncertainty of inflows.

  • PDF

경사제 피복재의 유지관리를 위한 추계학적 Markov 확률모형의 개발 (Development of Stochastic Markov Process Model for Maintenance of Armor Units of Rubble-Mound Breakwaters)

  • 이철응
    • 한국해안·해양공학회논문집
    • /
    • 제25권2호
    • /
    • pp.52-62
    • /
    • 2013
  • 경사제 피복재의 시간에 따른 파괴확률을 산정할 수 있는 추계학적 Markov 확률모형을 개발하였다. 하중발생에 대한 CP/RP 해석과 누적피해사건에 대한 DP 해석을 결합하여 수학적 모형을 수립하고 경사제 피복재에 적용하였다. 피복재의 피해수준에 대한 정의와 MCS 기법을 이용하여 이행확률을 산정하고 분석하였다. 산정된 이행확률들은 확률적으로나 물리적으로 만족해야하는 제약조건들을 잘 충족한다. 또한 경사제 피복재의 설계와 관련하여 중요한 변수로 생각되는 재현기간 및 안전율의 변화에 따른 시간 의존 파괴확률을 산정하여 그 거동 특성을 자세히 비교 분석하였다. 특히 시간 의존 파괴확률이 이전단계의 피해수준에 의해 어떻게 달라지는지를 정량적으로 해석할 수 있었다. 마지막으로 유지관리에서 가장 중요한 보수보강 시점을 결정할 수 있는 두 가지 접근방법을 제시하고 경제성 분석을 포함한 다양한 해석이 수행되었다.

주행문제를 위한 최신 근사적 동적계획법의 적용 (Application of Recent Approximate Dynamic Programming Methods for Navigation Problems)

  • 민대홍;정근우;권기영;박주영
    • 한국지능시스템학회논문지
    • /
    • 제21권6호
    • /
    • pp.737-742
    • /
    • 2011
  • 주행문제는 불확실한 외란의 영향을 받는 이동로봇 등의 시스템에 대하여 각종 제약조건들을 만족하도록 하는 제어 입력을 결정하는 과제를 포함한다. 이러한 과제는 제약조건을 갖는 확률 제어 문제로 모델링될 수 있다. 이러한 종류의 제어문제를 풀기 위하여, 최적 가치함수 개념에 의존하는 동적 계획법의 활용을 시도해볼 수 있다. 하지만, 대부분의 실제 문제에서 이러한 시도는 많은 어려움, 예컨대, 시스템의 완벽한 모델이 알려지지 않거나, 최적 제어정책을 구하기 위한 계산이 불가능하거나, 수없이 많은 계산 자원을 필요로 하는 등의 문제점을 안겨줄 수 있다. 이러한 동적 계획법의 어려움을 극복하기 위한 전략으로, 근사적 가치함수에 의존하여 준최적 제어정책을 구하는 근사적 동적 계획법을 사용할 수 있다. 본 논문에서는 최근에 제시된 근사 동적 계획법들을 복잡한 제약조건을 갖는 주행 문제에 적용하여 보고 그 결과로 얻어지는 성능 특성을 관찰해 본다.