• 제목/요약/키워드: Policy actor

검색결과 76건 처리시간 0.029초

Actor-Critic Algorithm with Transition Cost Estimation

  • Sergey, Denisov;Lee, Jee-Hyong
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제16권4호
    • /
    • pp.270-275
    • /
    • 2016
  • We present an approach for acceleration actor-critic algorithm for reinforcement learning with continuous action space. Actor-critic algorithm has already proved its robustness to the infinitely large action spaces in various high dimensional environments. Despite that success, the main problem of the actor-critic algorithm remains the same-speed of convergence to the optimal policy. In high dimensional state and action space, a searching for the correct action in each state takes enormously long time. Therefore, in this paper we suggest a search accelerating function that allows to leverage speed of algorithm convergence and reach optimal policy faster. In our method, we assume that actions may have their own distribution of preference, that independent on the state. Since in the beginning of learning agent act randomly in the environment, it would be more efficient if actions were taken according to the some heuristic function. We demonstrate that heuristically-accelerated actor-critic algorithm learns optimal policy faster, using Educational Process Mining dataset with records of students' course learning process and their grades.

RLS 기반 Actor-Critic 학습을 이용한 로봇이동 (Robot Locomotion via RLS-based Actor-Critic Learning)

  • 김종호;강대성;박주영
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2005년도 추계학술대회 학술발표 논문집 제15권 제2호
    • /
    • pp.234-237
    • /
    • 2005
  • 강화학습을 위한 많은 방법 중 정책 반복을 이용한 actor-critic 학습 방법이 많은 적용 사례를 통해서 그 가능성을 인정받고 있다. Actor-critic 학습 방법은 제어입력 선택 전략을 위한 actor 학습과 가치 함수 근사를 위한 critic 학습이 필요하다. 본 논문은 critic의 학습을 위해 빠른 수렴성을 보장하는 RLS(recursive least square)를 사용하고, actor의 학습을 위해 정책의 기울기(policy gradient)를 이용하는 새로운 알고리즘을 제안하였다. 그리고 이를 실험적으로 확인하여 제안한 논문의 성능을 확인해 보았다.

  • PDF

Self-Imitation Learning을 이용한 개선된 Deep Q-Network 알고리즘 (Improved Deep Q-Network Algorithm Using Self-Imitation Learning)

  • 선우영민;이원창
    • 전기전자학회논문지
    • /
    • 제25권4호
    • /
    • pp.644-649
    • /
    • 2021
  • Self-Imitation Learning은 간단한 비활성 정책 actor-critic 알고리즘으로써 에이전트가 과거의 좋은 경험을 활용하여 최적의 정책을 찾을 수 있도록 해준다. 그리고 actor-critic 구조를 갖는 강화학습 알고리즘에 결합되어 다양한 환경들에서 알고리즘의 상당한 개선을 보여주었다. 하지만 Self-Imitation Learning이 강화학습에 큰 도움을 준다고 하더라도 그 적용 분야는 actor-critic architecture를 가지는 강화학습 알고리즘으로 제한되어 있다. 본 논문에서 Self-Imitation Learning의 알고리즘을 가치 기반 강화학습 알고리즘인 DQN에 적용하는 방법을 제안하고, Self-Imitation Learning이 적용된 DQN 알고리즘의 학습을 다양한 환경에서 진행한다. 아울러 그 결과를 기존의 결과와 비교함으로써 Self-Imitation Leaning이 DQN에도 적용될 수 있으며 DQN의 성능을 개선할 수 있음을 보인다.

Kernel-based actor-critic approach with applications

  • Chu, Baek-Suk;Jung, Keun-Woo;Park, Joo-Young
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제11권4호
    • /
    • pp.267-274
    • /
    • 2011
  • Recently, actor-critic methods have drawn significant interests in the area of reinforcement learning, and several algorithms have been studied along the line of the actor-critic strategy. In this paper, we consider a new type of actor-critic algorithms employing the kernel methods, which have recently shown to be very effective tools in the various fields of machine learning, and have performed investigations on combining the actor-critic strategy together with kernel methods. More specifically, this paper studies actor-critic algorithms utilizing the kernel-based least-squares estimation and policy gradient, and in its critic's part, the study uses a sliding-window-based kernel least-squares method, which leads to a fast and efficient value-function-estimation in a nonparametric setting. The applicability of the considered algorithms is illustrated via a robot locomotion problem and a tunnel ventilation control problem.

RLS 기반 Actor-Critic 학습을 이용한 로봇이동 (Robot Locomotion via RLS-based Actor-Critic Learning)

  • 김종호;강대성;박주영
    • 한국지능시스템학회논문지
    • /
    • 제15권7호
    • /
    • pp.893-898
    • /
    • 2005
  • 강화학습 방법론 중 하나의 부류인 액터-크리틱 알고리즘은 제어압력 선택 문제에 있어서 최소한의 계산만을 필요로 하고, 확률적 정책을 명시정으로 다룰 수 있는 장점 때문에 최근에 인공지능 분야에서 많은 관심을 끌고 있다. 액터-크리틱 네트워크는 제어압력 선택 전략을 위한 액터 네트워크와 가치 함수 근사를 위한 크리틱 네트워크로 구성되며, 우수한 제어입력의 서택과 정화한 가치 함수 관사를 최대한 신속하게 달성하기 위하여, 학습 과정 동안 액터와 크리틱은 자신들의 파라미터 백터를 적응적으로 변화시키는 전략을 구사한다. 본 논문은 크리틱의 학습을 위해 빠른 수렴성을 보장하는 RLS (Recursive Least Square)를 사용하고, 액터의 학습을 위해 정책의 기울기(Policy Gradient)를 이용하는 새로운 종류의 알고리즘을 고려한다. 고려된 알고리즘의 적용 가능성은 두개의 링크를 갖는 로봇에 대한 실험을 통하여 예시된다.

액터-크리틱 퍼지 강화학습을 이용한 기는 로봇의 제어 (Control of Crawling Robot using Actor-Critic Fuzzy Reinforcement Learning)

  • 문영준;이재훈;박주영
    • 한국지능시스템학회논문지
    • /
    • 제19권4호
    • /
    • pp.519-524
    • /
    • 2009
  • 최근에 강화학습 기법은 기계학습 분야에서 많은 관심을 끌어왔다. 강화학습 관련 연구에서 가장 유력하게 사용되어 온 방법들로는 가치함수를 활용하는 기법, 제어규칙(policy) 탐색 기법 및 액터-크리틱 기법 등이 있는데, 본 논문에서는 이들 중 연속 상태 및 연속 입력을 갖는 문제를 위하여 액터-크리틱 기법의 틀에서 제안된 알고리즘들과 관련된 내용을 다룬다. 특히 본 논문은 퍼지 이론에 기반을 둔 액터-크리틱 계열 강화학습 기법인 ACFRL 알고리즘과, RLS 필터와 NAC(natural actor-critic) 기법에 기반을 둔 RLS-NAC 기법을 접목하는 방안을 집중적으로 고찰한다. 고찰된 방법론은 기는 로봇의 제어문제에 적용되고, 학습 성능의 비교로부터 얻어진 몇 가지 결과가 보고된다.

Investigating Science-Policy Interfaces in Japanese Politics through Climate Change Discourse Coalitions of an Environmental Policy Actor Network

  • Hartwig, Manuela G.
    • Journal of Contemporary Eastern Asia
    • /
    • 제18권2호
    • /
    • pp.90-117
    • /
    • 2019
  • How is science advice integrated in environmental policymaking? This is an increasingly pertinent question that is being raised since the nuclear catastrophe of Fukushima, Japan, in 2011. Global re-evaluation of energy policies and climate mitigation measures include discussions on how to better integrate science advice in policymaking, and at the same time keeping science independent from political influence. This paper addressed the policy discourse of setting up a national CO2 reduction target in Japanese policymaking between 2009 and 2012. The target proposed by the former DPJ government was turned down, and Japan lacked a clear strategy for long-term climate mitigation. The analysis provides explanations from a quantitative actor-network perspective. Centrality measures from social network analysis for policy actors in an environmental policy network of Japan were calculated to identify those actors that control the discourse. Data used for analysis comes from the Global Environmental Policy Actor Network 2 (GEPON 2) survey conducted in Japan (2012-13). Science advice in Japan was kept independent from political influence and was mostly excluded from policymaking. One of the two largest discourse coalitions in the environmental policy network promoted a higher CO2 reduction target for international negotiations but favored lowering the target after a new international agreement would have been set. This may explain why Japan struggled to commit to long-term mitigation strategies. Applying social network analysis to quantitatively calculate discourse coalitions was a feasible methodology for investigating "discursive power." But limited in discussing the "practice" (e.g. meetings, telephone, or email conversations) among the actors in discourse coalitions.

RLS기반 Natural Actor-Critic 알고리즘을 이용한 트레이딩 전략 (Trading Strategy Using RLS-Based Natural Actor-Critic algorithm)

  • 강대성;김종호;박주영;박경욱
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2005년도 추계학술대회 학술발표 논문집 제15권 제2호
    • /
    • pp.238-241
    • /
    • 2005
  • 최근 컴퓨터를 이용하여 효과적인 트레이드를 하려는 투자자들이 늘고 있다. 본 논문에서는 많은 인공지능 방법론 중에서 강화학습(reinforcement learning)을 이용하여 효과적으로 트레이딩하는 방법에 대해서 다루려한다. 특히 강화학습 중에서 natural policy gradient를 이용하여 actor의 파라미터를 업데이트하고, value function을 효과적으로 추정하기 위해 RLS(recursive least-squares) 기법으로 critic 부분을 업데이트하는 RLS 기반 natural actor-critic 알고리즘을 이용하여 트레이딩을 수행하는 전략에 대한 가능성을 살펴 보기로 한다.

  • PDF

한국 정보화정책의 변천과 특징 - 행위자 연결망을 중심으로 - (A Study on the Changes in and Characteristics of Informatization Policies in Korea: Focusing on the Actor-Network)

  • 한세억
    • 정보화정책
    • /
    • 제17권4호
    • /
    • pp.23-43
    • /
    • 2010
  • 한국의 정보화는 짧은 시간 동안에 커다란 변화를 경험했다. 정보화 정책의 형성과 집행과정에 수많은 인물과 조직이 참여하여 정책의 전개에 영향을 주면서 정보화 정책이 역동적으로 변화하였다. 그러면 국가사회담론으로서 자리 매김한 정보화정책의 확장적 변화와 특성에 영향을 미친 인물이 누구이며, 인적 연결망에 따라 어떠한 변화와 특징을 드러냈는가? 이러한 문제에 대한 해제탐색을 위해 시도된 이 연구의 분석결과, 한국 정보화의 정책전개 및 확장과정에서 정책 관료의 역할이 지배적이었다. 여기에 산업계 및 학계 인사들이 참여하였다. 반면 정치인의 역할은 미약한 것으로 나타났다. 통상 인맥은 학 지 혈연 등에 의해 형성되었지만 정보화정책은 기존의 연(緣)에 의해서라기보다는 정보통신기술을 매개로 한 정책공간에서 형성되었다. 정보통신인맥구성이 이질혼합적임에도 정책줄기가 공고하게 유지될 수 있었던 것은 정보화 중요성, 시급성의 공감대 바탕에서 정보통신기술, 지식과 전문성에 바탕을 둔 연대 또는 유대감이 강하게 작용했기 때문에 가능했던 것으로 판단된다.

  • PDF