• 제목/요약/키워드: 액터-크리틱 방법

검색결과 4건 처리시간 0.019초

RLS 기반 Actor-Critic 학습을 이용한 로봇이동 (Robot Locomotion via RLS-based Actor-Critic Learning)

  • 김종호;강대성;박주영
    • 한국지능시스템학회논문지
    • /
    • 제15권7호
    • /
    • pp.893-898
    • /
    • 2005
  • 강화학습 방법론 중 하나의 부류인 액터-크리틱 알고리즘은 제어압력 선택 문제에 있어서 최소한의 계산만을 필요로 하고, 확률적 정책을 명시정으로 다룰 수 있는 장점 때문에 최근에 인공지능 분야에서 많은 관심을 끌고 있다. 액터-크리틱 네트워크는 제어압력 선택 전략을 위한 액터 네트워크와 가치 함수 근사를 위한 크리틱 네트워크로 구성되며, 우수한 제어입력의 서택과 정화한 가치 함수 관사를 최대한 신속하게 달성하기 위하여, 학습 과정 동안 액터와 크리틱은 자신들의 파라미터 백터를 적응적으로 변화시키는 전략을 구사한다. 본 논문은 크리틱의 학습을 위해 빠른 수렴성을 보장하는 RLS (Recursive Least Square)를 사용하고, 액터의 학습을 위해 정책의 기울기(Policy Gradient)를 이용하는 새로운 종류의 알고리즘을 고려한다. 고려된 알고리즘의 적용 가능성은 두개의 링크를 갖는 로봇에 대한 실험을 통하여 예시된다.

액터-크리틱 퍼지 강화학습을 이용한 기는 로봇의 제어 (Control of Crawling Robot using Actor-Critic Fuzzy Reinforcement Learning)

  • 문영준;이재훈;박주영
    • 한국지능시스템학회논문지
    • /
    • 제19권4호
    • /
    • pp.519-524
    • /
    • 2009
  • 최근에 강화학습 기법은 기계학습 분야에서 많은 관심을 끌어왔다. 강화학습 관련 연구에서 가장 유력하게 사용되어 온 방법들로는 가치함수를 활용하는 기법, 제어규칙(policy) 탐색 기법 및 액터-크리틱 기법 등이 있는데, 본 논문에서는 이들 중 연속 상태 및 연속 입력을 갖는 문제를 위하여 액터-크리틱 기법의 틀에서 제안된 알고리즘들과 관련된 내용을 다룬다. 특히 본 논문은 퍼지 이론에 기반을 둔 액터-크리틱 계열 강화학습 기법인 ACFRL 알고리즘과, RLS 필터와 NAC(natural actor-critic) 기법에 기반을 둔 RLS-NAC 기법을 접목하는 방안을 집중적으로 고찰한다. 고찰된 방법론은 기는 로봇의 제어문제에 적용되고, 학습 성능의 비교로부터 얻어진 몇 가지 결과가 보고된다.

강화학습에 의해 학습된 기는 로봇의 성능 비교 (Performance Comparison of Crawling Robots Trained by Reinforcement Learning Methods)

  • 박주영;정규백;문영준
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2007년도 춘계학술대회 학술발표 논문집 제17권 제1호
    • /
    • pp.33-36
    • /
    • 2007
  • 최근에 인공지능 분야에서는, 국내외적으로 강화학습(reinforcement learning)에 관한 관심이 크게 증폭되고 있다. 강화학습의 최근 경향을 살펴보면, 크게 가치함수를 직접 활용하는 방법(value function-based methods), 제어 전략에 대한 탐색을 활용하는 방법(policy search methods), 그리고 액터-크리틱 방법(actor-critic methods)의 세가지 방향으로 발전하고 있음을 알 수 있다. 본 논문에서는 이중 세 번째 부류인 액터-크리틱 방법 중 NAC(natural actor-critic) 기법의 한 종류인 RLS-NAC(recursive least-squares based natural actor-critic) 알고리즘을 다양한 트레이스 감쇠계수를 사용하여 연속제어입력(real-valued control inputs)으로 제어되는 Kimura의 기는 로봇에 대해 적용해보고, 그 성능을 기존의 SGA(stochastic gradient ascent) 알고리즘을 이용하여 학습한 경우와 비교해보도록 한다.

  • PDF

SAC 강화 학습을 통한 스마트 그리드 효율성 향상: CityLearn 환경에서 재생 에너지 통합 및 최적 수요 반응 (Enhancing Smart Grid Efficiency through SAC Reinforcement Learning: Renewable Energy Integration and Optimal Demand Response in the CityLearn Environment)

  • 이자노브 알리벡 러스타모비치;성승제;임창균
    • 한국전자통신학회논문지
    • /
    • 제19권1호
    • /
    • pp.93-104
    • /
    • 2024
  • 수요 반응은 전력망의 신뢰성을 높이고 비용을 최소화하기 위해 수요가 가장 많은 시간대에 고객이 소비패턴을 조정하도록 유도한다. 재생 에너지원을 스마트 그리드에 통합하는 것은 간헐적이고 예측할 수 없는 특성으로 인해 상당한 도전 과제를 안고 있다. 강화 학습 기법과 결합된 수요 대응 전략은 이러한 문제를 해결하고 기존 방식에서는 이러한 종류의 복잡한 요구 사항을 충족하지 못하는 경우 그리드 운영을 최적화할 수 있는 접근 방식으로 부상하고 있다. 본 연구는 재생 에너지 통합을 위한 수요 반응에 강화 학습 알고리즘을 적용하는 방법을 찾아 적용하는데 중점을 둔다. 연구의 핵심 목표는 수요 측 유연성을 최적화하고 재생 에너지 활용도를 개선할 뿐 아니라 그리드 안정성을 강화하고자 한다. 연구 결과는 강화 학습을 기반으로 한 수요 반응 전략이 그리드 유연성을 향상시키고 재생 에너지 통합을 촉진하는 데 효과적이라것을 보여준다.