• 제목/요약/키워드: TD(${\lambda}$)-learning

검색결과 5건 처리시간 0.028초

목표지향적 강화학습 시스템 (Goal-Directed Reinforcement Learning System)

  • 이창훈
    • 한국인터넷방송통신학회논문지
    • /
    • 제10권5호
    • /
    • pp.265-270
    • /
    • 2010
  • 강화학습(reinforcement learning)은 동적 환경과 시행-착오를 통해 상호 작용하면서 학습을 수행한다. 그러므로 동적 환경에서 TD-학습과 TD(${\lambda}$)-학습과 같은 강화학습 방법들은 전통적인 통계적 학습 방법보다 더 빠르게 학습을 할 수 있다. 그러나 제안된 대부분의 강화학습 알고리즘들은 학습을 수행하는 에이전트(agent)가 목표 상태에 도달하였을 때만 강화 값(reinforcement value)이 주어지기 때문에 최적 해에 매우 늦게 수렴한다. 본 논문에서는 미로 환경(maze environment)에서 최단 경로를 빠르게 찾을 수 있는 강화학습 방법(GORLS : Goal-Directed Reinforcement Learning System)을 제안하였다. GDRLS 미로 환경에서 최단 경로가 될 수 있는 후보 상태들을 선택한다. 그리고 나서 최단 경로를 탐색하기 위해 후보 상태들을 학습한다. 실험을 통해, GDRLS는 미로 환경에서 TD-학습과 TD(${\lambda}$)-학습보다 더 빠르게 최단 경로를 탐색할 수 있음을 알 수 있다.

뉴로-퍼지 추론을 적용한 포석 바둑 (Applying Neuro-fuzzy Reasoning to Go Opening Games)

  • 이병두
    • 한국게임학회 논문지
    • /
    • 제9권6호
    • /
    • pp.117-125
    • /
    • 2009
  • 본 논문은 포석 바둑을 위해, 패턴 지식을 근간으로 바둑 용어 지식을 수행할 수 있는 뉴로-퍼지 추론에 대한 실험 결과를 설명하였다. 즉, 포석 시 최선의 착점을 결정하기 위한 뉴로-퍼지 추론 시스템의 구현을 논하였다. 또한 추론 시스템의 성능을 시험하기 위하여 시차 학습(TD($\lambda$) learning) 시스템과의 대결을 벌였다. 대결 결과에 의하면 단순한 뉴로-퍼지 추론 시스템조차 시차 학습 모델과 충분히 대결할 만하며, 뉴로-퍼지 추론 시스템이 실제 바둑 게임에도 적용될 수 있는 잠재력을 보였다.

  • PDF

미로 환경에서 최단 경로 탐색을 위한 실시간 강화 학습 (Online Reinforcement Learning to Search the Shortest Path in Maze Environments)

  • 김병천;김삼근;윤병주
    • 정보처리학회논문지B
    • /
    • 제9B권2호
    • /
    • pp.155-162
    • /
    • 2002
  • 강화 학습(reinforcement teaming)은 시행-착오(trial-and-er개r)를 통해 동적 환경과 상호작용하면서 학습을 수행하는 학습 방법으로, 실시간 강화 학습(online reinforcement learning)과 지연 강화 학습(delayed reinforcement teaming)으로 분류된다. 본 논문에서는 미로 환경에서 최단 경로를 빠르게 탐색할 수 있는 실시간 강화 학습 시스템(ONRELS : Outline REinforcement Learning System)을 제안한다. ONRELS는 현재 상태에서 상태전이를 하기 전에 선택 가능한 모든 (상태-행동) 쌍에 대한 평가 값을 갱신하고 나서 상태전이를 한다. ONRELS는 미로 환경의 상태 공간을 압축(compression)하고 나서 압축된 환경과 시행-착오를 통해 상호 작용하면서 학습을 수행한다. 실험을 통해 미로 환경에서 ONRELS는 TD -오류를 이용한 Q-학습과 $TD(\lambda{)}$를 이용한 $Q(\lambda{)}$-학습보다 최단 경로를 빠르게 탐색할 수 있음을 알 수 있었다.

TD(${\lambda}$) 기법을 사용한 지역적이며 적응적인 QoS 라우팅 기법 (A Localized Adaptive QoS Routing using TD(${\lambda}$) method)

  • 한정수
    • 한국통신학회논문지
    • /
    • 제30권5B호
    • /
    • pp.304-309
    • /
    • 2005
  • 본 논문에서는 TD(temporal differences) 기법을 사용한 localized QoS 라우팅 기법을 제안하였다. 이 기법은 이웃노드로부터 얻어지는 성공 기댓값을 통해 라우팅 정책을 결정하는 기법이다. 이에 본 논문에서는 라우팅 성공 기댓값을 기반으로 한 다양한 탐색기법으로 경로 선택 시 라우팅 성능을 비교 평가하였으며, 특히 Exploration Bonus를 적용한 탐색 기법이 다른 탐색 기법에 비해 더욱 우수한 성능을 보여주고 있는데, 이는 다른 탐색 기법에 비해 네트워크 상황에 더 적응적으로 경로를 선택할 수 있기 때문이다.

시스템 특성함수 기반 평균보상 TD(${\lambda}$) 학습을 통한 유한용량 Fab 스케줄링 근사화 (Capacitated Fab Scheduling Approximation using Average Reward TD(${\lambda}$) Learning based on System Feature Functions)

  • 최진영
    • 산업경영시스템학회지
    • /
    • 제34권4호
    • /
    • pp.189-196
    • /
    • 2011
  • In this paper, we propose a logical control-based actor-critic algorithm as an efficient approach for the approximation of the capacitated fab scheduling problem. We apply the average reward temporal-difference learning method for estimating the relative value functions of system states, while avoiding deadlock situation by Banker's algorithm. We consider the Intel mini-fab re-entrant line for the evaluation of the suggested algorithm and perform a numerical experiment by generating some sample system configurations randomly. We show that the suggested method has a prominent performance compared to other well-known heuristics.