• Title/Summary/Keyword: Q learning

검색결과 431건 처리시간 0.026초

멀티-스텝 누적 보상을 활용한 Max-Mean N-Step 시간차 학습 (Max-Mean N-step Temporal-Difference Learning Using Multi-Step Return)

  • 황규영;김주봉;허주성;한연희
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제10권5호
    • /
    • pp.155-162
    • /
    • 2021
  • n-스텝 시간차 학습은 몬테카를로 방법과 1-스텝 시간차 학습을 결합한 것으로, 적절한 n을 선택할 경우 몬테카를로 방법과 1-스텝 시간차 학습보다 성능이 좋은 알고리즘으로 알려져 있지만 최적의 n을 선택하는 것에 어려움이 있다. n-스텝 시간차 학습에서 n값 선택의 어려움을 해소하기 위해, 본 논문에서는 Q의 과대평가가 초기 학습의 성능을 높일 수 있다는 특징과 Q ≈ Q* 경우, 모든 n-스텝 누적 보상이 비슷한 값을 가진다는 성질을 이용하여 1 ≤ k ≤ n에 대한 모든 k-스텝 누적 보상의 최댓값과 평균으로 구성된 새로운 학습 타겟인 Ω-return을 제안한다. 마지막으로 OpenAI Gym의 Atari 게임 환경에서 n-스텝 시간차 학습과의 성능 비교 평가를 진행하여 본 논문에서 제안하는 알고리즘이 n-스텝 시간차 학습 알고리즘보다 성능이 우수하다는 것을 입증한다.

Q-Learning을 이용한 릴레이 선택 기법 (A Relay Selection Scheme with Q-Learning)

  • 정홍규;김광열;신요안
    • 대한전자공학회논문지TC
    • /
    • 제49권6호
    • /
    • pp.39-47
    • /
    • 2012
  • 차세대 무선통신 시스템에서 다중 경로 페이딩의 영향을 효율적으로 감소시키기 위한 방법으로 최근 협력통신 시스템이 각광을 받고 있다. 협력통신 시스템은 정보를 전송하기 위해서 다양한 페이딩 계수를 가지고 있는 협력 릴레이를 사용하기 때문에, 모든 릴레이를 협력통신에 참여 시키는 것은 자원의 낭비를 초래한다. 그러므로 무선자원을 효율적으로 사용하기 위해서는 최적의 릴레이를 선택적으로 사용할 필요가 있다. 본 논문에서는 무선 협력통신 네트워크에서 발생하는 이러한 문제를 해결하기 위하여 Q-Learning 알고리즘을 이용한 협력 릴레이 선택 기법을 제안한다. Q-Learning에서는 자가 학습을 위해서 상태, 행동, 그리고 보상에 대한 파라미터를 정의한다. 이러한 파라미터가 잘 정의 될 때 Q-Learning을 이용하여 우수한 통신 성능을 얻을 수 있다. Q-Learning 알고리즘의 우수성을 보이기 위해서, 수학적인 분석을 통해서 최적의 협력 릴레이를 얻는 기법과 통신 성능을 비교하였다. 모의실험 결과, 제안된 기법에서 Q-Learning 알고리즘 내의 보상을 주는 방식에 따라, 비교 기법과 유사한 심벌오율 성능을 얻으면서 보다 더 적은 협력 릴레이를 선택하는 것을 보였다. 따라서 본 논문에서 제안된 기법은 다수의 릴레이를 사용하는 차세대 무선통신 시스템의 성능 향상을 위한 좋은 접근 방식의 하나로 판단된다.

분포 기여도를 이용한 퍼지 Q-learning (Fuzzy Q-learning using Distributed Eligibility)

  • 정석일;이연정
    • 한국지능시스템학회논문지
    • /
    • 제11권5호
    • /
    • pp.388-394
    • /
    • 2001
  • 강화학습은 에이전트가 환경과의 상호작용을 통해 획득한 경험으로부터 제어 규칙을 학습하는 방법이다. 강화학습의 중요한 문제 중의 하나인 신뢰 할당 문제를 해결하기 위해 기여도가 사용되는데, 누적 기여도나 대체 기여도와 같은 기존의 기여도를 이용한 방법은 방문한 상태에서 수행된 행위만을 학습시키기 때문에 학습 자정에서 획득된 보답 신호를 효과적으로 사용하지 못한다. 본 논문에서는 방문한 상태에서 수행된 행위뿐만 아니라 인접 행위들도 학습될 수 있도록 하는 새로운 기여도로써 분포 기여도를 제안한다. 제안된 기여도를 이용한 퍼지 Q-learning 알고리즘을 역진자 시스템에 적용하여 학습 속도면에서 기존의 방법에 비해 우수함을 보인다.

  • PDF

다각형 기반의 Q-Learning과 Cascade SVM을 이용한 군집로봇의 목표물 추적 알고리즘 (Object Tracking Algorithm of Swarm Robot System for using Polygon Based Q-Learning and Cascade SVM)

  • 서상욱;양현창;심귀보
    • 대한임베디드공학회논문지
    • /
    • 제3권2호
    • /
    • pp.119-125
    • /
    • 2008
  • This paper presents the polygon-based Q-leaning and Cascade Support Vector Machine algorithm for object search with multiple robots. We organized an experimental environment with ten mobile robots, twenty five obstacles, and an object, and then we sent the robots to a hallway, where some obstacles were lying about, to search for a hidden object. In experiment, we used four different control methods: a random search, a fusion model with Distance-based action making (DBAM) and Area-based action making (ABAM) process to determine the next action of the robots, and hexagon-based Q-learning and dodecagon-based Q-learning and Cascade SVM to enhance the fusion model with DBAM and ABAM process.

  • PDF

Object tracking algorithm of Swarm Robot System for using Polygon based Q-learning and parallel SVM

  • Seo, Snag-Wook;Yang, Hyun-Chang;Sim, Kwee-Bo
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제8권3호
    • /
    • pp.220-224
    • /
    • 2008
  • This paper presents the polygon-based Q-leaning and Parallel SVM algorithm for object search with multiple robots. We organized an experimental environment with one hundred mobile robots, two hundred obstacles, and ten objects. Then we sent the robots to a hallway, where some obstacles were lying about, to search for a hidden object. In experiment, we used four different control methods: a random search, a fusion model with Distance-based action making (DBAM) and Area-based action making (ABAM) process to determine the next action of the robots, and hexagon-based Q-learning, and dodecagon-based Q-learning and parallel SVM algorithm to enhance the fusion model with Distance-based action making (DBAM) and Area-based action making (ABAM) process. In this paper, the result show that dodecagon-based Q-learning and parallel SVM algorithm is better than the other algorithm to tracking for object.

지능형 에이전트의 모호한 목적을 처리하기 위한 FuzzyQ-Learning (FuzzyQ-Learning to Process the Vague Goals of Intelligent Agent)

  • 서호섭;윤소정;오경환
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.271-273
    • /
    • 2000
  • 일반적으로, 지능형 에이전트는 사용자의 목적과 주위 환경으로부터 최적의 행동을 스스로 찾아낼 수 있어야 한다. 만약 에이전트의 목적이나 주위 환경이 불확실성을 포함하는 경우, 에이전트는 적절한 행동을 선택하기 어렵다. 그러나, 사용자의 목적이 인간 지식의 불확실성을 포함하는 언어값으로 표현되었을 경우, 이를 처리하려는 연구는 없었다. 본 논문에서는 모호한 사용자의 의도를 퍼지 목적으로 나타내고, 에이전트가 인지하는 불확실한 환경을 퍼지 상태로 표현하는 방법을 제안한다. 또, 퍼지 목적과 상태를 이용하여 확장한 펴지 강화 함수와를 이용하여, 기존 강화 학습 알고리즘 중 하나인 Q-Learning을 FuzzyQ-Learning으로 확장하고, 이에 대한 타당성을 검증한다.

  • PDF

역전파 신경회로망과 Q학습을 이용한 장기보드게임 개발 ((The Development of Janggi Board Game Using Backpropagation Neural Network and Q Learning Algorithm))

  • 황상문;박인규;백덕수;진달복
    • 대한전자공학회논문지TE
    • /
    • 제39권1호
    • /
    • pp.83-90
    • /
    • 2002
  • 본 논문은 2인용 보드게임의 정보에 대한 전략을 학습할 수 있는 방법을 역전파 신경회로망과 Q학습알고리즘을 이용하여 제안하였다. 학습의 과정은 단순히 상대프로세스와의 대국에 의하여 이루어진다. 시스템의 구성은 탐색을 담당하는 부분과 기물의 수를 발생하는 부분으로 구성되어 있다. 수의 발생부분은 보드의 상태에 따라서 갱신되고, 탐색커널은 αβ 탐색을 기본으로 역전파 신경회로망과 Q학습을 결합하여 게임에 대해 양호한 평가함수를 학습하였다. 학습의 과정에서 일련의 기물의 이동에 있어서 인접한 평가치들의 차이만을 줄이는 Temporal Difference학습과는 달리, 기물의 이동에 따른 평가치에 대해 갱신된 평가치들을 이용하여 평가함수를 학습함으로써 최적의 전략을 유도할 수 있는 Q학습알고리즘을 사용하였다. 일반적으로 많은 학습을 통하여 평가함수의 정확도가 보장되면 승률이 학습의 양에 비례함을 알 수 있었다.

대기행렬이론과 Q-러닝 알고리즘을 적용한 지역문화축제 진입차량 주차분산 시뮬레이션 시스템 (A Simulation of Vehicle Parking Distribution System for Local Cultural Festival with Queuing Theory and Q-Learning Algorithm)

  • 조영호;서영건;정대율
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제29권2호
    • /
    • pp.131-147
    • /
    • 2020
  • Purpose The purpose of this study is to develop intelligent vehicle parking distribution system based on LoRa network at the circumstance of traffic congestion during cultural festival in a local city. This paper proposes a parking dispatch and distribution system using a Q-learning algorithm to rapidly disperse traffics that increases suddenly because of in-bound traffics from the outside of a city in the real-time base as well as to increase parking probability in a parking lot which is widely located in a city. Design/methodology/approach The system get information on realtime-base from the sensor network of IoT (LoRa network). It will contribute to solve the sudden increase in traffic and parking bottlenecks during local cultural festival. We applied the simulation system with Queuing model to the Yudeung Festival in Jinju, Korea. We proposed a Q-learning algorithm that could change the learning policy by setting the acceptability value of each parking lot as a threshold from the Jinju highway IC (Interchange) to the 7 parking lots. LoRa Network platform supports to browse parking resource information to each vehicle in realtime. The system updates Q-table periodically using Q-learning algorithm as soon as get information from parking lots. The Queuing Theory with Poisson arrival distribution is used to get probability distribution function. The Dijkstra algorithm is used to find the shortest distance. Findings This paper suggest a simulation test to verify the efficiency of Q-learning algorithm at the circumstance of high traffic jam in a city during local festival. As a result of the simulation, the proposed algorithm performed well even when each parking lot was somewhat saturated. When an intelligent learning system such as an O-learning algorithm is applied, it is possible to more effectively distribute the vehicle to a lot with a high parking probability when the vehicle inflow from the outside rapidly increases at a specific time, such as a local city cultural festival.

가중 기여도를 이용한 퍼지 Q-learning (Fuzzy Q-learning using Weighted Eligibility)

  • 정석일;이연정
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2000년도 추계학술대회 학술발표 논문집
    • /
    • pp.163-167
    • /
    • 2000
  • The eligibility is used to solve the credit-assignment problem which is one of important problems in reinforcement learning. Conventional eligibilities which are accumulating eligibility and replacing eligibility make ineffective use of rewards acquired in learning process. Because only an executed action in a visited state is learned by these eligibilities. Thus, we propose a new eligibility, called the weighted eligibility with which not only an executed action but also neighboring actions in a visited state are to be learned. The fuzzy Q-learning algorithm using proposed eligibility is applied to a cart-pole balancing problem, which shows improvement of learning speed.

  • PDF

강화학습법을 이용한 유역통합 저수지군 운영 (Basin-Wide Multi-Reservoir Operation Using Reinforcement Learning)

  • 이진희;심명필
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2006년도 학술발표회 논문집
    • /
    • pp.354-359
    • /
    • 2006
  • The analysis of large-scale water resources systems is often complicated by the presence of multiple reservoirs and diversions, the uncertainty of unregulated inflows and demands, and conflicting objectives. Reinforcement learning is presented herein as a new approach to solving the challenging problem of stochastic optimization of multi-reservoir systems. The Q-Learning method, one of the reinforcement learning algorithms, is used for generating integrated monthly operation rules for the Keum River basin in Korea. The Q-Learning model is evaluated by comparing with implicit stochastic dynamic programming and sampling stochastic dynamic programming approaches. Evaluation of the stochastic basin-wide operational models considered several options relating to the choice of hydrologic state and discount factors as well as various stochastic dynamic programming models. The performance of Q-Learning model outperforms the other models in handling of uncertainty of inflows.

  • PDF