• 제목/요약/키워드: Q-Learning

검색결과 432건 처리시간 0.032초

함수근사와 규칙추출을 위한 클러스터링을 이용한 강화학습 (Reinforcement Learning with Clustering for Function Approximation and Rule Extraction)

  • 이영아;홍석미;정태충
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권11호
    • /
    • pp.1054-1061
    • /
    • 2003
  • 강화학습의 대표적인 알고리즘인 Q-Learning은 상태공간의 모든 상태-행동 쌍(state-action pairs)의 평가값이 수렴할 때까지 반복해서 경험하여 최적의 전략(policy)을 얻는다. 상태공간을 구성하는 요소(feature)들이 많거나 요소의 데이타 형태가 연속형(continuous)인 경우, 상태공간은 지수적으로 증가하게 되어, 모든 상태들을 반복해서 경험해야 하고 모든 상태-행동 쌍의 Q값을 저장하는 것은 시간과 메모리에 있어서 어려운 문제이다. 본 논문에서는 온라인으로 학습을 진행하면서 비슷한 상황의 상태들을 클러스터링(clustering)하고 새로운 경험에 적응해서 클러스터(cluster)의 수정(update)을 반복하여, 분류된 최적의 전략(policy)을 얻는 새로운 함수근사(function approximation)방법인 Q-Map을 소개한다. 클러스터링으로 인해 정교한 제어가 필요한 상태(state)는 규칙(rule)으로 추출하여 보완하였다. 미로환경과 마운틴 카 문제를 제안한 Q-Map으로 실험한 결과 분류된 지식을 얻을 수 있었으며 가시화된(explicit) 지식의 형태인 규칙(rule)으로도 쉽게 변환할 수 있었다.

$\varepsilon$-SVR을 이용한 Neural-Q 기법 (Neural -Q met,hod based on $\varepsilon$-SVR)

  • 조원희;김영일;박주영
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2002년도 추계학술대회 및 정기총회
    • /
    • pp.162-165
    • /
    • 2002
  • Q-learning은 강화학습의 한 방법으로서, 여러 분야에 널리 응용되고 있는 기법이다. 최근에는 Linear Quadratic Regulation(이하 LQR) 문제에 성공적으로 적용된 바 있는데, 특히, 시스템모델의 파라미터에 대한 구체적인 정보가 없는 상태에서 적절한 입력과 출력만을 가지고 학습을 통해 문제를 해결할 수 있어서 상황에 따라서 매우 실용적인 대안이 될 수 있다. Neural Q-learning은 이러한 Q-learning의 Q-value를 MLP(multilayer perceptron) 신경망의 출력으로 대치시킴으로써, 비선형 시스템의 최적제어 문제를 다룰 수 있게 한 방법이다. 그러나, Neural Q방식은 신경망의 구조를 먼저 결정한 후 역전파 알고리즘을 이용하여 학습하는 절차를 취하기 때문에, 시행착오를 통하여 신경망 구조를 결정해야 한다는 점, 역전파 알고리즘의 적용으로 인해 신경망의 연결강도 값들이 지역적 최적해로 수렴한다는 점등의 문제점을 상속받는 한계가 있다. 따라서, 본 논문에서는 Neural-0 학습의 도구로, 역전파 알고리즘으로 학습되는 MLP 신경망을 사용하는 대신 최근 들어 여러 분야에서 그 성능을 인정받고 있는 서포트 벡터 학습법을 사용하는 방법을 택하여, $\varepsilon$-SVR(Epsilon Support Vector Regression)을 이용한 Q-value 근사 기법을 제안하고 관련 수식을 유도하였다. 그리고, 모의 실험을 통하여, 제안된 서포트 벡터학습 기반 Neural-Q 방법의 적용 가능성을 알아보았다.

Multi-Dimensional Reinforcement Learning Using a Vector Q-Net - Application to Mobile Robots

  • Kiguchi, Kazuo;Nanayakkara, Thrishantha;Watanabe, Keigo;Fukuda, Toshio
    • International Journal of Control, Automation, and Systems
    • /
    • 제1권1호
    • /
    • pp.142-148
    • /
    • 2003
  • Reinforcement learning is considered as an important tool for robotic learning in unknown/uncertain environments. In this paper, we propose an evaluation function expressed in a vector form to realize multi-dimensional reinforcement learning. The novel feature of the proposed method is that learning one behavior induces parallel learning of other behaviors though the objectives of each behavior are different. In brief, all behaviors watch other behaviors from a critical point of view. Therefore, in the proposed method, there is cross-criticism and parallel learning that make the multi-dimensional learning process more efficient. By ap-plying the proposed learning method, we carried out multi-dimensional evaluation (reward) and multi-dimensional learning simultaneously in one trial. A special neural network (Q-net), in which the weights and the output are represented by vectors, is proposed to realize a critic net-work for Q-learning. The proposed learning method is applied for behavior planning of mobile robots.

Dynamic Action Space Handling Method for Reinforcement Learning Models

  • Woo, Sangchul;Sung, Yunsick
    • Journal of Information Processing Systems
    • /
    • 제16권5호
    • /
    • pp.1223-1230
    • /
    • 2020
  • Recently, extensive studies have been conducted to apply deep learning to reinforcement learning to solve the state-space problem. If the state-space problem was solved, reinforcement learning would become applicable in various fields. For example, users can utilize dance-tutorial systems to learn how to dance by watching and imitating a virtual instructor. The instructor can perform the optimal dance to the music, to which reinforcement learning is applied. In this study, we propose a method of reinforcement learning in which the action space is dynamically adjusted. Because actions that are not performed or are unlikely to be optimal are not learned, and the state space is not allocated, the learning time can be shortened, and the state space can be reduced. In an experiment, the proposed method shows results similar to those of traditional Q-learning even when the state space of the proposed method is reduced to approximately 0.33% of that of Q-learning. Consequently, the proposed method reduces the cost and time required for learning. Traditional Q-learning requires 6 million state spaces for learning 100,000 times. In contrast, the proposed method requires only 20,000 state spaces. A higher winning rate can be achieved in a shorter period of time by retrieving 20,000 state spaces instead of 6 million.

한국 내 중국 유학생의 학습태도 유형 분석 - Q방법론적 접근 - (An analysis of Learning Attitude among the Chinese Students in Korea - focused on the Q Methodology -)

  • 이장패;이효휘;박창언
    • 예술인문사회 융합 멀티미디어 논문지
    • /
    • 제7권6호
    • /
    • pp.115-123
    • /
    • 2017
  • 본 연구는 한국 내 중국 유학생의 학습태도 유형을 분석하고, 각 유형별 특징을 파악하는데 목적이 있다. 이를 위해 질적 연구방법과 양적 연구방법의 장점을 갖춘 방법론으로 개인의 생각이나 태도와 같은 주관적 행위를 객관적으로 측정할 수 있는 Q방법론을 적용하였다. 연구의 결과 중국 유학생의 학습태도 유형은 네 가지로 분류되었다. 제1유형은 자기 자신에 대하여 만족감을 느끼지만, 학습 환경 및 자원에 대하여 불만이 있는 '학습 환경 불만형', 제2유형은 대학생활에 잘 적응하면서 즐겁게 공부하는 '적극융합형', 제3유형은 학위취득의 목표를 두지만 학습을 위한 의지가 부족한 '학습동력 부족형', 제4유형은 자신의 생각과 행동이 다르게 나타나는 '갈등·혼란형'이다. 논의 결과 중국 유학생이 고향에 떠나 외국에 유학하는 과정에서 성공적인 학습을 위하여 학습에 대한 동기를 명확하게 가지고, 한국어 능력을 더 높여야 하며, 학습방법의 정확한 이해와 활용이 필요하였다. 향후 중국인 유학생이 더욱 늘어나 것에 대비해 학습태도 조절과 학업의 적응을 위한 노력이 대학과 국가적 차원에서 지원할 수 있는 여건을 보다 적극적으로 행할 필요가 있다.

The Application of Industrial Inspection of LED

  • 왕숙;정길도
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2009년도 정보 및 제어 심포지움 논문집
    • /
    • pp.91-93
    • /
    • 2009
  • In this paper, we present the Q-learning method for adaptive traffic signal control on the basis of In this paper, we present the Q-learning method for adaptive traffic signal control on the basis of multi-agent technology. The structure is composed of sixphase agents and one intersection agent. Wireless communication network provides the possibility of the cooperation of agents. As one kind of reinforcement learning, Q-learning is adopted as the algorithm of the control mechanism, which can acquire optical control strategies from delayed reward; furthermore, we adopt dynamic learning method instead of static method, which is more practical. Simulation result indicates that it is more effective than traditional signal system.

  • PDF

Rate Adaptation with Q-Learning in CSMA/CA Wireless Networks

  • Cho, Soohyun
    • Journal of Information Processing Systems
    • /
    • 제16권5호
    • /
    • pp.1048-1063
    • /
    • 2020
  • In this study, we propose a reinforcement learning agent to control the data transmission rates of nodes in carrier sensing multiple access with collision avoidance (CSMA/CA)-based wireless networks. We design a reinforcement learning (RL) agent, based on Q-learning. The agent learns the environment using the timeout events of packets, which are locally available in data sending nodes. The agent selects actions to control the data transmission rates of nodes that adjust the modulation and coding scheme (MCS) levels of the data packets to utilize the available bandwidth in dynamically changing channel conditions effectively. We use the ns3-gym framework to simulate RL and investigate the effects of the parameters of Q-learning on the performance of the RL agent. The simulation results indicate that the proposed RL agent adequately adjusts the MCS levels according to the changes in the network, and achieves a high throughput comparable to those of the existing data transmission rate adaptation schemes such as Minstrel.

Q-learning 모델을 이용한 IoT 기반 주차유도 시스템의 설계 및 구현 (Design and Implementation of Parking Guidance System Based on Internet of Things(IoT) Using Q-learning Model)

  • 지용주;최학희;김동성
    • 대한임베디드공학회논문지
    • /
    • 제11권3호
    • /
    • pp.153-162
    • /
    • 2016
  • This paper proposes an optimal dynamic resource allocation method in IoT (Internet of Things) parking guidance system using Q-learning resource allocation model. In the proposed method, a resource allocation using a forecasting model based on Q-learning is employed for optimal utilization of parking guidance system. To demonstrate efficiency and availability of the proposed method, it is verified by computer simulation and practical testbed. Through simulation results, this paper proves that the proposed method can enhance total throughput, decrease penalty fee issued by SLA (Service Level Agreement) and reduce response time with the dynamic number of users.

SVM과 다각형 기반의 Q-learning 알고리즘을 이용한 군집로봇의 목표물 추적 알고리즘 (Object tracking algorithm of Swarm Robot System for using SVM and Polygon based Q-learning)

  • 서상욱;양현창;심귀보
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국지능시스템학회 2008년도 춘계학술대회 학술발표회 논문집
    • /
    • pp.143-146
    • /
    • 2008
  • 본 논문에서는 군집로봇시스템에서 목표물 추적을 위하여 SVM을 이용한 12각형 기반의 Q-learning 알고리즘을 제안한다. 제안한 알고리즘의 유효성을 보이기 위해 본 논문에서는 여러대의 로봇과 장애물 그리고 하나의 목표물을 정하고, 각각의 로봇이 숨겨진 목표물을 찾아내는 실험을 가정하여 무작위, DBAM과 ABAM의 융합 모델, 그리고 마지막으로 본 논문에서 제안한 SVM과 12각형 기반의 Q-learning 알고리즘을 이용하여 실험을 수행하고, 이 3가지 방법을 비교하여 본 논문의 유효성을 검증하였다.

  • PDF

강화 학습에 기초한 로봇 축구 에이전트의 설계 및 구현 (Design and implementation of Robot Soccer Agent Based on Reinforcement Learning)

  • 김인철
    • 정보처리학회논문지B
    • /
    • 제9B권2호
    • /
    • pp.139-146
    • /
    • 2002
  • 로봇 축구 시뮬레이션 게임은 하나의 동적 다중 에이전트 환경이다. 본 논문에서는 그러한 환경 하에서 각 에이전트의 동적 위치 결정을 위한 새로운 강화학습 방법을 제안한다. 강화학습은 한 에이전트가 환경으로부터 받는 간접적 지연 보상을 기초로 누적 보상값을 최대화할 수 있는 최적의 행동 전략을 학습하는 기계학습 방법이다. 따라서 강화학습은 입력-출력 쌍들이 훈련 예로 직접 제공되지 않는 다는 점에서 교사학습과 크게 다르다. 더욱이 Q-학습과 같은 비-모델 기반의 강화학습 알고리즘들은 주변 환경에 대한 어떤 모델도 학습하거나 미리 정의하는 것을 요구하지 않는다. 그럼에도 불구하고 이 알고리즘들은 에이전트가 모든 상태-행동 쌍들을 충분히 반복 경험할 수 있다면 최적의 행동전략에 수렴할 수 있다. 하지만 단순한 강화학습 방법들의 가장 큰 문제점은 너무 큰 상태 공간 때문에 보다 복잡한 환경들에 그대로 적용하기 어렵다는 것이다. 이런 문제점을 해결하기 위해 본 연구에서는 기존의 모듈화 Q-학습방법(MQL)을 개선한 적응적 중재에 기초한 모듈화 Q-학습 방법(AMMQL)을 제안한다. 종래의 단순한 모듈화 Q-학습 방법에서는 각 학습 모듈들의 결과를 결합하는 방식이 매우 단순하고 고정적이었으나 AMMQL학습 방법에서는 보상에 끼친 각 모듈의 기여도에 따라 모듈들에 서로 다른 가중치를 부여함으로써 보다 유연한 방식으로 각 모듈의 학습결과를 결합한다. 따라서 AMMQL 학습 방법은 큰 상태공간의 문제를 해결할 수 있을 뿐 아니라 동적인 환경변화에 보다 높은 적응성을 제공할 수 있다. 본 논문에서는 로봇 축구 에이전트의 동적 위치 결정을 위한 학습 방법으로 AMMQL 학습 방법을 사용하였고 이를 기초로 Cogitoniks 축구 에이전트 시스템을 구현하였다.