• Title/Summary/Keyword: Q-학습법

Search Result 25, Processing Time 0.028 seconds

Reinforcement Learning based Dynamic Positioning of Robot Soccer Agents (강화학습에 기초한 로봇 축구 에이전트의 동적 위치 결정)

  • 권기덕;김인철
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10b
    • /
    • pp.55-57
    • /
    • 2001
  • 강화학습은 한 에이전트가 자신이 놓여진 환경으로부터의 보상을 최대화할 수 있는 최적의 행동 전략을 학습하는 것이다. 따라서 강화학습은 입력(상태)과 출력(행동)의 쌍으로 명확한 훈련 예들이 제공되는 교사 학습과는 다르다. 특히 Q-학습과 같은 비 모델 기반(model-free)의 강화학습은 사전에 환경에 대한 별다른 모델을 설정하거나 학습할 필요가 없으며 다양한 상태와 행동들을 충분히 자주 경험할 수만 있으면 최적의 행동전략에 도달할 수 있어 다양한 응용분야에 적용되고 있다. 하지만 실제 응용분야에서 Q-학습과 같은 강화학습이 겪는 최대의 문제는 큰 상태 공간을 갖는 문제의 경우에는 적절한 시간 내에 각 상태와 행동들에 대한 최적의 Q값에 수렴할 수 없어 효과를 거두기 어렵다는 점이다. 이런 문제점을 고려하여 본 논문에서는 로봇 축구 시뮬레이션 환경에서 각 선수 에이전트의 동적 위치 결정을 위해 효과적인 새로운 Q-학습 방법을 제안한다. 이 방법은 원래 문제의 상태공간을 몇 개의 작은 모듈들로 나누고 이들의 개별적인 Q-학습 결과를 단순히 결합하는 종래의 모듈화 Q-학습(Modular Q-Learning)을 개선하여, 보상에 끼친 각 모듈의 기여도에 따라 모듈들의 학습결과를 적응적으로 결합하는 방법이다. 이와 같은 적응적 중재에 기초한 모듈화 Q-학습법(Adaptive Mediation based Modular Q-Learning, AMMQL)은 종래의 모듈화 Q-학습법의 장점과 마찬가지로 큰 상태공간의 문제를 해결할 수 있을 뿐 아니라 보다 동적인 환경변화에 유연하게 적응하여 새로운 행동 전략을 학습할 수 있다는 장점을 추가로 가질 수 있다. 이러한 특성을 지닌 AMMQL 학습법은 로봇축구와 같이 끊임없이 실시간적으로 변화가 일어나는 다중 에이전트 환경에서 특히 높은 효과를 볼 수 있다. 본 논문에서는 AMMQL 학습방법의 개념을 소개하고, 로봇축구 에이전트의 동적 위치 결정을 위한 학습에 어떻게 이 학습방법을 적용할 수 있는지 세부 설계를 제시한다.

  • PDF

Q-learning for Adaptive LQ Suboptimal Control of Discrete-time Switched Linear System (이산 시간 스위칭 선형 시스템의 적응 LQ 준최적 제어를 위한 Q-학습법)

  • Chun, Tae-Yoon;Choi, Yoon-Ho;Park, Jin-Bae
    • Proceedings of the KIEE Conference
    • /
    • 2011.07a
    • /
    • pp.1874-1875
    • /
    • 2011
  • 본 논문에서는 스위칭 선형 시스템의 적응 LQ 준최적 제어를 위한 Q-학습법 알고리즘을 제안한다. 제안된 제어 알고리즘은 안정성이 증명된 기존 Q-학습법에 기반하며 스위칭 시스템 모델의 변수를 모르는 상황에서도 준최적 제어가 가능하다. 이 알고리즘을 기반으로 기존에 스위칭 시스템에서 고려하지 않았던 각 시스템의 불확실성 및 최적 적응 제어 문제를 해결하고 컴퓨터 모의실험을 통해 제안한 알고리즘의 성능과 결과를 검증한다.

  • PDF

Neural -Q met,hod based on $\varepsilon$-SVR ($\varepsilon$-SVR을 이용한 Neural-Q 기법)

  • 조원희;김영일;박주영
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2002.12a
    • /
    • pp.162-165
    • /
    • 2002
  • Q-learning은 강화학습의 한 방법으로서, 여러 분야에 널리 응용되고 있는 기법이다. 최근에는 Linear Quadratic Regulation(이하 LQR) 문제에 성공적으로 적용된 바 있는데, 특히, 시스템모델의 파라미터에 대한 구체적인 정보가 없는 상태에서 적절한 입력과 출력만을 가지고 학습을 통해 문제를 해결할 수 있어서 상황에 따라서 매우 실용적인 대안이 될 수 있다. Neural Q-learning은 이러한 Q-learning의 Q-value를 MLP(multilayer perceptron) 신경망의 출력으로 대치시킴으로써, 비선형 시스템의 최적제어 문제를 다룰 수 있게 한 방법이다. 그러나, Neural Q방식은 신경망의 구조를 먼저 결정한 후 역전파 알고리즘을 이용하여 학습하는 절차를 취하기 때문에, 시행착오를 통하여 신경망 구조를 결정해야 한다는 점, 역전파 알고리즘의 적용으로 인해 신경망의 연결강도 값들이 지역적 최적해로 수렴한다는 점등의 문제점을 상속받는 한계가 있다. 따라서, 본 논문에서는 Neural-0 학습의 도구로, 역전파 알고리즘으로 학습되는 MLP 신경망을 사용하는 대신 최근 들어 여러 분야에서 그 성능을 인정받고 있는 서포트 벡터 학습법을 사용하는 방법을 택하여, $\varepsilon$-SVR(Epsilon Support Vector Regression)을 이용한 Q-value 근사 기법을 제안하고 관련 수식을 유도하였다. 그리고, 모의 실험을 통하여, 제안된 서포트 벡터학습 기반 Neural-Q 방법의 적용 가능성을 알아보았다.

Function Approximation for accelerating learning speed in Reinforcement Learning (강화학습의 학습 가속을 위한 함수 근사 방법)

  • Lee, Young-Ah;Chung, Tae-Choong
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.13 no.6
    • /
    • pp.635-642
    • /
    • 2003
  • Reinforcement learning got successful results in a lot of applications such as control and scheduling. Various function approximation methods have been studied in order to improve the learning speed and to solve the shortage of storage in the standard reinforcement learning algorithm of Q-Learning. Most function approximation methods remove some special quality of reinforcement learning and need prior knowledge and preprocessing. Fuzzy Q-Learning needs preprocessing to define fuzzy variables and Local Weighted Regression uses training examples. In this paper, we propose a function approximation method, Fuzzy Q-Map that is based on on-line fuzzy clustering. Fuzzy Q-Map classifies a query state and predicts a suitable action according to the membership degree. We applied the Fuzzy Q-Map, CMAC and LWR to the mountain car problem. Fuzzy Q-Map reached the optimal prediction rate faster than CMAC and the lower prediction rate was seen than LWR that uses training example.

An Effective Adaptive Dialogue Strategy Using Reinforcement Loaming (강화 학습법을 이용한 효과적인 적응형 대화 전략)

  • Kim, Won-Il;Ko, Young-Joong;Seo, Jung-Yun
    • Journal of KIISE:Software and Applications
    • /
    • v.35 no.1
    • /
    • pp.33-40
    • /
    • 2008
  • In this paper, we propose a method to enhance adaptability in a dialogue system using the reinforcement learning that reduces response errors by trials and error-search similar to a human dialogue process. The adaptive dialogue strategy means that the dialogue system improves users' satisfaction and dialogue efficiency by loaming users' dialogue styles. To apply the reinforcement learning to the dialogue system, we use a main-dialogue span and sub-dialogue spans as the mathematic application units, and evaluate system usability by using features; success or failure, completion time, and error rate in sub-dialogue and the satisfaction in main-dialogue. In addition, we classify users' groups into beginners and experts to increase users' convenience in training steps. Then, we apply reinforcement learning policies according to users' groups. In the experiments, we evaluated the performance of the proposed method on the individual reinforcement learning policy and group's reinforcement learning policy.

A Reinforcement Loaming Method using TD-Error in Ant Colony System (개미 집단 시스템에서 TD-오류를 이용한 강화학습 기법)

  • Lee, Seung-Gwan;Chung, Tae-Choong
    • The KIPS Transactions:PartB
    • /
    • v.11B no.1
    • /
    • pp.77-82
    • /
    • 2004
  • Reinforcement learning takes reward about selecting action when agent chooses some action and did state transition in Present state. this can be the important subject in reinforcement learning as temporal-credit assignment problems. In this paper, by new meta heuristic method to solve hard combinational optimization problem, examine Ant-Q learning method that is proposed to solve Traveling Salesman Problem (TSP) to approach that is based for population that use positive feedback as well as greedy search. And, suggest Ant-TD reinforcement learning method that apply state transition through diversification strategy to this method and TD-error. We can show through experiments that the reinforcement learning method proposed in this Paper can find out an optimal solution faster than other reinforcement learning method like ACS and Ant-Q learning.

Subjectivity on Problem Based Learning(PBL) Experience of Freshmen in Nursing students (간호학과 신입생의 문제중심학습(PBL)의 경험에 관한 주관성연구)

  • Park, Ju-Young;Yang, Nam-Young
    • Journal of Digital Convergence
    • /
    • v.11 no.1
    • /
    • pp.329-338
    • /
    • 2013
  • Purpose: This study was to identify the types of subjectivity on PBL experience of freshmen in nursing students. Method: This study is exploratory research through Q methodology. From 102 Q populations, we selected 31 Q sorting was done by 25 of P sample. When the Q sorting is completed on nine point scale, we interviewed participants and documented their responses. The data was analyzed by using QUNAL program. Result: The result of the study showed 4 types. Four factors provided an explanation for 71.6% of total variances, and these four factors were analyzed and categorized as four types. We named type 1 as [positive pressure], type 2 as [relational friendly], type 3 as [creative benefit], type 4 as [paticipatory development]. Conclusion: In this study, PBL was valuable experience and recognized as a variety of perspectives for freshmen in nursing students. These findings indicate we suggest that planning of strategy for efficient operation on PBL was reflected above results.

SOM-Based State Generalization for Multiagent Reinforcement Learning (다중에이전트 강화학습을 위한 SOM기반의 상태 일한화)

  • 임문택;김인철
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2002.11a
    • /
    • pp.399-408
    • /
    • 2002
  • 다중 에이전트 학습이란 다중 에이전트 환경에서 에이전트간의 조정을 위한 행동전략을 학습하는 것을 말한다. 본 논문에서는 에이전트간의 통신이 불가능한 다중 에이전트 환경에서 각 에이전트들이 서로 독립적으로 대표적인 강화학습법인 Q학습을 전개함으로써 서로 효과적으로 협조할 수 있는 행동전략을 학습하려고 한다. 하지만 단일 에이전트 경우에 비해 보다 큰 상태-행동 공간을 갖는 다중 에이전트환경에서는 강화학습을 통해 효과적으로 최적의 행동 전략에 도달하기 어렵다는 문제점이 있다. 이 문제에 대한 기존의 접근방법은 크게 모듈화 방법과 일반화 방법이 제안되었으나 모두 나름의 제한을 가지고 있다. 본 논문에서는 대표적인 다중 에이전트 학습 문제의 예로서 먹이와 사냥꾼 문제(Prey and Hunters Problem)를 소개하고 이 문제영역을 통해 이와 같은 강화학습의 문제점을 살펴보고, 해결책으로 신경망 SOM을 이용한 일반화 방법인 QSOM 학습법을 제안한다. 이 방법은 기존의 일반화 방법과는 달리 군집화 기능을 제공하는 신경망 SOM을 이용함으로써 명확한 다수의 훈련 예가 없어도 효과적으로 이전에 경험하지 못했던 상태-행동들에 대한 Q값을 예측하고 이용할 수 있다는 장점이 있다. 또한 본 논문에서는 실험을 통해 QSOM 학습법의 일반화 효과와 성능을 평가하였다.

  • PDF

A Subjectivity Study of Culinary Arts Major Students in Problem Based Learning(PBL) Program for Culinary Competition (조리전공 대학생의 요리경연대회 참가를 위한 문제중심학습(PBL) 적용사례연구)

  • Shin, Seoung-Hoon;Kim, Chan-Woo
    • The Journal of the Korea Contents Association
    • /
    • v.19 no.8
    • /
    • pp.598-608
    • /
    • 2019
  • This study provided the analysis of the culinary arts students' subjectivity in problem based learning(PBL) program for culinary competition. Q methodology was employed for finding common characteristic of among students' opinion and also future suggestion was generated. The study found four different types of common structures. First one is Problem-Solving Ability Type(N=6), the second one is Team Member Collaboration Important Type(N=8), The third one is Self-Directed Learning Needed Type(N=3), and the last one is Employment Preparation Type(N=2). Through the analysis, students aware this particular PBL program as a problem solving skill development, understanding of coworking in group, importance of self directed learning, and preparation for securing job opportunity. The study also suggest that the educator need to perform as a negotiator in coworking process within group members and need to have an active approach on stimulation of study motivation among the students.

A Case Study on The Application of Team-Based Learning by Culinary Major University Students to Culinary Skills Subjects (조리실무과목에 대한 조리전공 대학생의 팀기반학습(TBL) 적용사례 연구)

  • Kim, Chan-Woo;Chung, Hyun-Chae
    • The Journal of the Korea Contents Association
    • /
    • v.20 no.5
    • /
    • pp.327-337
    • /
    • 2020
  • This study analyzed subjective cognitive types of culinary majors by applying TBL of cooking practice subjects, and applied Q methodology to multifaceted analysis of subjective cognitive types of learners. For the analysis of the study, interviews were conducted for college students majoring in cooking, and the survey was conducted in the order of constructing the Q population, selecting P-samples, classifying Q, interpreting the results, conclusions, and discussion. A total of four types were derived from the type analysis, and each was named according to its specificity as follows. Type 1 (N = 8): Cooperative Learning Effect Types, Type 2 (N = 8): Problem Solving Ability Effect Types, Type 3 (N = 6): Self Directed Learning Effect Type, Type 4 (N = 6): Individual Practice Preference Type analyzed for each unique feature type. It is expected that through the results of the study, it is expected to provide important implications that can help in the study of similar teaching methods in the future by fostering talents who can increase the needs of the industry and social stress.