• 제목/요약/키워드: Q-학습법

검색결과 25건 처리시간 0.029초

강화학습에 기초한 로봇 축구 에이전트의 동적 위치 결정 (Reinforcement Learning based Dynamic Positioning of Robot Soccer Agents)

  • 권기덕;김인철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (2)
    • /
    • pp.55-57
    • /
    • 2001
  • 강화학습은 한 에이전트가 자신이 놓여진 환경으로부터의 보상을 최대화할 수 있는 최적의 행동 전략을 학습하는 것이다. 따라서 강화학습은 입력(상태)과 출력(행동)의 쌍으로 명확한 훈련 예들이 제공되는 교사 학습과는 다르다. 특히 Q-학습과 같은 비 모델 기반(model-free)의 강화학습은 사전에 환경에 대한 별다른 모델을 설정하거나 학습할 필요가 없으며 다양한 상태와 행동들을 충분히 자주 경험할 수만 있으면 최적의 행동전략에 도달할 수 있어 다양한 응용분야에 적용되고 있다. 하지만 실제 응용분야에서 Q-학습과 같은 강화학습이 겪는 최대의 문제는 큰 상태 공간을 갖는 문제의 경우에는 적절한 시간 내에 각 상태와 행동들에 대한 최적의 Q값에 수렴할 수 없어 효과를 거두기 어렵다는 점이다. 이런 문제점을 고려하여 본 논문에서는 로봇 축구 시뮬레이션 환경에서 각 선수 에이전트의 동적 위치 결정을 위해 효과적인 새로운 Q-학습 방법을 제안한다. 이 방법은 원래 문제의 상태공간을 몇 개의 작은 모듈들로 나누고 이들의 개별적인 Q-학습 결과를 단순히 결합하는 종래의 모듈화 Q-학습(Modular Q-Learning)을 개선하여, 보상에 끼친 각 모듈의 기여도에 따라 모듈들의 학습결과를 적응적으로 결합하는 방법이다. 이와 같은 적응적 중재에 기초한 모듈화 Q-학습법(Adaptive Mediation based Modular Q-Learning, AMMQL)은 종래의 모듈화 Q-학습법의 장점과 마찬가지로 큰 상태공간의 문제를 해결할 수 있을 뿐 아니라 보다 동적인 환경변화에 유연하게 적응하여 새로운 행동 전략을 학습할 수 있다는 장점을 추가로 가질 수 있다. 이러한 특성을 지닌 AMMQL 학습법은 로봇축구와 같이 끊임없이 실시간적으로 변화가 일어나는 다중 에이전트 환경에서 특히 높은 효과를 볼 수 있다. 본 논문에서는 AMMQL 학습방법의 개념을 소개하고, 로봇축구 에이전트의 동적 위치 결정을 위한 학습에 어떻게 이 학습방법을 적용할 수 있는지 세부 설계를 제시한다.

  • PDF

이산 시간 스위칭 선형 시스템의 적응 LQ 준최적 제어를 위한 Q-학습법 (Q-learning for Adaptive LQ Suboptimal Control of Discrete-time Switched Linear System)

  • 전태윤;최윤호;박진배
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2011년도 제42회 하계학술대회
    • /
    • pp.1874-1875
    • /
    • 2011
  • 본 논문에서는 스위칭 선형 시스템의 적응 LQ 준최적 제어를 위한 Q-학습법 알고리즘을 제안한다. 제안된 제어 알고리즘은 안정성이 증명된 기존 Q-학습법에 기반하며 스위칭 시스템 모델의 변수를 모르는 상황에서도 준최적 제어가 가능하다. 이 알고리즘을 기반으로 기존에 스위칭 시스템에서 고려하지 않았던 각 시스템의 불확실성 및 최적 적응 제어 문제를 해결하고 컴퓨터 모의실험을 통해 제안한 알고리즘의 성능과 결과를 검증한다.

  • PDF

$\varepsilon$-SVR을 이용한 Neural-Q 기법 (Neural -Q met,hod based on $\varepsilon$-SVR)

  • 조원희;김영일;박주영
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2002년도 추계학술대회 및 정기총회
    • /
    • pp.162-165
    • /
    • 2002
  • Q-learning은 강화학습의 한 방법으로서, 여러 분야에 널리 응용되고 있는 기법이다. 최근에는 Linear Quadratic Regulation(이하 LQR) 문제에 성공적으로 적용된 바 있는데, 특히, 시스템모델의 파라미터에 대한 구체적인 정보가 없는 상태에서 적절한 입력과 출력만을 가지고 학습을 통해 문제를 해결할 수 있어서 상황에 따라서 매우 실용적인 대안이 될 수 있다. Neural Q-learning은 이러한 Q-learning의 Q-value를 MLP(multilayer perceptron) 신경망의 출력으로 대치시킴으로써, 비선형 시스템의 최적제어 문제를 다룰 수 있게 한 방법이다. 그러나, Neural Q방식은 신경망의 구조를 먼저 결정한 후 역전파 알고리즘을 이용하여 학습하는 절차를 취하기 때문에, 시행착오를 통하여 신경망 구조를 결정해야 한다는 점, 역전파 알고리즘의 적용으로 인해 신경망의 연결강도 값들이 지역적 최적해로 수렴한다는 점등의 문제점을 상속받는 한계가 있다. 따라서, 본 논문에서는 Neural-0 학습의 도구로, 역전파 알고리즘으로 학습되는 MLP 신경망을 사용하는 대신 최근 들어 여러 분야에서 그 성능을 인정받고 있는 서포트 벡터 학습법을 사용하는 방법을 택하여, $\varepsilon$-SVR(Epsilon Support Vector Regression)을 이용한 Q-value 근사 기법을 제안하고 관련 수식을 유도하였다. 그리고, 모의 실험을 통하여, 제안된 서포트 벡터학습 기반 Neural-Q 방법의 적용 가능성을 알아보았다.

강화학습의 학습 가속을 위한 함수 근사 방법 (Function Approximation for accelerating learning speed in Reinforcement Learning)

  • 이영아;정태충
    • 한국지능시스템학회논문지
    • /
    • 제13권6호
    • /
    • pp.635-642
    • /
    • 2003
  • 강화학습은 제어, 스케쥴링 등 많은 응용분야에서 성공적인 학습 결과를 얻었다. 기본적인 강화학습 알고리즘인 Q-Learning, TD(λ), SARSA 등의 학습 속도의 개선과 기억장소 등의 문제를 해결하기 위해서 여러 함수 근사방법(function approximation methods)이 연구되었다. 대부분의 함수 근사 방법들은 가정을 통하여 강화학습의 일부 특성을 제거하고 사전지식과 사전처리가 필요하다. 예로 Fuzzy Q-Learning은 퍼지 변수를 정의하기 위한 사전 처리가 필요하고, 국소 최소 자승법은 훈련 예제집합을 이용한다. 본 논문에서는 온-라인 퍼지 클러스터링을 이용한 함수 근사 방법인 Fuzzy Q-Map을 제안하다. Fuzzy Q-Map은 사전 지식이 최소한으로 주어진 환경에서, 온라인으로 주어지는 상태를 거리에 따른 소속도(membership degree)를 이용하여 분류하고 행동을 예측한다. Fuzzy Q-Map과 다른 함수 근사 방법인 CMAC와 LWR을 마운틴 카 문제에 적용하여 실험 한 결과 Fuzzy Q-Map은 훈련예제를 사용하지 않는 CMAC보다는 빠르게 최고 예측율에 도달하였고, 훈련 예제를 사용한 LWR보다는 낮은 예측율을 보였다.

강화 학습법을 이용한 효과적인 적응형 대화 전략 (An Effective Adaptive Dialogue Strategy Using Reinforcement Loaming)

  • 김원일;고영중;서정연
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제35권1호
    • /
    • pp.33-40
    • /
    • 2008
  • 인간은 다른 사람과 대화할 때, 시행착오 과정을 거치면서 상대방에 관한 학습이 일어난다. 본 논문에서는 이런 과정의 강화학습법(Reinforcement Learning)을 이용하여 대화시스템에 적응형 능력의 부여 방법을 제안한다. 적응형 대화 전략이란 대화시스템이 사용자의 대화 처리 습성을 학습하고, 사용자 만족도와 효율성을 높이는 것을 말한다. 강화 학습법을 효율적으로 대화처리 시스템에 적용하기 위하여 대화를 주 대화와 부대화로 나누어 정의하고 사용하였다. 주 대화에서는 전체적인 만족도를, 부 대화에서는 완료 여부, 완료시간, 에러 횟수를 이용해서 시스템의 효율성을 측정하였다. 또한 학습 과정에서의 사용자 편의성을 위하여 시스템 사용 역량에 따라 사용자를 두 그룹으로 분류한 후 해당 그룹의 강화 학습 훈련 정책을 적용하였다. 실험에서는 개인별, 그룹별 강화 학습에 따라 제안한 방법의 성능을 평가하였다.

개미 집단 시스템에서 TD-오류를 이용한 강화학습 기법 (A Reinforcement Loaming Method using TD-Error in Ant Colony System)

  • 이승관;정태충
    • 정보처리학회논문지B
    • /
    • 제11B권1호
    • /
    • pp.77-82
    • /
    • 2004
  • 강화학습에서 temporal-credit 할당 문제 즉, 에이전트가 현재 상태에서 어떤 행동을 선택하여 상태전이를 하였을 때 에이전트가 선택한 행동에 대해 어떻게 보상(reward)할 것인가는 강화학습에서 중요한 과제라 할 수 있다. 본 논문에서는 조합최적화(hard combinational optimization) 문제를 해결하기 위한 새로운 메타 휴리스틱(meta heuristic) 방법으로, greedy search뿐만 아니라 긍정적 반응의 탐색을 사용한 모집단에 근거한 접근법으로 Traveling Salesman Problem(TSP)를 풀기 위해 제안된 Ant Colony System(ACS) Algorithms에 Q-학습을 적용한 기존의 Ant-Q 학습방범을 살펴보고 이 학습 기법에 다양화 전략을 통한 상태전이와 TD-오류를 적용한 학습방법인 Ant-TD 강화학습 방법을 제안한다. 제안한 강화학습은 기존의 ACS, Ant-Q학습보다 최적해에 더 빠르게 수렴할 수 있음을 실험을 통해 알 수 있었다.

간호학과 신입생의 문제중심학습(PBL)의 경험에 관한 주관성연구 (Subjectivity on Problem Based Learning(PBL) Experience of Freshmen in Nursing students)

  • 박주영;양남영
    • 디지털융복합연구
    • /
    • 제11권1호
    • /
    • pp.329-338
    • /
    • 2013
  • 연구의 목적은 간호학과 신입생의 문제중심학습(PBL)의 경험에 대한 주관성을 유형화하고 유형별 특성과 차이점을 분석하기 위한 것이다. 연구 대상은 간호학과 신입생 25명으로 구성하였다. 연구방법은 Q 방법론을 적용하였고, 수집된 자료는 pc-QUANAL 프로그램에 의한 주인자분석법으로 처리하였다. 심층면담과 문헌고찰을 통하여 선정된 31개의 진술문을 9점 척도의 Q 분포도상에 연구대상자에게 강제 분포하도록 하였다. 연구결과는 간호학과 신입생의 문제중심학습(PBL)에 대한 경험은 4개의 유형으로 분류되었으며 이들 유형에 의해 설명된 전체 변량은 71.6%이었다. 제 1유형은 '긍정적 부담형', 제 2유형은 '관계적 친화형', 제 3유형은 '창의적 유익형', 제 4유형은 '참여적 발전형'으로 명명하였다. 결론으로는 문제중심학습(PBL)은 간호학과 신입생에게 유용한 경험이었고 그 경험은 다양한 관점으로 인식되었다. 따라서 이상의 연구결과를 실무 중심의 간호교육을 위한 일 전략으로서 효율적인 문제중심학습(PBL) 활동에 대한 운영방안을 모색하는 데 그 기초자료로 반영해야 할 것이다.

다중에이전트 강화학습을 위한 SOM기반의 상태 일한화 (SOM-Based State Generalization for Multiagent Reinforcement Learning)

  • 임문택;김인철
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2002년도 추계정기학술대회
    • /
    • pp.399-408
    • /
    • 2002
  • 다중 에이전트 학습이란 다중 에이전트 환경에서 에이전트간의 조정을 위한 행동전략을 학습하는 것을 말한다. 본 논문에서는 에이전트간의 통신이 불가능한 다중 에이전트 환경에서 각 에이전트들이 서로 독립적으로 대표적인 강화학습법인 Q학습을 전개함으로써 서로 효과적으로 협조할 수 있는 행동전략을 학습하려고 한다. 하지만 단일 에이전트 경우에 비해 보다 큰 상태-행동 공간을 갖는 다중 에이전트환경에서는 강화학습을 통해 효과적으로 최적의 행동 전략에 도달하기 어렵다는 문제점이 있다. 이 문제에 대한 기존의 접근방법은 크게 모듈화 방법과 일반화 방법이 제안되었으나 모두 나름의 제한을 가지고 있다. 본 논문에서는 대표적인 다중 에이전트 학습 문제의 예로서 먹이와 사냥꾼 문제(Prey and Hunters Problem)를 소개하고 이 문제영역을 통해 이와 같은 강화학습의 문제점을 살펴보고, 해결책으로 신경망 SOM을 이용한 일반화 방법인 QSOM 학습법을 제안한다. 이 방법은 기존의 일반화 방법과는 달리 군집화 기능을 제공하는 신경망 SOM을 이용함으로써 명확한 다수의 훈련 예가 없어도 효과적으로 이전에 경험하지 못했던 상태-행동들에 대한 Q값을 예측하고 이용할 수 있다는 장점이 있다. 또한 본 논문에서는 실험을 통해 QSOM 학습법의 일반화 효과와 성능을 평가하였다.

  • PDF

조리전공 대학생의 요리경연대회 참가를 위한 문제중심학습(PBL) 적용사례연구 (A Subjectivity Study of Culinary Arts Major Students in Problem Based Learning(PBL) Program for Culinary Competition)

  • 신승훈;김찬우
    • 한국콘텐츠학회논문지
    • /
    • 제19권8호
    • /
    • pp.598-608
    • /
    • 2019
  • 본 연구는 요리경연 대회 참가를 원하는 조리전공 대학생들을 대상으로 문제중심학습(PBL)을 적용한 수업을 진행하고 수업에 대한 학생들의 주관적인 인식을 파악하고자 하였다. 본 연구에서는 주관적인 인식의 파악을 위해 Q 방법론을 적용하여 학생들 사이에서 발견되는 공통적인 유형을 도출하고 유형들 간의 특성과 함의를 분석하여 향후 유사 학습법에 대한 적용에 있어 중요한 시사점을 발견하고자 하였다. 유형 분석을 통해 총4개의 유형이 도출되었으며 각 유형은 제 1유형(N=6): 문제해결능력 형 (Problem-Solving Ability Type), 제 2유형(N=8): 팀 구성원 협업 중요 형(Team Member Collaboration Important Type), 제 3유형(N=3): 자기주도학습 필요 형 (Self-Directed Learning Needed Type), 제 4유형(N=2): 취업 준비 형 (Employment Preparation Type)으로 명명하였다. 또한 결과를 통해 학생들은 적용된 학습에 대해 문제해결능력발달, 집단 내 협업관련 이슈에 대한 이해증가, 자기주도학습 능력의 필요성 지각, 그리고 취업준비로서의 조리대회 역할에 대한 인식을 가지고 있음이 들어 났다. 추가로 동일 학습법을 진행하게 되는 교수자의 입장에서는 집단 협업을 위한 중재자적 역할 필요성, 학습동기부여 관련 적극적 노력에 있어야 함을 시사점으로 제시하였다.

조리실무과목에 대한 조리전공 대학생의 팀기반학습(TBL) 적용사례 연구 (A Case Study on The Application of Team-Based Learning by Culinary Major University Students to Culinary Skills Subjects)

  • 김찬우;정현채
    • 한국콘텐츠학회논문지
    • /
    • 제20권5호
    • /
    • pp.327-337
    • /
    • 2020
  • 본 연구는 조리실무과목의 팀기반학습(TBL)을 적용하여 조리전공 대학생을 대상으로 주관적 인식유형을 분석한 연구로서 학습자의 주관적 인식유형을 다각적인 분석을 위해 Q 방법론을 적용하였다. 연구의 분석을 위해 조리전공 대학생을 대상으로 인터뷰를 실시하였으며, Q모집단을 구성, P표본 선정, Q분류, 결과 해석, 결론 및 논의의 순으로 조사를 진행하였다. 유형 분석 결과 총 4가지의 유형이 도출되었으며, 다음과 같이 각각 그 특이성에 따라 명명하였다. 제 1유형(N=8) : 협동학습 효과 유형(Cooperative Learning Effect Types), 제 2유형(N=8): 문제해결능력 효과 유형(Problem Solving Ability Effect Types), 제3유형(N=6): 자기주도학습 효과 유형(Self Directed Learning Effect Type), 제 4유형(N=6): 개별실습 선호 유형 (Individual Practice Preference Type)으로 각 각 독특한 특징의 유형으로 분석되었다. 이와 같이 분석을 토대로 현재 교육환경과 여건에 맞는 실무적 교수학습방법을 제시하여 추후 사회적응력과 전공실무적능력을 향상하고자 한다. 또한 미래의 유사한 교수법 적용 연구에 실질적인 도움이 될 수 있는 중요한 시사점을 제공 할 수 있을 것으로 기대한다.