• 제목/요약/키워드: Q learning

검색결과 426건 처리시간 0.028초

Barycentric Approximator for Reinforcement Learning Control

  • Whang Cho
    • International Journal of Precision Engineering and Manufacturing
    • /
    • 제3권1호
    • /
    • pp.33-42
    • /
    • 2002
  • Recently, various experiments to apply reinforcement learning method to the self-learning intelligent control of continuous dynamic system have been reported in the machine learning related research community. The reports have produced mixed results of some successes and some failures, and show that the success of reinforcement learning method in application to the intelligent control of continuous control systems depends on the ability to combine proper function approximation method with temporal difference methods such as Q-learning and value iteration. One of the difficulties in using function approximation method in connection with temporal difference method is the absence of guarantee for the convergence of the algorithm. This paper provides a proof of convergence of a particular function approximation method based on \"barycentric interpolator\" which is known to be computationally more efficient than multilinear interpolation .

강화학습에 기초한 로봇 축구 에이전트의 동적 위치 결정 (Reinforcement Learning based Dynamic Positioning of Robot Soccer Agents)

  • 권기덕;김인철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (2)
    • /
    • pp.55-57
    • /
    • 2001
  • 강화학습은 한 에이전트가 자신이 놓여진 환경으로부터의 보상을 최대화할 수 있는 최적의 행동 전략을 학습하는 것이다. 따라서 강화학습은 입력(상태)과 출력(행동)의 쌍으로 명확한 훈련 예들이 제공되는 교사 학습과는 다르다. 특히 Q-학습과 같은 비 모델 기반(model-free)의 강화학습은 사전에 환경에 대한 별다른 모델을 설정하거나 학습할 필요가 없으며 다양한 상태와 행동들을 충분히 자주 경험할 수만 있으면 최적의 행동전략에 도달할 수 있어 다양한 응용분야에 적용되고 있다. 하지만 실제 응용분야에서 Q-학습과 같은 강화학습이 겪는 최대의 문제는 큰 상태 공간을 갖는 문제의 경우에는 적절한 시간 내에 각 상태와 행동들에 대한 최적의 Q값에 수렴할 수 없어 효과를 거두기 어렵다는 점이다. 이런 문제점을 고려하여 본 논문에서는 로봇 축구 시뮬레이션 환경에서 각 선수 에이전트의 동적 위치 결정을 위해 효과적인 새로운 Q-학습 방법을 제안한다. 이 방법은 원래 문제의 상태공간을 몇 개의 작은 모듈들로 나누고 이들의 개별적인 Q-학습 결과를 단순히 결합하는 종래의 모듈화 Q-학습(Modular Q-Learning)을 개선하여, 보상에 끼친 각 모듈의 기여도에 따라 모듈들의 학습결과를 적응적으로 결합하는 방법이다. 이와 같은 적응적 중재에 기초한 모듈화 Q-학습법(Adaptive Mediation based Modular Q-Learning, AMMQL)은 종래의 모듈화 Q-학습법의 장점과 마찬가지로 큰 상태공간의 문제를 해결할 수 있을 뿐 아니라 보다 동적인 환경변화에 유연하게 적응하여 새로운 행동 전략을 학습할 수 있다는 장점을 추가로 가질 수 있다. 이러한 특성을 지닌 AMMQL 학습법은 로봇축구와 같이 끊임없이 실시간적으로 변화가 일어나는 다중 에이전트 환경에서 특히 높은 효과를 볼 수 있다. 본 논문에서는 AMMQL 학습방법의 개념을 소개하고, 로봇축구 에이전트의 동적 위치 결정을 위한 학습에 어떻게 이 학습방법을 적용할 수 있는지 세부 설계를 제시한다.

  • PDF

Deep Q 학습 기반의 다중경로 시스템 경로 선택 알고리즘 (Path selection algorithm for multi-path system based on deep Q learning)

  • 정병창;박혜숙
    • 한국정보통신학회논문지
    • /
    • 제25권1호
    • /
    • pp.50-55
    • /
    • 2021
  • 다중경로 시스템은 유선망, LTE망, 위성망 등 다양한 망을 동시에 활용하여 데이터를 전송하는 시스템으로, 통신망의 전송속도, 신뢰도, 보안성 등을 높이기 위해 제안되었다. 본 논문에서는 이 시스템에서 각 망의 지연시간을 보상으로 하는 강화학습 기반 경로 선택 방안을 제안하고자 한다. 기존의 강화학습 모델과는 다르게, deep Q 학습을 이용하여 망의 변화하는 환경에 즉각적으로 대응하도록 알고리즘을 설계하였다. 네트워크 환경에서는 보상 정보를 일정 지연시간이 지나야 얻을 수 있으므로 이를 보정하는 방안 또한 함께 제안하였다. 성능을 평가하기 위해, 분산 데이터베이스와 텐서플로우 모듈 등을 포함한 테스트베드 학습 서버를 개발하였다. 시뮬레이션 결과, 제안 알고리즘이 RTT 감소 측면에서 최저 지연시간을 선택하는 방안보다 20% 가량 좋은 성능을 가지는 것을 확인하였다.

Q-NAV: 수중 무선 네트워크에서 강화학습 기반의 NAV 설정 방법 (Q-NAV: NAV Setting Method based on Reinforcement Learning in Underwater Wireless Networks)

  • 박석현;조오현
    • 융합정보논문지
    • /
    • 제10권6호
    • /
    • pp.1-7
    • /
    • 2020
  • 수중 자원 탐색 및 해양 탐사, 환경 조사 등 수중 통신에 대한 수요가 급격하게 증가하고 있다. 하지만 수중 무선 통신을 사용하기 앞서 많은 문제점을 가지고 있다. 특히 수중 무선 네트워크에서 환경적 요인으로 인해 불가피하게 발생하는 불필요한 지연 시간과 노드 거리에 따른 공간적 불평등 문제가 존재한다. 본 논문은 이러한 문제를 해결하기 위해 ALOHA-Q를 기반으로 한 새로운 NAV 설정 방법을 제안한다. 제안 방법은 NAV 값을 랜덤하게 사용하고 통신 성공, 실패 유무에 따라 보상을 측정한다. 이후 보상 값에 따라 NAV 값을 설정 한다. 수중 무선 네트워크에서 에너지와 컴퓨팅 자원을 최대한 낮게 사용하면서 NAV 값을 강화 학습을 통하여 학습하고 한다. 시뮬레이션 결과 NAV 값이 해당 환경에 적응하고 최선의 값을 선택하여 불필요한 지연 시간문제와 공간적 불평등 문제를 해결할 수 있음을 보여준다. 시뮬레이션 결과 설정한 환경 내에서 기존 NAV 설정 시간 대비 약 17.5%의 시간을 감소하는 것을 보여준다.

Q방법론을 활용한 중등예비체육교사의 육상운동에 대한 인식 연구 (Analysis on the Secondary Pre-Physical Education Teacher's Recognition for the Learning Athletics Using the Q Methodology)

  • 유영설
    • 한국융합학회논문지
    • /
    • 제11권4호
    • /
    • pp.311-321
    • /
    • 2020
  • 본 연구는 육상운동에 대한 중등예비체육교사의 주관성을 탐색하는데 목적이 있다. 연구대상은 D시의 사범대학 체육교육과 2학년 학부생과 교육대학원생으로 총 28명으로 하였다. 연구방법은 인간의 주관적 인식을 탐색할 수 있는 Q방법론을 활용하였다. Q연구 과정을 통해 얻은 자료는 QUANL 프로그램을 통해 Q요인분석을 실시하여 총 4개의 유형으로 분류되었다. 제1유형은, 육상운동은 성취감을 느끼게 해 주고 리듬감이 중요하며 도전의식의 가치를 강조하여 '교육적 가치 인식형'으로 명명하였다. 제2유형은, 육상운동은 체력향상을 위한 트레이닝과 재미있는 보조운동의 필요성을 강조하여 '보조 활동 중요성 인식형'으로 명명하였다. 제3유형은, 육상운동은 복잡한 동작 구성에 따른 기능 습득의 어려움과 높은 집중력의 요구 그리고 경험 부족을 강조하여 '기능 습득 곤란 인식형'으로 명명하였다. 제4유형은, 육상운동은 모든 활동과 운동의 기초이고 도전의식을 갖게 하며 모든 건강체력요소를 포함하는 운동이라는 점을 강조하여 '기초 운동 가치 인식형'으로 명명하였다.

조리실무과목에 대한 조리전공 대학생의 팀기반학습(TBL) 적용사례 연구 (A Case Study on The Application of Team-Based Learning by Culinary Major University Students to Culinary Skills Subjects)

  • 김찬우;정현채
    • 한국콘텐츠학회논문지
    • /
    • 제20권5호
    • /
    • pp.327-337
    • /
    • 2020
  • 본 연구는 조리실무과목의 팀기반학습(TBL)을 적용하여 조리전공 대학생을 대상으로 주관적 인식유형을 분석한 연구로서 학습자의 주관적 인식유형을 다각적인 분석을 위해 Q 방법론을 적용하였다. 연구의 분석을 위해 조리전공 대학생을 대상으로 인터뷰를 실시하였으며, Q모집단을 구성, P표본 선정, Q분류, 결과 해석, 결론 및 논의의 순으로 조사를 진행하였다. 유형 분석 결과 총 4가지의 유형이 도출되었으며, 다음과 같이 각각 그 특이성에 따라 명명하였다. 제 1유형(N=8) : 협동학습 효과 유형(Cooperative Learning Effect Types), 제 2유형(N=8): 문제해결능력 효과 유형(Problem Solving Ability Effect Types), 제3유형(N=6): 자기주도학습 효과 유형(Self Directed Learning Effect Type), 제 4유형(N=6): 개별실습 선호 유형 (Individual Practice Preference Type)으로 각 각 독특한 특징의 유형으로 분석되었다. 이와 같이 분석을 토대로 현재 교육환경과 여건에 맞는 실무적 교수학습방법을 제시하여 추후 사회적응력과 전공실무적능력을 향상하고자 한다. 또한 미래의 유사한 교수법 적용 연구에 실질적인 도움이 될 수 있는 중요한 시사점을 제공 할 수 있을 것으로 기대한다.

Labeling Q-Learning for Maze Problems with Partially Observable States

  • Lee, Hae-Yeon;Hiroyuki Kamaya;Kenich Abe
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2000년도 제15차 학술회의논문집
    • /
    • pp.489-489
    • /
    • 2000
  • Recently, Reinforcement Learning(RL) methods have been used far teaming problems in Partially Observable Markov Decision Process(POMDP) environments. Conventional RL-methods, however, have limited applicability to POMDP To overcome the partial observability, several algorithms were proposed [5], [7]. The aim of this paper is to extend our previous algorithm for POMDP, called Labeling Q-learning(LQ-learning), which reinforces incomplete information of perception with labeling. Namely, in the LQ-learning, the agent percepts the current states by pair of observation and its label, and the agent can distinguish states, which look as same, more exactly. Labeling is carried out by a hash-like function, which we call Labeling Function(LF). Numerous labeling functions can be considered, but in this paper, we will introduce several labeling functions based on only 2 or 3 immediate past sequential observations. We introduce the basic idea of LQ-learning briefly, apply it to maze problems, simple POMDP environments, and show its availability with empirical results, look better than conventional RL algorithms.

  • PDF

클라우드 컴퓨팅 환경에서 강화학습기반 자원할당 기법 (Reinforcement Learning Approach for Resource Allocation in Cloud Computing)

  • 최영호;임유진;박재성
    • 한국통신학회논문지
    • /
    • 제40권4호
    • /
    • pp.653-658
    • /
    • 2015
  • 다양한 강점을 지닌 클라우드 서비스는 현대 IT 사업에 주요 이슈 중 하나이다. 클라우드 환경에서 서비스 제공자는 사용자의 동적인 자원 요구량을 예측하여 사용자의 QoS를 만족시켜야 한다. 사용자의 자원 요구량을 예측하는 기존 모델들은 사용자의 QoS는 만족시키지만 서비스 제공자의 이득은 보장하지 않는다. 본 논문에서는 Q-learning 기반의 자원 예측 모델을 제안하여 사용자의 QoS 뿐만 아니라 서비스 제공자의 이득을 최대화하였다. 또한 제안 기법의 성능 분석을 위해 실측 데이터를 이용하여 다른 예측 모델들과 비교함으로써 제안 기법의 우수함을 증명하였다.

R-Trader: 강화 학습에 기반한 자동 주식 거래 시스템 (R-Trader: An Automatic Stock Trading System based on Reinforcement learning)

  • 이재원;김성동;이종우;채진석
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권11호
    • /
    • pp.785-794
    • /
    • 2002
  • 자동 주식 거래 시스템은 시장 추세의 예측, 투자 종목의 선정, 거래 전략 등 매우 다양한 최적화 문제를 통합적으로 해결할 수 있어야 한다. 그러나 기존의 감독 학습 기법에 기반한 거래 시스템들은 이러한 최적화 요소들의 효과적인 결합에는 큰 비중을 두지 않았으며, 이로 인해 시스템의 궁극적인 성능에 한계를 보인다. 이 논문은 주가의 변동 과정이 마르코프 의사결정 프로세스(MDP: Markov Decision Process)라는 가정 하에, 강화 학습에 기반한 자동 주식 거래 시스템인 R-Trader를 제안한다. 강화 학습은 예측과 거래 전략의 통합적 학습에 적합한 학습 방법이다. R-Trader는 널리 알려진 두 가지 강화 학습 알고리즘인 TB(Temporal-difference)와 Q 알고리즘을 사용하여 종목 선정과 기타 거래 인자의 최적화를 수행한다. 또한 기술 분석에 기반하여 시스템의 입력 속성을 설계하며, 가치도 함수의 근사를 위해 인공 신경망을 사용한다. 한국 주식 시장의 데이타를 사용한 실험을 통해 제안된 시스템이 시장 평균을 초과하는 수익을 달성할 수 있고, 수익률과 위험 관리의 두 가지 측면 모두에서 감독 학습에 기반한 거래 시스템에 비해 우수한 성능 보임을 확인한다.

딥러닝을 활용한 도시가스배관의 전기방식(Cathodic Protection) 정류기 제어에 관한 연구 (A Study on Cathodic Protection Rectifier Control of City Gas Pipes using Deep Learning)

  • 이형민;임근택;조규선
    • 한국가스학회지
    • /
    • 제27권2호
    • /
    • pp.49-56
    • /
    • 2023
  • 4차 산업혁명으로 인공지능(AI, Artificial Intelligence) 관련 기술이 고도로 성장함에 따라 여러 분야에서 AI를 접목하는 사례가 증가하고 있다. 주요 원인은 정보통신기술이 발달됨에 따라 기하급수적으로 증가하는 데이터를 사람이 직접 처리·분석하는데 현실적인 한계가 있고, 새로운 기술을 적용하여 휴먼 에러에 대한 리스크도 감소시킬 수 있기 때문이다. 이번 연구에서는 '원격 전위 측정용터미널(T/B, Test Box)'로부터 수신된 데이터와 해당시점의 '원격 정류기' 출력을 수집 후, AI가 학습하도록 하였다. AI의 학습 데이터는 최초 수집된 데이터의 회기분석을 통한 데이터 전처리로 확보하였고, 학습모델은 심층 강화학습(DRL, Deep Reinforce-ment Learning) 알고리즘 중(中) Value기반의 Q-Learning모델이 적용하였다. 데이터 학습이 완료된 AI는 실제 도시가스 공급지역에 투입하여, 수신된 원격T/B 데이터를 기반으로 AI가 적절하게 대응하는지 검증하고, 이를 통해 향후 AI가 전기방식 관리에 적합한 수단으로 활용될 수 있는지 검증하고자 한다.