• 제목/요약/키워드: Q learning

검색결과 421건 처리시간 0.037초

Enhanced Machine Learning Algorithms: Deep Learning, Reinforcement Learning, and Q-Learning

  • Park, Ji Su;Park, Jong Hyuk
    • Journal of Information Processing Systems
    • /
    • 제16권5호
    • /
    • pp.1001-1007
    • /
    • 2020
  • In recent years, machine learning algorithms are continuously being used and expanded in various fields, such as facial recognition, signal processing, personal authentication, and stock prediction. In particular, various algorithms, such as deep learning, reinforcement learning, and Q-learning, are continuously being improved. Among these algorithms, the expansion of deep learning is rapidly changing. Nevertheless, machine learning algorithms have not yet been applied in several fields, such as personal authentication technology. This technology is an essential tool in the digital information era, walking recognition technology as promising biometrics, and technology for solving state-space problems. Therefore, algorithm technologies of deep learning, reinforcement learning, and Q-learning, which are typical machine learning algorithms in various fields, such as agricultural technology, personal authentication, wireless network, game, biometric recognition, and image recognition, are being improved and expanded in this paper.

퍼지 클러스터링을 이용한 강화학습의 함수근사 (Function Approximation for Reinforcement Learning using Fuzzy Clustering)

  • 이영아;정경숙;정태충
    • 정보처리학회논문지B
    • /
    • 제10B권6호
    • /
    • pp.587-592
    • /
    • 2003
  • 강화학습을 적용하기에 적합한 많은 실세계의 제어 문제들은 연속적인 상태 또는 행동(continuous states or actions)을 갖는다. 연속 값을 갖는 문제인 경우, 상태공간의 크기가 거대해져서 모든 상태-행동 쌍을 학습하는데 메모리와 시간상의 문제가 있다. 이를 해결하기 위하여 학습된 유사한 상태로부터 새로운 상태에 대한 추측을 하는 함수 근사 방법이 필요하다. 본 논문에서는 1-step Q-learning의 함수 근사를 위하여 퍼지 클러스터링을 기초로 한 Fuzzy Q-Map을 제안한다. Fuzzy Q-Map은 데이터에 대한 각 클러스터의 소속도(membership degree)를 이용하여 유사한 상태들을 군집하고 행동을 선택하고 Q값을 참조했다. 또한 승자(winner)가 되는 퍼지 클러스터의 중심과 Q값은 소속도와 TD(Temporal Difference) 에러를 이용하여 갱신하였다. 본 논문에서 제안한 방법은 마운틴 카 문제에 적용한 결과, 빠른 수렴 결과를 보였다.

A Study on the Implementation of Crawling Robot using Q-Learning

  • Hyunki KIM;Kyung-A KIM;Myung-Ae CHUNG;Min-Soo KANG
    • 한국인공지능학회지
    • /
    • 제11권4호
    • /
    • pp.15-20
    • /
    • 2023
  • Machine learning is comprised of supervised learning, unsupervised learning and reinforcement learning as the type of data and processing mechanism. In this paper, as input and output are unclear and it is difficult to apply the concrete modeling mathematically, reinforcement learning method are applied for crawling robot in this paper. Especially, Q-Learning is the most effective learning technique in model free reinforcement learning. This paper presents a method to implement a crawling robot that is operated by finding the most optimal crawling method through trial and error in a dynamic environment using a Q-learning algorithm. The goal is to perform reinforcement learning to find the optimal two motor angle for the best performance, and finally to maintain the most mature and stable motion about EV3 Crawling robot. In this paper, for the production of the crawling robot, it was produced using Lego Mindstorms with two motors, an ultrasonic sensor, a brick and switches, and EV3 Classroom SW are used for this implementation. By repeating 3 times learning, total 60 data are acquired, and two motor angles vs. crawling distance graph are plotted for the more understanding. Applying the Q-learning reinforcement learning algorithm, it was confirmed that the crawling robot found the optimal motor angle and operated with trained learning, and learn to know the direction for the future research.

자율 이동 로봇의 주행을 위한 영역 기반 Q-learning (Region-based Q- learning For Autonomous Mobile Robot Navigation)

  • 차종환;공성학;서일홍
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2000년도 제15차 학술회의논문집
    • /
    • pp.174-174
    • /
    • 2000
  • Q-learning, based on discrete state and action space, is a most widely used reinforcement Learning. However, this requires a lot of memory and much time for learning all actions of each state when it is applied to a real mobile robot navigation using continuous state and action space Region-based Q-learning is a reinforcement learning method that estimates action values of real state by using triangular-type action distribution model and relationship with its neighboring state which was defined and learned before. This paper proposes a new Region-based Q-learning which uses a reward assigned only when the agent reached the target, and get out of the Local optimal path with adjustment of random action rate. If this is applied to mobile robot navigation, less memory can be used and robot can move smoothly, and optimal solution can be learned fast. To show the validity of our method, computer simulations are illusrated.

  • PDF

애드혹 센서 네트워크 수명 연장을 위한 Q-러닝 기반 에너지 균등 소비 라우팅 프로토콜 기법 (Equal Energy Consumption Routing Protocol Algorithm Based on Q-Learning for Extending the Lifespan of Ad-Hoc Sensor Network)

  • 김기상;김승욱
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제10권10호
    • /
    • pp.269-276
    • /
    • 2021
  • 최근 스마트 센서는 다양한 환경에서 사용되고 있으며, 애드혹 센서 네트워크 (ASN) 구현에 대한 연구가 활발하게 진행되고 있다. 그러나 기존 센서 네트워크 라우팅 알고리즘은 특정 제어 문제에 초점을 맞추며 ASN 작업에 직접 적용할 수 없는 문제점이 있다. 본 논문에서는 Q-learning 기술을 이용한 새로운 라우팅 프로토콜을 제안하는데, 제안된 접근 방식의 주요 과제는 균형 잡힌 시스템 성능을 확보하면서 효율적인 에너지 할당을 통해 ASN의 수명을 연장하는 것이다. 제안된 방법의 특징은 다양한 환경적 요인을 고려하여 Q-learning 효과를 높이며, 특히 각 노드는 인접 노드의 Q 값을 자체 Q 테이블에 저장하여 데이터 전송이 실행될 때마다 Q 값이 업데이트되고 누적되어 최적의 라우팅 경로를 선택하는 것이다. 시뮬레이션 결과 제안된 방법이 에너지 효율적인 라우팅 경로를 선택할 수 있으며 기존 ASN 라우팅 프로토콜에 비해 우수한 네트워크 성능을 얻을 수 있음을 확인하였다.

12각형 기반의 Q-learning과 SVM을 이용한 군집로봇의 목표물 추적 알고리즘 (Object tracking algorithm of Swarm Robot System for using SVM and Dodecagon based Q-learning)

  • 서상욱;양현창;심귀보
    • 한국지능시스템학회논문지
    • /
    • 제18권3호
    • /
    • pp.291-296
    • /
    • 2008
  • 본 논문에서는 군집로봇시스템에서 목표물 추적을 위하여 SVM을 이용한 12각형 기반의 Q-learning 알고리즘을 제안한다. 제안한 알고리즘의 유효성을 보이기 위해 본 논문에서는 여러 대의 로봇과 장애물 그리고 하나의 목표물로 정하고, 각각의 로봇이 숨겨진 목표물을 찾아내는 실험을 가정하여 무작위, DBAM과 AMAB의 융합 모델, 마지막으로는 본 논문에서 제안한 SVM과 12각형 기반의 Q-learning 알고리즘을 이용하여 실험을 수행하고, 이 3가지 방법을 비교하여 본 논문의 유효성을 검증하였다.

무선 인지 시스템을 위한 Q-learning 기반 채널접근기법 (A Q-learning based channel access scheme for cognitive radios)

  • 이영두;구인수
    • 인터넷정보학회논문지
    • /
    • 제12권3호
    • /
    • pp.77-88
    • /
    • 2011
  • 가용 주파수 고갈 문제를 해결하기 위하여 제안된 무선인지기술은 특정 주파수 대역에 대해 사용면허를 가진 주사용자가 사용하지 않는 유휴채널에 접근하여 통신을 수행함으로써 주파수 효율을 향상시키는 차세대 통신기술이다. 주사용자의 유휴채널을 사용하기 위해서는 해당 채널을 현재 주사용자가 점유하고 있는지를 정확히 판단하여야 한다. 분산형 무선인지 네트워크에서 독립적으로 채널을 센싱하는 무선인지 기기의 경우 센싱의 결과가 노이즈, 쉐도윙, 페이딩과 같은 채널 환경에 영향을 많이 받으며 심지어 주사용자가 요구하는 간섭률을 보장하지 못하는 결과를 초래한다. 따라서 본 논문에서는 주사용자가 요구하는 최소 간섭량을 보장하는 동시에 기회주의적으로 채널에 접근하여 인지시스템의 처리율(처리율)을 향상시키는 Q-learning 기반의 채널접근기법을 제안한다. 제안하는 기법은 사전 학습 단계에서 주사용자의 채널사용 패턴을 Q-learning으로 학습하고 이를 Q-learning 기반 채널접근 단계에서 실제로 적용함으로써 스펙트럼 센싱 성능을 향상시킨다. 모의실험을 통해 AWGN 및 레일레이 페이딩 무선 환경에서 주사용자에 대한 간섭량 및 처리율 성능이 기존의 에너지 검출 방법에 비해 더 우수함을 확인하였다.

예측 정보를 이용한 Q-학습의 성능 개선 기법 (A Strategy for improving Performance of Q-learning with Prediction Information)

  • 이충현;엄기현;조경은
    • 한국게임학회 논문지
    • /
    • 제7권4호
    • /
    • pp.105-116
    • /
    • 2007
  • 게임 환경에서의 학습은 다양한 분야에서 유용하게 활용될 수 있다. 그러나, 학습이 게임에서 만족스러운 결과를 산출하기까지는 많은 학습 시간이 요구된다. 이러한 점을 개선하기 위하여 학습시간을 단축시킬 수 있는 방법론들이 필요하다. 본 논문에서는 예측 정보를 이용한 Q-학습의 성능개선 방안을 제안한다. Q-학습 알고리즘에서는 Q-테이블의 각 상태별 선택된 액션을 참조한다. 참조한 값은 예측 모듈의 P-테이블에 저장되고, 이 테이블에서 출연 빈도가 가장 높은 값을 찾아 2차 보상 값을 갱신할 때 활용한다. 본 연구에서 제시한 방법은 상태내의 전이가 가능한 액션의 수가 많을수록 성능이 높아짐을 확인하였다. 또한 실험결과로 실험 중반 이후부터 제안한 방식이 기존 방식보다 평균 9%의 성능 향상을 보였다.

  • PDF

미니맥스 알고리즘을 이용한 학습속도 개선을 위한 Q러닝 (Q-learning to improve learning speed using Minimax algorithm)

  • 신용우
    • 한국게임학회 논문지
    • /
    • 제18권4호
    • /
    • pp.99-106
    • /
    • 2018
  • 보드게임에서는 많은 경우의 수의 말들과 많은 상태공간들을 가지고 있다. 그러므로 게임은 학습을 오래 하여야 한다. 본 논문에서는 Q러닝 알고리즘을 이용했다. 그러나 강화학습은 학습초기에 학습속도가 느려지는 단점이 있다. 그러므로 학습을 하는 동안에 같은 최선의 값이 있을 때, 게임트리를 고려한 문제영역의 지식을 활용한 휴리스틱을 사용하여 학습의 속도향상을 시도하였다. 기존 구현된 말과 개선하여 구현된 말을 비교하기 위하여 보드게임을 제작했다. 그래서 일방적으로 공격하는 말과 승부를 겨루게 하였다. 개선된 말은 게임트리를 고려하여 상대방 말을 공격하였다. 실험결과 개선하여 구현된 말이 학습속도적인 면에서 향상됨 것을 알 수 있었다.

Softmax를 이용한 Q-learning 기반의 패킷 스케줄링 (Q-learning based packet scheduling using Softmax)

  • 김동현;이태호;이병준;김경태;윤희용
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2019년도 제59차 동계학술대회논문집 27권1호
    • /
    • pp.37-38
    • /
    • 2019
  • 본 논문에서는 자원제한적인 IoT 환경에서 스케줄링 정확도 향상을 위해 Softmax를 이용한 Q-learning 기반의 패킷 스케줄링 기법을 제안한다. 기존 Q-learning의 Exploitation과 Exploration의 균형을 유지하기 위해 e-greedy 기법이 자주 사용되지만, e-greedy는 Exploration 과정에서 최악의 행동이 선택될 수도 있는 문제가 발생한다. 이러한 문제점을 해결하기 위해 본 연구에서는 Softmax를 기반으로 다중 센서 노드 환경에서 데이터 패킷에 대한 Quality of Service (QoS) requirement 정확도를 높이기 위한 연구를 진행한다. 이 때 Temperature 매개변수를 사용하는데, 이는 새로운 정책을 Explore 하기 위한 매개변수이다. 본 논문에서는 시뮬레이션을 통하여 제안된 Softmax를 이용한 Q-learning 기반의 패킷 스케줄링 기법이 기존의 e-greedy를 이용한 Q-learning 기법에 비해 스케줄링 정확도 측면에서 우수함을 보인다.

  • PDF