• 제목/요약/키워드: Q-Learning

검색결과 432건 처리시간 0.027초

무선 애드혹 네트워크에서 노드분리 경로문제를 위한 강화학습 (Reinforcement Learning for Node-disjoint Path Problem in Wireless Ad-hoc Networks)

  • 장길웅
    • 한국정보통신학회논문지
    • /
    • 제23권8호
    • /
    • pp.1011-1017
    • /
    • 2019
  • 본 논문은 무선 애드혹 네트워크에서 신뢰성이 보장되는 데이터 전송을 위해 다중 경로를 설정하는 노드분리 경로문제를 해결하기 위한 강화학습을 제안한다. 노드분리 경로문제는 소스와 목적지사이에 중간 노드가 중복되지 않게 다수의 경로를 결정하는 문제이다. 본 논문에서는 기계학습 중 하나인 강화학습에서 Q-러닝을 사용하여 노드의 수가 많은 대규모의 무선 애드혹 네트워크에서 전송거리를 고려한 최적화 방법을 제안한다. 특히 대규모의 무선 애드혹 네트워크에서 노드분리 경로 문제를 해결하기 위해서는 많은 계산량이 요구되지만 제안된 강화학습은 효율적으로 경로를 학습함으로써 적절한 결과를 도출한다. 제안된 강화학습의 성능은 2개의 노드분리경로를 설정하기 위한 전송거리 관점에서 평가되었으며, 평가 결과에서 기존에 제안된 시뮬레이티드 어널링과 비교평가하여 전송거리면에서 더 좋은 성능을 보였다.

고차원 관측자료에서의 Q-학습 모형에 대한 이중강건성 연구 (Doubly-robust Q-estimation in observational studies with high-dimensional covariates)

  • 이효빈;김예지;조형준;최상범
    • 응용통계연구
    • /
    • 제34권3호
    • /
    • pp.309-327
    • /
    • 2021
  • 동적 치료 요법(dynamic treatment regimes; DTRs)은 다단계 무작위 시험에서 개인에 맞는 치료를 제공하도록 설계된 의사결정 규칙이다. 모든 개인이 동일한 유형의 치료를 처방받는 고전적인 방법과 달리 DTR은 시간이 지남에 따라 변할 수 있는 개별 특성을 고려한 환자 맞춤형 치료를 제공한다. 최적의 치료 규칙을 파악하기 위한 회귀 기반 알고리즘 중 하나인 Q-학습 방법은 쉽게 구현될 수 있기 때문에 더욱 인기를 끌고 있다. 그러나 Q-학습 알고리즘의 성능은 Q-함수를 제대로 설정했는지의 여부에 크게 의존한다. 본 논문에서는 고차원 데이터가 수집되는 DTRs 문제에 대한 다양한 이중강건 Q-학습 알고리즘을 연구하고 가중 최소제곱 추정 방법을 제안한다. 이중강건성(double-robustness)은 반응변수에 대한 모형 혹은 처리변수에 대한 모형 둘 중 하나만 제대로 설정되어도 불편추정량을 얻을 수 있음을 의미한다. 다양한 모의실험 연구를 통해 제안된 방법이 여러 시나리오 하에서도 잘 작동함을 확인하였으며 실제 데이터 예제를 통해 방법론에 대한 예시를 제시하였다.

Q-learning을 이용한 신뢰성 있는 패킷 스케줄링 (Reliable packet scheduling using Q-learning)

  • 김동현;유승언;김경태;윤희용
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2018년도 제57차 동계학술대회논문집 26권1호
    • /
    • pp.13-16
    • /
    • 2018
  • 본 논문에서는 무선 센서 네트워크 환경에서 신뢰성 있는 데이터 패킷 전송을 위한 효율적인 스케줄링 기법을 제안한다. 무선 네트워크는 수천 개의 센서노드, 게이트웨이, 그리고 소프트웨어로 구성된다. 큐러닝(Q-learning)을 기반으로 한 스케줄링 기법은 동적인 무선센서 네트워크 환경의 실시간 및 비실시간적인 데이터에 대한 사전 지식을 필요로 하지 않는다. 따라서 최종 결과 값을 도출하기 전에 스케줄링 정책을 구할 수 있다. 제안하는 기법은 데이터 패킷의 종류, 처리시간, 그리고 대기시간을 고려한 기법으로 신뢰성 있는 데이터 패킷의 전송을 보장하고, 전체 데이터 패킷에 공정성을 부여한다. 본 논문에서는 시뮬레이션을 통해 기존의 FIFO 알고리즘과 비교하여 제안하는 스케줄링 기법이 전체 데이터 패킷에 대한 공정성 및 신뢰성 측면에서 우수함을 증명하였다.

  • PDF

Harmony Search 알고리즘 기반 군집로봇의 행동학습 및 진화 (Behavior Learning and Evolution of Swarm Robot based on Harmony Search Algorithm)

  • 김민경;고광은;심귀보
    • 한국지능시스템학회논문지
    • /
    • 제20권3호
    • /
    • pp.441-446
    • /
    • 2010
  • 군집 로봇시스템에서 개개의 로봇은 스스로 주위의 환경과 자신의 상태를 스스로 판단하여 행동하고, 필요에 따라서는 다른 로봇과 협조를 통하여 임의의 주어진 임무를 수행할 수 있어야 한다. 따라서 각 로봇 개체는 동적으로 변화하는 환경에 잘 적응할 수 있도록 하기 위한 학습 및 진화능력을 갖는 것이 필수적이다. 이를 위하여 본 논문에서는 Q-learning 알고리즘을 기반으로 하는 학습과 Harmony Search 알고리즘을 이용한 진화방법을 제안하였으며, 유전 알고리즘이 아닌 Harmony Search 알고리즘을 제안함으로써 정확도를 높이고자 하였다. 그 결과를 이용하여 군집 로봇의 로봇 개체 환경변화에 따른 임무 수행 능력의 향상을 검증한다.

탐색 강화 계층적 강화 학습 (Hierachical Reinforcement Learning with Exploration Bonus)

  • 이승준;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (2)
    • /
    • pp.151-153
    • /
    • 2001
  • Q-Learning과 같은 기본적인 강화 학습 알고리즘은 문제의 사이즈가 커짐에 따라 성능이 크게 떨어지게 된다. 그 이유들로는 목표와의 거리가 멀어지게 되어 학습이 어려워지는 문제와 비 지향적 탐색을 사용함으로써 효율적인 탐색이 어려운 문제를 들 수 있다. 이들을 해결하기 위해 목표와의 거리를 줄일 수 있는 계층적 강화 학습 모델과 여러 가지 지향적 탐색 모델이 있어 왔다. 본 논문에서는 이들을 결합하여 계층적 강화 학습 모델에 지향적 탐색을 가능하게 하는 탐색 보너스를 도입한 강화 학습 모델을 제시한다.

  • PDF

Co-Operative Strategy for an Interactive Robot Soccer System by Reinforcement Learning Method

  • Kim, Hyoung-Rock;Hwang, Jung-Hoon;Kwon, Dong-Soo
    • International Journal of Control, Automation, and Systems
    • /
    • 제1권2호
    • /
    • pp.236-242
    • /
    • 2003
  • This paper presents a cooperation strategy between a human operator and autonomous robots for an interactive robot soccer game, The interactive robot soccer game has been developed to allow humans to join into the game dynamically and reinforce entertainment characteristics. In order to make these games more interesting, a cooperation strategy between humans and autonomous robots on a team is very important. Strategies can be pre-programmed or learned by robots themselves with learning or evolving algorithms. Since the robot soccer system is hard to model and its environment changes dynamically, it is very difficult to pre-program cooperation strategies between robot agents. Q-learning - one of the most representative reinforcement learning methods - is shown to be effective for solving problems dynamically without explicit knowledge of the system. Therefore, in our research, a Q-learning based learning method has been utilized. Prior to utilizing Q-teaming, state variables describing the game situation and actions' sets of robots have been defined. After the learning process, the human operator could play the game more easily. To evaluate the usefulness of the proposed strategy, some simulations and games have been carried out.

감독 지식을 융합하는 강화 학습 기법을 사용하는 셀룰러 네트워크에서 동적 채널 할당 기법 (A Dynamic Channel Assignment Method in Cellular Networks Using Reinforcement learning Method that Combines Supervised Knowledge)

  • 김성완;장형수
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제14권5호
    • /
    • pp.502-506
    • /
    • 2008
  • 최근에 제안된 강화 학습 기법인 "potential-based" reinforcement learning(RL) 기법은 다수 학습들과 expert advice들을 감독 지식으로 강화 학습 알고리즘에 융합하는 것을 가능하게 했고 그 효용성은 최적 정책으로의 이론적 수렴성 보장으로 증명되었다. 본 논문에서는 potential-based RL 기법을 셀룰러 네트워크에서의 채널 할당 문제에 적용한다. Potential-based RL 기반의 동적 채널 할당 기법이 기존의 fixed channel assignment, Maxavail, Q-learning-based dynamic channel assignment 채널 할당 기법들보다 효율적으로 채널을 할당한다. 또한, potential-based RL 기법이 기존의 강화 학습 알고리즘인 Q-learning, SARSA(0)에 비하여 최적 정책에 더 빠르게 수렴함을 실험적으로 보인다.

정리정돈을 위한 Q-learning 기반의 작업계획기 (Tidy-up Task Planner based on Q-learning)

  • 양민규;안국현;송재복
    • 로봇학회논문지
    • /
    • 제16권1호
    • /
    • pp.56-63
    • /
    • 2021
  • As the use of robots in service area increases, research has been conducted to replace human tasks in daily life with robots. Among them, this study focuses on the tidy-up task on a desk using a robot arm. The order in which tidy-up motions are carried out has a great impact on the success rate of the task. Therefore, in this study, a neural network-based method for determining the priority of the tidy-up motions from the input image is proposed. Reinforcement learning, which shows good performance in the sequential decision-making process, is used to train such a task planner. The training process is conducted in a virtual tidy-up environment that is configured the same as the actual tidy-up environment. To transfer the learning results in the virtual environment to the actual environment, the input image is preprocessed into a segmented image. In addition, the use of a neural network that excludes unnecessary tidy-up motions from the priority during the tidy-up operation increases the success rate of the task planner. Experiments were conducted in the real world to verify the proposed task planning method.

Hexagon-Based Q-Learning Algorithm and Applications

  • Yang, Hyun-Chang;Kim, Ho-Duck;Yoon, Han-Ul;Jang, In-Hun;Sim, Kwee-Bo
    • International Journal of Control, Automation, and Systems
    • /
    • 제5권5호
    • /
    • pp.570-576
    • /
    • 2007
  • This paper presents a hexagon-based Q-leaning algorithm to find a hidden targer object with multiple robots. An experimental environment was designed with five small mobile robots, obstacles, and a target object. Robots went in search of a target object while navigating in a hallway where obstacles were strategically placed. This experiment employed two control algorithms: an area-based action making (ABAM) process to determine the next action of the robots and hexagon-based Q-learning to enhance the area-based action making process.

Solving Survival Gridworld Problem Using Hybrid Policy Modified Q-Based Reinforcement

  • Montero, Vince Jebryl;Jung, Woo-Young;Jeong, Yong-Jin
    • 전기전자학회논문지
    • /
    • 제23권4호
    • /
    • pp.1150-1156
    • /
    • 2019
  • This paper explores a model-free value-based approach for solving survival gridworld problem. Survival gridworld problem opens up a challenge involving taking risks to gain better rewards. Classic value-based approach in model-free reinforcement learning assumes minimal risk decisions. The proposed method involves a hybrid on-policy and off-policy updates to experience roll-outs using a modified Q-based update equation that introduces a parametric linear rectifier and motivational discount. The significance of this approach is it allows model-free training of agents that take into account risk factors and motivated exploration to gain better path decisions. Experimentations suggest that the proposed method achieved better exploration and path selection resulting to higher episode scores than classic off-policy and on-policy Q-based updates.