• 제목/요약/키워드: Q algorithm

검색결과 687건 처리시간 0.033초

Q-value Initialization을 이용한 Reinforcement Learning Speedup Method (Reinforcement learning Speedup method using Q-value Initialization)

  • 최정환
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 하계종합학술대회 논문집(3)
    • /
    • pp.13-16
    • /
    • 2001
  • In reinforcement teaming, Q-learning converges quite slowly to a good policy. Its because searching for the goal state takes very long time in a large stochastic domain. So I propose the speedup method using the Q-value initialization for model-free reinforcement learning. In the speedup method, it learns a naive model of a domain and makes boundaries around the goal state. By using these boundaries, it assigns the initial Q-values to the state-action pairs and does Q-learning with the initial Q-values. The initial Q-values guide the agent to the goal state in the early states of learning, so that Q-teaming updates Q-values efficiently. Therefore it saves exploration time to search for the goal state and has better performance than Q-learning. 1 present Speedup Q-learning algorithm to implement the speedup method. This algorithm is evaluated. in a grid-world domain and compared to Q-teaming.

  • PDF

RFID 충돌방지 프로토콜의 성능 개선에 관한 연구 (A Study on Performance Enhancement of RFID Anti-Collision Protocols)

  • 김영범
    • 융합신호처리학회논문지
    • /
    • 제12권4호
    • /
    • pp.281-285
    • /
    • 2011
  • RFID 시스템 구현에 있어서 중요한 고려사항 중의 하나는 인식 범위 내에 있는 태그들을 최소한의 인식 지연시간을 가지고 모두 인식하도록 하기 위한 충돌방지 알고리즘의 설계이다. 또한 이러한 충돌방지 알고리즘의 설계에 있어서 일반적으로 태그 및 리더의 메모리 및 계산력 상의 제약조건이 감안되어야 한다. 본 논문에서는 산업분야 RFID 표준으로 정립된 Gen2 프로토콜에서 제시하는 기본적인 태그인식 충돌방지 알고리즘과 Q 알고리즘, 그리고 FAFQ 알고리즘의 성능과 문제점을 분석하고 태그 밀집 수준에 따른 프레임 길이의 동적 설정을 통하여 태그 식별시간 측면에서 RFID 시스템의 성능 향상을 기대할 수 있는 새로운 RFID 충돌방지 알고리즘을 제시한다. 또한 컴퓨터 시뮬레이션을 통하여 기존 Q 알고리즘과 FAFQ 알고리즘, 그리고 제안된 알고리즘의 성능을 비교하였다.

3상 6펄스 PWM 정류기의 D-Q 제어 기반 출력전압 제어 알고리즘 및 EMTP-RV 시뮬레이션 연구 (A Study on the D-Q Control based Output Voltage Control Algorithm and EMTP-RV Simulation of Three-phase 6-Pulse PWM Rectifier)

  • 고윤석
    • 한국전자통신학회논문지
    • /
    • 제16권1호
    • /
    • pp.45-52
    • /
    • 2021
  • 3상 PWM 정류기에 대한 공간벡터제어 기반 전압제어방식은 스위칭 구간에 대한 스위칭 패턴을 설계해야하기 때문에 최적한 스위칭 패턴을 설계하는데 많은 노력이 요구된다. 본 연구에서는 3상 6펄스 전압형 PWM 정류기를 위한 D-Q 제어에 기반 한 SPWM 출력전압 제어 알고리즘을 연구하였다. 출력전압제어 알고리즘에서 3상 기준신호들은 공간벡터 표시법에 기반 한 D-Q 변환으로부터 얻어지며 스위칭 패턴 대신에 SPWM 방식을 이용하여 정류기 스위칭 제어 신호들을 생성하도록 하였다. 다음으로, EMTP-RV를 이용하여 D-Q 제어기반 SPWM 방식을 가지는 3상 6펄스 전압형 PWM 정류기를 모델링하였다. 끝으로, EMTP-RV 시뮬레이션을 통해 얻어지는 출력전압파형을 기준 값과 비교, 출력전압이 기준전압을 정확하게 추종함을 확인함으로서 D-Q 제어기반 SPWM 전압제어 알고리즘의 유효성을 확인할 수 있었다.

Gen2-Based Tag Anti-collision Algorithms Using Chebyshev's Inequality and Adjustable Frame Size

  • Fan, Xiao;Song, In-Chan;Chang, Kyung-Hi;Shin, Dong-Beom;Lee, Heyung-Sub;Pyo, Cheol-Sig;Chae, Jong-Suk
    • ETRI Journal
    • /
    • 제30권5호
    • /
    • pp.653-662
    • /
    • 2008
  • Arbitration of tag collision is a significant issue for fast tag identification in RFID systems. A good tag anti-collision algorithm can reduce collisions and increase the efficiency of tag identification. EPCglobal Generation-2 (Gen2) for passive RFID systems uses probabilistic slotted ALOHA with a Q algorithm, which is a kind of dynamic framed slotted ALOHA (DFSA), as the tag anti-collision algorithm. In this paper, we analyze the performance of the Q algorithm used in Gen2, and analyze the methods for estimating the number of slots and tags for DFSA. To increase the efficiency of tag identification, we propose new tag anti-collision algorithms, namely, Chebyshev's inequality, fixed adjustable framed Q, adaptive adjustable framed Q, and hybrid Q. The simulation results show that all the proposed algorithms outperform the conventional Q algorithm used in Gen2. Of all the proposed algorithms, AAFQ provides the best performance in terms of identification time and collision ratio and maximizes throughput and system efficiency. However, there is a tradeoff of complexity and performance between the CHI and AAFQ algorithms.

  • PDF

에이전트 학습 속도 향상을 위한 Q-Learning 정책 설계 (Q-Learning Policy Design to Speed Up Agent Training)

  • 용성중;박효경;유연휘;문일영
    • 실천공학교육논문지
    • /
    • 제14권1호
    • /
    • pp.219-224
    • /
    • 2022
  • 강화학습의 기본적인 알고리즘으로 많이 사용되고 있는 Q-Learning은 현재 상태에서 취할 수 있는 행동의 보상 중 가장 큰 값을 선택하는 Greedy action을 통해 보상을 최대화하는 방향으로 에이전트를 학습시키는 기법이다. 본 논문에서는 Frozen Lake 8*8 그리드 환경에서 Q-Learning을 사용하여 에이전트의 학습 속도를 높일 수 있는 정책에 관하여 연구하였다. 또한, Q-learning 의 기존 알고리즘과 에이전트의 행동에 '방향성'이라는 속성을 부여한 알고리즘의 학습 결과 비교를 진행하였다. 결과적으로, 본 논문에서 제안한 Q-Learning 정책이 통상적인 알고리즘보다 정확도와 학습 속도 모두 크게 높일 수 있는 것을 분석되었다.

강화학습기법을 이용한 TSP의 해법 (A Learning based Algorithm for Traveling Salesman Problem)

  • 임준묵;배성민;서재준
    • 대한산업공학회지
    • /
    • 제32권1호
    • /
    • pp.61-73
    • /
    • 2006
  • This paper deals with traveling salesman problem(TSP) with the stochastic travel time. Practically, the travel time between demand points changes according to day and time zone because of traffic interference and jam. Since the almost pervious studies focus on TSP with the deterministic travel time, it is difficult to apply those results to logistics problem directly. But many logistics problems are strongly related with stochastic situation such as stochastic travel time. We need to develop the efficient solution method for the TSP with stochastic travel time. From the previous researches, we know that Q-learning technique gives us to deal with stochastic environment and neural network also enables us to calculate the Q-value of Q-learning algorithm. In this paper, we suggest an algorithm for TSP with the stochastic travel time integrating Q-learning and neural network. And we evaluate the validity of the algorithm through computational experiments. From the simulation results, we conclude that a new route obtained from the suggested algorithm gives relatively more reliable travel time in the logistics situation with stochastic travel time.

Collision Reduction Using Modified Q-Algorithm with Moving Readers in LED-ID System

  • Huynh, Vu Van;Le, Nam-Tuan;Choi, Sun-Woong;Jang, Yeong-Min
    • 한국통신학회논문지
    • /
    • 제37권5A호
    • /
    • pp.358-366
    • /
    • 2012
  • LED-ID (Light Emitting Diode - Identification) is one of the key technologies for identification, data transmission, and illumination simultaneously. This is the new paradigm in the identification technology environment. There are many issues are still now challenging to achieve high performance in LED-ID system. Collision issue is one of them. Actually this is the most significant issue in all identification system. LED-ID system also suffers from collision problem. In our system, collision occurs when two or more readers transmit data to tag at the same time or vice versa. There are many anti-collision protocols to resolve this problem; such as: Slotted ALOHA, Basic Frame Slotted ALOHA, Query Tree, Tree Splitting, and Q-Algorithm etc. In this paper, we propose modified Q-Algorithm to resolve collision at tag. The proposed protocol is based on Q-Algorithm and used the information of arrived readers to a tag from neighbor. The information includes transmitting slot number of readers and the number of readers that can be arrived in next slot. Our proposed protocol can reduce the numbers of collision slot and the successful time to identify all readers. In this paper our simulation and theoretical results are presented.

Q-Learning based Collision Avoidance for 802.11 Stations with Maximum Requirements

  • Chang Kyu Lee;Dong Hyun Lee;Junseok Kim;Xiaoying Lei;Seung Hyong Rhee
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제17권3호
    • /
    • pp.1035-1048
    • /
    • 2023
  • The IEEE 802.11 WLAN adopts a random backoff algorithm for its collision avoidance mechanism, and it is well known that the contention-based algorithm may suffer from performance degradation especially in congested networks. In this paper, we design an efficient backoff algorithm that utilizes a reinforcement learning method to determine optimal values of backoffs. The mobile nodes share a common contention window (CW) in our scheme, and using a Q-learning algorithm, they can avoid collisions by finding and implicitly reserving their optimal time slot(s). In addition, we introduce Frame Size Control (FSC) algorithm to minimize the possible degradation of aggregate throughput when the number of nodes exceeds the CW size. Our simulation shows that the proposed backoff algorithm with FSC method outperforms the 802.11 protocol regardless of the traffic conditions, and an analytical modeling proves that our mechanism has a unique operating point that is fair and stable.

Harmony Search 알고리즘 기반 군집로봇의 행동학습 및 진화 (Behavior Learning and Evolution of Swarm Robot based on Harmony Search Algorithm)

  • 김민경;고광은;심귀보
    • 한국지능시스템학회논문지
    • /
    • 제20권3호
    • /
    • pp.441-446
    • /
    • 2010
  • 군집 로봇시스템에서 개개의 로봇은 스스로 주위의 환경과 자신의 상태를 스스로 판단하여 행동하고, 필요에 따라서는 다른 로봇과 협조를 통하여 임의의 주어진 임무를 수행할 수 있어야 한다. 따라서 각 로봇 개체는 동적으로 변화하는 환경에 잘 적응할 수 있도록 하기 위한 학습 및 진화능력을 갖는 것이 필수적이다. 이를 위하여 본 논문에서는 Q-learning 알고리즘을 기반으로 하는 학습과 Harmony Search 알고리즘을 이용한 진화방법을 제안하였으며, 유전 알고리즘이 아닌 Harmony Search 알고리즘을 제안함으로써 정확도를 높이고자 하였다. 그 결과를 이용하여 군집 로봇의 로봇 개체 환경변화에 따른 임무 수행 능력의 향상을 검증한다.

Weight Decision Scheme based on Slot-Count in Gen-2 Q-Algorithm

  • Lim, In-Taek
    • Journal of information and communication convergence engineering
    • /
    • 제9권2호
    • /
    • pp.172-176
    • /
    • 2011
  • In the Gen-2 Q-algorithm, the values of weight C, which is the parameter for incrementing or decrementing the slot-count size, are not optimized in the standard. However, the standard suggests that the reader uses small values of C when the slot-count is large and larger values of C when the slot-count is small. In this case, if the reader selects an inappropriate weight, there are a lot of empty or collided slots. As a result, the performance will be declined because the frame size does not converge to the optimal point quickly during the query round. In this paper, we propose a scheme to select the weight based on the slot-count size of current query round. Through various computer simulations, it is demonstrated that the proposed scheme achieves more stable performances than Gen-2 Q-algorithm.