• Title/Summary/Keyword: Q learning

Search Result 426, Processing Time 0.028 seconds

IoT 환경에서의 적응적 패킷 스케줄링 알고리즘 (Adaptive Packet Scheduling Algorithm in IoT environment)

  • 김동현;임환희;이병준;김경태;윤희용
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2018년도 제58차 하계학술대회논문집 26권2호
    • /
    • pp.15-16
    • /
    • 2018
  • 본 논문에서는 다수의 센서 노드로 구성된 Internet of Things (IoT) 환경에서 새로운 환경에 대해 적응하는데 걸리는 시간을 줄이기 위한 새로운 스케줄링 기법을 제안한다. IoT 환경에서는 데이터 수집 및 전송 패턴이 사전에 정의되어 있지 않기 때문에 기존 정적인 Packet scheduling 기법으로는 한계가 있다. Q-learning은 네트워크 환경에 대한 사전지식 없이도 반복적 학습을 통해 Scheduling policy를 확립할 수 있다. 본 논문에서는 기존 Q-learning 스케줄링 기법을 기반으로 각 큐의 패킷 도착률에 대한 bound 값을 이용해 Q-table과 Reward table을 초기화 하는 새로운 Q-learning 스케줄링 기법을 제안한다. 시뮬레이션 결과 기존 기법에 비해 변화하는 패킷 도착률 및 서비스 요구조건에 적응하는데 걸리는 시간이 감소하였다.

  • PDF

일 대학 종합병원 간호사의 자기주도학습 유형 (Patterns of Self-Directed Learning in Nurses)

  • 오원옥
    • 기본간호학회지
    • /
    • 제9권3호
    • /
    • pp.447-461
    • /
    • 2002
  • Purpose: The purpose of this study was to identify and understand the self-directed learning patterns of nurses. Q methodology was used to collect the data. Method: For the research method, 43 Q-statements were collected through individual interviews and a review of related literature. The 43 Q-statements were classified by the 34 participants in the study and the data was analyzed by the PC-QUANL program with principal component analysis. Result: There were 4 different patterns of self-directed learning classified as follows : Nurses in Type I the Future Provision Type, studied to promote their own professional development and leadership qualities for the future. Nurses in Type II, the Learning Passion Type, enjoyed learning something new and had a strong learning desire. Nurses in Type III, the Self-reflective Type, continuously evaluated self and their own practice by introspection. Nurses in Type IV, the Accompanying Companion Type, studies with companion support and maintained a collaborative relationship rather than competing with each other. Conclusion: This study explains and allows us to understand self-directed learning in nurses. Thus this study will contribute to building a theoretical base for the development of a self-directed learning model in nursing practice.

  • PDF

Q-learning과 Cascade SVM을 이용한 군집로봇의 행동학습 및 진화 (Behavior Learning and Evolution of Swarm Robot System using Q-learning and Cascade SVM)

  • 서상욱;양현창;심귀보
    • 한국지능시스템학회논문지
    • /
    • 제19권2호
    • /
    • pp.279-284
    • /
    • 2009
  • 군집 로봇시스템에서 개개의 로봇은 스스로 주위의 환경과 자신의 상태를 스스로 판단하여 행동하고, 필요에 따라서는 다른 로봇과 협조를 통하여 어떤 주어진 일을 수행할 수 있어야 한다. 따라서 개개의 로봇은 동적으로 변화하는 환경에 잘 적응할 수 있는 학습과 진화능력을 갖는 것이 필수적이다. 본 논문에서는 SVM을 여러 개 이용한 강화학습과 분산유전알고리즘을 이용한 새로운 자율이동로봇의 행동학습 및 진화학습을 제안한다. 또한 개개의 로봇이 통신을 통하여 염색체를 교환하는 분산유전알고리즘은 각기 다른 환경에서 학습한 우수한 염색체로부터 자신의 능력을 향상시킨다. 특히 본 논문에서는 진화의 성능을 향상시키기 위하여 Cascade SVM을 기반으로 한 강화학습의 특성을 이용한 선택 교배방법을 채택하였다.

개미 집단 시스템에서 TD-오류를 이용한 강화학습 기법 (A Reinforcement Loaming Method using TD-Error in Ant Colony System)

  • 이승관;정태충
    • 정보처리학회논문지B
    • /
    • 제11B권1호
    • /
    • pp.77-82
    • /
    • 2004
  • 강화학습에서 temporal-credit 할당 문제 즉, 에이전트가 현재 상태에서 어떤 행동을 선택하여 상태전이를 하였을 때 에이전트가 선택한 행동에 대해 어떻게 보상(reward)할 것인가는 강화학습에서 중요한 과제라 할 수 있다. 본 논문에서는 조합최적화(hard combinational optimization) 문제를 해결하기 위한 새로운 메타 휴리스틱(meta heuristic) 방법으로, greedy search뿐만 아니라 긍정적 반응의 탐색을 사용한 모집단에 근거한 접근법으로 Traveling Salesman Problem(TSP)를 풀기 위해 제안된 Ant Colony System(ACS) Algorithms에 Q-학습을 적용한 기존의 Ant-Q 학습방범을 살펴보고 이 학습 기법에 다양화 전략을 통한 상태전이와 TD-오류를 적용한 학습방법인 Ant-TD 강화학습 방법을 제안한다. 제안한 강화학습은 기존의 ACS, Ant-Q학습보다 최적해에 더 빠르게 수렴할 수 있음을 실험을 통해 알 수 있었다.

유튜브를 활용한 기초조리실습과목의 플립드러닝 적용사례 연구 (A Case Study of Flipped Learning application of Basics Cooking Practice Subject using YouTube)

  • 신승훈;이경수
    • 한국콘텐츠학회논문지
    • /
    • 제21권5호
    • /
    • pp.488-498
    • /
    • 2021
  • 본 연구는 유튜브를 활용한 기초조리실습교과목에 플립드러닝 교수학습방법을 적용하여 학습 전과 후에 따른 효과를 파악하고 학습과정을 통해 학습자의 주관적인 인식을 분석하여 교육과정이 적절히 진행되고 있는지에 대해 연구하고자 한다. 조사기간은 2020년 08월 01일부터 09월 10일까지 진행되었으며, Q방법론의 연구 설계에 따라 Q표본 선정, P표본 선정, Q소팅, 코딩과 리쿠르팅, 결론 및 논의로 총 5단계로 구분하여 진행하였다. 분석결과 제 1유형(N=5) : 선행학습 효과(Prior Learning effect), 제 2유형(N=7) : 시뮬레이션실습효과(Simulation practice effect), 제 3유형(N=3) : 자기효능감 효과 (self-efficacy effect)로 각각 고유의 특징을 가진 유형으로 분석되었다. 결과적으로 유튜브를 활용한 기초조리실습과목의 플립드러닝 교수학습방법을 적용함으로서 적극적인 학습자들에게는 수업의 흥미유발, 자신감 상승 등의 긍정적인 효과가 나타났으나 일부 학습자의 경우 수업운영방식의 시스템이해 부족, 타 과목에 비해 실습회수 부족 등은 추후 해결되어야 할 방안으로 사료된다.

심층강화학습 기반 자율주행차량의 차로변경 방법론 (Lane Change Methodology for Autonomous Vehicles Based on Deep Reinforcement Learning)

  • 박다윤;배상훈;;박부기;정보경
    • 한국ITS학회 논문지
    • /
    • 제22권1호
    • /
    • pp.276-290
    • /
    • 2023
  • 현재 국내에서는 자율주행차량의 상용화를 목표로 다양한 노력을 기울이고 있으며 자율주행차량이 운영 가이드라인에 따라 안전하고 신속하게 주행할 수 있는 연구들이 대두되고 있다. 본 연구는 자율주행차량의 경로탐색을 미시적인 관점으로 바라보며 Deep Q-Learning을 통해 자율주행차량의 차로변경을 학습시켜 효율성을 입증하고자 한다. 이를 위해 SUMO를 사용하였으며, 시나리오는 출발지에서 랜덤 차로로 출발하여 목적지의 3차로까지 차로변경을 통해 우회전하는 것으로 설정하였다. 연구 결과 시뮬레이션 기반의 차로변경과 Deep Q-Learning을 적용한 시뮬레이션 기반의 차로변경으로 구분하여 분석하였다. 평균 통행 속도는 Deep Q-Learning을 적용한 시뮬레이션의 경우가 적용하지 않은 경우에 비해 약 40% 향상되었으며 평균 대기 시간은 약 2초, 평균 대기 행렬 길이는 약 2.3대 감소하였다.

상태 공간 압축을 이용한 강화학습 (Reinforcement Learning Using State Space Compression)

  • 김병천;윤병주
    • 한국정보처리학회논문지
    • /
    • 제6권3호
    • /
    • pp.633-640
    • /
    • 1999
  • Reinforcement learning performs learning through interacting with trial-and-error in dynamic environment. Therefore, in dynamic environment, reinforcement learning method like Q-learning and TD(Temporal Difference)-learning are faster in learning than the conventional stochastic learning method. However, because many of the proposed reinforcement learning algorithms are given the reinforcement value only when the learning agent has reached its goal state, most of the reinforcement algorithms converge to the optimal solution too slowly. In this paper, we present COMREL(COMpressed REinforcement Learning) algorithm for finding the shortest path fast in a maze environment, select the candidate states that can guide the shortest path in compressed maze environment, and learn only the candidate states to find the shortest path. After comparing COMREL algorithm with the already existing Q-learning and Priortized Sweeping algorithm, we could see that the learning time shortened very much.

  • PDF

Comparison of value-based Reinforcement Learning Algorithms in Cart-Pole Environment

  • Byeong-Chan Han;Ho-Chan Kim;Min-Jae Kang
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제15권3호
    • /
    • pp.166-175
    • /
    • 2023
  • Reinforcement learning can be applied to a wide variety of problems. However, the fundamental limitation of reinforcement learning is that it is difficult to derive an answer within a given time because the problems in the real world are too complex. Then, with the development of neural network technology, research on deep reinforcement learning that combines deep learning with reinforcement learning is receiving lots of attention. In this paper, two types of neural networks are combined with reinforcement learning and their characteristics were compared and analyzed with existing value-based reinforcement learning algorithms. Two types of neural networks are FNN and CNN, and existing reinforcement learning algorithms are SARSA and Q-learning.

무선 애드혹 네트워크에서 노드분리 경로문제를 위한 강화학습 (Reinforcement Learning for Node-disjoint Path Problem in Wireless Ad-hoc Networks)

  • 장길웅
    • 한국정보통신학회논문지
    • /
    • 제23권8호
    • /
    • pp.1011-1017
    • /
    • 2019
  • 본 논문은 무선 애드혹 네트워크에서 신뢰성이 보장되는 데이터 전송을 위해 다중 경로를 설정하는 노드분리 경로문제를 해결하기 위한 강화학습을 제안한다. 노드분리 경로문제는 소스와 목적지사이에 중간 노드가 중복되지 않게 다수의 경로를 결정하는 문제이다. 본 논문에서는 기계학습 중 하나인 강화학습에서 Q-러닝을 사용하여 노드의 수가 많은 대규모의 무선 애드혹 네트워크에서 전송거리를 고려한 최적화 방법을 제안한다. 특히 대규모의 무선 애드혹 네트워크에서 노드분리 경로 문제를 해결하기 위해서는 많은 계산량이 요구되지만 제안된 강화학습은 효율적으로 경로를 학습함으로써 적절한 결과를 도출한다. 제안된 강화학습의 성능은 2개의 노드분리경로를 설정하기 위한 전송거리 관점에서 평가되었으며, 평가 결과에서 기존에 제안된 시뮬레이티드 어널링과 비교평가하여 전송거리면에서 더 좋은 성능을 보였다.