• 제목/요약/키워드: Q-Learning

검색결과 432건 처리시간 0.031초

DYNAMIC ROUTE PLANNING BY Q-LEARNING -Cellular Automation Based Simulator and Control

  • 사노 마사키;정시
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2001년도 ICCAS
    • /
    • pp.24.2-24
    • /
    • 2001
  • In this paper, the authors present a row dynamic route planning by Q-learning. The proposed algorithm is executed in a cellular automation based traffic simulator, which is also newly created. In Vehicle Information and Communication System(VICS), which is an active field of Intelligent Transport System(ITS), information of traffic congestion is sent to each vehicle at real time. However, a centralized navigation system is not realistic to guide millions of vehicles in a megalopolis. Autonomous distributed systems should be more flexible and scalable, and also have a chance to focus on each vehicles demand. In such systems, each vehicle can search an own optimal route. We employ Q-learning of the reinforcement learning method to search an optimal or sub-optimal route, in which route drivers can avoid traffic congestions. We find some applications of the reinforcement learning in the "static" environment, but there are ...

  • PDF

IoT 환경에서의 적응적 패킷 스케줄링 알고리즘 (Adaptive Packet Scheduling Algorithm in IoT environment)

  • 김동현;임환희;이병준;김경태;윤희용
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2018년도 제58차 하계학술대회논문집 26권2호
    • /
    • pp.15-16
    • /
    • 2018
  • 본 논문에서는 다수의 센서 노드로 구성된 Internet of Things (IoT) 환경에서 새로운 환경에 대해 적응하는데 걸리는 시간을 줄이기 위한 새로운 스케줄링 기법을 제안한다. IoT 환경에서는 데이터 수집 및 전송 패턴이 사전에 정의되어 있지 않기 때문에 기존 정적인 Packet scheduling 기법으로는 한계가 있다. Q-learning은 네트워크 환경에 대한 사전지식 없이도 반복적 학습을 통해 Scheduling policy를 확립할 수 있다. 본 논문에서는 기존 Q-learning 스케줄링 기법을 기반으로 각 큐의 패킷 도착률에 대한 bound 값을 이용해 Q-table과 Reward table을 초기화 하는 새로운 Q-learning 스케줄링 기법을 제안한다. 시뮬레이션 결과 기존 기법에 비해 변화하는 패킷 도착률 및 서비스 요구조건에 적응하는데 걸리는 시간이 감소하였다.

  • PDF

일 대학 종합병원 간호사의 자기주도학습 유형 (Patterns of Self-Directed Learning in Nurses)

  • 오원옥
    • 기본간호학회지
    • /
    • 제9권3호
    • /
    • pp.447-461
    • /
    • 2002
  • Purpose: The purpose of this study was to identify and understand the self-directed learning patterns of nurses. Q methodology was used to collect the data. Method: For the research method, 43 Q-statements were collected through individual interviews and a review of related literature. The 43 Q-statements were classified by the 34 participants in the study and the data was analyzed by the PC-QUANL program with principal component analysis. Result: There were 4 different patterns of self-directed learning classified as follows : Nurses in Type I the Future Provision Type, studied to promote their own professional development and leadership qualities for the future. Nurses in Type II, the Learning Passion Type, enjoyed learning something new and had a strong learning desire. Nurses in Type III, the Self-reflective Type, continuously evaluated self and their own practice by introspection. Nurses in Type IV, the Accompanying Companion Type, studies with companion support and maintained a collaborative relationship rather than competing with each other. Conclusion: This study explains and allows us to understand self-directed learning in nurses. Thus this study will contribute to building a theoretical base for the development of a self-directed learning model in nursing practice.

  • PDF

Q-learning과 Cascade SVM을 이용한 군집로봇의 행동학습 및 진화 (Behavior Learning and Evolution of Swarm Robot System using Q-learning and Cascade SVM)

  • 서상욱;양현창;심귀보
    • 한국지능시스템학회논문지
    • /
    • 제19권2호
    • /
    • pp.279-284
    • /
    • 2009
  • 군집 로봇시스템에서 개개의 로봇은 스스로 주위의 환경과 자신의 상태를 스스로 판단하여 행동하고, 필요에 따라서는 다른 로봇과 협조를 통하여 어떤 주어진 일을 수행할 수 있어야 한다. 따라서 개개의 로봇은 동적으로 변화하는 환경에 잘 적응할 수 있는 학습과 진화능력을 갖는 것이 필수적이다. 본 논문에서는 SVM을 여러 개 이용한 강화학습과 분산유전알고리즘을 이용한 새로운 자율이동로봇의 행동학습 및 진화학습을 제안한다. 또한 개개의 로봇이 통신을 통하여 염색체를 교환하는 분산유전알고리즘은 각기 다른 환경에서 학습한 우수한 염색체로부터 자신의 능력을 향상시킨다. 특히 본 논문에서는 진화의 성능을 향상시키기 위하여 Cascade SVM을 기반으로 한 강화학습의 특성을 이용한 선택 교배방법을 채택하였다.

개미 집단 시스템에서 TD-오류를 이용한 강화학습 기법 (A Reinforcement Loaming Method using TD-Error in Ant Colony System)

  • 이승관;정태충
    • 정보처리학회논문지B
    • /
    • 제11B권1호
    • /
    • pp.77-82
    • /
    • 2004
  • 강화학습에서 temporal-credit 할당 문제 즉, 에이전트가 현재 상태에서 어떤 행동을 선택하여 상태전이를 하였을 때 에이전트가 선택한 행동에 대해 어떻게 보상(reward)할 것인가는 강화학습에서 중요한 과제라 할 수 있다. 본 논문에서는 조합최적화(hard combinational optimization) 문제를 해결하기 위한 새로운 메타 휴리스틱(meta heuristic) 방법으로, greedy search뿐만 아니라 긍정적 반응의 탐색을 사용한 모집단에 근거한 접근법으로 Traveling Salesman Problem(TSP)를 풀기 위해 제안된 Ant Colony System(ACS) Algorithms에 Q-학습을 적용한 기존의 Ant-Q 학습방범을 살펴보고 이 학습 기법에 다양화 전략을 통한 상태전이와 TD-오류를 적용한 학습방법인 Ant-TD 강화학습 방법을 제안한다. 제안한 강화학습은 기존의 ACS, Ant-Q학습보다 최적해에 더 빠르게 수렴할 수 있음을 실험을 통해 알 수 있었다.

유튜브를 활용한 기초조리실습과목의 플립드러닝 적용사례 연구 (A Case Study of Flipped Learning application of Basics Cooking Practice Subject using YouTube)

  • 신승훈;이경수
    • 한국콘텐츠학회논문지
    • /
    • 제21권5호
    • /
    • pp.488-498
    • /
    • 2021
  • 본 연구는 유튜브를 활용한 기초조리실습교과목에 플립드러닝 교수학습방법을 적용하여 학습 전과 후에 따른 효과를 파악하고 학습과정을 통해 학습자의 주관적인 인식을 분석하여 교육과정이 적절히 진행되고 있는지에 대해 연구하고자 한다. 조사기간은 2020년 08월 01일부터 09월 10일까지 진행되었으며, Q방법론의 연구 설계에 따라 Q표본 선정, P표본 선정, Q소팅, 코딩과 리쿠르팅, 결론 및 논의로 총 5단계로 구분하여 진행하였다. 분석결과 제 1유형(N=5) : 선행학습 효과(Prior Learning effect), 제 2유형(N=7) : 시뮬레이션실습효과(Simulation practice effect), 제 3유형(N=3) : 자기효능감 효과 (self-efficacy effect)로 각각 고유의 특징을 가진 유형으로 분석되었다. 결과적으로 유튜브를 활용한 기초조리실습과목의 플립드러닝 교수학습방법을 적용함으로서 적극적인 학습자들에게는 수업의 흥미유발, 자신감 상승 등의 긍정적인 효과가 나타났으나 일부 학습자의 경우 수업운영방식의 시스템이해 부족, 타 과목에 비해 실습회수 부족 등은 추후 해결되어야 할 방안으로 사료된다.

심층강화학습 기반 자율주행차량의 차로변경 방법론 (Lane Change Methodology for Autonomous Vehicles Based on Deep Reinforcement Learning)

  • 박다윤;배상훈;;박부기;정보경
    • 한국ITS학회 논문지
    • /
    • 제22권1호
    • /
    • pp.276-290
    • /
    • 2023
  • 현재 국내에서는 자율주행차량의 상용화를 목표로 다양한 노력을 기울이고 있으며 자율주행차량이 운영 가이드라인에 따라 안전하고 신속하게 주행할 수 있는 연구들이 대두되고 있다. 본 연구는 자율주행차량의 경로탐색을 미시적인 관점으로 바라보며 Deep Q-Learning을 통해 자율주행차량의 차로변경을 학습시켜 효율성을 입증하고자 한다. 이를 위해 SUMO를 사용하였으며, 시나리오는 출발지에서 랜덤 차로로 출발하여 목적지의 3차로까지 차로변경을 통해 우회전하는 것으로 설정하였다. 연구 결과 시뮬레이션 기반의 차로변경과 Deep Q-Learning을 적용한 시뮬레이션 기반의 차로변경으로 구분하여 분석하였다. 평균 통행 속도는 Deep Q-Learning을 적용한 시뮬레이션의 경우가 적용하지 않은 경우에 비해 약 40% 향상되었으며 평균 대기 시간은 약 2초, 평균 대기 행렬 길이는 약 2.3대 감소하였다.

상태 공간 압축을 이용한 강화학습 (Reinforcement Learning Using State Space Compression)

  • 김병천;윤병주
    • 한국정보처리학회논문지
    • /
    • 제6권3호
    • /
    • pp.633-640
    • /
    • 1999
  • Reinforcement learning performs learning through interacting with trial-and-error in dynamic environment. Therefore, in dynamic environment, reinforcement learning method like Q-learning and TD(Temporal Difference)-learning are faster in learning than the conventional stochastic learning method. However, because many of the proposed reinforcement learning algorithms are given the reinforcement value only when the learning agent has reached its goal state, most of the reinforcement algorithms converge to the optimal solution too slowly. In this paper, we present COMREL(COMpressed REinforcement Learning) algorithm for finding the shortest path fast in a maze environment, select the candidate states that can guide the shortest path in compressed maze environment, and learn only the candidate states to find the shortest path. After comparing COMREL algorithm with the already existing Q-learning and Priortized Sweeping algorithm, we could see that the learning time shortened very much.

  • PDF

Comparison of value-based Reinforcement Learning Algorithms in Cart-Pole Environment

  • Byeong-Chan Han;Ho-Chan Kim;Min-Jae Kang
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제15권3호
    • /
    • pp.166-175
    • /
    • 2023
  • Reinforcement learning can be applied to a wide variety of problems. However, the fundamental limitation of reinforcement learning is that it is difficult to derive an answer within a given time because the problems in the real world are too complex. Then, with the development of neural network technology, research on deep reinforcement learning that combines deep learning with reinforcement learning is receiving lots of attention. In this paper, two types of neural networks are combined with reinforcement learning and their characteristics were compared and analyzed with existing value-based reinforcement learning algorithms. Two types of neural networks are FNN and CNN, and existing reinforcement learning algorithms are SARSA and Q-learning.