• 제목/요약/키워드: Q learning

검색결과 426건 처리시간 0.023초

Temporal Difference 학습을 이용한 다중 집단 강화.다양화 상호작용 개미 강화학습 (Multi Colony Intensification.Diversification Interaction Ant Reinforcement Learning Using Temporal Difference Learning)

  • 이승관
    • 한국콘텐츠학회논문지
    • /
    • 제5권5호
    • /
    • pp.1-9
    • /
    • 2005
  • 본 논문에서는 Temporal Difference 학습을 적용한 Ant-Q 기반 개미 모델을 이용한 다중 집단 상호작용 개미 강화학습 모델을 제안한다. 이 모델은 몇 개의 독립적 개미시스템 집단으로 이루어져 있으며, 상호작용은 집단간 엘리트 전략(강화, 다양화 전략)에 따라 임무를 수행한다. 강화 전략은 다른 에이전트 집단의 휴리스틱 정보를 이용해 좋은 경로 선택을 가능하게 한다. 이것은 집단간 긍정적 상호작용을 통해 에이전트들의 방문 빈도가 높은 간선을 선택하게 한다. 다양화 전략은 에이전트들이 다른 에이전트 집단의 탐색 정보에 의해 부정적 상호작용을 수행함으로써 방문 빈도수가 높은 간선의 선택을 회피하게 만든다. 이러한 전략을 통해 제안한 강화학습은 기존의 개미집단시스템, Ant-Q학습보다 최적해에 더 빠르게 수렴할 수 있음을 실험을 통해 알 수 있었다.

  • PDF

네트워크 공격 시뮬레이터를 이용한 강화학습 기반 사이버 공격 예측 연구 (A Study of Reinforcement Learning-based Cyber Attack Prediction using Network Attack Simulator (NASim))

  • 김범석;김정현;김민석
    • 반도체디스플레이기술학회지
    • /
    • 제22권3호
    • /
    • pp.112-118
    • /
    • 2023
  • As technology advances, the need for enhanced preparedness against cyber-attacks becomes an increasingly critical problem. Therefore, it is imperative to consider various circumstances and to prepare for cyber-attack strategic technology. This paper proposes a method to solve network security problems by applying reinforcement learning to cyber-security. In general, traditional static cyber-security methods have difficulty effectively responding to modern dynamic attack patterns. To address this, we implement cyber-attack scenarios such as 'Tiny Alpha' and 'Small Alpha' and evaluate the performance of various reinforcement learning methods using Network Attack Simulator, which is a cyber-attack simulation environment based on the gymnasium (formerly Open AI gym) interface. In addition, we experimented with different RL algorithms such as value-based methods (Q-Learning, Deep-Q-Network, and Double Deep-Q-Network) and policy-based methods (Actor-Critic). As a result, we observed that value-based methods with discrete action spaces consistently outperformed policy-based methods with continuous action spaces, demonstrating a performance difference ranging from a minimum of 20.9% to a maximum of 53.2%. This result shows that the scheme not only suggests opportunities for enhancing cybersecurity strategies, but also indicates potential applications in cyber-security education and system validation across a large number of domains such as military, government, and corporate sectors.

  • PDF

중등학교 컴퓨터 교과에 대한 자기 주도적 학습 시스템의 개발 (Development of a Self Directed Learning System for the Course 'Computer' in Middle and High Schools)

  • 김흥환;전수정
    • 컴퓨터교육학회논문지
    • /
    • 제8권1호
    • /
    • pp.1-12
    • /
    • 2005
  • 본 논문에서는 최근 학교 교육에서 강조되고 있는 자기 주도적 학습력 신장을 위하여 현행 중등학교 컴퓨터 교과 내용의 문제점은 무엇인지 분석하고, 이러한 분석에 기초하여 자기 주도적 학습력을 신장시키기 위한 컴퓨터 교육 내용을 구체적으로 어떻게 구성되어야 하는지에 대하여 모색하고 자기 주도적 교수-학습 원리에 근거한 웹 컨텐츠를 개발하였다. 이렇게 개발된 웹 컨텐츠를 학습자는 자신의 흥미와 적성에 따라 학습내용을 선정할 수 있고, 스스로 학습목표를 설정하여 학습을 진행해 갈 수 있도록 하였으며 그에 따라 교수자는 학습자에게 학습 과제를 제시함으로써 학습에 대한 참여도를 높일 수 있도록 하였다. 또한 게시판과 Q&A를 통하여 교사나 학생들이 상호 의사교환을 통한 교수-학습 활동을 활발히 진행해 나갈 수 있도록 하였다.

  • PDF

물품 출고 시간 최소화를 위한 강화학습 기반 적재창고 내 물품 재배치 (Minimize Order Picking Time through Relocation of Products in Warehouse Based on Reinforcement Learning)

  • 김여진;김근태;이종환
    • 반도체디스플레이기술학회지
    • /
    • 제21권2호
    • /
    • pp.90-94
    • /
    • 2022
  • In order to minimize the picking time when the products are released from the warehouse, they should be located close to the exit when the products are released. Currently, the warehouse determines the loading location based on the order of the requirement of products, that is, the frequency of arrival and departure. Items with lower requirement ranks are loaded away from the exit, and items with higher requirement ranks are loaded closer from the exit. This is a case in which the delivery time is faster than the products located near the exit, even if the products are loaded far from the exit due to the low requirement ranking. In this case, there is a problem in that the transit time increases when the product is released. In order to solve the problem, we use the idle time of the stocker in the warehouse to rearrange the products according to the order of delivery time. Temporal difference learning method using Q_learning control, which is one of reinforcement learning types, was used when relocating items. The results of rearranging the products using the reinforcement learning method were compared and analyzed with the results of the existing method.

픽셀 데이터를 이용한 강화 학습 알고리즘 적용에 관한 연구 (A Study on Application of Reinforcement Learning Algorithm Using Pixel Data)

  • 문새마로;최용락
    • 한국IT서비스학회지
    • /
    • 제15권4호
    • /
    • pp.85-95
    • /
    • 2016
  • Recently, deep learning and machine learning have attracted considerable attention and many supporting frameworks appeared. In artificial intelligence field, a large body of research is underway to apply the relevant knowledge for complex problem-solving, necessitating the application of various learning algorithms and training methods to artificial intelligence systems. In addition, there is a dearth of performance evaluation of decision making agents. The decision making agent that can find optimal solutions by using reinforcement learning methods designed through this research can collect raw pixel data observed from dynamic environments and make decisions by itself based on the data. The decision making agent uses convolutional neural networks to classify situations it confronts, and the data observed from the environment undergoes preprocessing before being used. This research represents how the convolutional neural networks and the decision making agent are configured, analyzes learning performance through a value-based algorithm and a policy-based algorithm : a Deep Q-Networks and a Policy Gradient, sets forth their differences and demonstrates how the convolutional neural networks affect entire learning performance when using pixel data. This research is expected to contribute to the improvement of artificial intelligence systems which can efficiently find optimal solutions by using features extracted from raw pixel data.

강화학습에서 점진적인 심화를 이용한 고누게임의 개선 (Improvement of the Gonu game using progressive deepening in reinforcement learning)

  • 신용우
    • 한국게임학회 논문지
    • /
    • 제20권6호
    • /
    • pp.23-30
    • /
    • 2020
  • 게임에서는 많은 경우의 수들을 가지고 있다. 그래서 학습을 많이 하여야 한다. 본 논문은 학습속도를 개선하기 위하여 강화학습을 이용했다. 그러나 강화학습은 많은 경우의 수들을 가지므로 학습 초기에 속도가 느려진다. 그래서 미니맥스 알고리즘을 이용하여 학습의 속도를 향상하였다. 개선된 성능을 비교하기 위해 고누게임을 제작하여 실험하였다. 실험결과는 승률은 높았지만, 동점의 결과가 발생하게 되었다. 점진적인 심화를 이용하여 게임트리를 더 탐색하여 동점인 경우를 줄이고 승률이 약 75% 향상되었다.

퍼지 LQRQL 제어 (Fuzzy LQRQL Control)

  • 김영일;김종호;박주영
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2004년도 춘계학술대회 학술발표 논문집 제14권 제1호
    • /
    • pp.125-128
    • /
    • 2004
  • Q-learning은 강화학습의 한 방법으로서, 여러 분야에 널리 응용되고 있는 기법이다. 최근에는 Linear Quadratic Regulation (이하 LQR) 문제에 성공적으로 적용된 바 있다. 특히 시스템 모델의 파라미터에 대한 구체적인 정보가 없는 상태에서 적절한 입력과 출력만을 가지고, 학습을 통해 문제를 해결할 수 있어서 상황에 따라서 매우 실용적인 대안이 될 수 있다. 이에 따라 본 논문에서는 이러한 일반적인 LQR Q-learning(이하 LQRQL) 학습방법에 퍼지 모델을 이용하여 제어기를 설계하는 방법을 고려하고, 일반적인 LQROL 기법과 본 논문에서 제시한 방법의 결과를 비교하여 응용 가능성을 살펴보았다.

  • PDF

강화학습기법을 이용한 TSP의 해법 (A learning based algorithm for Traveling Salesman Problem)

  • 임준묵;길본일수;임재국;강진규
    • 한국경영과학회:학술대회논문집
    • /
    • 대한산업공학회/한국경영과학회 2002년도 춘계공동학술대회
    • /
    • pp.652-656
    • /
    • 2002
  • 본 연구에서는 각 수요지간의 시간이 확률적으로 주어지는 경우의 TSP(Traveling Salesman Problem)를 다루고자 한다. 현실적으로, 도심의 교통 체증 등으로 인해서 각 지점간의 걸리는 시간은 시간대별로 요일별로 심한 변화를 일으키기 마련이다. 그러나, 현재까지의 연구 결과는 수요지간의 경과시간이 확정적으로 주어지는 경우가 대부분으로, 도심물류 등에서 나타나는 현실적인 문제를 해결하는데는 많은 한계가 있다 본 연구에서는 문제의 해법으로 강화학습기법의 하나인 Q학습(Q-Learning)과 Neural Network를 활용한 효율적인 알고리즘을 제시한다.

  • PDF

DEEP LEARNING APPROACH FOR SOLVING A QUADRATIC MATRIX EQUATION

  • Kim, Garam;Kim, Hyun-Min
    • East Asian mathematical journal
    • /
    • 제38권1호
    • /
    • pp.95-105
    • /
    • 2022
  • In this paper, we consider a quadratic matrix equation Q(X) = AX2 + BX + C = 0 where A, B, C ∈ ℝn×n. A new approach is proposed to find solutions of Q(X), using the novel structure of the information processing system. We also present some numerical experimetns with Artificial Neural Network.

OpenAI Gym 환경에서 강화학습의 활성화함수 비교 분석 (Comparison of Activation Functions of Reinforcement Learning in OpenAI Gym Environments)

  • 강명주
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제67차 동계학술대회논문집 31권1호
    • /
    • pp.25-26
    • /
    • 2023
  • 본 논문에서는 OpenAI Gym 환경에서 제공하는 CartPole-v1에 대해 강화학습을 통해 에이전트를 학습시키고, 학습에 적용되는 활성화함수의 성능을 비교분석하였다. 본 논문에서 적용한 활성화함수는 Sigmoid, ReLU, ReakyReLU 그리고 softplus 함수이며, 각 활성화함수를 DQN(Deep Q-Networks) 강화학습에 적용했을 때 보상 값을 비교하였다. 실험결과 ReLU 활성화함수를 적용하였을 때의 보상이 가장 높은 것을 알 수 있었다.

  • PDF