• 제목/요약/키워드: Deep Q Networks(DQN)

검색결과 16건 처리시간 0.031초

OpenAI Gym 환경의 Acrobot에 대한 DQN 강화학습 (DQN Reinforcement Learning for Acrobot in OpenAI Gym Environment)

  • 강명주
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.35-36
    • /
    • 2023
  • 본 논문에서는 OpenAI Gym 환경에서 제공하는 Acrobot-v1에 대해 DQN(Deep Q-Networks) 강화학습으로 학습시키고, 이 때 적용되는 활성화함수의 성능을 비교분석하였다. DQN 강화학습에 적용한 활성화함수는 ReLU, ReakyReLU, ELU, SELU 그리고 softplus 함수이다. 실험 결과 평균적으로 Leaky_ReLU 활성화함수를 적용했을 때의 보상 값이 높았고, 최대 보상 값은 SELU 활성화 함수를 적용할 때로 나타났다.

  • PDF

Applying Deep Reinforcement Learning to Improve Throughput and Reduce Collision Rate in IEEE 802.11 Networks

  • Ke, Chih-Heng;Astuti, Lia
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권1호
    • /
    • pp.334-349
    • /
    • 2022
  • The effectiveness of Wi-Fi networks is greatly influenced by the optimization of contention window (CW) parameters. Unfortunately, the conventional approach employed by IEEE 802.11 wireless networks is not scalable enough to sustain consistent performance for the increasing number of stations. Yet, it is still the default when accessing channels for single-users of 802.11 transmissions. Recently, there has been a spike in attempts to enhance network performance using a machine learning (ML) technique known as reinforcement learning (RL). Its advantage is interacting with the surrounding environment and making decisions based on its own experience. Deep RL (DRL) uses deep neural networks (DNN) to deal with more complex environments (such as continuous state spaces or actions spaces) and to get optimum rewards. As a result, we present a new approach of CW control mechanism, which is termed as contention window threshold (CWThreshold). It uses the DRL principle to define the threshold value and learn optimal settings under various network scenarios. We demonstrate our proposed method, known as a smart exponential-threshold-linear backoff algorithm with a deep Q-learning network (SETL-DQN). The simulation results show that our proposed SETL-DQN algorithm can effectively improve the throughput and reduce the collision rates.

Visual Analysis of Deep Q-network

  • Seng, Dewen;Zhang, Jiaming;Shi, Xiaoying
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권3호
    • /
    • pp.853-873
    • /
    • 2021
  • In recent years, deep reinforcement learning (DRL) models are enjoying great interest as their success in a variety of challenging tasks. Deep Q-Network (DQN) is a widely used deep reinforcement learning model, which trains an intelligent agent that executes optimal actions while interacting with an environment. This model is well known for its ability to surpass skilled human players across many Atari 2600 games. Although DQN has achieved excellent performance in practice, there lacks a clear understanding of why the model works. In this paper, we present a visual analytics system for understanding deep Q-network in a non-blind matter. Based on the stored data generated from the training and testing process, four coordinated views are designed to expose the internal execution mechanism of DQN from different perspectives. We report the system performance and demonstrate its effectiveness through two case studies. By using our system, users can learn the relationship between states and Q-values, the function of convolutional layers, the strategies learned by DQN and the rationality of decisions made by the agent.

작물 생산량 예측을 위한 심층강화학습 성능 분석 (Performance Analysis of Deep Reinforcement Learning for Crop Yield Prediction )

  • 옴마킨;이성근
    • 한국전자통신학회논문지
    • /
    • 제18권1호
    • /
    • pp.99-106
    • /
    • 2023
  • 최근 딥러닝 기술을 활용하여 작물 생산량 예측 연구가 많이 진행되고 있다. 딥러닝 알고리즘은 입력 데이터 세트와 작물 예측 결과에 대한 선형 맵을 구성하는데 어려움이 있다. 또한, 알고리즘 구현은 획득한 속성의 비율에 긍정적으로 의존한다. 심층강화학습을 작물 생산량 예측 응용에 적용한다면 이러한 한계점을 보완할 수 있다. 본 논문은 작물 생산량 예측을 개선하기 위해 DQN, Double DQN 및 Dueling DQN 의 성능을 분석한다. DQN 알고리즘은 과대 평가 문제가 제기되지만, Double DQN은 과대 평가를 줄이고 더 나은 결과를 얻을 수 있다. 본 논문에서 제안된 모델은 거짓 판정을 줄이고 예측 정확도를 높이는 것으로 나타났다.

단말간 직접 통신 네트워크를 위한 심층 강화학습 기반 분산적 스케쥴링 알고리즘 (A Distributed Scheduling Algorithm based on Deep Reinforcement Learning for Device-to-Device communication networks)

  • 정무웅;김륜우;반태원
    • 한국정보통신학회논문지
    • /
    • 제24권11호
    • /
    • pp.1500-1506
    • /
    • 2020
  • 본 논문에서는 오버레이 단말 간 직접 (Device-to-Device : D2D) 통신 네트워크를 위한 강화학습 기반 스케쥴링 문제를 연구한다. 강화학습 모델 중 하나인 Q-learning을 이용한 D2D 통신 기술들이 연구되었지만, Q-learning은 상태와 행동의 개수가 증가함에 따라서 높은 복잡도를 유발한다. 이러한 문제를 해결하기 위하여 Deep Q Network (DQN) 기반 D2D 통신 기술들이 연구되었다. 본 논문에서는 무선 통신 시스템 특성을 고려한 DQN 모델을 디자인하고, 피드백 및 시그널링 오버헤드를 줄일 수 있는 DQN 기반 분산적 스케쥴링 방식을 제안한다. 제안 방식은 중앙집중식으로 변수들을 학습시키고, 최종 학습된 파라미터를 모든 단말들에게 전달한다. 모든 단말들은 최종 학습된 파라미터를 이용하여 각자의 행동을 개별적으로 결정한다. 제안 방식의 성능을 컴퓨터 시뮬레이션을 통하여 분석하고, 최적방식, 기회주의적 선택 방식, 전체 전송 방식과 비교한다.

OpenAI Gym 환경에서 강화학습의 활성화함수 비교 분석 (Comparison of Activation Functions of Reinforcement Learning in OpenAI Gym Environments)

  • 강명주
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제67차 동계학술대회논문집 31권1호
    • /
    • pp.25-26
    • /
    • 2023
  • 본 논문에서는 OpenAI Gym 환경에서 제공하는 CartPole-v1에 대해 강화학습을 통해 에이전트를 학습시키고, 학습에 적용되는 활성화함수의 성능을 비교분석하였다. 본 논문에서 적용한 활성화함수는 Sigmoid, ReLU, ReakyReLU 그리고 softplus 함수이며, 각 활성화함수를 DQN(Deep Q-Networks) 강화학습에 적용했을 때 보상 값을 비교하였다. 실험결과 ReLU 활성화함수를 적용하였을 때의 보상이 가장 높은 것을 알 수 있었다.

  • PDF

NFV 환경에서의 Deep Q-Networks 기반 오토 스케일링 기술 연구 (A study on Deep Q-Networks based Auto-scaling in NFV Environment)

  • 이도영;유재형;홍원기
    • KNOM Review
    • /
    • 제23권2호
    • /
    • pp.1-10
    • /
    • 2020
  • 5G 네트워크의 핵심 기술 중 하나인 네트워크 기능 가상화 (NFV, Network Function Virtualization)는 유연하고 민첩한 네트워크 구축 및 운용을 가능하게 만드는 장점이 있다. 하지만, 한편으로는 수 많은 가상 자원을 생성하기 때문에 네트워크 관리를 복잡하게 만드는 원인이 된다. 일반적으로, NFV 환경에서는 가상 네트워크 기능(VNF, Virtual Network Function)들로 구성된 서비스 펑션 체이닝 (SFC, Service Function Chaining)을 통해 일련의 네트워크 기능들을 트래픽에 적용한다. 따라서 서비스 요구사항을 만족시킬 수 있도록 동적으로 SFC에 알맞은 양의 컴퓨팅 자원 또는 인스턴스를 할당하는 것이 필요하다. 본 논문에서는 SFC에서 적절한 수의 VNF 인스턴스를 운용하기 위해 강화학습 알고리즘의 하나인 Deep Q-Networks (DQN)을 이용한 Auto-scaling 방법을 제안한다. 제안하는 방법은 SFC로 유입되는 트래픽의 증감에 따라 SFC를 구성하는 다계층 (Multi-tier) 구조에서 스케일링(Scaling)이 필요한 계층을 선택하고, 스케일링을 통해 효과적으로 VNF 인스턴스들 개수를 조절한다.

Q-learning을 이용한 이동 로봇의 실시간 경로 계획 (Real-Time Path Planning for Mobile Robots Using Q-Learning)

  • 김호원;이원창
    • 전기전자학회논문지
    • /
    • 제24권4호
    • /
    • pp.991-997
    • /
    • 2020
  • 강화학습은 주로 순차적인 의사 결정 문제에 적용되어 왔다. 특히 최근에는 신경망과 결합한 형태로 기존에는 해결하지 못한 분야에서도 성공적인 결과를 내고 있다. 하지만 신경망을 이용하는 강화학습은 현장에서 즉각적으로 사용하기엔 너무 복잡하다는 단점이 있다. 본 논문에서는 학습이 쉬운 강화학습 알고리즘 중 하나인 Q-learning을 이용하여 이동 로봇의 경로를 생성하는 알고리즘을 구현하였다. Q-table을 미리 만드는 방식의 Q-learning은 명확한 한계를 가지기 때문에 실시간으로 Q-table을 업데이트하는 실시간 Q-learning을 사용하였다. 탐험 전략을 조정하여 실시간 Q-learning에 필요한 학습 속도를 얻을 수 있었다. 마지막으로 실시간 Q-learning과 DQN의 성능을 비교하였다.

DQN 기반 비디오 스트리밍 서비스에서 세그먼트 크기가 품질 선택에 미치는 영향 (The Effect of Segment Size on Quality Selection in DQN-based Video Streaming Services)

  • 김이슬;임경식
    • 한국멀티미디어학회논문지
    • /
    • 제21권10호
    • /
    • pp.1182-1194
    • /
    • 2018
  • The Dynamic Adaptive Streaming over HTTP(DASH) is envisioned to evolve to meet an increasing demand on providing seamless video streaming services in the near future. The DASH performance heavily depends on the client's adaptive quality selection algorithm that is not included in the standard. The existing conventional algorithms are basically based on a procedural algorithm that is not easy to capture and reflect all variations of dynamic network and traffic conditions in a variety of network environments. To solve this problem, this paper proposes a novel quality selection mechanism based on the Deep Q-Network(DQN) model, the DQN-based DASH Adaptive Bitrate(ABR) mechanism. The proposed mechanism adopts a new reward calculation method based on five major performance metrics to reflect the current conditions of networks and devices in real time. In addition, the size of the consecutive video segment to be downloaded is also considered as a major learning metric to reflect a variety of video encodings. Experimental results show that the proposed mechanism quickly selects a suitable video quality even in high error rate environments, significantly reducing frequency of quality changes compared to the existing algorithm and simultaneously improving average video quality during video playback.

QoE 향상을 위한 Deep Q-Network 기반의 지능형 비디오 스트리밍 메커니즘 (An Intelligent Video Streaming Mechanism based on a Deep Q-Network for QoE Enhancement)

  • 김이슬;홍성준;정성욱;임경식
    • 한국멀티미디어학회논문지
    • /
    • 제21권2호
    • /
    • pp.188-198
    • /
    • 2018
  • With recent development of high-speed wide-area wireless networks and wide spread of highperformance wireless devices, the demand on seamless video streaming services in Long Term Evolution (LTE) network environments is ever increasing. To meet the demand and provide enhanced Quality of Experience (QoE) with mobile users, the Dynamic Adaptive Streaming over HTTP (DASH) has been actively studied to achieve QoE enhanced video streaming service in dynamic network environments. However, the existing DASH algorithm to select the quality of requesting video segments is based on a procedural algorithm so that it reveals a limitation to adapt its performance to dynamic network situations. To overcome this limitation this paper proposes a novel quality selection mechanism based on a Deep Q-Network (DQN) model, the DQN-based DASH ABR($DQN_{ABR}$) mechanism. The $DQN_{ABR}$ mechanism replaces the existing DASH ABR algorithm with an intelligent deep learning model which optimizes service quality to mobile users through reinforcement learning. Compared to the existing approaches, the experimental analysis shows that the proposed solution outperforms in terms of adapting to dynamic wireless network situations and improving QoE experience of end users.