• 제목/요약/키워드: DRL(deep reinforcement learning)

검색결과 30건 처리시간 0.032초

거대 다중 안테나 시스템의 복잡도와 피드백 오버헤드 감소를 위한 심화 강화학습 기반 안테나 선택 기법 (Deep Reinforcement Learning based Antenna Selection Scheme For Reducing Complexity and Feedback Overhead of Massive Antenna Systems)

  • 김륜우;정무웅;반태원
    • 한국정보통신학회논문지
    • /
    • 제25권11호
    • /
    • pp.1559-1565
    • /
    • 2021
  • 본 논문에서는 다중 사용자 거대 다중 안테나 시스템에서 안테나 선택 기법을 제안한다. 제안된 안테나 선택 기법은 심화 강화학습 네트워크를 활용함으로써 피드백 오버헤드를 획기적으로 낮추면서 기존 방식과 거의 같은 성능을 얻을 수 있다. 각 사용자는 기지국의 거대 안테나들과 형성된 채널의 이득 값을 L번째 큰 채널 이득과 비교하여 대소관계에 따라서 단일 비트의 이진수로 변환하여 피드백함으로써 기존 피드백 방식보다 오버헤드를 낮출 수 있다. 제안 방식에서는 감소한 피드백 정보로 인한 성능 저하를 방지하기 위해서 심화 강화학습 네트워크를 활용하였다. 제안 방식의 성능을 분석하기 위하여 다양한 환경에서 시뮬레이션을 수행하였으며, 제안 방식이 최적 방식에 가까운 기존 방식과 유사한 평균 전송률을 얻을 수 있음을 확인하였다.

고급 심층 강화학습 기법을 이용한 추천 시스템 구현 (Implementation of a Recommendation system using the advanced deep reinforcement learning method)

  • 펭소니;싯소포호트;일홈존;김대영;박두순
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.406-409
    • /
    • 2023
  • With the explosion of information, recommendation algorithms are becoming increasingly important in providing people with appropriate content, enhancing their online experience. In this paper, we propose a recommender system using advanced deep reinforcement learning(DRL) techniques. This method is more adaptive and integrative than traditional methods. We selected the MovieLens dataset and employed the precision metric to assess the effectiveness of our algorithm. The result of our implementation outperforms other baseline techniques, delivering better results for Top-N item recommendations.

휴먼형 로봇 손의 사물 조작 수행을 이용한 사람 데모 결합 강화학습 정책 성능 평가 (Evaluation of Human Demonstration Augmented Deep Reinforcement Learning Policies via Object Manipulation with an Anthropomorphic Robot Hand)

  • 박나현;오지헌;류가현;;;김태성
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권5호
    • /
    • pp.179-186
    • /
    • 2021
  • 로봇이 사람과 같이 다양하고 복잡한 사물 조작을 하기 위해서는 휴먼형 로봇 손의 사물 파지 작업이 필수적이다. 자유도 (Degree of Freedom, DoF)가 높은 휴먼형(anthropomorphic) 로봇 손을 학습시키기 위하여 사람 데모(human demonstration)가 결합한 강화학습 최적화 방법이 제안되었다. 본 연구에서는 강화학습 최적화 방법에 사람 데모가 결합한 Demonstration Augmented Natural Policy Gradient (DA-NPG)와 NPG의 성능 비교를 통하여 행동 복제의 효율성을 확인하고, DA-NPG, DA-Trust Region Policy Optimization (DA-TRPO), DA-Proximal Policy Optimization (DA-PPO)의 최적화 방법의 성능 평가를 위하여 6 종의 물체에 대한 휴먼형 로봇 손의 사물 조작 작업을 수행한다. 학습 후 DA-NPG와 NPG를 비교한 결과, NPG의 물체 파지 성공률은 평균 60%, DA-NPG는 평균 99.33%로, 휴먼형 로봇 손의 사물 조작 강화학습에 행동 복제가 효율적임을 증명하였다. 또한, DA-NPG는 DA-TRPO와 유사한 성능을 보이면서 모든 물체에 대한 사물 파지에 성공하였고 가장 안정적이었다. 반면, DA-TRPO와 DA-PPO는 사물 조작에 실패한 물체가 존재하여 불안정한 성능을 보였다. 본 연구에서 제안하는 방법은 향후 실제 휴먼형 로봇에 적용하여 휴먼형 로봇 손의 사물 조작 지능 개발에 유용할 것으로 전망된다.

Analysis and study of Deep Reinforcement Learning based Resource Allocation for Renewable Powered 5G Ultra-Dense Networks

  • Hamza Ali Alshawabkeh
    • International Journal of Computer Science & Network Security
    • /
    • 제24권1호
    • /
    • pp.226-234
    • /
    • 2024
  • The frequent handover problem and playing ping-pong effects in 5G (5th Generation) ultra-dense networking cannot be effectively resolved by the conventional handover decision methods, which rely on the handover thresholds and measurement reports. For instance, millimetre-wave LANs, broadband remote association techniques, and 5G/6G organizations are instances of group of people yet to come frameworks that request greater security, lower idleness, and dependable principles and correspondence limit. One of the critical parts of 5G and 6G innovation is believed to be successful blockage the board. With further developed help quality, it empowers administrator to run many systems administration recreations on a solitary association. To guarantee load adjusting, forestall network cut disappointment, and give substitute cuts in case of blockage or cut frustration, a modern pursuing choices framework to deal with showing up network information is require. Our goal is to balance the strain on BSs while optimizing the value of the information that is transferred from satellites to BSs. Nevertheless, due to their irregular flight characteristic, some satellites frequently cannot establish a connection with Base Stations (BSs), which further complicates the joint satellite-BS connection and channel allocation. SF redistribution techniques based on Deep Reinforcement Learning (DRL) have been devised, taking into account the randomness of the data received by the terminal. In order to predict the best capacity improvements in the wireless instruments of 5G and 6G IoT networks, a hybrid algorithm for deep learning is being used in this study. To control the level of congestion within a 5G/6G network, the suggested approach is put into effect to a training set. With 0.933 accuracy and 0.067 miss rate, the suggested method produced encouraging results.

DRL based Dynamic Service Mobility for Marginal Downtime in Multi-access Edge Computing

  • ;;추현승
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.114-116
    • /
    • 2022
  • The advent of the Multi-access Edge Computing (MEC) paradigm allows mobile users to offload resource-intensive and delay-stringent services to nearby servers, thereby significantly enhancing the quality of experience. Due to erratic roaming of mobile users in the network environment, maintaining maximum quality of experience becomes challenging as they move farther away from the serving edge server, particularly due to the increased latency resulting from the extended distance. The services could be migrated, under policies obtained using Deep Reinforcement Learning (DRL) techniques, to an optimal edge server, however, this operation incurs significant costs in terms of service downtime, thereby adversely affecting service quality of experience. Thus, this study addresses the service mobility problem of deciding whether to migrate and where to migrate the service instance for maximized migration benefits and marginal service downtime.

MEC 기반 스마트 팩토리 환경에서 DRL를 이용한 태스크 스케줄링 (Task Scheduling Using Deep Reinforcement Learning in Mobile Edge Computing-based Smart Factory Environment)

  • 구설원;임유진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.147-150
    • /
    • 2022
  • 최근 들어 다양한 제약 조건이 있는 스마트 시티나 스마트 팩토리와 같은 도메인들 내에서 태스크들을 효과적으로 처리하기 위해서 MEC 기술이 많이 사용되고 있다. 그러나 이러한 도메인에서 발생하는 복잡하고 동적인 시나리오는 기존의 휴리스틱이나 메타 휴리스틱 기법을 이용하여 해결하기엔 계산 복잡도가 증가하는 문제점을 가지고 있다. 따라서 최근 들어 이러한 문제점을 해결하기 위한 방법 중 하나로 강화학습과 딥러닝이 결합된 DRL 기법이 주목을 받고 있다. 본 연구는 스마트 팩토리 환경에서 종속성을 가진 태스크들이 실행시간과 태스크가 처리되는 MEC 서버들의 로드 표준편차를 최소화하는 태스크 스케줄링 기법을 제안한다. 모의실험을 통하여 제안 기법은 태스크가 증가하는 동적인 환경에서도 좋은 성능을 보임을 증명하였다.

A Reinforcement Learning Framework for Autonomous Cell Activation and Customized Energy-Efficient Resource Allocation in C-RANs

  • Sun, Guolin;Boateng, Gordon Owusu;Huang, Hu;Jiang, Wei
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제13권8호
    • /
    • pp.3821-3841
    • /
    • 2019
  • Cloud radio access networks (C-RANs) have been regarded in recent times as a promising concept in future 5G technologies where all DSP processors are moved into a central base band unit (BBU) pool in the cloud, and distributed remote radio heads (RRHs) compress and forward received radio signals from mobile users to the BBUs through radio links. In such dynamic environment, automatic decision-making approaches, such as artificial intelligence based deep reinforcement learning (DRL), become imperative in designing new solutions. In this paper, we propose a generic framework of autonomous cell activation and customized physical resource allocation schemes for energy consumption and QoS optimization in wireless networks. We formulate the problem as fractional power control with bandwidth adaptation and full power control and bandwidth allocation models and set up a Q-learning model to satisfy the QoS requirements of users and to achieve low energy consumption with the minimum number of active RRHs under varying traffic demand and network densities. Extensive simulations are conducted to show the effectiveness of our proposed solution compared to existing schemes.

행동 복제 강화학습 및 딥러닝 사물 부분 검출 기술에 기반한 사람형 로봇손의 사물 조작 (Object Part Detection-based Manipulation with an Anthropomorphic Robot Hand Via Human Demonstration Augmented Deep Reinforcement Learning)

  • 오지헌;류가현;박나현;;;원다슬;정진균;장윤정;김태성
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.854-857
    • /
    • 2020
  • 최근 사람형(Anthropomorphic)로봇손의 사물조작 지능을 개발하기 위하여 행동복제(Behavior Cloning) Deep Reinforcement Learning(DRL) 연구가 진행중이다. 자유도(Degree of Freedom, DOF)가 높은 사람형 로봇손의 학습 문제점을 개선하기 위하여, 행동 복제를 통한 Human Demonstration Augmented(DA)강화 학습을 통하여 사람처럼 사물을 조작하는 지능을 학습시킬 수 있다. 그러나 사물 조작에 있어, 의미 있는 파지를 위해서는 사물의 특정 부위를 인식하고 파지하는 방법이 필수적이다. 본 연구에서는 딥러닝 YOLO기술을 적용하여 사물의 특정 부위를 인식하고, DA-DRL을 적용하여, 사물의 특정 부분을 파지하는 딥러닝 학습 기술을 제안하고, 2 종 사물(망치 및 칼)의 손잡이 부분을 인식하고 파지하여 검증한다. 본 연구에서 제안하는 학습방법은 사람과 상호작용하거나 도구를 용도에 맞게 사용해야하는 분야에서 유용할 것이다.

2차원 사각주 주위 유동의 플라즈마 능동제어에 대한 연구 (Active control of flow around a 2D square cylinder using plasma actuators)

  • 파라스코비아 콜레소바;무스타파 요시프;임희창
    • 한국가시화정보학회지
    • /
    • 제22권2호
    • /
    • pp.44-54
    • /
    • 2024
  • This study investigates the effectiveness of using a plasma actuator for active control of turbulent flow around a finite square cylinder. The primary objective is to analyze the impact of plasma actuators on flow separation and wake region characteristics, which are critical for reducing drag and suppressing vortex-induced vibrations. Direct Numerical Simulation (DNS) was employed to explore the flow dynamics at various operational parameters, including different actuation frequencies and voltages. The proposed methodology employs a neural network trained using the Proximal Policy Optimization (PPO) algorithm to determine optimal control policies for plasma actuators. This network is integrated with a computational fluid dynamics (CFD) solver for real-time control. Results indicate that this deep reinforcement learning (DRL)-based strategy outperforms existing methods in controlling flow, demonstrating robustness and adaptability across various flow conditions, which highlights its potential for practical applications.

Enhancing VANET Security: Efficient Communication and Wormhole Attack Detection using VDTN Protocol and TD3 Algorithm

  • Vamshi Krishna. K;Ganesh Reddy K
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제18권1호
    • /
    • pp.233-262
    • /
    • 2024
  • Due to the rapid evolution of vehicular ad hoc networks (VANETs), effective communication and security are now essential components in providing secure and reliable vehicle-to-vehicle (V2V) and vehicle-to-infrastructure (V2I) communication. However, due to their dynamic nature and potential threats, VANETs need to have strong security mechanisms. This paper presents a novel approach to improve VANET security by combining the Vehicular Delay-Tolerant Network (VDTN) protocol with the Deep Reinforcement Learning (DRL) technique known as the Twin Delayed Deep Deterministic Policy Gradient (TD3) algorithm. A store-carry-forward method is used by the VDTN protocol to resolve the problems caused by inconsistent connectivity and disturbances in VANETs. The TD3 algorithm is employed for capturing and detecting Worm Hole Attack (WHA) behaviors in VANETs, thereby enhancing security measures. By combining these components, it is possible to create trustworthy and effective communication channels as well as successfully detect and stop rushing attacks inside the VANET. Extensive evaluations and simulations demonstrate the effectiveness of the proposed approach, enhancing both security and communication efficiency.