• 제목/요약/키워드: Deep Q-Network(DQN)

검색결과 33건 처리시간 0.022초

Atari Deep Q Network Model을 이용한 장애물 회피에 특화된 실내 자율주행 적용에 관한 연구 (A Study about Application of Indoor Autonomous Driving for Obstacle Avoidance Using Atari Deep Q Network Model)

  • 백지훈;오현택;이승진;김상훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 추계학술발표대회
    • /
    • pp.715-718
    • /
    • 2018
  • 최근 다층의 인공신경망 모델이 수많은 분야에 대한 해결 방안으로 제시되고 있으며 2015년 Mnih이 고안한 DQN(Deep Q Network)는 Atari game에서 인간 수준의 성능을 보여주며 많은 이들에게 놀라움을 자아냈다. 본 논문에서는 Atari DQN Model을 실내 자율주행 모바일 로봇에 적용하여 신경망 모델이 최단 경로를 추종하며 장애물 회피를 위한 행동을 학습시키기 위해 로봇이 가지는 상태 정보들을 84*84 Mat로 가공하였고 15가지의 행동을 정의하였다. 또한 Virtual world에서 신경망 모델이 실제와 유사한 현재 상태를 입력받아 가장 최적의 정책을 학습하고 Real World에 적용하는 방법을 연구하였다.

심층 강화학습을 이용한 디지털트윈 및 시각적 객체 추적 (Digital Twin and Visual Object Tracking using Deep Reinforcement Learning)

  • 박진혁;;최필주;이석환;권기룡
    • 한국멀티미디어학회논문지
    • /
    • 제25권2호
    • /
    • pp.145-156
    • /
    • 2022
  • Nowadays, the complexity of object tracking models among hardware applications has become a more in-demand duty to complete in various indeterminable environment tracking situations with multifunctional algorithm skills. In this paper, we propose a virtual city environment using AirSim (Aerial Informatics and Robotics Simulation - AirSim, CityEnvironment) and use the DQN (Deep Q-Learning) model of deep reinforcement learning model in the virtual environment. The proposed object tracking DQN network observes the environment using a deep reinforcement learning model that receives continuous images taken by a virtual environment simulation system as input to control the operation of a virtual drone. The deep reinforcement learning model is pre-trained using various existing continuous image sets. Since the existing various continuous image sets are image data of real environments and objects, it is implemented in 3D to track virtual environments and moving objects in them.

강화학습 기반 무인항공기 이동성 모델에 관한 연구 (Research on Unmanned Aerial Vehicle Mobility Model based on Reinforcement Learning)

  • 김경훈;조민규;박창용;김정호;김수현;선영규;김진영
    • 한국인터넷방송통신학회논문지
    • /
    • 제23권6호
    • /
    • pp.33-39
    • /
    • 2023
  • 최근 비행 애드-훅 네트워크(Flying Ad-hoc Network) 환경에서 강화학습을 이용한 통신 성능 개선과 이동성 모델 설계에 관한 연구가 진행되고 있다. 무인항공기(UAV)에서의 이동성 모델은 움직임을 예측하고 제어하기 위한 핵심요소로 주목받고 있다. 본 논문에서는 무인항공기가 운용되는 3차원 가상 환경을 구현하고, 무인항공기의 경로 최적화를 위해 푸리에 기저 함수 근사를 적용한 Q-learning과 DQN 두 가지 강화학습 알고리즘을 적용하여 모델을 설계 및 성능을 분석하였다. 실험 결과를 통해 3차원 가상 환경에서 DQN 모델이 Q-learning 모델 대비 최적의 경로 탐색에 적합한 것을 확인하였다.

이동 장애물을 고려한 DQN 기반의 Mapless Navigation 및 학습 시간 단축 알고리즘 (Mapless Navigation Based on DQN Considering Moving Obstacles, and Training Time Reduction Algorithm)

  • 윤범진;유승열
    • 한국정보통신학회논문지
    • /
    • 제25권3호
    • /
    • pp.377-383
    • /
    • 2021
  • 최근 4차 산업혁명에 따라 공장, 물류창고, 서비스영역에서 유연한 물류이송을 위한 자율 이동형 모바일 로봇의 사용이 증가하고 있다. 대규모 공장에서는 Simultaneous Localization and Mapping(SLAM)을 수행하기 위하여 많은 수작업이 필요하기 때문에 개선된 모바일 로봇 자율 주행에 대한 필요성이 대두되고 있다. 이에 따라 본 논문에서는 고정 및 이동 장애물을 피해 최적의 경로로 주행하는 Mapless Navigation에 대한 알고리즘을 제안하고자 한다. Mapless Navigation을 위하여 Deep Q Network(DQN)을 통해 고정 및 이동 장애물을 회피하도록 학습하였고 두 종류의 장애물 회피에 대하여 각각 정확도 90%, 93%를 얻었다. 또한 DQN은 많은 학습 시간을 필요로 하는데 이를 단축하기 위한 목표의 크기 변화 알고리즘을 제안하고 이를 시뮬레이션을 통하여 단축된 학습시간과 장애물 회피 성능을 확인하였다.

스마트 제어알고리즘 개발을 위한 강화학습 리워드 설계 (Reward Design of Reinforcement Learning for Development of Smart Control Algorithm)

  • 김현수;윤기용
    • 한국공간구조학회논문집
    • /
    • 제22권2호
    • /
    • pp.39-46
    • /
    • 2022
  • Recently, machine learning is widely used to solve optimization problems in various engineering fields. In this study, machine learning is applied to development of a control algorithm for a smart control device for reduction of seismic responses. For this purpose, Deep Q-network (DQN) out of reinforcement learning algorithms was employed to develop control algorithm. A single degree of freedom (SDOF) structure with a smart tuned mass damper (TMD) was used as an example structure. A smart TMD system was composed of MR (magnetorheological) damper instead of passive damper. Reward design of reinforcement learning mainly affects the control performance of the smart TMD. Various hyper-parameters were investigated to optimize the control performance of DQN-based control algorithm. Usually, decrease of the time step for numerical simulation is desirable to increase the accuracy of simulation results. However, the numerical simulation results presented that decrease of the time step for reward calculation might decrease the control performance of DQN-based control algorithm. Therefore, a proper time step for reward calculation should be selected in a DQN training process.

다중 에이전트 강화학습을 이용한 RC보 최적설계 기술개발 (Development of Optimal Design Technique of RC Beam using Multi-Agent Reinforcement Learning)

  • 강주원;김현수
    • 한국공간구조학회논문집
    • /
    • 제23권2호
    • /
    • pp.29-36
    • /
    • 2023
  • Reinforcement learning (RL) is widely applied to various engineering fields. Especially, RL has shown successful performance for control problems, such as vehicles, robotics, and active structural control system. However, little research on application of RL to optimal structural design has conducted to date. In this study, the possibility of application of RL to structural design of reinforced concrete (RC) beam was investigated. The example of RC beam structural design problem introduced in previous study was used for comparative study. Deep q-network (DQN) is a famous RL algorithm presenting good performance in the discrete action space and thus it was used in this study. The action of DQN agent is required to represent design variables of RC beam. However, the number of design variables of RC beam is too many to represent by the action of conventional DQN. To solve this problem, multi-agent DQN was used in this study. For more effective reinforcement learning process, DDQN (Double Q-Learning) that is an advanced version of a conventional DQN was employed. The multi-agent of DDQN was trained for optimal structural design of RC beam to satisfy American Concrete Institute (318) without any hand-labeled dataset. Five agents of DDQN provides actions for beam with, beam depth, main rebar size, number of main rebar, and shear stirrup size, respectively. Five agents of DDQN were trained for 10,000 episodes and the performance of the multi-agent of DDQN was evaluated with 100 test design cases. This study shows that the multi-agent DDQN algorithm can provide successfully structural design results of RC beam.

Application of Reinforcement Learning in Detecting Fraudulent Insurance Claims

  • Choi, Jung-Moon;Kim, Ji-Hyeok;Kim, Sung-Jun
    • International Journal of Computer Science & Network Security
    • /
    • 제21권9호
    • /
    • pp.125-131
    • /
    • 2021
  • Detecting fraudulent insurance claims is difficult due to small and unbalanced data. Some research has been carried out to better cope with various types of fraudulent claims. Nowadays, technology for detecting fraudulent insurance claims has been increasingly utilized in insurance and technology fields, thanks to the use of artificial intelligence (AI) methods in addition to traditional statistical detection and rule-based methods. This study obtained meaningful results for a fraudulent insurance claim detection model based on machine learning (ML) and deep learning (DL) technologies, using fraudulent insurance claim data from previous research. In our search for a method to enhance the detection of fraudulent insurance claims, we investigated the reinforcement learning (RL) method. We examined how we could apply the RL method to the detection of fraudulent insurance claims. There are limited previous cases of applying the RL method. Thus, we first had to define the RL essential elements based on previous research on detecting anomalies. We applied the deep Q-network (DQN) and double deep Q-network (DDQN) in the learning fraudulent insurance claim detection model. By doing so, we confirmed that our model demonstrated better performance than previous machine learning models.

MEC를 활용한 커넥티드 홈의 DRL 기반 태스크 오프로딩 기법 (Task offloading scheme based on the DRL of Connected Home using MEC)

  • 임덕선;손규식
    • 한국인터넷방송통신학회논문지
    • /
    • 제23권6호
    • /
    • pp.61-67
    • /
    • 2023
  • 5G의 도래와 스마트 디바이스의 급격한 증가는 멀티 액세스 엣지 컴퓨팅(MEC)의 중요성을 부각시켰다. 이런 흐름 속에서, 특히 계산 집약적이고 지연시간에 민감한 애플리케이션의 효과적인 처리가 큰 관심을 받고 있다. 본 논문에서는 이러한 도전 과제를 해결하기 위해 확률적인 MEC 환경을 고려한 새로운 태스크 오프로딩 전략을 연구한다. 먼저 동적인 태스크 요청 빈도와 불안정한 무선 채널 상태를 감안하여 차량의 전력 소모와 지연시간을 최소화하는 방안을 제시한다. 그리고 심층 강화학습(DRL) 기반의 오프로딩 기법을 중심으로 연구를 진행하였고, 로컬 연산 및 오프로딩 전송 전력 사이의 최적의 균형을 찾기 위한 방법을 제안한다. Deep Deterministic Policy Gradient (DDPG)와 Deep Q-Network (DQN) 기법을 활용하여 차량의 전력 사용량과 큐잉 지연시간을 분석하였다. 이를 통해 차량 기반의 MEC 환경에서의 최적의 성능 향상 전략을 도출 및 검증하였다.

지도학습과 강화학습을 이용한 준능동 중간층면진시스템의 최적설계 (Optimal Design of Semi-Active Mid-Story Isolation System using Supervised Learning and Reinforcement Learning)

  • 강주원;김현수
    • 한국공간구조학회논문집
    • /
    • 제21권4호
    • /
    • pp.73-80
    • /
    • 2021
  • A mid-story isolation system was proposed for seismic response reduction of high-rise buildings and presented good control performance. Control performance of a mid-story isolation system was enhanced by introducing semi-active control devices into isolation systems. Seismic response reduction capacity of a semi-active mid-story isolation system mainly depends on effect of control algorithm. AI(Artificial Intelligence)-based control algorithm was developed for control of a semi-active mid-story isolation system in this study. For this research, an practical structure of Shiodome Sumitomo building in Japan which has a mid-story isolation system was used as an example structure. An MR (magnetorheological) damper was used to make a semi-active mid-story isolation system in example model. In numerical simulation, seismic response prediction model was generated by one of supervised learning model, i.e. an RNN (Recurrent Neural Network). Deep Q-network (DQN) out of reinforcement learning algorithms was employed to develop control algorithm The numerical simulation results presented that the DQN algorithm can effectively control a semi-active mid-story isolation system resulting in successful reduction of seismic responses.

납기 위반 및 셋업 최소화를 위한 강화학습 기반의 설비 일정계획 모델 (Machine Scheduling Models Based on Reinforcement Learning for Minimizing Due Date Violation and Setup Change)

  • 유우식;서주혁;김다희;김관호
    • 한국전자거래학회지
    • /
    • 제24권3호
    • /
    • pp.19-33
    • /
    • 2019
  • 최근 제조업체들은 제품의 생산방식이 고도화 되고, 복잡해지면서 생산 장비를 효율적으로 사용하는데 어려움을 겪고 있다. 제조공정의 효율성을 방해하는 대표적인 요인들로는 작업물 종류 변경(job change)으로 인한 작업 준비 비용(Setup Cost) 등이 있다. 특히 반도체/LCD 공정과 같이 고가의 생산 장비를 사용하는 공정의 경우 장비의 효율적인 사용이 매우 중요한데, 상호 충돌하는 의사결정인 납기 준수를 최대화 하는 것과 작업물 종류 변경으로 인한 작업 준비 비용을 최소화 하는 것 사이에서 균형을 유지하는 것은 매우 어려운 일이다. 본 연구에서는 납기와 작업 준비 비용이 있는 병렬기계에서 강화학습을 활용하여 납기 및 셋업 비용의 최소화 목표를 달성하는 일정계획 모델을 개발하였다. 제안하는 모델은 DQN(Deep Q-Network) 일정계획 모델로 강화학습기반의 모델이다. 제안모델의 효율성을 측정하기 위해 DQN 모델과 기존에 개발하였던 심층 신경망 기반의 일정계획 생성기법과 휴리스틱 원칙의 결과를 비교하였다. 비교 결과 DQN 일정계획 생성기법이 심층신경망 방식과 휴리스틱 원칙에 비하여 납기 및 셋업 비용이 적은 것을 확인할 수 있었다.