• 제목/요약/키워드: DQN

검색결과 69건 처리시간 0.029초

Fault-tolerant control system for once-through steam generator based on reinforcement learning algorithm

  • Li, Cheng;Yu, Ren;Yu, Wenmin;Wang, Tianshu
    • Nuclear Engineering and Technology
    • /
    • 제54권9호
    • /
    • pp.3283-3292
    • /
    • 2022
  • Based on the Deep Q-Network(DQN) algorithm of reinforcement learning, an active fault-tolerance method with incremental action is proposed for the control system with sensor faults of the once-through steam generator(OTSG). In this paper, we first establish the OTSG model as the interaction environment for the agent of reinforcement learning. The reinforcement learning agent chooses an action according to the system state obtained by the pressure sensor, the incremental action can gradually approach the optimal strategy for the current fault, and then the agent updates the network by different rewards obtained in the interaction process. In this way, we can transform the active fault tolerant control process of the OTSG to the reinforcement learning agent's decision-making process. The comparison experiments compared with the traditional reinforcement learning algorithm(RL) with fixed strategies show that the active fault-tolerant controller designed in this paper can accurately and rapidly control under sensor faults so that the pressure of the OTSG can be stabilized near the set-point value, and the OTSG can run normally and stably.

강화학습 적용 동물 웨어러블 로봇 설계 및 개발 (Apply reinforcement learning of animal wearable robot design and development)

  • 이상수;김영찬;권인아;이준영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.824-825
    • /
    • 2023
  • 본 연구는 동물을 위한 웨어러블 로봇을 개발하고, 이를 상황에 따라 적절한 보행을 제어할 수 있도록 강화학습(DQN 알고리즘)을 적용한다. 다양한 센서를 동물에 부착하여 얻은 데이터를 DQN 알고리즘에 입력으로 사용한다. 이 알고리즘은 수집된 데이터를 분석하여 어떤 상황에서 어떤 종류의 보행이 가장 적절한지를 판단하고, 이를 로봇에 적용하여 동물의 보행을 자연스럽게 구현한다

협력적인 차량 엣지 컴퓨팅에서의 태스크 마이그레이션 (Task Migration in Cooperative Vehicular Edge Computing)

  • 문성원;임유진
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제10권12호
    • /
    • pp.311-318
    • /
    • 2021
  • 최근 사물인터넷의 기술이 빠르게 발전하면서 실시간 및 고성능의 처리를 요구하는 서비스들을 위해 멀티 액세스 엣지 컴퓨팅(MEC)이 차세대 기술로 부상하고 있다. 제한적인 서비스 영역을 가지는 MEC 사이에서 사용자들의 잦은 이동성은 MEC 환경에서 다뤄야 할 문제 중 하나이다. 본 논문에서는 이동성이 많은 차량 엣지 컴퓨팅 환경(VEC)을 고려하였으며, 강화 학습 기법의 일종인 DQN을 이용하여 마이그레이션 여부와 대상을 결정하는 태스크 마이그레이션 기법을 제안하였다. 제안한 기법의 목표는 차량 엣지 컴퓨팅 서버(VECS)들의 큐잉 지연시간의 차이를 이용한 로드 밸런싱을 고려하여 QoS 만족도 향상과 시스템의 처리량을 향상시키는 것이다. 제안한 기법을 다른 기법들과의 성능 비교를 통해 QoS 만족도 측면에서 약 14-49%, 서비스 거절률 측면에서는 약 14-38%로 더 좋은 성능을 보임을 확인하였다.

강화학습을 이용한 트레이딩 전략 (Trading Strategies Using Reinforcement Learning)

  • 조현민;신현준
    • 한국산학기술학회논문지
    • /
    • 제22권1호
    • /
    • pp.123-130
    • /
    • 2021
  • 최근 컴퓨터 기술이 발전하면서 기계학습 분야에 관한 관심이 높아지고 있고 다양한 분야에 기계학습 이론을 적용하는 사례가 크게 증가하고 있다. 특히 금융 분야에서는 금융 상품의 미래 가치를 예측하는 것이 난제인데 80년대부터 지금까지 기술적 및 기본적 분석에 의존하고 있다. 기계학습을 이용한 미래 가치 예측 모형들은 다양한 잠재적 시장변수에 대응하기 위한 모형 설계가 무엇보다 중요하다. 따라서 본 논문은 기계학습의 하나인 강화학습 모형을 이용해 KOSPI 시장에 상장되어 있는 개별 종목들의 주가 움직임을 정량적으로 판단하여 이를 주식매매 전략에 적용한다. 강화학습 모형은 2013년 구글 딥마인드에서 제안한 DQN와 A2C 알고리즘을 이용하여 KOSPI에 상장된 14개 업종별 종목들의 과거 약 13년 동안의 시계열 주가에 기반한 데이터세트를 각각 입력 및 테스트 데이터로 사용한다. 데이터세트는 8개의 주가 관련 속성들과 시장을 대표하는 2개의 속성으로 구성하였고 취할 수 있는 행동은 매입, 매도, 유지 중 하나이다. 실험 결과 매매전략의 평균 연 환산수익률 측면에서 DQN과 A2C이 대안 알고리즘들보다 우수하였다.

NFV 환경에서의 Deep Q-Networks 기반 오토 스케일링 기술 연구 (A study on Deep Q-Networks based Auto-scaling in NFV Environment)

  • 이도영;유재형;홍원기
    • KNOM Review
    • /
    • 제23권2호
    • /
    • pp.1-10
    • /
    • 2020
  • 5G 네트워크의 핵심 기술 중 하나인 네트워크 기능 가상화 (NFV, Network Function Virtualization)는 유연하고 민첩한 네트워크 구축 및 운용을 가능하게 만드는 장점이 있다. 하지만, 한편으로는 수 많은 가상 자원을 생성하기 때문에 네트워크 관리를 복잡하게 만드는 원인이 된다. 일반적으로, NFV 환경에서는 가상 네트워크 기능(VNF, Virtual Network Function)들로 구성된 서비스 펑션 체이닝 (SFC, Service Function Chaining)을 통해 일련의 네트워크 기능들을 트래픽에 적용한다. 따라서 서비스 요구사항을 만족시킬 수 있도록 동적으로 SFC에 알맞은 양의 컴퓨팅 자원 또는 인스턴스를 할당하는 것이 필요하다. 본 논문에서는 SFC에서 적절한 수의 VNF 인스턴스를 운용하기 위해 강화학습 알고리즘의 하나인 Deep Q-Networks (DQN)을 이용한 Auto-scaling 방법을 제안한다. 제안하는 방법은 SFC로 유입되는 트래픽의 증감에 따라 SFC를 구성하는 다계층 (Multi-tier) 구조에서 스케일링(Scaling)이 필요한 계층을 선택하고, 스케일링을 통해 효과적으로 VNF 인스턴스들 개수를 조절한다.

오프 폴리시 강화학습에서 몬테 칼로와 시간차 학습의 균형을 사용한 적은 샘플 복잡도 (Random Balance between Monte Carlo and Temporal Difference in off-policy Reinforcement Learning for Less Sample-Complexity)

  • 김차영;박서희;이우식
    • 인터넷정보학회논문지
    • /
    • 제21권5호
    • /
    • pp.1-7
    • /
    • 2020
  • 강화학습에서 근사함수로써 사용되는 딥 인공 신경망은 이론적으로도 실제와 같은 근접한 결과를 나타낸다. 다양한 실질적인 성공 사례에서 시간차 학습(TD) 은 몬테-칼로 학습(MC) 보다 더 나은 결과를 보여주고 있다. 하지만, 일부 선행 연구 중에서 리워드가 매우 드문드문 발생하는 환경이거나, 딜레이가 생기는 경우, MC 가 TD 보다 더 나음을 보여주고 있다. 또한, 에이전트가 환경으로부터 받는 정보가 부분적일 때에, MC가 TD보다 우수함을 나타낸다. 이러한 환경들은 대부분 5-스텝 큐-러닝이나 20-스텝 큐-러닝으로 볼 수 있는데, 이러한 환경들은 성능-퇴보를 낮추는데 도움 되는 긴 롤-아웃 없이도 실험이 계속 진행될 수 있는 환경들이다. 즉, 긴롤-아웃에 상관없는 노이지가 있는 네트웍이 대표적인데, 이때에는 TD 보다는 시간적 에러에 견고한 MC 이거나 MC와 거의 동일한 학습이 더 나은 결과를 보여주고 있다. 이러한 해당 선행 연구들은 TD가 MC보다 낫다고 하는 기존의 통념에 위배되는 것이다. 다시 말하면, 해당 연구들은 TD만의 사용이 아니라, MC와 TD의 병합된 사용이 더 나음을 이론적이기 보다 경험적 예시로써 보여주고 있다. 따라서, 본 연구에서는 선행 연구들에서 보여준 결과를 바탕으로 하고, 해당 연구들에서 사용했던 특별한 리워드에 의한 복잡한 함수 없이, MC와 TD의 밸런스를 랜덤하게 맞추는 좀 더 간단한 방법으로 MC와 TD를 병합하고자 한다. 본 연구의 MC와 TD의 랜덤 병합에 의한 DQN과 TD-학습만을 사용한 이미 잘 알려진 DQN과 비교하여, 본 연구에서 제안한 MC와 TD의 랜덤 병합이 우수한 학습 방법임을 OpenAI Gym의 시뮬레이션을 통하여 증명하였다.

DeNERT: Named Entity Recognition Model using DQN and BERT

  • Yang, Sung-Min;Jeong, Ok-Ran
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권4호
    • /
    • pp.29-35
    • /
    • 2020
  • 본 논문에서는 새로운 구조의 개체명 인식 DeNERT 모델을 제안한다. 최근 자연어처리 분야는 방대한 양의 말뭉치로 사전 학습된 언어 표현 모델을 활용하는 연구가 활발하다. 특히 자연어처리 분야 중 하나인 개체명인식은 대부분 지도학습 방식을 사용하는데, 충분히 많은 양의 학습 데이터 세트와 학습 연산량이 필요하다는 단점이 있다. 강화학습은 초기 데이터 없이 시행착오 경험을 통해 학습하는 방식으로 다른 기계학습 방법론보다 조금 더 사람이 학습하는 과정에 가까운 알고리즘으로 아직 자연어처리 분야에는 많이 적용되지 않은 분야이다. 아타리 게임이나 알파고 등 시뮬레이션 가능한 게임 환경에서 많이 사용된다. BERT는 대량의 말뭉치와 연산량으로 학습된 구글에서 개발한 범용 언어 모델이다. 최근 자연어 처리 연구 분야에서 높은 성능을 보이고 있는 언어 모델이며 많은 자연어처리 하위분야에서도 높은 정확도를 나타낸다. 본 논문에서는 이러한 DQN, BERT 두가지 딥러닝 모델을 이용한 새로운 구조의 개체명 인식 DeNERT 모델을 제안한다. 제안하는 모델은 범용 언어 모델의 장점인 언어 표현력을 기반으로 강화학습 모델의 학습 환경을 만드는 방법으로 학습된다. 이러한 방식으로 학습된 DeNERT 모델은 적은 양의 학습 데이터세트로 더욱 빠른 추론시간과 높은 성능을 갖는 모델이다. 마지막으로 제안하는 모델의 개체명 인식 성능평가를 위해 실험을 통해서 검증한다.

Application of Reinforcement Learning in Detecting Fraudulent Insurance Claims

  • Choi, Jung-Moon;Kim, Ji-Hyeok;Kim, Sung-Jun
    • International Journal of Computer Science & Network Security
    • /
    • 제21권9호
    • /
    • pp.125-131
    • /
    • 2021
  • Detecting fraudulent insurance claims is difficult due to small and unbalanced data. Some research has been carried out to better cope with various types of fraudulent claims. Nowadays, technology for detecting fraudulent insurance claims has been increasingly utilized in insurance and technology fields, thanks to the use of artificial intelligence (AI) methods in addition to traditional statistical detection and rule-based methods. This study obtained meaningful results for a fraudulent insurance claim detection model based on machine learning (ML) and deep learning (DL) technologies, using fraudulent insurance claim data from previous research. In our search for a method to enhance the detection of fraudulent insurance claims, we investigated the reinforcement learning (RL) method. We examined how we could apply the RL method to the detection of fraudulent insurance claims. There are limited previous cases of applying the RL method. Thus, we first had to define the RL essential elements based on previous research on detecting anomalies. We applied the deep Q-network (DQN) and double deep Q-network (DDQN) in the learning fraudulent insurance claim detection model. By doing so, we confirmed that our model demonstrated better performance than previous machine learning models.

객체인식과 작업 스케줄링 기반 스마트 AGV (Smart AGV based on Object Recognition and Task Scheduling)

  • 이세훈;박태영;최규현;소원빈
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2019년도 제60차 하계학술대회논문집 27권2호
    • /
    • pp.251-252
    • /
    • 2019
  • 본 논문에서는 기존의 AGV보다 높은 안전성과 Task Scheduling을 바탕으로 한 효율적인 AGV를 제안하였다. AGV는 객체인식 알고리즘인 YOLO로 다른 AGV를 인식하여 자동으로 피난처로 들어간다. 또한 마커인식 알고리즘인 ar_markers를 이용하여 그 위치가 적재소인지 생산 공정인지를 판단하여 각 마커마다 멈추고 피난처에 해당하는 Marker가 인식되고 다른 AGV가 인식되면 피난처로 들어가는 동작을 한다. 이 모든 로그는 Mobius를 이용해 Spring기반의 웹 홈페이지로 확인할 수 있으며, 작업스케줄 명령 또한 웹 홈페이지에서 내리게 된다. 위 작업스케줄은 외판원, 벨만-포드 알고리즘을 적용한 뒤 강화학습알고리즘 중 하나인 DQN을 이용해 최적 값을 도출해 내고 그 값을 DB에 저장해 AGV가 움직일 수 있도록 한다. 본 논문에서는 YOLO와 Marker 그리고 웹을 사용하는 AGV가 기존의 AGV에 비해 더욱 가볍고 큰 시설이 필요하지 않다는 점에서 우수함을 보인다.

  • PDF

지도학습과 강화학습을 이용한 준능동 중간층면진시스템의 최적설계 (Optimal Design of Semi-Active Mid-Story Isolation System using Supervised Learning and Reinforcement Learning)

  • 강주원;김현수
    • 한국공간구조학회논문집
    • /
    • 제21권4호
    • /
    • pp.73-80
    • /
    • 2021
  • A mid-story isolation system was proposed for seismic response reduction of high-rise buildings and presented good control performance. Control performance of a mid-story isolation system was enhanced by introducing semi-active control devices into isolation systems. Seismic response reduction capacity of a semi-active mid-story isolation system mainly depends on effect of control algorithm. AI(Artificial Intelligence)-based control algorithm was developed for control of a semi-active mid-story isolation system in this study. For this research, an practical structure of Shiodome Sumitomo building in Japan which has a mid-story isolation system was used as an example structure. An MR (magnetorheological) damper was used to make a semi-active mid-story isolation system in example model. In numerical simulation, seismic response prediction model was generated by one of supervised learning model, i.e. an RNN (Recurrent Neural Network). Deep Q-network (DQN) out of reinforcement learning algorithms was employed to develop control algorithm The numerical simulation results presented that the DQN algorithm can effectively control a semi-active mid-story isolation system resulting in successful reduction of seismic responses.