• 제목/요약/키워드: deep Q-network

검색결과 63건 처리시간 0.027초

Methodology for Apartment Space Arrangement Based on Deep Reinforcement Learning

  • Cheng Yun Chi;Se Won Lee
    • Architectural research
    • /
    • 제26권1호
    • /
    • pp.1-12
    • /
    • 2024
  • This study introduces a deep reinforcement learning (DRL)-based methodology for optimizing apartment space arrangements, addressing the limitations of human capability in evaluating all potential spatial configurations. Leveraging computational power, the methodology facilitates the autonomous exploration and evaluation of innovative layout options, considering architectural principles, legal standards, and client re-quirements. Through comprehensive simulation tests across various apartment types, the research demonstrates the DRL approach's effec-tiveness in generating efficient spatial arrangements that align with current design trends and meet predefined performance objectives. The comparative analysis of AI-generated layouts with those designed by professionals validates the methodology's applicability and potential in enhancing architectural design practices by offering novel, optimized spatial configuration solutions.

강화학습을 기반으로 하는 열사용자 기계실 설비의 열효율 향상에 대한 연구 (A Study on the Improvement of Heat Energy Efficiency for Utilities of Heat Consumer Plants based on Reinforcement Learning)

  • 김영곤;허걸;유가은;임현서;최중인;구기동;엄재식;전영신
    • 에너지공학
    • /
    • 제27권2호
    • /
    • pp.26-31
    • /
    • 2018
  • 이 논문은 강화학습기반으로 지역난방 열사용자 기계실 설비의 열효율 향상을 시도하는 연구를 소개하며, 한 예시로서 모델을 특정하지 않는 강화학습 알고리즘인 딥큐러닝(deep Q learning)을 활용하는 학습 네트워크(DQN)를 구성하는 일반적인 방법을 제시한다. 또한 복수의 열에너지 기계실에 설치된 IoT 센서로부터 유입되는 방대한양의 데이터 처리에 있어 에너지 분야에 특화된 빅데이터 플랫폼 시스템과 열수요 통합관리시스템에 대하여 소개 한다.

순환인공신경망을 활용한 터널굴착면 전방 Q값 예측에 관한 연구 (Study on Q-value prediction ahead of tunnel excavation face using recurrent neural network)

  • 홍창호;김진;류희환;조계춘
    • 한국터널지하공간학회 논문집
    • /
    • 제22권3호
    • /
    • pp.239-248
    • /
    • 2020
  • 터널 굴착 시 정확한 암반 분류는 적합한 지보패턴을 설치하는 데 도움을 준다. 암반의 분류를 위해 주로 RMR (Rock Mass Ration)과 Q값을 산정하여 수행되며, 페이스 매핑(face mapping)을 바탕으로 산정된다. 점보드릴 및 프로브드릴의 기계 데이터을 활용하거나 딥러닝을 활용한 굴착면 사진 분석 등의 방법이 암반등급 분류를 예측하기 위해 사용되고 있으나, 분석 시 오랜 시간이 소요되거나, 굴착면 전방의 암반등급을 파악할 수 없다는 점에서 한계를 갖는다. 본 연구에서는 순환인공신경망(Recurrent neural network, RNN)을 활용하여 굴착면 전방의 Q값을 예측하는 방법을 개발하였고 페이스 매핑으로부터 획득한 Q값과 비교/검증하였다. 4,600여개의 굴착면 데이터 중 70%를 학습에 활용하였고, 나머지 30%는 검증에 사용하였다. 학습의 횟수와 학습에 활용한 이전굴착면의 개수를 변경하여 학습을 수행하였다. 예측된 Q값과 실제 Q값의 유사도는 RMSE (root mean square error)를 기준으로 비교하였다. 현재 굴착면과 바로 직전의 굴착면의 Q값을 활용하여 600회 학습하여 예측한 Q값의 RMSE값이 가장 작은 것을 확인하였다. 본 연구의 결과는 학습에 사용한 데이터 값 등이 변화하는 경우 변화할 수 있으나 터널에서의 이전 지반상태가 앞으로의 지반상태에 영향을 미치는 시스템을 이해하고, 이를 통해 터널 굴착면 전방의 Q값의 예측이 가능할 것으로 판단된다.

이동 장애물을 고려한 DQN 기반의 Mapless Navigation 및 학습 시간 단축 알고리즘 (Mapless Navigation Based on DQN Considering Moving Obstacles, and Training Time Reduction Algorithm)

  • 윤범진;유승열
    • 한국정보통신학회논문지
    • /
    • 제25권3호
    • /
    • pp.377-383
    • /
    • 2021
  • 최근 4차 산업혁명에 따라 공장, 물류창고, 서비스영역에서 유연한 물류이송을 위한 자율 이동형 모바일 로봇의 사용이 증가하고 있다. 대규모 공장에서는 Simultaneous Localization and Mapping(SLAM)을 수행하기 위하여 많은 수작업이 필요하기 때문에 개선된 모바일 로봇 자율 주행에 대한 필요성이 대두되고 있다. 이에 따라 본 논문에서는 고정 및 이동 장애물을 피해 최적의 경로로 주행하는 Mapless Navigation에 대한 알고리즘을 제안하고자 한다. Mapless Navigation을 위하여 Deep Q Network(DQN)을 통해 고정 및 이동 장애물을 회피하도록 학습하였고 두 종류의 장애물 회피에 대하여 각각 정확도 90%, 93%를 얻었다. 또한 DQN은 많은 학습 시간을 필요로 하는데 이를 단축하기 위한 목표의 크기 변화 알고리즘을 제안하고 이를 시뮬레이션을 통하여 단축된 학습시간과 장애물 회피 성능을 확인하였다.

사이니지 시장유형화를 위한 해석적 연구 : Q 방법론 적용 (Analytical Study for Typology of Signage Market : by applying Q methodology)

  • 김항섭;이봉규
    • 인터넷정보학회논문지
    • /
    • 제17권2호
    • /
    • pp.67-76
    • /
    • 2016
  • 사이니지에 대한 시장유형을 정의하는 것은 공급자와 소비자입장에서 중요한 관심사항이다. 초기 미디어인 사이니지를 이해하는 전문가의 인터뷰를 통해서 Q 방법론을 적용한 시장유형을 구분하는 연구를 진행하였다. 본 연구의 분석결과, 3개 유형을 도출할 수 있었다. 유형들은 사이니지의 사용에 대한 P 표본대상자의 이용경험과 지식차이에 따라 유사한 생각, 의견, 개념, 태도로 묶여서 각 유형을 설명해주고 있다. 각 유형은 제1유형은 인터랙티브 사이니지 시장, 제2유형은 네트워크 사이니지 시장, 제3유형은 타 매체 연동형 사이니지 시장으로 명명되었다.

납기 위반 및 셋업 최소화를 위한 강화학습 기반의 설비 일정계획 모델 (Machine Scheduling Models Based on Reinforcement Learning for Minimizing Due Date Violation and Setup Change)

  • 유우식;서주혁;김다희;김관호
    • 한국전자거래학회지
    • /
    • 제24권3호
    • /
    • pp.19-33
    • /
    • 2019
  • 최근 제조업체들은 제품의 생산방식이 고도화 되고, 복잡해지면서 생산 장비를 효율적으로 사용하는데 어려움을 겪고 있다. 제조공정의 효율성을 방해하는 대표적인 요인들로는 작업물 종류 변경(job change)으로 인한 작업 준비 비용(Setup Cost) 등이 있다. 특히 반도체/LCD 공정과 같이 고가의 생산 장비를 사용하는 공정의 경우 장비의 효율적인 사용이 매우 중요한데, 상호 충돌하는 의사결정인 납기 준수를 최대화 하는 것과 작업물 종류 변경으로 인한 작업 준비 비용을 최소화 하는 것 사이에서 균형을 유지하는 것은 매우 어려운 일이다. 본 연구에서는 납기와 작업 준비 비용이 있는 병렬기계에서 강화학습을 활용하여 납기 및 셋업 비용의 최소화 목표를 달성하는 일정계획 모델을 개발하였다. 제안하는 모델은 DQN(Deep Q-Network) 일정계획 모델로 강화학습기반의 모델이다. 제안모델의 효율성을 측정하기 위해 DQN 모델과 기존에 개발하였던 심층 신경망 기반의 일정계획 생성기법과 휴리스틱 원칙의 결과를 비교하였다. 비교 결과 DQN 일정계획 생성기법이 심층신경망 방식과 휴리스틱 원칙에 비하여 납기 및 셋업 비용이 적은 것을 확인할 수 있었다.

표정 피드백을 이용한 딥강화학습 기반 협력로봇 개발 (Deep Reinforcement Learning-Based Cooperative Robot Using Facial Feedback)

  • 전해인;강정훈;강보영
    • 로봇학회논문지
    • /
    • 제17권3호
    • /
    • pp.264-272
    • /
    • 2022
  • Human-robot cooperative tasks are increasingly required in our daily life with the development of robotics and artificial intelligence technology. Interactive reinforcement learning strategies suggest that robots learn task by receiving feedback from an experienced human trainer during a training process. However, most of the previous studies on Interactive reinforcement learning have required an extra feedback input device such as a mouse or keyboard in addition to robot itself, and the scenario where a robot can interactively learn a task with human have been also limited to virtual environment. To solve these limitations, this paper studies training strategies of robot that learn table balancing tasks interactively using deep reinforcement learning with human's facial expression feedback. In the proposed system, the robot learns a cooperative table balancing task using Deep Q-Network (DQN), which is a deep reinforcement learning technique, with human facial emotion expression feedback. As a result of the experiment, the proposed system achieved a high optimal policy convergence rate of up to 83.3% in training and successful assumption rate of up to 91.6% in testing, showing improved performance compared to the model without human facial expression feedback.

The Development of an Intelligent Home Energy Management System Integrated with a Vehicle-to-Home Unit using a Reinforcement Learning Approach

  • Ohoud Almughram;Sami Ben Slama;Bassam Zafar
    • International Journal of Computer Science & Network Security
    • /
    • 제24권4호
    • /
    • pp.87-106
    • /
    • 2024
  • Vehicle-to-Home (V2H) and Home Centralized Photovoltaic (HCPV) systems can address various energy storage issues and enhance demand response programs. Renewable energy, such as solar energy and wind turbines, address the energy gap. However, no energy management system is currently available to regulate the uncertainty of renewable energy sources, electric vehicles, and appliance consumption within a smart microgrid. Therefore, this study investigated the impact of solar photovoltaic (PV) panels, electric vehicles, and Micro-Grid (MG) storage on maximum solar radiation hours. Several Deep Learning (DL) algorithms were applied to account for the uncertainty. Moreover, a Reinforcement Learning HCPV (RL-HCPV) algorithm was created for efficient real-time energy scheduling decisions. The proposed algorithm managed the energy demand between PV solar energy generation and vehicle energy storage. RL-HCPV was modeled according to several constraints to meet household electricity demands in sunny and cloudy weather. Simulations demonstrated how the proposed RL-HCPV system could efficiently handle the demand response and how V2H can help to smooth the appliance load profile and reduce power consumption costs with sustainable power generation. The results demonstrated the advantages of utilizing RL and V2H as potential storage technology for smart buildings.

다중 교차로에서 협력적 교통신호제어에 대한 연구 (A Study on Cooperative Traffic Signal Control at multi-intersection)

  • 김대호;정옥란
    • 전기전자학회논문지
    • /
    • 제23권4호
    • /
    • pp.1381-1386
    • /
    • 2019
  • 도시의 교통 혼잡 문제가 심각해지면서 지능형 교통신호제어가 활발하게 연구되고 있다. 강화학습은 교통신호제어에 가장 활발하게 사용되고 있는 알고리즘으로 최근에는 심층 강화학습 알고리즘이 관심을 끌고 있다. 또한 심층 강화학습 알고리즘이 다양한 분야에서 높은 성능을 보이면서 심층 강화학습의 확장 버전들이 빠른 속도로 등장했다. 하지만 기존 교통신호제어 연구들은 대부분 단일 교차로 환경에서 진행되었으며, 단일 교차로의 교통 혼잡만 완화하는 방법은 도시 전체의 교통 상황을 고려하지 못한다는 한계가 있다. 본 논문에서는 다중 교차로 환경에서 협력적 교통신호제어를 제안한다. 신호제어 알고리즘에는 심층 강화학습의 확장 버전들이 결합된 알고리즘을 적용했으며 다중 교차로를 효율적으로 제어하기 위해 인접한 교차로의 교통 상황을 고려하였다. 실험에서는 제안하는 알고리즘과 기존 심층 강화학습 알고리즘을 비교하였으며, 더 나아가 협력적 방법이 적용된 모델과 적용되지 않은 모델의 실험 결과를 보여줌으로써 높은 성능을 증명한다.

Enhancing Service Availability in Multi-Access Edge Computing with Deep Q-Learning

  • 루숭구 조쉬 음와싱가;샤이드 무하마드 라자;리덕 타이;김문성;추현승
    • 인터넷정보학회논문지
    • /
    • 제24권2호
    • /
    • pp.1-10
    • /
    • 2023
  • The Multi-access Edge Computing (MEC) paradigm equips network edge telecommunication infrastructure with cloud computing resources. It seeks to transform the edge into an IT services platform for hosting resource-intensive and delay-stringent services for mobile users, thereby significantly enhancing perceived service quality of experience. However, erratic user mobility impedes seamless service continuity as well as satisfying delay-stringent service requirements, especially as users roam farther away from the serving MEC resource, which deteriorates quality of experience. This work proposes a deep reinforcement learning based service mobility management approach for ensuring seamless migration of service instances along user mobility. The proposed approach focuses on the problem of selecting the optimal MEC resource to host services for high mobility users, thereby reducing service migration rejection rate and enhancing service availability. Efficacy of the proposed approach is confirmed through simulation experiments, where results show that on average, the proposed scheme reduces service delay by 8%, task computing time by 36%, and migration rejection rate by more than 90%, when comparing to a baseline scheme.