• 제목/요약/키워드: Q-Learning

검색결과 430건 처리시간 0.026초

다중에이전트 강화학습을 위한 SOM기반의 상태 일한화 (SOM-Based State Generalization for Multiagent Reinforcement Learning)

  • 임문택;김인철
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2002년도 추계정기학술대회
    • /
    • pp.399-408
    • /
    • 2002
  • 다중 에이전트 학습이란 다중 에이전트 환경에서 에이전트간의 조정을 위한 행동전략을 학습하는 것을 말한다. 본 논문에서는 에이전트간의 통신이 불가능한 다중 에이전트 환경에서 각 에이전트들이 서로 독립적으로 대표적인 강화학습법인 Q학습을 전개함으로써 서로 효과적으로 협조할 수 있는 행동전략을 학습하려고 한다. 하지만 단일 에이전트 경우에 비해 보다 큰 상태-행동 공간을 갖는 다중 에이전트환경에서는 강화학습을 통해 효과적으로 최적의 행동 전략에 도달하기 어렵다는 문제점이 있다. 이 문제에 대한 기존의 접근방법은 크게 모듈화 방법과 일반화 방법이 제안되었으나 모두 나름의 제한을 가지고 있다. 본 논문에서는 대표적인 다중 에이전트 학습 문제의 예로서 먹이와 사냥꾼 문제(Prey and Hunters Problem)를 소개하고 이 문제영역을 통해 이와 같은 강화학습의 문제점을 살펴보고, 해결책으로 신경망 SOM을 이용한 일반화 방법인 QSOM 학습법을 제안한다. 이 방법은 기존의 일반화 방법과는 달리 군집화 기능을 제공하는 신경망 SOM을 이용함으로써 명확한 다수의 훈련 예가 없어도 효과적으로 이전에 경험하지 못했던 상태-행동들에 대한 Q값을 예측하고 이용할 수 있다는 장점이 있다. 또한 본 논문에서는 실험을 통해 QSOM 학습법의 일반화 효과와 성능을 평가하였다.

  • PDF

강화학습 기반 임베디드 보드를 활용한 실내자율 주행 서비스 로봇 개발 (Development of Interior Self-driving Service Robot Using Embedded Board Based on Reinforcement Learning)

  • 오현택;백지훈;이승진;김상훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 추계학술발표대회
    • /
    • pp.537-540
    • /
    • 2018
  • 본 논문은 Jetson_TX2(임베디드 보드)의 ROS(Robot Operating System)기반으로 맵 지도를 작성하고, SLAM 및 DQN(Deep Q-Network)을 이용한 목적지까지의 이동명령(목표 선속도, 목표 각속도)을 자이로센서로 측정한 현재 각속도를 이용하여 Cortex-M3의 기반의 MCU(Micro Controllor Unit)에 하달하여 엔코더(encoder) 모터에서 측정한 현재 선속도와 자이로센서에서 측정한 각속도 값을 이용하여 PID제어를 통한 실내 자율주행 서비스 로봇.

수학수업에서의 담론을 통한 수학적 개념 형성에 관한 연구 (Developing Mathematics Concepts through Discourses in a Math Classroom)

  • 고상숙;강현희
    • 한국수학교육학회지시리즈A:수학교육
    • /
    • 제46권4호
    • /
    • pp.423-443
    • /
    • 2007
  • Based on the framework of Huffered-Ackles, Fuson and Sherin(2004), data were analyzed in terms of 3 components: explaining(E), questioning(Q) and justifying(J) of students' mathematical concepts and problem solving in a math classroom. The students used varied presentations to explain and justify their mathematical concepts and ideas. They corrected their mathematical errors or misconceptions through discourses. In addition, they constructed and clarified their concepts and thinking while they were interacted. We were able to recognize there was a special feature in discourses that encouraged the students to construct and develop their mathematical concepts. As they participated in math class and received feedback on their learning, the whole class worked cooperatively in a positive way. Their discourse was improved from the level of the actual development to the level of the potential development and the pattern of interaction moved from ERE(Elicitaion-Response-Elaboration to PD(Proposition Discussion).

  • PDF

효율적인 멀티 에이전트 강화학습을 위한 RBFN 기반 정책 모델 (RBFN-based Policy Model for Efficient Multiagent Reinforcement Learning)

  • 권기덕;김인철
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2007년도 추계학술대회
    • /
    • pp.294-302
    • /
    • 2007
  • 멀티 에이전트 강화학습에서 중요한 이슈 중의 하나는 자신의 성능에 영향을 미칠 수 있는 다른 에이전트들이 존재하는 동적 환경에서 어떻게 최적의 행동 정책을 학습하느냐 하는 것이다. 멀티 에이전트 강화 학습을 위한 기존 연구들은 대부분 단일 에이전트 강화 학습기법들을 큰 변화 없이 그대로 적용하거나 비록 다른 에이전트에 관한 별도의 모델을 이용하더라도 현실적이지 못한 가정들을 요구한다. 본 논문에서는 상대 에이전트에 대한RBFN기반의 행동 정책 모델을 소개한 뒤, 이것을 이용한 강화 학습 방법을 설명한다. 본 논문에서는 제안하는 멀티 에이전트 강화학습 방법은 기존의 멀티 에이전트 강화 학습 연구들과는 달리 상대 에이전트의 Q 평가 함수 모델이 아니라 RBFN 기반의 행동 정책 모델을 학습한다. 또한, 표현력은 풍부하나 학습에 시간과 노력이 많이 요구되는 유한 상태 오토마타나 마코프 체인과 같은 행동 정책 모델들에 비해 비교적 간단한 형태의 행동 정책 모델을 이용함으로써 학습의 효율성을 높였다. 본 논문에서는 대표적이 절대적 멀티 에이전트 환경인 고양이와 쥐 게임을 소개한 뒤, 이 게임을 테스트 베드 삼아 실험들을 전개함으로써 제안하는 RBFN 기반의 정책 모델의 효과를 분석해본다.

  • PDF

Reliability-aware service chaining mapping in NFV-enabled networks

  • Liu, Yicen;Lu, Yu;Qiao, Wenxin;Chen, Xingkai
    • ETRI Journal
    • /
    • 제41권2호
    • /
    • pp.207-223
    • /
    • 2019
  • Network function virtualization can significantly improve the flexibility and effectiveness of network appliances via a mapping process called service function chaining. However, the failure of any single virtualized network function causes the breakdown of the entire chain, which results in resource wastage, delays, and significant data loss. Redundancy can be used to protect network appliances; however, when failures occur, it may significantly degrade network efficiency. In addition, it is difficult to efficiently map the primary and backups to optimize the management cost and service reliability without violating the capacity, delay, and reliability constraints, which is referred to as the reliability-aware service chaining mapping problem. In this paper, a mixed integer linear programming formulation is provided to address this problem along with a novel online algorithm that adopts the joint protection redundancy model and novel backup selection scheme. The results show that the proposed algorithm can significantly improve the request acceptance ratio and reduce the consumption of physical resources compared to existing backup algorithms.

Hyper-parameter Optimization for Monte Carlo Tree Search using Self-play

  • Lee, Jin-Seon;Oh, Il-Seok
    • 스마트미디어저널
    • /
    • 제9권4호
    • /
    • pp.36-43
    • /
    • 2020
  • The Monte Carlo tree search (MCTS) is a popular method for implementing an intelligent game program. It has several hyper-parameters that require an optimization for showing the best performance. Due to the stochastic nature of the MCTS, the hyper-parameter optimization is difficult to solve. This paper uses the self-playing capability of the MCTS-based game program for optimizing the hyper-parameters. It seeks a winner path over the hyper-parameter space while performing the self-play. The top-q longest winners in the winner path compete for the final winner. The experiment using the 15-15-5 game (Omok in Korean name) showed a promising result.

NLP 기계 학습을 사용한 한글 요구사항 문서에서의 요구사항 자동 생성 프로세스 (Process for Automatic Requirement Generation in Korean Requirements Documents using NLP Machine Learning)

  • 백영윤;박수진;박용범
    • 반도체디스플레이기술학회지
    • /
    • 제22권1호
    • /
    • pp.88-93
    • /
    • 2023
  • In software engineering, requirement analysis is an important task throughout the process and takes up a high proportion. However, factors that fail to analyze requirements include communication failure, different understanding of the meaning of requirements, and failure to perform requirements normally. To solve this problem, we derived actors and behaviors using morpheme analysis and BERT algorithms in the Korean requirement document and constructed them as ontologies. A chatbot system with ontology data is constructed to derive a final system event list through Q&A with users. The chatbot system generates the derived system event list as a requirement diagram and a requirement specification and provides it to the user. Through the above system, diagrams and specifications with a level of coverage complied with Korean requirement documents were created.

  • PDF

LSTM을 이용한 한강유역 댐유입량 예측 (Predictions of dam inflow on Han-river basin using LSTM)

  • 김종호;쩐득충
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2020년도 학술발표회
    • /
    • pp.319-319
    • /
    • 2020
  • 최근 데이터 과학의 획기적인 발전 덕분에 딥러닝 (Deep Learning) 알고리즘이 개발되어 다양한 분야에 널리 적용되고 있다. 본 연구에서는 인공신경망 중 하나인 LSTM(Long-Short Term Memory) 네트워크를 사용하여 댐 유입량을 예측하였다. 구체적인 내용으로, (1) LSTM에 필요한 입력 데이터를 효율적으로 사전 처리하는 방법, (2) LSTM의 하이퍼 매개변수를 결정하는 방법 및 (3) 다양한 손실 함수(Loss function)를 선택하고 그 영향을 평가하는 방법 등을 다루었다. 제안된 LSTM 모델은 강우량(R), 댐유입량(Q) 기온(T), 기저유량(BF) 등을 포함한 다양한 입력 변수들의 함수로 가정하였으며, CCF(Cross Correlations), ACF(Autocorrelations) 및 PACF(Partial Autocorrelations) 등의 기법을 사용하여 입력 변수를 결정하였다. 다양한 sequence length를 갖는 (즉 t, t-1, … t-n의 시간 지연을 갖는) 입력 변수를 적용하여 데이터 학습에 최적의 시퀀스 길이를 결정하였다. LSTM 네트워크 모델을 적용하여 2014년부터 2020년까지 한강 유역 9개의 댐 유입량을 추정하였다. 본 연구로부터 댐 유입량을 예측하는 것은 홍수 및 가뭄 통제를 위한 필수 요건들 중 하나이며 수자원 계획 및 관리에 도움이 될 것이다.

  • PDF

MEC 환경에서 심층 강화학습을 이용한 오프로딩 기법의 성능비교 (Performance Comparison of Deep Reinforcement Learning based Computation Offloading in MEC)

  • 문성원;임유진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.52-55
    • /
    • 2022
  • 5G 시대에 스마트 모바일 기기가 기하급수적으로 증가하면서 멀티 액세스 엣지 컴퓨팅(MEC)이 유망한 기술로 부상했다. 낮은 지연시간 안에 계산 집약적인 서비스를 제공하기 위해 MEC 서버로 오프로딩하는 특히, 태스크 도착률과 무선 채널의 상태가 확률적인 MEC 시스템 환경에서의 오프로딩 연구가 주목받고 있다. 본 논문에서는 차량의 전력과 지연시간을 최소화하기 위해 로컬 실행을 위한 연산 자원과 오프로딩을 위한 전송 전력을 할당하는 심층 강화학습 기반의 오프로딩 기법을 제안하였다. Deep Deterministic Policy Gradient (DDPG) 기반 기법과 Deep Q-network (DQN) 기반 기법을 차량의 전력 소비량과 큐잉 지연시간 측면에서 성능을 비교 분석하였다.

얼굴인식 알고리즘을 활용한 잠금해제 및 자율주행 약제배송로봇 개발 (Development of An Autonomous Medicine Delivery Robot Using Facial Recognition for Unlocking Mechanisms)

  • 김유경;김예린
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.874-875
    • /
    • 2023
  • 본 논문은 COVID-19와 같은 전염병 확산 방지를 위해 비대면 약제배송로봇을 제안한다. 제안한 로봇은 OpenCV와 Q-Learning기반의 모델을 사용하여 실시간 영상처리로 사람의 얼굴을 식별한다. 환자의 얼굴, 나이, 전달 약제 등을 환자 데이터베이스에 등록한다. 카메라로 인식된 환자의 얼굴과 데이터베이스 내 환자의 얼굴이 일치할 경우 잠금장치를 해제시켜 환자의 약제 수령을 허용한다. 또한 어플리케이션을 통해 약제가 올바르게 전달되었는지 2차적으로 확인한다. 따라서 본 논문에서 제안한 로봇은 비대면으로 환자에게 약을 전달함으로써 입원병동에서 발생할 수 있는 전염병 확상의 방지에 효과적으로 기여할 수 있을 것이다.