• 제목/요약/키워드: 강화 학습 에이전트

검색결과 134건 처리시간 0.048초

강화학습을 이용한 회전식 도립진자 시스템 설계 (Design of Rotary Inverted Pendulum System Using Reinforcement Learning)

  • 김주봉;권도형;홍용근;김민석;한연희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 추계학술발표대회
    • /
    • pp.705-707
    • /
    • 2018
  • Rotary Inverted Pendulum 은 제어분야에서 비선형 제어 시스템을 설명하기 위해 자주 사용되어왔다. 본 논문은 강화학습 에이전트의 환경으로써 Rotary Inverted Pendulum 을 도입하였다. 이를 통해서 강화학습이 실제 세계에서의 복합적인 문제를 해결할 수 있음을 보인다. 강화학습 에이전트의 가상 환경과 실제 환경을 맵핑시키기 위해서 Ethernet 연결 위에 MQTT 프로토콜을 사용하였으며 이를 통해서 경량화된 IoT 분야에서의 강화학습의 활용도를 조명한다.

강화학습을 이용한 멀티 에이전트 시스템의 자동 협력 조정 모델 (An Automatic Cooperative coordination Model for the Multiagent System using Reinforcement Learning)

  • 정보윤;윤소정;오경환
    • 인지과학
    • /
    • 제10권1호
    • /
    • pp.1-11
    • /
    • 1999
  • 최근 에이전트 기반 시스템 기술은 소프트웨어 시스템의 개념화, 설계, 구현을 위한 새로운 패러다임을 제공하며 많은 기대를 받아왔다. 특히 멀티 에이전트 시스템은 분산적이고 개방적인 인터넷 환경에 잘 부합되는 특징을 가지고 있어서 많은 연구가 진행되고 있다. 멀티 에이전트 시스템에서는 각 에이전트들이 자신의 목적을 위해 행동하기 때문에 에이전트간 충돌이 발생하는 경우에 조정을 통해 협력할 수 있어야 한다. 그러나 기존의 멀티 에이전트 시스템에서의 에이전트 간 협력 방법에 관한 연구 방법들은 동적 환경에서 서로 다른 목적을 갖는 에이전트간의 협동 문제를 올바로 해결할 수 없다는 문제가 있었다. 본 논문에서는 강화학습을 이용한 자동 역할 조정 방법을 통하여 에이전트가 처한 동적 환경에서 서로 다른 목적을 갖는 에이전트간의 협력 문제를 해결한다. 이를 위하여 멀티 에이전트 시스템 분야의 전통적인 문제인 추적 문제에 동적 환경과 서로 다른 목표를 갖는 에이전트들을 모델 링 하여, 두 가지 수정된 추적 문제를 제안하고 이 문제의 해결을 통하여 제안한 방법이 타당함을 보였다.

  • PDF

지능로봇: 지능 에이전트를 기초로 한 접근방법 (Intelligent Robot Design: Intelligent Agent Based Approach)

  • 강진식
    • 한국지능시스템학회논문지
    • /
    • 제14권4호
    • /
    • pp.457-467
    • /
    • 2004
  • 본 논문에서는 로봇을 하나의 에이전트로 보고 로봇에 필요한 기능-환경인지, 지능, 행동-등을 부-에이전트로 하는 로봇 구조를 제안하였다. 각각의 부 에이전트들은 로봇 기능의 기초단위를 구성하는 마이크로 에이전트로 구성된다. 로봇의 제어 구조는 행위기반 반사행동 제어 형태와 행동 선택 에이전트로 구성되며, 행동 선택 에이전트에서의 행동 선택은 행동 우선순위, 수행성능, 강화학습에 의한 학습기능을 부가하였다. 제시된 로봇 구조는 다중 부-에이전트 구조로 각각의 기능에 대하여 지능을 부여하기 쉬우며 다중 로봇 제어를 위한 새로운 접근 방법이다. 제시된 로봇을 장애물을 회피와 chaotic한 탐색을 목표로 하여 모의실험을 수행하였으며 8bit 마이크로 콘트롤러를 이용하여 제작 실험하였다.

강화 학습에서의 탐색과 이용의 균형을 통한 범용적 온라인 Q-학습이 적용된 에이전트의 구현 (Implementation of the Agent using Universal On-line Q-learning by Balancing Exploration and Exploitation in Reinforcement Learning)

  • 박찬건;양성봉
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권7_8호
    • /
    • pp.672-680
    • /
    • 2003
  • shopbot이란 온라인상의 판매자로부터 상품에 대한 가격과 품질에 관한 정보를 자동적으로 수집함으로써 소비자의 만족을 최대화하는 소프트웨어 에이전트이다 이러한 shopbot에 대응해서 인터넷상의 판매자들은 그들에게 최대의 이익을 가져다 줄 수 있는 에이전트인 pricebot을 필요로 할 것이다. 본 논문에서는 pricebot의 가격결정 알고리즘으로 비 모델 강화 학습(model-free reinforcement learning) 방법중의 하나인 Q-학습(Q-learning)을 사용한다. Q-학습된 에이전트는 근시안적인 최적(myopically optimal 또는 myoptimal) 가격 결정 전략을 사용하는 에이전트에 비해 이익을 증가시키고 주기적 가격 전쟁(cyclic price war)을 감소시킬 수 있다. Q-학습 과정 중 Q-학습의 수렴을 위해 일련의 상태-행동(state-action)을 선택하는 것이 필요하다. 이러한 선택을 위해 균일 임의 선택방법 (Uniform Random Selection, URS)이 사용될 경우 최적 값의 수렴을 위해서 Q-테이블을 접근하는 회수가 크게 증가한다. 따라서 URS는 실 세계 환경에서의 범용적인 온라인 학습에는 부적절하다. 이와 같은 현상은 URS가 최적의 정책에 대한 이용(exploitation)의 불확실성을 반영하기 때문에 발생하게 된다. 이에 본 논문에서는 보조 마르코프 프로세스(auxiliary Markov process)와 원형 마르코프 프로세스(original Markov process)로 구성되는 혼합 비정적 정책 (Mixed Nonstationary Policy, MNP)을 제안한다. MNP가 적용된 Q-학습 에이전트는 original controlled process의 실행 시에 Q-학습에 의해 결정되는 stationary greedy 정책을 사용하여 학습함으로써 auxiliary Markov process와 original controlled process에 의해 평가 측정된 최적 정책에 대해 1의 확률로 exploitation이 이루어질 수 있도록 하여, URS에서 발생하는 최적 정책을 위한 exploitation의 불확실성의 문제를 해결하게 된다. 다양한 실험 결과 본 논문에서 제한한 방식이 URS 보다 평균적으로 약 2.6배 빠르게 최적 Q-값에 수렴하여 MNP가 적용된 Q-학습 에이전트가 범용적인 온라인 Q-학습이 가능함을 보였다.

시각-언어 이동 에이전트를 위한 모방 학습과 강화 학습의 결합 (Combining Imitation Learning and Reinforcement Learning for Visual-Language Navigation Agents)

  • 오선택;김인철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.559-562
    • /
    • 2020
  • 시각-언어 이동 문제는 시각 이해와 언어 이해 능력을 함께 요구하는 복합 지능 문제이다. 본 논문에서는 시각-언어 이동 에이전트를 위한 새로운 학습 모델을 제안한다. 이 모델은 데모 데이터에 기초한 모방 학습과 행동 보상에 기초한 강화 학습을 함께 결합한 복합 학습을 채택하고 있다. 따라서 이 모델은 데모 데이타에 편향될 수 있는 모방 학습의 문제와 상대적으로 낮은 데이터 효율성을 갖는 강화 학습의 문제를 상호 보완적으로 해소할 수 있다. 또한, 제안 모델은 서로 다른 두 학습 간에 발생 가능한 학습 불균형도 고려하여 손실 정규화를 포함하고 있다. 또, 제안 모델에서는 기존 연구들에서 사용되어온 목적지 기반 보상 함수의 문제점을 발견하고, 이를 해결하기 위해 설계된 새로은 최적 경로 기반 보상 함수를 이용한다. 본 논문에서는 Matterport3D 시뮬레이션 환경과 R2R 벤치마크 데이터 집합을 이용한 다양한 실들을 통해, 제안 모델의 높은 성능을 입증하였다.

매크로 행동을 이용한 내시 Q-학습의 성능 향상 기법 (A Performance Improvement Technique for Nash Q-learning using Macro-Actions)

  • 성연식;조경은;엄기현
    • 한국멀티미디어학회논문지
    • /
    • 제11권3호
    • /
    • pp.353-363
    • /
    • 2008
  • 단일 에이전트 환경에서는 Q-학습의 학습 시간을 줄이기 위해서 학습결과를 전파시키거나 일렬의 행동을 패턴으로 만들어 학습한다. 다중 에이전트 환경에서는 동적인 환경과 다수의 에이전트 상태를 고려해야하기 때문에 학습에 필요한 시간이 단일 에이전트 환경보다 길어지게 된다. 이 논문에서는 단일 에이전트 환경에서 시간 단축을 위해서 유한개의 행동으로 정책을 만들어 학습하는 매크로 행동을 다중 에이전트 환경에 적합한 내시 Q-학습에 적용함으로써 다중 에이전트 환경에서 Q-학습 시간을 줄이고 성능을 높이는 방법을 제안한다. 실험에서는 다중 에이전트 환경에서 매크로 행동을 이용한 에이전트와 기본 행동만 이용한 에이전트의 내시 Q-학습 성능을 비교했다. 이 실험에서 네 개의 매크로 행동을 이용한 에이전트가 목표를 수행할 성공률이 기본 행동만 이용한 에이전트 보다 9.46% 높은 결과를 얻을 수 있었다. 매크로 행동은 기본 행동만을 이용해서 적합한 이동 행동을 찾아도 매크로 행동을 이용한 더 낳은 방법을 찾기 때문에 더 많은 Q-값의 변화가 발생되었고 전체 Q-값 합이 2.6배 높은 수치를 보였다. 마지막으로 매크로 행동을 이용한 에이전트는 약 절반의 행동 선택으로도 시작위치에서 목표위치까지 이동함을 보였다. 결국 에이전트는 다중 에이전트 환경에서 매크로 행동을 사용함으로써 성능을 향상시키고 목표위치까지 이동하는 거리를 단축해서 학습 속도를 향상시킨다.

  • PDF

강화학습 기반 실시간 반응형 퀘스트 생성 시스템 중앙 관리자 영향력 연구 (Proposal Realtime Reaction Generate Quest System Basement Reinforcement Learning Central System)

  • 김태훈 ;김창재
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.499-500
    • /
    • 2023
  • 강화학습 기반의 다중 에이전트 시스템을 이용한 서버의 실시간 상황을 제공 받아서 상황에 알맞은 퀘스트를 생성해주는 시스템을 제안한다. 학습 가이드 역할을 하는 CTDE 의 중앙 관리자의 역할을 위한 에이전트를 분리하여 작동하게 함으로서 퀘스트의 지향점을 잡는 것이다.

지능형 에이전트의 모호한 목적을 처리하기 위한 FuzzyQ-Learning (FuzzyQ-Learning to Process the Vague Goals of Intelligent Agent)

  • 서호섭;윤소정;오경환
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.271-273
    • /
    • 2000
  • 일반적으로, 지능형 에이전트는 사용자의 목적과 주위 환경으로부터 최적의 행동을 스스로 찾아낼 수 있어야 한다. 만약 에이전트의 목적이나 주위 환경이 불확실성을 포함하는 경우, 에이전트는 적절한 행동을 선택하기 어렵다. 그러나, 사용자의 목적이 인간 지식의 불확실성을 포함하는 언어값으로 표현되었을 경우, 이를 처리하려는 연구는 없었다. 본 논문에서는 모호한 사용자의 의도를 퍼지 목적으로 나타내고, 에이전트가 인지하는 불확실한 환경을 퍼지 상태로 표현하는 방법을 제안한다. 또, 퍼지 목적과 상태를 이용하여 확장한 펴지 강화 함수와를 이용하여, 기존 강화 학습 알고리즘 중 하나인 Q-Learning을 FuzzyQ-Learning으로 확장하고, 이에 대한 타당성을 검증한다.

  • PDF

다중 에이전트 시스템의 컨센서스를 위한 슬라이딩 기법 강화학습 (A slide reinforcement learning for the consensus of a multi-agents system)

  • 양장훈
    • 한국항행학회논문지
    • /
    • 제26권4호
    • /
    • pp.226-234
    • /
    • 2022
  • 자율주행체와 네트워크기반 제어 기술의 발달에 따라서, 하나의 에이전트를 제어하는 것을 넘어서 다수의 이동체를 분산 제어하는데 사용 가능한 다중 에이전트의 컨센서스 제어에 대한 관심과 연구가 증가하고 있다. 컨센서스 제어는 분산형 제어이기 때문에, 정보 교환은 실제 시스템에서 지연을 가지게 된다. 또한, 시스템에 대한 모델을 정확히 수식적으로 표현하는데 있어서 한계를 갖는다. 이런 한계를 극복하는 방법 중에 하나로서 강화 학습 기반 컨센서스 알고리즘이 개발되었지만, 불확실성이 큰 환경에서 느린 수렴을 갖는 경우가 자주 발생하는 특징을 보이고 있다. 따라서, 이 논문에서는 불확실성에 강인한 특성을 갖는 슬라이딩 모드제어를 강화학습과 결합한 슬라이딩 강화학습 알고리즘을 제안한다. 제안 알고리즘은 기존의 강화학습 기반 컨센서스 알고리즘의 제어 신호에 슬라이딩 모드 제어 구조를 추가하고, 시스템의 상태 정보를 슬라이딩 변수를 추가하여 확장한다. 모의실험 결과 다양한 시변 지연과 왜란에 대한 정보가 주어지지 않았을 때에 슬라이딩 강화학습 알고리즘은 모델기반의 알고리즘과 유사한 성능을 보이면서, 기존의 강화학습에 비해서 안정적이면서 우수한 성능을 보여준다.

경영 시뮬레이션 게임에서 PPO 알고리즘을 적용한 강화학습의 유용성에 관한 연구 (A Study about the Usefulness of Reinforcement Learning in Business Simulation Games using PPO Algorithm)

  • 양의홍;강신진;조성현
    • 한국게임학회 논문지
    • /
    • 제19권6호
    • /
    • pp.61-70
    • /
    • 2019
  • 본 논문에서는 경영 시뮬레이션 게임 분야에서 강화학습을 적용하여 게임 에이전트들이 자율적으로 주어진 목표를 달성하는지를 확인하고자 한다. 본 시스템에서는 Unity Machine Learning (ML) Agent 환경에서 PPO (Proximal Policy Optimization) 알고리즘을 적용하여 게임 에이전트가 목표를 달성하기 위해 자동으로 플레이 방법을 찾도록 설계하였다. 그 유용성을 확인하기 위하여 5가지의 게임 시나리오 시뮬레이션 실험을 수행하였다. 그 결과 게임 에이전트가 다양한 게임 내 환경 변수의 변화에도 학습을 통하여 목표를 달성한다는 것을 확인하였다.