• Title/Summary/Keyword: 강화 학습 에이전트

Search Result 131, Processing Time 0.047 seconds

멀티 에이전트 강화학습 시나리오를 위한 해상교통환경 고려요소 도출에 관한 기초 연구

  • 김니은;김소라;이명기;김대원;박영수
    • Proceedings of the Korean Institute of Navigation and Port Research Conference
    • /
    • 2022.06a
    • /
    • pp.165-166
    • /
    • 2022
  • 최근 전세계적으로 자율운항선박(Maritime Autonomous Surface Ship, 이하 MASS)의 기술 개발 및 시험 항해가 본격적으로 추진되고 있다. 하지만 MASS의 출현과 별개로 운항 방식, 제어 방식, 관제 방식 등 명확한 지침은 부재한 상태이다. 육상에서는 머신 러닝을 통하여 자율주행차에 대한 다양한 제어 방식을 연구하고 있으며, 이에 따라서 MASS도 제어 또는 통항 방식에 대한 기초 틀을 마련할 필요성이 있다. 하지만 육상과 달리 해상은 기상, 조종성능, 수심, 장애물 등 다양한 변수들이 존재하고 있어 접근 방식이 복잡하여, 머신 러닝을 적용할 때 환경에 대한 요소를 적절하게 설정해야 한다. 따라서 본 연구는 멀티 에이전트 강화학습을 통하여 MASS의 자율적인 통항 방식을 제안하기 위하여 강화학습의 해상교통환경 설정을 위한 요소를 도출하고자 하였다.

  • PDF

Reinforcement Learning Algorithm using Domain Knowledge for MAV (초소형 비행체 운항방법에 대한 환경 지식을 이용한 강화학습 방법)

  • Kim, Bong-Oh;Kong, Sung-Hak;Jang, Si-Young;Suh, Il-Hong;Oh, Sang-Rok
    • Proceedings of the KIEE Conference
    • /
    • 2002.07d
    • /
    • pp.2407-2409
    • /
    • 2002
  • 강화학습이란 에이전트가 알려지지 않은 미지의 환경에서 행위와 보답을 주고받으며, 임의의 상태에서 가장 적절한 행위를 학습하는 방법이다. 만약 강화학습 중에 에이전트가 과거 문제들을 해결하면서 학습한 환경에 대한 지식을 이용할 수 있는 능력이 있다면 새로운 문제를 빠르게 해결할 수 있다. 이런 문제를 풀기 위한 방법으로 에이전트가 과거에 학습한 여러 문제들에 대한 환경 지식(Domain Knowledge)을 Local state feature라는 기억공간에 학습한 후 행위함수론 학습할 때 지식을 활용하는 방법이 연구되었다. 그러나 기존의 연구들은 주로 2차원 공간에 대한 연구가 진행되어 왔다. 본 논문에서는 환경 지식을 이용한 강화학습 알고리즘을 3차원 공간에 대해서도 수행 할 수 있도록하는 개선된 알고리즘을 제안하였으며, 제안된 알고리즘의 유효성을 검증하기 위해 초소형 비행체의 항공운항 학습에 대해 모의실험을 수행하였다.

  • PDF

Multi Colony Intensification.Diversification Interaction Ant Reinforcement Learning Using Temporal Difference Learning (Temporal Difference 학습을 이용한 다중 집단 강화.다양화 상호작용 개미 강화학습)

  • Lee Seung-Gwan
    • The Journal of the Korea Contents Association
    • /
    • v.5 no.5
    • /
    • pp.1-9
    • /
    • 2005
  • In this paper, we suggest multi colony interaction ant reinforcement learning model. This method is a hybrid of multi colony interaction by elite strategy and reinforcement teaming applying Temporal Difference(TD) learning to Ant-Q loaming. Proposed model is consisted of some independent AS colonies, and interaction achieves search according to elite strategy(Intensification, Diversification strategy) between the colonies. Intensification strategy enables to select of good path to use heuristic information of other agent colony. This makes to select the high frequency of the visit of a edge by agents through positive interaction of between the colonies. Diversification strategy makes to escape selection of the high frequency of the visit of a edge by agents achieve negative interaction by search information of other agent colony. Through this strategies, we could know that proposed reinforcement loaming method converges faster to optimal solution than original ACS and Ant-Q.

  • PDF

Comparison of Learning Performance by Reinforcement Learning Agent Visibility Information Difference (강화학습 에이전트 시야 정보 차이에 의한 학습 성능 비교)

  • Kim, Chan Sub;Jang, Si-Hwan;Yang, Seong-Il;Kang, Shin Jin
    • Journal of Korea Game Society
    • /
    • v.21 no.5
    • /
    • pp.17-28
    • /
    • 2021
  • Reinforcement learning, in which artificial intelligence develops itself to find the best solution to problems, is a technology that is highly valuable in many fields. In particular, the game field has the advantage of providing a virtual environment for problem-solving to reinforcement learning artificial intelligence, and reinforcement learning agents solve problems about their environment by identifying information about their situation and environment using observations. In this experiment, the instant dungeon environment of the RPG game was simplified and produced and various observation variables related to the field of view were set to the agent. As a result of the experiment, it was possible to figure out how much each set variable affects the learning speed, and these results can be referred to in the study of game RPG reinforcement learning.

Deep Reinforcement Learning for Visual Dialogue Agents (영상 기반 대화 에이전트를 위한 심층 강화 학습)

  • Cho, Yeongsu;Hwang, Jisu;Kim, Incheol
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.05a
    • /
    • pp.412-415
    • /
    • 2018
  • 본 논문에서는 영상 기반 대화 연구를 위한 기존 GuessWhat?! 게임 환경의 한계성을 보완한 새로운 GuessWbat+ 게임 환경을 소개한다. 또 이 환경에서 동작하는 대화 에이전트를 위한 정책 기울기 기반의 심층 강화 학습 알고리즘인 MRRB의 설계와 구현에 대해서도 설명한다. 다양한 실험을 통해, 본 논문에서 제안한 GuessWbat+ 환경과 심층 강화 학습 알고리즘의 긍정적 효과를 입증해 보인다.

A Study on the Development of Learning Environment for Ship Navigation Agents (선박항해 에이전트 학습을 위한 보상설계 방안에 관한 연구)

  • Park, Sekil;Oh, Jaeyong
    • Proceedings of the Korean Institute of Navigation and Port Research Conference
    • /
    • 2020.11a
    • /
    • pp.177-178
    • /
    • 2020
  • 본 논문은 선박항해 에이전트가 개발 의도와 부합되도록 학습시키는데 있어 가장 중요한 역할을 수행하는 보상설계에 대해 소개한다. 보상설계는 먼저 학습 대상이 무엇인지 명확히 정의하는 것이 중요하며, 보상이 상황에 따라 다른 목적으로 활용되지 않도록 하고 에이전트에게 너무 드물게 주어지지 않도록 보상 형태화를 적용하는 등의 방법을 사용할 필요가 있다. 또한 보상을 구성하는 요소가 많아지는 경우에는 의도가 명확하게 전달이 되지 않을 수 있으므로 문제를 작은 문제들로 나누어 접근하는 계층적 강화학습 방법 등을 적용할 필요가 있다.

  • PDF

Reinforcement learning model for water distribution system design (상수도관망 설계에의 강화학습 적용방안 연구)

  • Jaehyun Kim;Donghwi Jung
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2023.05a
    • /
    • pp.229-229
    • /
    • 2023
  • 강화학습은 에이전트(agent)가 주어진 환경(environment)과의 상호작용을 통해서 상태(state)를 변화시켜가며 최대의 보상(reward)을 얻을 수 있도록 최적의 행동(action)을 학습하는 기계학습법을 의미한다. 최근 알파고와 같은 게임뿐만 아니라 자율주행 자동차, 로봇 제어 등 다양한 분야에서 널리 사용되고 있다. 상수도관망 분야의 경우에도 펌프 운영, 밸브 운영, 센서 최적 위치 선정 등 여러 문제에 적용되었으나, 설계에 강화학습을 적용한 연구는 없었다. 설계의 경우, 관망의 크기가 커짐에 따라 알고리즘의 탐색 공간의 크기가 증가하여 기존의 최적화 알고리즘을 이용하는 것에는 한계가 존재한다. 따라서 본 연구는 강화학습을 이용하여 상수도관망의 구성요소와 환경요인 간의 복잡한 상호작용을 고려하는 설계 방법론을 제안한다. 모델의 에이전트를 딥 강화학습(Deep Reinforcement Learning)으로 구성하여, 상태 및 행동 공간이 커 발생하는 고차원성 문제를 해결하였다. 또한, 해당 모델의 상태 및 보상으로 절점에서의 압력 및 수요량과 설계비용을 고려하여 적절한 수량과 수압의 용수 공급이 가능한 경제적인 관망을 설계하도록 하였다. 모델의 행동은 실제로 공학자가 설계하듯이 절점마다 하나씩 차례대로 다른 절점과의 연결 여부를 결정하는 것으로, 이를 통해 관망의 레이아웃(layout)과 관경을 결정한다. 본 연구에서 제안한 방법론을 규모가 큰 그리드 네트워크에 적용하여 모델을 검증하였으며, 고려해야 할 변수의 개수가 많음에도 불구하고 목적에 부합하는 관망을 설계할 수 있었다. 모델 학습과정 동안 에피소드의 평균 길이와 보상의 크기 등의 변화를 비교하여, 제안한 모델의 학습 능력을 평가 및 보완하였다. 향후 강화학습 모델을 통해 신뢰성(reliability) 또는 탄력성(resilience)과 같은 시스템의 성능까지 고려한 설계가 가능할 것으로 기대한다.

  • PDF

An Agent Architecture for Behavior-Based Reinforcement Learning (행위 기반 강화 학습 에이전트 구조)

  • Hwang, Jong-Geun;Kim, In-Cheol
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2007.11a
    • /
    • pp.284-293
    • /
    • 2007
  • 본 논문에서는 실시간 동정 환경에 효과적인 L-CAA 에이전트 구조를 제안한다. L-CAA 에이전트 구조는 변화하는 환경에 대한 적응성을 높이기 위해, 선행 연구를 통해 개발된 행위 기반 에이전트 구조인 CAA에 강화 학습 기능을 추가하여 확장한 것이다. 안정적인 성능을 위해 L-CAA에서 행위 선택 메커니즘은 크게 두 단계로 나뉜다. 첫 번째 단계에서는 사용자가 미리 정의한 각 행위의 수행 가능 조건과 효용성을 검사함으로써 행위 라이브러리로부터 실행할 행위들을 추출한다. 하지만 첫 번째 단계에서 다수의 행위가 추출되면, 두 번째 단계에서는 강화 학습의 도움을 받아 이들 중에서 실행할 하나의 행위를 선택한다. 즉, 강화 학습을 통해 갱신된 각 행위들의 Q 함수 값을 서로 비교함으로써, 가장 큰 기대 보상 값을 가진 행위를 선택하여 실행한다. 또한 L-CAA에서는 실행 중인 행위의 유지 가능 조건을 지속적으로 검사하여 환경의 동적 변화로 인해 일부 조건이 만족되지 않는 경우가 발생하면 현재 행위의 실행을 즉시 종료할 수 있다. 그 뿐 아니라, L-CAA는 행위 실행 중에도 효용성이 더 높은 다른 행위가 발생하면 현재의 행위를 일시 정지하였다가 복귀하는 기능도 제공한다. 본 논문에서는 L-CAA 구조의 효과를 분석하기 위해, 대표적인 동적 가상환경인 Unreal Tournament 게임에서 자율적을 동작하는 L-CAA기반의 UTBot 들을 구현하고, 이들을 이용하여 성능실험을 전개해본다.

  • PDF

Strategy of Reinforcement Learning in Artificial Life (인공생명의 연구에 있어서 강화학습의 전략)

  • 심귀보;박창현
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2001.05a
    • /
    • pp.257-260
    • /
    • 2001
  • 일반적으로 기계학습은 교사신호의 유무에 따라 교사학습과 비교사학습, 그리고 간접교사에 의한 강화학습으로 분류할 수 있다. 강화학습이란 용어는 원래 실험 심리학에서 동물의 학습방법 연구에서 비롯되었으나, 최근에는 공학 특히 인공생명분야에서 뉴럴 네트워크의 학습 알고리즘으로 많은 관심을 끌고 있다. 강화학습은 제어기 또는 에이전트의 행동에 대한 보상을 최대화하는 상태-행동 규칙이나 행동발생 전략을 찾아내는 것이다. 본 논문에서는 최근 많이 연구되고 있는 강화학습의 방법과 연구동향을 소개하고, 특히 인공생명 연구에 있어서 강하학습의 중요성을 역설한다.

  • PDF

Design of PPO-based Reinforcement Learning Agents for Match-3 Game Stage Configuration (Match-3 Game 스테이지 구성을 위한 PPO 기반 강화학습 에이전트 설계)

  • Hong, Jamin;Chung, Jaehwa
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.05a
    • /
    • pp.648-651
    • /
    • 2022
  • Match-3 Game 은 스테이지 구성 및 난이도 설정이 중요한 게임이나 다양한 밸런스 요소로 인해 스테이지 구성에 중요한 요소인 난이도 설정에 많은 시간이 소요된다. 특히 게임을 플레이하는 유저가 재미를 느끼는 수준으로 난이도를 설정하는 것이 중요하며, 이를 자동화하기 위해 실제 유저의 플레이 데이터를 활용하여 사람과 유사한 수준의 자동 플레이 에이전트 개발이 진행되었다. 하지만 플레이 데이터의 확보는 쉽지 않기에 연구 방향은 플레이 데이터가 없는 강화학습으로 확장되고 있다. 스테이지 구성에 중요한 요소인 난이도를 설정하기 위함이라면 각 스테이지 간의 상대적인 난이도 차이를 파악하는 것으로 가능하다. 이를 위해 게임의 규칙을 학습한 강화학습 에이전트로 밸런스 요소의 변화에 따른 다양한 난이도의 스테이지를 50 회씩 플레이하여, 평균 획득 점수를 기준으로 스테이지 구성에 필요한 각 스테이지들의 난이도를 파악할 수 있었다.