• 제목/요약/키워드: 강화 학습 에이전트

검색결과 131건 처리시간 0.054초

A Study of Collaborative and Distributed Multi-agent Path-planning using Reinforcement Learning

  • Kim, Min-Suk
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권3호
    • /
    • pp.9-17
    • /
    • 2021
  • 동적 시스템 환경에서 지능형 협업 자율 시스템을 위한 기계학습 기반의 다양한 방법들이 연구 및 개발되고 있다. 본 연구에서는 분산 노드 기반 컴퓨팅 방식의 자율형 다중 에이전트 경로 탐색 방법을 제안하고 있으며, 지능형 학습을 통한 시스템 최적화를 위해 강화학습 방법을 적용하여 다양한 실험을 진행하였다. 강화학습 기반의 다중 에이전트 시스템은 에이전트의 연속된 행동에 따른 누적 보상을 평가하고 이를 학습하여 정책을 개선하는 지능형 최적화 기계학습 방법이다. 본 연구에서 제안한 방법은 강화학습 기반 다중 에이전트 최적화 경로 탐색 성능을 높이기 위해 학습 초기 경로 탐색 방법을 개선한 최적화 방법을 제안하고 있다. 또한, 분산된 다중 목표를 구성하여 에이전트간 정보 공유를 이용한 학습 최적화를 시도하였으며, 비동기식 에이전트 경로 탐색 기능을 추가하여 실제 분산 환경 시스템에서 일어날 수 있는 다양한 문제점 및 한계점에 대한 솔루션을 제안하고자 한다.

반응형 에이전트의 효과적인 물체 추적을 위한 베이지 안 추론과 강화학습의 결합 (Hybrid of Reinforcement Learning and Bayesian Inference for Effective Target Tracking of Reactive Agents)

  • 민현정;조성배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (1)
    • /
    • pp.94-96
    • /
    • 2004
  • 에이전트의 '물체 따라가기'는 전통적으로 자동운전이나 가이드 등의 다양한 서비스를 제공할 수 있는 기본적인 기능이다. 여러 가지 물체가 있는 환경에서 '물체 따라가기'를 하기 위해서는 목적하는 대상이 어디에 있는지 찾을 수 있어야 하며, 실제 환경에는 사람이나 차와 같이 움직이는 물체들이 존재하기 때문에 다른 물체들을 피할 수 있어야 한다. 그런데 에이전트의 최적화된 피하기 행동은 장애물의 모양과 크기에 따라 다르게 생성될 수 있다. 본 논문에서는 다양한 모양과 크기의 장애물이 있는 환경에서 최적의 피하기 행동을 생성하면서 물체를 추적하기 위해 반응형 에이전트의 행동선택을 강화학습 한다. 여기에서 정확하게 상태를 인식하기 위하여 상태를 추론하고 목표물과 일정거리를 유지하기 위해 베이지안 추론을 이용한다 베이지안 추론은 센서정보를 이용해 확률 테이블을 생성하고 가장 유력한 상황을 추론하는데 적합한 방법이고, 강화학습은 실시간으로 장애물 종류에 따른 상태에서 최적화된 행동을 생성하도록 평가함수를 제공하기 때문에 베이지안 추론과 강화학습의 결합모델로 장애물에 따른 최적의 피하기 행동을 생성할 수 있다. Webot을 이용한 시뮬레이션을 통하여 다양한 물체가 존재하는 환경에서 목적하는 대상을 따라가면서 이종의 움직이는 장애물을 최적화된 방법으로 피할 수 있음을 확인하였다.

  • PDF

AI World Cup 환경을 이용한 멀티 에이전트 기반 지능형 가상 축구 에이전트 구현 (Developing artificial football agents based upon multi-agent techniques in the AI world cup)

  • 이은후;성현아;정민지;이혜인;정진우;이의철;이지항
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.819-822
    • /
    • 2021
  • AI World Cup 환경은 다수 가상 에이전트들이 팀을 이뤄서 서로 상호작용하며 대전이 가능한 가상 축구 환경이다. 본 논문에서는 AI World Cup 환경에서 멀티 에이전트기반 학습/추론 기술을 사용하여 다양한 전략과 전술을 구사하는 가상 축구 에이전트 구현과 시뮬레이션 결과를 소개한다. 먼저, 역할을 바탕으로 협동하여 상대방과 대전할 수 있는 논리 기반 추론형 멀티 에이전트 기술이 적용된 Dynamic planning 축구 에이전트 9 세트를 구현하였다. 이후, 강화학습 에이전트 기반, 단일 에이전트를 조합한 Independent Q-Learning 방식의 학습형 축구 에이전트를 구현한 후, 이를 멀티 에이전트 강화학습으로 확장하여 역할 기반 전략 학습이 가능한 가상 축구 에이전트를 구현하고 시뮬레이션 하였다. 구현된 가상 축구 에이전트들 간 대전을 통해 승률을 확인하고, 전략의 우수성을 분석하였다. 시뮬레이션 예제는 다음에서 확인할 수 있다 (https://github.com/I-hate-Soccer/Simulation).

유니티 ML-Agents를 이용한 강화 학습 기반의 지능형 에이전트 구현 (Implementation of Intelligent Agent Based on Reinforcement Learning Using Unity ML-Agents)

  • 이영호
    • 한국인터넷방송통신학회논문지
    • /
    • 제24권2호
    • /
    • pp.205-211
    • /
    • 2024
  • 본 연구는 유니티 게임 엔진과 유니티 ML-Agents를 이용하여 강화 학습을 통해 목표 추적 및 이동을 지능적으로 수행하는 에이전트를 구현하는 데 목적이 있다. 본 연구에서는 에이전트의 효과적인 강화 학습 훈련 방식을 모색하기 위해 단일 학습 시뮬레이션 환경에서 하나의 에이전트를 트레이닝하는 방식과 다중 학습 시뮬레이션 환경에서 여러 에이전트들을 동시에 병렬 트레이닝하는 방식 간의 학습 성능을 비교하기 위한 실험을 수행하였다. 실험 결과를 통해 병렬트레이닝 방식이 싱글 트레이닝 방식보다 학습 속도 측면에서 약 4.9배 빠르고, 학습 안정성 측면에서도 더 안정적으로 효과적인 학습이 일어남을 확인할 수 있었다.

강화 학습을 이용한 다중 에이전트 조정 전략 (Multi-agent Coordination Strategy Using Reinforcement Learning)

  • 김수현;김병천;윤병주
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 추계학술발표논문집 (상)
    • /
    • pp.285-288
    • /
    • 2000
  • 본 논문에서는 다중 에이전트(multi-agent) 환경에서 에이전트들의 행동을 효율적으로 조정 (coordination)하기 위해 강화 학습(reinforcement learning)을 이용하였다. 제안된 방법은 각 에이전트가 목표(goal)와의 거리 관계(distance relationship)와 인접 에이전트들과의 공간 관계(spatial relationship)를 이용하였다. 그러므로 각 에이전트는 다른 에이전트와 충돌(collision) 현상이 발생하지 않으면서, 최적의 다음 상태를 선택할 수 있다. 또한, 상태 공간으로부터 입력되는 강화 값이 0과 1 사이의 값을 갖기 때문에 각 에이전트가 선택한 (상태, 행동) 쌍이 얼마나 좋은가를 나타낼 수 있다. 제안된 방법을 먹이 포획 문제(prey pursuit problem)에 적용한 결과 지역 제어(local control)나. 분산 제어(distributed control) 전략을 이용한 방법보다 여러 에이전트들의 행동을 효율적으로 조정할 수 있었으며, 매우 빠르게 먹이를 포획할 수 있음을 알 수 있었다.

  • PDF

강화학습을 이용한 주제별 웹 탐색 (Topic directed Web Spidering using Reinforcement Learning)

  • 임수연
    • 한국지능시스템학회논문지
    • /
    • 제15권4호
    • /
    • pp.395-399
    • /
    • 2005
  • 본 논문에서는 특정 주제에 관한 웹 문서들을 더욱 빠르고 정확하게 탐색하기 위하여 강화학습을 이용한 HIGH-Q 학습 알고리즘을 제안한다. 강화학습의 목적은 환경으로부터 주어지는 보상(reward)을 최대화하는 것이며 강화학습 에이전트는 외부에 존재하는 환경과 시행착오를 통하여 상호작용하면서 학습한다. 제안한 알고리즘이 주어진 환경에서 빠르고 효율적임을 보이기 위하여 넓이 우선 탐색과 비교하는 실험을 수행하고 이를 평가하였다. 실험한 결과로부터 우리는 미래의 할인된 보상을 이용하는 강화학습 방법이 정답을 찾기 위한 탐색 페이지의 수를 줄여줌으로써 더욱 정확하고 빠른 검색을 수행할 수 있음을 알 수 있었다.

지능형 에이전트의 환경 적응성 및 확장성 (A study on environmental adaptation and expansion of intelligent agent)

  • 백혜정;박영택
    • 정보처리학회논문지B
    • /
    • 제10B권7호
    • /
    • pp.795-802
    • /
    • 2003
  • 로봇이나 가상 캐릭터와 같은 지능형 에이전트가 자율적으로 살아가기 위해서는 주어진 환경을 인식하고, 그에 맞는 최적의 행동을 선택하는 능력을 가지고 있어야 한다. 본 논문은 이러한 지능형 에이전트를 구현하기 위하여, 외부 환경에 적응하면서 최적의 행동을 배우고 선택하는 방법을 연구하였다. 본 논문에서 제안한 방식은 강화 학습을 이용한 행동기반 학습 방법과 기호 학습을 이용한 인지 학습 방법을 통합한 방식으로 다음과 같은 특징을 가진다. 첫째, 강화 학습을 이용하여 환경에 대한 적응성을 학습함으로 지능형 에이전트가 변화하는 환경에 대한 유연성을 가지도록 하였다. 둘째, 귀납적 기계학습과 연관 규칙을 이용하여 규칙을 추출하여 에이전트의 목적에 맞는 환경 요인을 학습함으로 주어진 환경에서 보다 빠르게, 확장된 환경에서 보다 효율적으로 행동을 선택을 하도록 하였다. 셋째, 본 논문은 지능형 에이전트를 구현하는데 있어서 처음부터 모든 상태를 고려하기 보다 상태 탐지기를 이용하여 새로운 상태가 입력될 때마다 상태를 확장시키는 방식을 이용하였다. 이러한 방식은 필요한 상태에 대하여서만 고려함으로 메모리를 획기적으로 축소 할 수 있으며, 새로운 상태를 동적으로 처리 할 수 있어, 환경에 대한 변화에 능동적으로 대처 할 수 있다.

로보컵 공 뺏기 테스트베드를 이용한 적대적 학습 에이전트들에 대한 실험적 분석 (Empirical Analysis of Adversarial Learning Agents Using the RoboCup Keepaway Test-bed)

  • 권기덕;김인철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2006년도 추계학술발표대회
    • /
    • pp.15-18
    • /
    • 2006
  • 강화 학습은 시행착오를 통해 동적 환경과 상호작용하면서 학습을 수행하는 학습 방법으로 본 논문에서 테스트 환경으로 사용하는 Keepaway와 같은 동적인 환경에서 주로 사용하는 학습 방법이다. 본 논문에서는 학습을 통한 에이전트가 다른 정책을 사용하는 에이전트보다 성능이 더 높다는 것을 보이고자 한다. 학습 초기에는 다양한 전략을 평가하기 위해 최적이 아닌 행동을 선택하지만 시간이 지남에 따라 최적의 행동 선택에 수렴해 가는 것을 보이기 위한 실험을 수행한다. 이 실험을 통해 고정된 행동 양식을 가지는 정책보다 강화 학습을 이용한 에이전트들의 성능이 더 효과적인 것을 알 수 있었다.

  • PDF

복수의 부분 작업을 위한 확장된 Q-Learning (Extended Q-larning under Multiple Tasks)

  • 오도훈;윤소정;오경환
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.229-231
    • /
    • 2000
  • 많은 학습 방법 중에서 비교적 최근에 제시된 강화학습은 동적인 환경에서 뛰어난 학습 능력을 보여주었다. 이런 장점을 바탕으로 강화학습은 학습을 기초로 하는 에이전트 연구에 많이 사용되고 있다. 하지만, 현재까지 연구 결과는 강화학습으로 구축된 에이전트로 해결 할 수 있는 작업의 난이도에 한계가 있음을 보이고 있다. 특히, 복수의 부분 작업으로 구성되어 있는 복합 작업을 처리할 경우에 기존의 강화학습 방법은 문제 해결에 한계를 보여주고 있다. 본 논문에서는 복수의 부분 작업으로 구성된 복합 작업이 왜 처리하기 힘든가를 분석하고, 이런 문제를 처리할 수 있는 방안을 제안한다. 본 논문에서 제안하고 있는 EQ-Learning은 강화학습 방법의 대표적인 Q-Learning을 개량하고 기존의 문제를 해결한다. 이 방법은 각각의 부분 작업 해결 방안을 학습시키고 그 학습 결과들의 적절한 적용 순서를 찾아내 복합 작업을 해결한다. EQ-Learning의 타당성을 검증하기 위해 격자 공간에서 복수의 부분작업으로 구성된 미로 문제를 통하여 실험하였다.

  • PDF

유사 정보 추출에 기반한 조정 에이전트 모델 (A coordination Agent Model based on Extracting Similar Information)

  • 양소진
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2000년도 춘계정기학술대회 e-Business를 위한 지능형 정보기술 / 한국지능정보시스템학회
    • /
    • pp.398-413
    • /
    • 2000
  • 본 논문의 목적은 유사도와 강화 학습을 사용하여, 정보를 제공하는 에이전트와 정보를 요청하는 에이전트간의 연결을 매개하는 조정 에이전트(Coordination Agent, Middle Agent) 구현 방식을 제안하는데 있다.본 논문에서는 질의 에이전트의 질의와 가장 밀접한 정보를 제공하는 것으로 판단되는 정보 에이전트를 찾는 방안을 제안하고자 한다. 정보 에이저트와 질의 에이전트는 조정에이전트에 정보를 등록·요청할 때, 조정 에이전트에 이미 존재하는 기본 오톨로지(Base Ontology)에 자신이 제공·질의하는 정보의 상대적 가중치를 함께 등록한다. 조정 에이전트는 질의 에이전트와 정보 에이전트의 가중치를 고려하여 유사도를 구하고, 구해진 유사도를 이용하여 가장 근접한 정보를 제공하는 정보 에이전트를 찾아 연결한다. 가중치를 제공하지 않는 질의 에이전트의 경우에는 강화 학습으로 얻어진 특성 자료를 이용하여 조정 에이전튼가 임의로 가중치를 구하고, 얻어진 결과에 대하여 타당성을 검증한다.

  • PDF