• 제목/요약/키워드: 강화 학습 에이전트

검색결과 136건 처리시간 0.027초

강화학습을 이용한 다중 에이전트 제어 전략 (Multi-Agent Control Strategy using Reinforcement Leaning)

  • 이형일
    • 한국멀티미디어학회논문지
    • /
    • 제6권5호
    • /
    • pp.937-944
    • /
    • 2003
  • 다중 에이전트 시스템에서 가장 중요한 문제는 여러 에이전트가 서로 효율적인 협동(coordination)을 통해서 목표(goal)를 성취하는 것과 다른 에이전트들과의 충돌(collision) 을 방지하는 것이다. 본 논문에서는 먹이 추적 문제의 목표를 효율적으로 성취하기 위해 새로운 전략 방법을 제안한다. 제안된 제어 전략은 다중 에이전트를 제어하기 위해 강화 학습을 이용하였고, 에이전트들 간의 거리관계와 공간 관계를 고려하였다.

  • PDF

영향력 분포도를 이용한 Q-학습 (Q-learning Using Influence Map)

  • 성연식;조경은
    • 한국멀티미디어학회논문지
    • /
    • 제9권5호
    • /
    • pp.649-657
    • /
    • 2006
  • 강화학습이란 환경에 대한 정보가 주어지지 않았을 때 현재의 상태에서 가능한 행동들을 취한 후 얻어지는 보상값이 가장 큰 행동을 최적의 행동 전략으로 학습하는 것이다. 강화학습에서 가장 많이 사용하는 Q-학습은 환경의 특정 상태에서 가능한 행동 중에 하나를 선택해서 취한 행동으로 얻어지는 보상값으로 구성되는데 실세계 상태를 이산값으로 표현하기에는 많은 어려움이 있다. 상태를 많이 정의하면 그만큼 학습에 필요한 시간이 많아지게 되고 반대로 상태 공간을 줄이면 다양한 환경상태를 한 개의 환경상태로 인지를 하고 그 환경에 맞는 한 가지의 행동만 취하도록 학습하기 때문에 행동이 단순해진다. 본 논문에서는 학습 시간을 단축하기 위해 상태 공간을 줄이는 데서 발생하는 행동의 단순화의 단점을 보완하기 위한 방법으로 영향력 분포도를 이용한 Q-학습 방법을 제안한다. 즉, 영향력 분포도와 인접한 학습 결과를 이용해서 학습하지 못한 중간 상태에 적합한 행동을 취하게 하여 동일한 상태 개수에 대해서 학습 시간을 단축하는 것이다. 동일한 학습 시간 동안에 일반적인 강화학습 방법으로 학습한 에이전트와 영향력 분포도와 강화학습을 이용해서 학습한 에이전트의 성능을 비교해 보았을 때 영향력 분포도와 강화학습을 이용해서 학습한 에이전트가 단지 일반적인 강화학습에 필요한 상태공간의 4.6%만 정의를 하고도 성능 면에서는 거의 비슷한 효과를 볼 수가 있음을 확인하였다. 이는 영향력 분포도와 강화학습을 이용한 학습이 일반적인 강화학습에 비해서 학습 속도가 2.77배정도 빨리 이루어지고 실제 학습해야 할 상태 공간의 개수가 적어져서 발생되는 문제를 영향력 분포도를 이용해서 보완을 하기 때문이다.

  • PDF

OpenAI Gym 환경에서 강화학습의 활성화함수 비교 분석 (Comparison of Activation Functions of Reinforcement Learning in OpenAI Gym Environments)

  • 강명주
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제67차 동계학술대회논문집 31권1호
    • /
    • pp.25-26
    • /
    • 2023
  • 본 논문에서는 OpenAI Gym 환경에서 제공하는 CartPole-v1에 대해 강화학습을 통해 에이전트를 학습시키고, 학습에 적용되는 활성화함수의 성능을 비교분석하였다. 본 논문에서 적용한 활성화함수는 Sigmoid, ReLU, ReakyReLU 그리고 softplus 함수이며, 각 활성화함수를 DQN(Deep Q-Networks) 강화학습에 적용했을 때 보상 값을 비교하였다. 실험결과 ReLU 활성화함수를 적용하였을 때의 보상이 가장 높은 것을 알 수 있었다.

  • PDF

DNA 코딩 방법을 이용한 사용자의 행위를 학습하는 에이전트 모델 (The Model of an Agent to learn Users' Action using DNA Coding Method)

  • 윤효근;이상용
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (상)
    • /
    • pp.319-322
    • /
    • 2002
  • 현재 에이전트는 강화 학습 모델을 토대로 사용자의 간섭 없이 사용자 의도를 파악하며 능동적으로 행동하는 기술들이 발달되어 왔다. 하지만 인터넷을 기반으로 한 계획이나 학습 등을 위하여 보다 지적인 능력을 갖춘 에이전트의 기술이 요구된다. 따라서 본 논문에서는 DNA 코딩 기법을 이용하여 사용자의 프로파일을 학습하고. 사용자를 분류하는 AUA(Agent for learning Users' Action)를 제안하고자 한다. AUA는 사용자 학습 에이전트로 사용자의 행위를 관찰하고 행위서열을 생성하고 구분함으로써, 사용자의 관심정도를 보다 세밀하게 분석하고 계획할 수 있다. 또한 AUA는 에이전트간에 관계를 설정함으로 사용자에게 보다 나은 정보 검색을 지원할 수 있다.

  • PDF

다중 에이전트 강화학습 기반 특징 선택에 대한 연구 (Study for Feature Selection Based on Multi-Agent Reinforcement Learning)

  • 김민우;배진희;왕보현;임준식
    • 디지털융복합연구
    • /
    • 제19권12호
    • /
    • pp.347-352
    • /
    • 2021
  • 본 논문은 다중 에이전트 강화학습 방식을 사용하여 입력 데이터로부터 분류에 효과적인 특징 집합을 찾아내는 방식을 제안한다. 기계 학습 분야에 있어서 분류에 적합한 특징들을 찾아내는 것은 매우 중요하다. 데이터에는 수많은 특징들이 존재할 수 있으며, 여러 특징들 중 일부는 분류나 예측에 효과적일 수 있지만 다른 특징들은 잡음 역할을 함으로써 올바른 결과를 생성하는 데에 오히려 악영향을 줄 수 있다. 기계 학습 문제에서 분류나 예측 정확도를 높이기 위한 특징 선택은 매우 중요한 문제 중 하나이다. 이러한 문제를 해결하기 위해 강화학습을 통한 특징 선택 방법을 제시한다. 각각의 특징들은 하나의 에이전트를 가지게 되며, 이 에이전트들은 특징을 선택할 것인지 말 것인지에 대한 여부를 결정한다. 에이전트들에 의해 선택된 특징들과 선택되지 않은 특징들에 대해서 각각 보상을 구한 뒤, 보상에 대한 비교를 통해 에이전트의 Q-value 값을 업데이트 한다. 두 하위 집합에 대한 보상 비교는 에이전트로 하여금 자신의 행동이 옳은지에 대한 판단을 내릴 수 있도록 도와준다. 이러한 과정들을 에피소드 수만큼 반복한 뒤, 최종적으로 특징들을 선별한다. 이 방법을 통해 Wisconsin Breast Cancer, Spambase, Musk, Colon Cancer 데이터 세트에 적용한 결과, 각각 0.0385, 0.0904, 0.1252, 0.2055의 정확도 향상을 보여주었으며, 최종적으로 0.9789, 0.9311, 0.9691, 0.9474의 분류 정확도를 보여주었다. 이는 우리가 제안한 방법이 분류에 효과적인 특징들을 잘 선별하고 분류에 대한 정확도를 높일 수 있음을 보여준다.

사용자와의 협력 플레이를 위한 강화학습 인공지능 프로세스 구축 (Build reinforcement learning AI process for cooperative play with users)

  • 정원조
    • 한국게임학회 논문지
    • /
    • 제20권1호
    • /
    • pp.57-66
    • /
    • 2020
  • 연구는 MOBA 게임에서 선호도가 낮은 Supporter를 대체하는 인공지능을 강화학습을 이용한 구현을 목표하였다. ML_Agent를 이용해 게임의 규칙, 환경, 관측 정보, 보상 처벌을 구성하였다. DPS 에이전트로 구성된 그룹과, Support 에이전트가 있는 그룹으로 나누어 강화학습을 진행하였다. 결과 데이터인 누적 보상 값, 사망 횟수 바탕으로 결론을 도출하였다. 협력 플레이 그룹이 비교 그룹보다 평균 누적 보상 값이 3.3 더 높게 측정되었으며 사망 횟수 총합 평균은 3.15 낮게 되었다. 이를 바탕으로 죽음을 최소화하고 보상을 최대화하는 협력 플레이를 수행하는 강화학습을 확인할 수 있었다.

Unity 3D 기반 ML-Agents Toolkit을 이용한 강화 학습 환경 설계 및 구현 (Design and Implementation of Reinforcement Learning Environment Using Unity 3D-based ML-Agents Toolkit)

  • 최호빈;김찬명;김주봉;한연희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 춘계학술발표대회
    • /
    • pp.548-551
    • /
    • 2019
  • 강화 학습은 일반적으로 제어 로봇과 관련이 있는 순차적 의사결정을 위한 학습의 한 형태이다. 이 강화 학습은 행동에 대한 보상을 최대로 하는 정책을 학습하는 것을 목표로 한다. 하지만, 강화 학습을 실제 세계에 적용하기에는 많은 제약사항이 존재하며 실제 세계의 복잡한 환경에서 좋은 정책을 학습하는 것은 매우 어렵다. Unity는 강화 학습 시뮬레이션을 위한 전용 Toolkit을 제공한다. 이러한 이유로 Unity를 시뮬레이터로서 사용하는 것이 좋은 정책을 학습하는 훈련의 근거가 된다. 따라서 본 논문에서는 강화 학습을 실제 세계에 바로 적용시키기 전에 Unity Machine Learning Agents Toolkit을 사용하여 실제 세계와 비슷한 환경을 만들고 강화 학습을 통해 에이전트를 미리 학습시켜보는 과정을 수행해봄으로써 시뮬레이터의 필요성을 부각시킨다.

강화 및 진화 학습 기능을 갖는 에이전트 기반 함정 교전 시뮬레이션 (The Battle Warship Simulation of Agent-based with Reinforcement and Evolutionary Learning)

  • 정찬호;박철영;지승도;김재익
    • 한국시뮬레이션학회논문지
    • /
    • 제21권4호
    • /
    • pp.65-73
    • /
    • 2012
  • 함정 전투체계는 무기체계, 정보통신 등의 기술 발전으로 인한 복잡한 전장 환경에 따라 인간이 개입하여 다양한 전술을 운용해야 한다. 따라서 에이전트 기반의 국방 M&S 시스템의 연구가 최근 들어 활발히 진행되고 있다. 그러나 현존하는 에이전트 기반 M&S 시스템은 고정된 전술을 적용하여 분석하는데 그치고 있다. 본 논문에서는 함정 교전에서 보다 적합한 대응을 찾기 위해 환경변화에 능동적으로 대처할 수 있도록 강화 학습 기능을 갖으며, 또한 유전 알고리즘을 이용하여 세대별 진화 학습 기능을 갖는 에이전트 모델링 방법론을 제안하였다. 타당성 검증을 위해 서해상에서 벌어지는 가상의 1:1 함정교전 시뮬레이션을 수행하였고, 이를 통해 함정 교전에 있어 강화 및 진화 학습이 가능함을 검증하였다.

멀티에이전트 강화학습에서 견고한 지식 전이를 위한 확률적 초기 상태 랜덤화 기법 연구 (Stochastic Initial States Randomization Method for Robust Knowledge Transfer in Multi-Agent Reinforcement Learning)

  • 김도현;배정호
    • 한국군사과학기술학회지
    • /
    • 제27권4호
    • /
    • pp.474-484
    • /
    • 2024
  • Reinforcement learning, which are also studied in the field of defense, face the problem of sample efficiency, which requires a large amount of data to train. Transfer learning has been introduced to address this problem, but its effectiveness is sometimes marginal because the model does not effectively leverage prior knowledge. In this study, we propose a stochastic initial state randomization(SISR) method to enable robust knowledge transfer that promote generalized and sufficient knowledge transfer. We developed a simulation environment involving a cooperative robot transportation task. Experimental results show that successful tasks are achieved when SISR is applied, while tasks fail when SISR is not applied. We also analyzed how the amount of state information collected by the agents changes with the application of SISR.

유사 정보 추출에 기반한 조성 에이전트 모델 (A Coordination Agent Model based on Extracting Similar Information)

  • 양소진;이현수;오경환
    • 인지과학
    • /
    • 제12권1_2호
    • /
    • pp.55-63
    • /
    • 2001
  • 90년대 들어 각광받고 있는 에이전트 기술은, 동현 또는 이형의 에이전트가 각자 맡은 일을 해결하는 일종의 멀티분산 시스템으로, 조정 에이전트가 여러 응용 에이전트의 통신과 제어를 담당하는 멀티 에이전트 시스템이 주류를 이룬다. 에이전트 기반 응용 기술로는 인터넷 정보검색, 온라인 쇼핑, 메시징, 네트워크 관리등이 있는데, 포괄적으로 본다면 이러한 기술은 인터넷의 보편화에 따라 넘쳐나는 정보를 효율적으로 다루기 위한 기술이라고 볼 수 있다. 본 논문의 목적은 유사도와 강화 학습을 사용하여, 정보를 제공하는 에이전트와 정보를 요청하는 에이전트간의 연결을 매개하는 조정 에이전트(Coordination Agent, Middle Agent) 구현 방식을 제안하는데 있다. 정보 에이전트를 사용하는 멀티 에이전트 시스템에서, 정보 에이전트는 조정 에이전트에게 자신의 정보를 등록하고, 질의 에이전트는 조정 에이전트에게 원하는 질의를 요청함으로써, 서로에 대한 지식 없이도 정보의 교류가 가능하다. 그러나. 정확한 정보의 교류가 가능하기 위해서는 정보 에이전트가 자신이 제공하는 정보를 조정 에이전트에 등록했을 때, 등록된 정보와 정확히 일치하지 않는 정보를 지의 에이전트가 요청했을 경우에 대한 적절한 대처 방안이 마련되어야 한다. 이를 위하여 본 논문에서는 질의 에이전트의 질의와 가장 밀접한 정보를 제공하는 것으로 판단되는 정보 에이전트를 찾는 방안을 제안하고 가상의 실험공간에서 얻어진 결과에 대하여 타당성을 검증한다.

  • PDF