• 제목/요약/키워드: 강화 학습 에이전트

검색결과 132건 처리시간 0.024초

멀티 에이전트 강화학습 시나리오를 위한 해상교통환경 고려요소 도출에 관한 기초 연구

  • 김니은;김소라;이명기;김대원;박영수
    • 한국항해항만학회:학술대회논문집
    • /
    • 한국항해항만학회 2022년도 춘계학술대회
    • /
    • pp.165-166
    • /
    • 2022
  • 최근 전세계적으로 자율운항선박(Maritime Autonomous Surface Ship, 이하 MASS)의 기술 개발 및 시험 항해가 본격적으로 추진되고 있다. 하지만 MASS의 출현과 별개로 운항 방식, 제어 방식, 관제 방식 등 명확한 지침은 부재한 상태이다. 육상에서는 머신 러닝을 통하여 자율주행차에 대한 다양한 제어 방식을 연구하고 있으며, 이에 따라서 MASS도 제어 또는 통항 방식에 대한 기초 틀을 마련할 필요성이 있다. 하지만 육상과 달리 해상은 기상, 조종성능, 수심, 장애물 등 다양한 변수들이 존재하고 있어 접근 방식이 복잡하여, 머신 러닝을 적용할 때 환경에 대한 요소를 적절하게 설정해야 한다. 따라서 본 연구는 멀티 에이전트 강화학습을 통하여 MASS의 자율적인 통항 방식을 제안하기 위하여 강화학습의 해상교통환경 설정을 위한 요소를 도출하고자 하였다.

  • PDF

초소형 비행체 운항방법에 대한 환경 지식을 이용한 강화학습 방법 (Reinforcement Learning Algorithm using Domain Knowledge for MAV)

  • 김봉오;공성학;장시영;서일홍;오상록
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2002년도 하계학술대회 논문집 D
    • /
    • pp.2407-2409
    • /
    • 2002
  • 강화학습이란 에이전트가 알려지지 않은 미지의 환경에서 행위와 보답을 주고받으며, 임의의 상태에서 가장 적절한 행위를 학습하는 방법이다. 만약 강화학습 중에 에이전트가 과거 문제들을 해결하면서 학습한 환경에 대한 지식을 이용할 수 있는 능력이 있다면 새로운 문제를 빠르게 해결할 수 있다. 이런 문제를 풀기 위한 방법으로 에이전트가 과거에 학습한 여러 문제들에 대한 환경 지식(Domain Knowledge)을 Local state feature라는 기억공간에 학습한 후 행위함수론 학습할 때 지식을 활용하는 방법이 연구되었다. 그러나 기존의 연구들은 주로 2차원 공간에 대한 연구가 진행되어 왔다. 본 논문에서는 환경 지식을 이용한 강화학습 알고리즘을 3차원 공간에 대해서도 수행 할 수 있도록하는 개선된 알고리즘을 제안하였으며, 제안된 알고리즘의 유효성을 검증하기 위해 초소형 비행체의 항공운항 학습에 대해 모의실험을 수행하였다.

  • PDF

Temporal Difference 학습을 이용한 다중 집단 강화.다양화 상호작용 개미 강화학습 (Multi Colony Intensification.Diversification Interaction Ant Reinforcement Learning Using Temporal Difference Learning)

  • 이승관
    • 한국콘텐츠학회논문지
    • /
    • 제5권5호
    • /
    • pp.1-9
    • /
    • 2005
  • 본 논문에서는 Temporal Difference 학습을 적용한 Ant-Q 기반 개미 모델을 이용한 다중 집단 상호작용 개미 강화학습 모델을 제안한다. 이 모델은 몇 개의 독립적 개미시스템 집단으로 이루어져 있으며, 상호작용은 집단간 엘리트 전략(강화, 다양화 전략)에 따라 임무를 수행한다. 강화 전략은 다른 에이전트 집단의 휴리스틱 정보를 이용해 좋은 경로 선택을 가능하게 한다. 이것은 집단간 긍정적 상호작용을 통해 에이전트들의 방문 빈도가 높은 간선을 선택하게 한다. 다양화 전략은 에이전트들이 다른 에이전트 집단의 탐색 정보에 의해 부정적 상호작용을 수행함으로써 방문 빈도수가 높은 간선의 선택을 회피하게 만든다. 이러한 전략을 통해 제안한 강화학습은 기존의 개미집단시스템, Ant-Q학습보다 최적해에 더 빠르게 수렴할 수 있음을 실험을 통해 알 수 있었다.

  • PDF

강화학습 에이전트 시야 정보 차이에 의한 학습 성능 비교 (Comparison of Learning Performance by Reinforcement Learning Agent Visibility Information Difference)

  • 김찬섭;장시환;양성일;강신진
    • 한국게임학회 논문지
    • /
    • 제21권5호
    • /
    • pp.17-28
    • /
    • 2021
  • 인공지능 스스로가 자신을 발전시켜 최적의 문제 해결 방법을 찾는 강화학습은 여러 분야에서 활용 가치가 높은 기술이다. 특히 게임 분야는 강화학습 인공지능에 문제 해결을 위한 가상환경을 제공할 수 있다는 장점이 있으며 강화학습 에이전트는 주어진 환경에 대한 정보인 관측변수를 사용하여 자신의 상황과 환경에 대한 정보를 파악하여 환경에 대한 문제를 해결한다. 본 실험에서는 롤플레잉 게임의 인스턴트 던전 환경을 간략화하여 제작하고 에이전트에게 관측변수 중 시야에 관련된 관측변수를 다양하게 설정하였다. 실험 결과 각 설정된 변수들이 학습속도에 얼마나 영향을 주는지를 파악할 수 있었고, 이러한 결과는 롤플레잉 게임 강화학습 연구에 참고할 수 있다.

영상 기반 대화 에이전트를 위한 심층 강화 학습 (Deep Reinforcement Learning for Visual Dialogue Agents)

  • 조영수;황지수;김인철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 춘계학술발표대회
    • /
    • pp.412-415
    • /
    • 2018
  • 본 논문에서는 영상 기반 대화 연구를 위한 기존 GuessWhat?! 게임 환경의 한계성을 보완한 새로운 GuessWbat+ 게임 환경을 소개한다. 또 이 환경에서 동작하는 대화 에이전트를 위한 정책 기울기 기반의 심층 강화 학습 알고리즘인 MRRB의 설계와 구현에 대해서도 설명한다. 다양한 실험을 통해, 본 논문에서 제안한 GuessWbat+ 환경과 심층 강화 학습 알고리즘의 긍정적 효과를 입증해 보인다.

선박항해 에이전트 학습을 위한 보상설계 방안에 관한 연구 (A Study on the Development of Learning Environment for Ship Navigation Agents)

  • 박세길;오재용
    • 한국항해항만학회:학술대회논문집
    • /
    • 한국항해항만학회 2020년도 추계학술대회
    • /
    • pp.177-178
    • /
    • 2020
  • 본 논문은 선박항해 에이전트가 개발 의도와 부합되도록 학습시키는데 있어 가장 중요한 역할을 수행하는 보상설계에 대해 소개한다. 보상설계는 먼저 학습 대상이 무엇인지 명확히 정의하는 것이 중요하며, 보상이 상황에 따라 다른 목적으로 활용되지 않도록 하고 에이전트에게 너무 드물게 주어지지 않도록 보상 형태화를 적용하는 등의 방법을 사용할 필요가 있다. 또한 보상을 구성하는 요소가 많아지는 경우에는 의도가 명확하게 전달이 되지 않을 수 있으므로 문제를 작은 문제들로 나누어 접근하는 계층적 강화학습 방법 등을 적용할 필요가 있다.

  • PDF

상수도관망 설계에의 강화학습 적용방안 연구 (Reinforcement learning model for water distribution system design)

  • 김재현;정동휘
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.229-229
    • /
    • 2023
  • 강화학습은 에이전트(agent)가 주어진 환경(environment)과의 상호작용을 통해서 상태(state)를 변화시켜가며 최대의 보상(reward)을 얻을 수 있도록 최적의 행동(action)을 학습하는 기계학습법을 의미한다. 최근 알파고와 같은 게임뿐만 아니라 자율주행 자동차, 로봇 제어 등 다양한 분야에서 널리 사용되고 있다. 상수도관망 분야의 경우에도 펌프 운영, 밸브 운영, 센서 최적 위치 선정 등 여러 문제에 적용되었으나, 설계에 강화학습을 적용한 연구는 없었다. 설계의 경우, 관망의 크기가 커짐에 따라 알고리즘의 탐색 공간의 크기가 증가하여 기존의 최적화 알고리즘을 이용하는 것에는 한계가 존재한다. 따라서 본 연구는 강화학습을 이용하여 상수도관망의 구성요소와 환경요인 간의 복잡한 상호작용을 고려하는 설계 방법론을 제안한다. 모델의 에이전트를 딥 강화학습(Deep Reinforcement Learning)으로 구성하여, 상태 및 행동 공간이 커 발생하는 고차원성 문제를 해결하였다. 또한, 해당 모델의 상태 및 보상으로 절점에서의 압력 및 수요량과 설계비용을 고려하여 적절한 수량과 수압의 용수 공급이 가능한 경제적인 관망을 설계하도록 하였다. 모델의 행동은 실제로 공학자가 설계하듯이 절점마다 하나씩 차례대로 다른 절점과의 연결 여부를 결정하는 것으로, 이를 통해 관망의 레이아웃(layout)과 관경을 결정한다. 본 연구에서 제안한 방법론을 규모가 큰 그리드 네트워크에 적용하여 모델을 검증하였으며, 고려해야 할 변수의 개수가 많음에도 불구하고 목적에 부합하는 관망을 설계할 수 있었다. 모델 학습과정 동안 에피소드의 평균 길이와 보상의 크기 등의 변화를 비교하여, 제안한 모델의 학습 능력을 평가 및 보완하였다. 향후 강화학습 모델을 통해 신뢰성(reliability) 또는 탄력성(resilience)과 같은 시스템의 성능까지 고려한 설계가 가능할 것으로 기대한다.

  • PDF

행위 기반 강화 학습 에이전트 구조 (An Agent Architecture for Behavior-Based Reinforcement Learning)

  • 황종근;김인철
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2007년도 추계학술대회
    • /
    • pp.284-293
    • /
    • 2007
  • 본 논문에서는 실시간 동정 환경에 효과적인 L-CAA 에이전트 구조를 제안한다. L-CAA 에이전트 구조는 변화하는 환경에 대한 적응성을 높이기 위해, 선행 연구를 통해 개발된 행위 기반 에이전트 구조인 CAA에 강화 학습 기능을 추가하여 확장한 것이다. 안정적인 성능을 위해 L-CAA에서 행위 선택 메커니즘은 크게 두 단계로 나뉜다. 첫 번째 단계에서는 사용자가 미리 정의한 각 행위의 수행 가능 조건과 효용성을 검사함으로써 행위 라이브러리로부터 실행할 행위들을 추출한다. 하지만 첫 번째 단계에서 다수의 행위가 추출되면, 두 번째 단계에서는 강화 학습의 도움을 받아 이들 중에서 실행할 하나의 행위를 선택한다. 즉, 강화 학습을 통해 갱신된 각 행위들의 Q 함수 값을 서로 비교함으로써, 가장 큰 기대 보상 값을 가진 행위를 선택하여 실행한다. 또한 L-CAA에서는 실행 중인 행위의 유지 가능 조건을 지속적으로 검사하여 환경의 동적 변화로 인해 일부 조건이 만족되지 않는 경우가 발생하면 현재 행위의 실행을 즉시 종료할 수 있다. 그 뿐 아니라, L-CAA는 행위 실행 중에도 효용성이 더 높은 다른 행위가 발생하면 현재의 행위를 일시 정지하였다가 복귀하는 기능도 제공한다. 본 논문에서는 L-CAA 구조의 효과를 분석하기 위해, 대표적인 동적 가상환경인 Unreal Tournament 게임에서 자율적을 동작하는 L-CAA기반의 UTBot 들을 구현하고, 이들을 이용하여 성능실험을 전개해본다.

  • PDF

인공생명의 연구에 있어서 강화학습의 전략 (Strategy of Reinforcement Learning in Artificial Life)

  • 심귀보;박창현
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2001년도 춘계학술대회 학술발표 논문집
    • /
    • pp.257-260
    • /
    • 2001
  • 일반적으로 기계학습은 교사신호의 유무에 따라 교사학습과 비교사학습, 그리고 간접교사에 의한 강화학습으로 분류할 수 있다. 강화학습이란 용어는 원래 실험 심리학에서 동물의 학습방법 연구에서 비롯되었으나, 최근에는 공학 특히 인공생명분야에서 뉴럴 네트워크의 학습 알고리즘으로 많은 관심을 끌고 있다. 강화학습은 제어기 또는 에이전트의 행동에 대한 보상을 최대화하는 상태-행동 규칙이나 행동발생 전략을 찾아내는 것이다. 본 논문에서는 최근 많이 연구되고 있는 강화학습의 방법과 연구동향을 소개하고, 특히 인공생명 연구에 있어서 강하학습의 중요성을 역설한다.

  • PDF

Match-3 Game 스테이지 구성을 위한 PPO 기반 강화학습 에이전트 설계 (Design of PPO-based Reinforcement Learning Agents for Match-3 Game Stage Configuration)

  • 홍자민;정재화
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.648-651
    • /
    • 2022
  • Match-3 Game 은 스테이지 구성 및 난이도 설정이 중요한 게임이나 다양한 밸런스 요소로 인해 스테이지 구성에 중요한 요소인 난이도 설정에 많은 시간이 소요된다. 특히 게임을 플레이하는 유저가 재미를 느끼는 수준으로 난이도를 설정하는 것이 중요하며, 이를 자동화하기 위해 실제 유저의 플레이 데이터를 활용하여 사람과 유사한 수준의 자동 플레이 에이전트 개발이 진행되었다. 하지만 플레이 데이터의 확보는 쉽지 않기에 연구 방향은 플레이 데이터가 없는 강화학습으로 확장되고 있다. 스테이지 구성에 중요한 요소인 난이도를 설정하기 위함이라면 각 스테이지 간의 상대적인 난이도 차이를 파악하는 것으로 가능하다. 이를 위해 게임의 규칙을 학습한 강화학습 에이전트로 밸런스 요소의 변화에 따른 다양한 난이도의 스테이지를 50 회씩 플레이하여, 평균 획득 점수를 기준으로 스테이지 구성에 필요한 각 스테이지들의 난이도를 파악할 수 있었다.