• 제목/요약/키워드: Learning Agent

검색결과 457건 처리시간 0.028초

종방향 주행성능향상을 위한 Latent SAC 강화학습 보상함수 설계 (On the Reward Function of Latent SAC Reinforcement Learning to Improve Longitudinal Driving Performance)

  • 조성빈;정한유
    • 전기전자학회논문지
    • /
    • 제25권4호
    • /
    • pp.728-734
    • /
    • 2021
  • 최근 심층강화학습을 활용한 종단간 자율주행에 대한 관심이 크게 증가하고 있다. 본 논문에서는 차량의 종방향 주행 성능을 개선하는 잠재 SAC 기반 심층강화학습의 보상함수를 제시한다. 기존 강화학습 보상함수는 주행 안전성과 효율성이 크게 저하되는 반면 제시하는 보상함수는 전방 차량과의 충돌위험을 회피하면서 적절한 차간거리를 유지할 수 있음을 보인다.

Unity ML-Agents Toolkit을 활용한 대상 객체 추적 머신러닝 구현 (Implementation of Target Object Tracking Method using Unity ML-Agent Toolkit)

  • 한석호;이용환
    • 반도체디스플레이기술학회지
    • /
    • 제21권3호
    • /
    • pp.110-113
    • /
    • 2022
  • Non-playable game character plays an important role in improving the concentration of the game and the interest of the user, and recently implementation of NPC with reinforcement learning has been in the spotlight. In this paper, we estimate an AI target tracking method via reinforcement learning, and implement an AI-based tracking agency of specific target object with avoiding traps through Unity ML-Agents Toolkit. The implementation is built in Unity game engine, and simulations are conducted through a number of experiments. The experimental results show that outstanding performance of the tracking target with avoiding traps is shown with good enough results.

개인 맞춤형 운전면허 학습시스템 설계 (VA Design of Personalized e-Learning System for the Driver's License Test in Korea)

  • 오용선
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2009년도 춘계 종합학술대회 논문집
    • /
    • pp.1055-1060
    • /
    • 2009
  • 본 논문에서는 인터넷을 통한 운전면허 학과시험 학습시스템을 설계한다. 문항반응이론에 의거하여 학습자 능력모수를 정확히 측정하고, 측정된 학습자의 능력에 따라 최적의 평가문제와 학습콘텐츠를 동적으로 제공함으로써, 짧은 시간에 효과적으로 합격에 도달할 수 있도록 하는 개인 맞춤형 이러닝 시스템을 제안한다. 본 학습시스템은 콘텐츠 데이터베이스에 저장된 개념 단위 오브젝트 형태의 운전면허 학과시험용 학습콘텐츠들과 문제은행 데이터베이스에 저장된 운전면허 학과시험용 평가문제들을 연계하여, 학습자의 문항반응에 따라 최적의 문항과 콘텐츠를 제공할 수 있도록 설계된다. 각 문항들은 난이도, 변별도, 추측도의 문항모수를 보유한다. 또한 사용자 프로파일 데이터베이스에는 학습자들의 상태정보, 운전면허 학과시험용 평가문제들에 대한 피험자들의 문항반응을 유지 관리하고, 피험자들의 문항반응을 기초로 학습자 능력모수를 저장한다. 이들 데이터베이스는 인터페이스 에이전트, 콘텐츠 문항선택 & 피드백 에이전트 및 오프라인 추정기로 구성된 동작구조에 의하여 온라인 혹은 오프라인 형태의 동적 맞춤형 학습방식을 제공하여 최적의 학습과정을 제공한다.

  • PDF

Temporal Difference 학습을 이용한 다중 집단 강화.다양화 상호작용 개미 강화학습 (Multi Colony Intensification.Diversification Interaction Ant Reinforcement Learning Using Temporal Difference Learning)

  • 이승관
    • 한국콘텐츠학회논문지
    • /
    • 제5권5호
    • /
    • pp.1-9
    • /
    • 2005
  • 본 논문에서는 Temporal Difference 학습을 적용한 Ant-Q 기반 개미 모델을 이용한 다중 집단 상호작용 개미 강화학습 모델을 제안한다. 이 모델은 몇 개의 독립적 개미시스템 집단으로 이루어져 있으며, 상호작용은 집단간 엘리트 전략(강화, 다양화 전략)에 따라 임무를 수행한다. 강화 전략은 다른 에이전트 집단의 휴리스틱 정보를 이용해 좋은 경로 선택을 가능하게 한다. 이것은 집단간 긍정적 상호작용을 통해 에이전트들의 방문 빈도가 높은 간선을 선택하게 한다. 다양화 전략은 에이전트들이 다른 에이전트 집단의 탐색 정보에 의해 부정적 상호작용을 수행함으로써 방문 빈도수가 높은 간선의 선택을 회피하게 만든다. 이러한 전략을 통해 제안한 강화학습은 기존의 개미집단시스템, Ant-Q학습보다 최적해에 더 빠르게 수렴할 수 있음을 실험을 통해 알 수 있었다.

  • PDF

키 프레임의 주석과 비교 영역 학습을 이용한 비디오 검색 시스템의 구현 (Implementation of a Video Retrieval System Using Annotation and Comparison Area Learning of Key-Frames)

  • 이근왕;김희숙;이종희
    • 한국멀티미디어학회논문지
    • /
    • 제8권2호
    • /
    • pp.269-278
    • /
    • 2005
  • 비디오 데이터를 효율적으로 처리하기 위해서는 비디오 데이터가 가지고 있는 내용에 대한 정보를 데이터베이스에 저장하고 사용자들의 다양한 질의를 처리할 수 있는 의미기반 검색 기법이 요구된다. 본 논문에서는 사용자의 키워드 학습과 비교 영역 학습을 이용하여 대용량의 비디오 데이터에 대한 사용자의 다양한 의미검색을 지원하는 에이전트 기반에서의 자동화된 비디오 검색 시스템을 제안한다. 사용자의 기본적인 질의와 질의에 의해 추출된 키 프레임의 이미지를 선택함으로써 에이전트는 추출된 키 프레임의 주석에 대한 의미를 더욱 구체화시킨다. 또한, 사용자에 의해 선택된 키 프레임은 질의 이미지가 되어 색상 히스토그램 비교기법과 제안하는 비교 영역 학습 기법을 통해 가장 유사한 키 프레임을 검색한다. 설계하고 구현한 시스템은 실험을 통한 성능평가에서 $93\%$ 이상의 높은 정확도를 보였다.

  • PDF

Acetylcholinesterase 억제 및 신경세포 보호 활성을 갖는 다시마목 해조 추출물 NX42의 마우스 학습능력 향상 효과 (Improvement of Learning Behavior of Mice by an Antiacetylcholinesterase and Neuroprotective Agent NX42, a Laminariales-Alga Extract)

  • 이봉호
    • 한국식품과학회지
    • /
    • 제36권6호
    • /
    • pp.974-978
    • /
    • 2004
  • 다당류 및 플로로탄닌 등을 주성분으로 하는 갈조추출물 NX42가 인지능력 향상에 미치는 영향을 평가하기 위한 in vitro 및 동물실험을 수행하였다. 그 결과 NX42는 acetylcholinesterase에 대하여 온화하지만 용량의존적인 억제효과($IC_{50}=600-700\;{\mu}g/mL$)를 나타내었다. NX42로부터 추출된 플로로탄닌 분획은 현저히 높은 용량 의존적 억제 효과($IC_{50}=54\;{\mu}g/mL$)를 나타내었다. 반면, 플로로탄닌이 제거된 분획과 푸코이단은 억제효과가 없었다. NX42 및 플로로탄닌 분획은 과산화수소에 의해 유발된 산화스트레스 조건 하에서의 SK-N-SH 세포의 파괴를 유의성 있게 억제한 반면, 플로로탄닌이 제거된 분획과 푸코이단은 보호효과를 나타내지 않았다. 스트레스 조건 하에 있는 마우스의 학습능력에 미치는 효과를 평가한 결과, NX42를 섭취한 마우스의 경우에는 섭취하지 않은 경우에 비하여 유의성 있게 개선된 학습능력을 나타내었으며, 이는 in vitro 실험 결과를 바탕으로 볼 때, NX42에 함유된 플로로탄닌의 acetylcholinesterase 억제 활성 및 신경보호활성에 의한 것으로 해석된다.

매치 3 게임 플레이를 위한 PPO 알고리즘을 이용한 강화학습 에이전트의 설계 및 구현 (Design and Implementation of Reinforcement Learning Agent Using PPO Algorithim for Match 3 Gameplay)

  • 박대근;이완복
    • 융합정보논문지
    • /
    • 제11권3호
    • /
    • pp.1-6
    • /
    • 2021
  • 매치 3 퍼즐 게임들은 주로 MCTS(Monte Carlo Tree Search) 알고리즘을 사용하여 자동 플레이를 구현하였지만 MCTS의 느린 탐색 속도로 인해 MCTS와 DNN(Deep Neural Network)을 함께 적용하거나 강화학습으로 인공지능을 구현하는 것이 일반적인 경향이다. 본 연구에서는 매치 3 게임 개발에 주로 사용되는 유니티3D 엔진과 유니티 개발사에서 제공해주는 머신러닝 SDK를 이용하여 PPO(Proximal Policy Optimization) 알고리즘을 적용한 강화학습 에이전트를 설계 및 구현하여, 그 성능을 확인해본 결과, 44% 정도 성능이 향상되었음을 확인하였다. 실험 결과 에이전트가 게임 규칙을 배우고 실험이 진행됨에 따라 더 나은 전략적 결정을 도출 해 낼 수 있는 것을 확인할 수 있었으며 보통 사람들보다 퍼즐 게임을 더 잘 수행하는 결과를 확인하였다. 본 연구에서 설계 및 구현한 에이전트가 일반 사람들보다 더 잘 플레이하는 만큼, 기계와 인간 플레이 수준 사이의 간극을 조절하여 게임의 레벨 디지인에 적용된다면 향후 빠른 스테이지 개발에 도움이 될 것으로 기대된다.

Implementation of an Agent-centric Planning of Complex Events as Objects of Pedagogical Experiences in Virtual World

  • Park, Jong Hee
    • International Journal of Contents
    • /
    • 제12권1호
    • /
    • pp.25-43
    • /
    • 2016
  • An agent-centric event planning method is proposed for providing pedagogical experiences in an immersed environment. Two-level planning is required at in a macro-level (i.e., inter-event level) and an intra-event level to provide realistic experiences with the objective of learning declarative knowledge. The inter-event (horizontal) planning is based on search, while intra-event (vertical) planning is based on hierarchical decomposition. The horizontal search is dictated by several realistic types of association between events besides the conventional causality. The resulting schematic plan is further augmented by conditions associated with those agents cast into the roles of the events identified in the plan. Rather than following a main story plot, all the events potentially relevant to accomplishing an initial goal are derived in the final result of our planning. These derived events may progress concurrently or digress toward a new main goal replacing the current goal or event, and the plan could be merged or fragmented according to their respective lead agents' intentions and other conditions. The macro-level coherence across interconnected events is established via their common background world existing a priori. As the pivotal source of event concurrency and intricacy, agents are modeled to not only be autonomous but also independent, i.e., entities with their own beliefs and goals (and subsequent plans) in their respective parts of the world. Additional problems our method addresses for augmenting pedagogical experiences include casting of agents into roles based on their availability, subcontracting of subsidiary events, and failure of multi-agent event entailing fragmentation of a plan. The described planning method was demonstrated by monitoring implementation.

웹 기반 코스 스케쥴링을 위한 멀티 에이전트 시스템 (A Multi-agent System for Web-based Course Scheduling)

  • 양선옥;이종희
    • 한국멀티미디어학회논문지
    • /
    • 제6권6호
    • /
    • pp.1046-1053
    • /
    • 2003
  • 최근에 웹 기반 교육 시스템으로서 다양한 온라인 학습에 대한 새로운 교수 모형이 제시되고 있다 또한, 학습자의 요구에 맞는 코스웨어의 주문이 증가되고 있는 추세이며 그에 따라 웹 기반 교육시스템 에 효율적이고 자동화된 교육 에이전트의 필요성이 인식되고 있다. 그러나 현재 연구되고 있는 많은 교육 시스템들은 학습자 성향에 맞는 코스를 적절히 서비스해 주지 못할 뿐 아니라 지속적인 피드백과 학습자가 코스를 학습함에 있어서 취약한 부분을 재학습 할 수 있도록 도와주는 서비스를 원활히 제공하지 못하고 있다 본 논문에서는 취약성 분석 알고리즘을 이용한 학습자 중심의 코스 스케줄링 멀티 에이전트 시스템을 제안한다 제안한 시스템은 먼저 학습자의 학습 평가 결과를 분석하고 학습자의 학습 성취도를 계산하며, 이 성취도를 에이전트 스케줄에 적용하여 학습자에게 적합한 코스를 제공하고, 학습자는 이러한 코스에 따라 능력에 맞는 반복된 학습을 통하여 적극적인 완전학습을 수행하게 된다.

  • PDF

Analysis of suitable evacuation routes through multi-agent system simulation within buildings

  • Castillo Osorio, Ever Enrique;Seo, Min Song;Yoo, Hwan Hee
    • 한국측량학회지
    • /
    • 제39권5호
    • /
    • pp.265-278
    • /
    • 2021
  • When a dangerous event arises for people inside a building and an immediate evacuation is required, it is important that suitable routes have been previously defined. These situations can happen especially when buildings are crowded, making the occupants have a very high vulnerability and can be trapped if they do not evacuate quickly and safely. However, in most cases, routes are considered based just on their proximity or short distance to the exit areas, and evacuation simulations that include more variables are not performed. This work aims to propose a methodology for building's indoor evacuation activities under the premise of processing simulation scenarios in multi-agent environments. In the methodology, importance indexes of simplified and validated geometry data from a BIM (Building Information Modeling) are considered as heuristic input data in a proposed algorithm. The algorithm is based on AP-Theta* pathfinding and collision avoidance machine learning techniques. It also includes conditioning variables such as the number of people, speed of movement as well as reaction ability of the agents that influence the evacuation times. Moreover, collision avoidance is applied between people or with objects along the route. The simulations using the proposed algorithm are tested in NetLogo for diverse scenarios, showing feasible evacuation routes and calculating evacuation times in a multi-agent environment. The experimental results are obtained by applying the method in a study case and demonstrate the level of effectiveness of the algorithm, and the influence of the conditioning variables analyzed together when performing safe evacuation routes.