• 제목/요약/키워드: multi-agent learning

검색결과 114건 처리시간 0.033초

다중에이전트 행동기반의 강화학습에 관한 연구 (A Study on Reinforcement Learning of Behavior-based Multi-Agent)

  • 도현호;정태충
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (상)
    • /
    • pp.369-372
    • /
    • 2002
  • 다양한 특성들을 가지고 있는 멀티에이전트 시스템의 행동학습은 에이전트 설계에 많은 부담을 덜어준다. 특성들로부터 나오는 다양한 행동의 효과적인 학습은 에이전트들이 환경에 대한 자율성과 반응성을 높여준 수 있다. 행동학습은 model-based learning과 같은 교사학습보다는 각 상태를 바로 지각하여 학습하는 강화학습과 같은 비교사 학습이 효과적이다. 본 논문은 로봇축구환경에 에이전트들의 행동을 개선된 강화학습법인 Modular Q-learning을 적용하여 복잡한 상태공간을 효과적으로 나누어 에이전트들의 자율성과 반응성을 높일 수 있는 강화학습구조를 제안한다.

  • PDF

Interacting Mobile Robots for Tele-Operation System Using the Internet

  • Park, Kwang-Soo;Ahn, Doo-Sung
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2001년도 ICCAS
    • /
    • pp.44.1-44
    • /
    • 2001
  • This paper discusses the interacting mobile robots for tele-operation system using the world wide web. In multi-agent and web-based teleoperation environment the problem of communication delay must be solved for the efficient and robust control of the system. The standard graphic user interface(GUI)is implemented using Java Programing language. The web browser is used to integrate the virtual environment and the standard GUI(Java applet) in a single user interface. Users can access a dedicated WWWserver and download the user interface. Reinforcement learning is applied to indirect control in order to autonomously operate without the need of human intervention. Java application has been developed to communicate and control multi robots using WWW. The effectiveness of our multi robots system is verified by simulation and experiments ...

  • PDF

다중 에이전트 시스템의 컨센서스를 위한 슬라이딩 기법 강화학습 (A slide reinforcement learning for the consensus of a multi-agents system)

  • 양장훈
    • 한국항행학회논문지
    • /
    • 제26권4호
    • /
    • pp.226-234
    • /
    • 2022
  • 자율주행체와 네트워크기반 제어 기술의 발달에 따라서, 하나의 에이전트를 제어하는 것을 넘어서 다수의 이동체를 분산 제어하는데 사용 가능한 다중 에이전트의 컨센서스 제어에 대한 관심과 연구가 증가하고 있다. 컨센서스 제어는 분산형 제어이기 때문에, 정보 교환은 실제 시스템에서 지연을 가지게 된다. 또한, 시스템에 대한 모델을 정확히 수식적으로 표현하는데 있어서 한계를 갖는다. 이런 한계를 극복하는 방법 중에 하나로서 강화 학습 기반 컨센서스 알고리즘이 개발되었지만, 불확실성이 큰 환경에서 느린 수렴을 갖는 경우가 자주 발생하는 특징을 보이고 있다. 따라서, 이 논문에서는 불확실성에 강인한 특성을 갖는 슬라이딩 모드제어를 강화학습과 결합한 슬라이딩 강화학습 알고리즘을 제안한다. 제안 알고리즘은 기존의 강화학습 기반 컨센서스 알고리즘의 제어 신호에 슬라이딩 모드 제어 구조를 추가하고, 시스템의 상태 정보를 슬라이딩 변수를 추가하여 확장한다. 모의실험 결과 다양한 시변 지연과 왜란에 대한 정보가 주어지지 않았을 때에 슬라이딩 강화학습 알고리즘은 모델기반의 알고리즘과 유사한 성능을 보이면서, 기존의 강화학습에 비해서 안정적이면서 우수한 성능을 보여준다.

기계학습을 이용한 염화물 확산계수 예측모델 개발 (Development of Prediction Model of Chloride Diffusion Coefficient using Machine Learning)

  • 김현수
    • 한국공간구조학회논문집
    • /
    • 제23권3호
    • /
    • pp.87-94
    • /
    • 2023
  • Chloride is one of the most common threats to reinforced concrete (RC) durability. Alkaline environment of concrete makes a passive layer on the surface of reinforcement bars that prevents the bar from corrosion. However, when the chloride concentration amount at the reinforcement bar reaches a certain level, deterioration of the passive protection layer occurs, causing corrosion and ultimately reducing the structure's safety and durability. Therefore, understanding the chloride diffusion and its prediction are important to evaluate the safety and durability of RC structure. In this study, the chloride diffusion coefficient is predicted by machine learning techniques. Various machine learning techniques such as multiple linear regression, decision tree, random forest, support vector machine, artificial neural networks, extreme gradient boosting annd k-nearest neighbor were used and accuracy of there models were compared. In order to evaluate the accuracy, root mean square error (RMSE), mean square error (MSE), mean absolute error (MAE) and coefficient of determination (R2) were used as prediction performance indices. The k-fold cross-validation procedure was used to estimate the performance of machine learning models when making predictions on data not used during training. Grid search was applied to hyperparameter optimization. It has been shown from numerical simulation that ensemble learning methods such as random forest and extreme gradient boosting successfully predicted the chloride diffusion coefficient and artificial neural networks also provided accurate result.

Implementation of an Agent-centric Planning of Complex Events as Objects of Pedagogical Experiences in Virtual World

  • Park, Jong Hee
    • International Journal of Contents
    • /
    • 제12권1호
    • /
    • pp.25-43
    • /
    • 2016
  • An agent-centric event planning method is proposed for providing pedagogical experiences in an immersed environment. Two-level planning is required at in a macro-level (i.e., inter-event level) and an intra-event level to provide realistic experiences with the objective of learning declarative knowledge. The inter-event (horizontal) planning is based on search, while intra-event (vertical) planning is based on hierarchical decomposition. The horizontal search is dictated by several realistic types of association between events besides the conventional causality. The resulting schematic plan is further augmented by conditions associated with those agents cast into the roles of the events identified in the plan. Rather than following a main story plot, all the events potentially relevant to accomplishing an initial goal are derived in the final result of our planning. These derived events may progress concurrently or digress toward a new main goal replacing the current goal or event, and the plan could be merged or fragmented according to their respective lead agents' intentions and other conditions. The macro-level coherence across interconnected events is established via their common background world existing a priori. As the pivotal source of event concurrency and intricacy, agents are modeled to not only be autonomous but also independent, i.e., entities with their own beliefs and goals (and subsequent plans) in their respective parts of the world. Additional problems our method addresses for augmenting pedagogical experiences include casting of agents into roles based on their availability, subcontracting of subsidiary events, and failure of multi-agent event entailing fragmentation of a plan. The described planning method was demonstrated by monitoring implementation.

Leveraging Visibility-Based Rewards in DRL-based Worker Travel Path Simulation for Improving the Learning Performance

  • Kim, Minguk;Kim, Tae Wan
    • 한국건설관리학회논문집
    • /
    • 제24권5호
    • /
    • pp.73-82
    • /
    • 2023
  • Optimization of Construction Site Layout Planning (CSLP) heavily relies on workers' travel paths. However, traditional path generation approaches predominantly focus on the shortest path, often neglecting critical variables such as individual wayfinding tendencies, the spatial arrangement of site objects, and potential hazards. These oversights can lead to compromised path simulations, resulting in less reliable site layout plans. While Deep Reinforcement Learning (DRL) has been proposed as a potential alternative to address these issues, it has shown limitations. Despite presenting more realistic travel paths by considering these variables, DRL often struggles with efficiency in complex environments, leading to extended learning times and potential failures. To overcome these challenges, this study introduces a refined model that enhances spatial navigation capabilities and learning performance by integrating workers' visibility into the reward functions. The proposed model demonstrated a 12.47% increase in the pathfinding success rate and notable improvements in the other two performance measures compared to the existing DRL framework. The adoption of this model could greatly enhance the reliability of the results, ultimately improving site operational efficiency and safety management such as by reducing site congestion and accidents. Future research could expand this study by simulating travel paths in dynamic, multi-agent environments that represent different stages of construction.

답안 마킹 이벤트를 이용한 학습 성취도 분석 시스템 (A Learning Accomplishment Analysis System using Answer Marking Events)

  • 이종희;김정재;신창둔;오해석
    • 정보처리학회논문지A
    • /
    • 제10A권5호
    • /
    • pp.571-578
    • /
    • 2003
  • 웹의 등장은 멀티미디어 기술 및 컴퓨터 통신 기술 개발의 가속화 및 이를 응용한 컨텐츠 개발에 촉진제 역할을 하게 되었다. 또한 웹기반 교육시스템의 연구에서도 전자도서관과 LOD 기술을 접목한 연구들이 활발히 진행되어 왔다. 최근에는 교수-학습 활동에서의 새로운 형태인 웹을 기반으로 한 교육(WBI : Web-Based Instruction)이라는 교수 모형이 제시되기에 이르렀다. 또한, 학습자의 요구에 맞는 코스웨어의 주문이 증가되고 있는 추세이명 그에 따라 웹 기반 교육 시스템에 효율적이고 자동화된 교육 에이전트의 필요성이 인식되고 있다. 본 논문에서는 학습 평가에서 학습자의 답안 마킹 이벤트를 이용한 학습 성취도 분석 시스템을 제안한다. 제안한 시스템은 먼저 학습자의 학습 행위를 지속적으로 모니터링하고 평가하여 개인 학습자의 학습 성취도를 계산하며, 이 성취도를 에이전트의 스케쥴에 적용하여 학습자에서 적합한 코스를 제공하고, 학습자는 이러한 코스에 따라 능력에 맞는 반복된 학습을 통하여 적극적은 완전학습을 수행하게 된다.

멀티 에이전트 에지 컴퓨팅 환경에서 확장성을 지원하는 딥러닝 기반 동적 스케줄링 (Deep Learning-Based Dynamic Scheduling with Multi-Agents Supporting Scalability in Edge Computing Environments)

  • 임종범
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권9호
    • /
    • pp.399-406
    • /
    • 2023
  • 클라우드 컴퓨팅은 에지 서버가 동작하는 포그(fog) 레이어가 결합된 에지(edge) 컴퓨팅 아키텍처로 진화하고 있다. 에지 컴퓨팅 아키텍처가 관심을 받는 이유는 짧은 통신 지연으로 실시간 IoT 응용을 지원할 수 있기 때문이다. 이와 동시에 인공지능 기술을 도입한 많은 클라우드 작업 스케줄링 기법들이 제안되었다. 인공지능 기반의 클라우드 작업 스케줄링 기법은 기존 기법보다 더 좋은 성능을 보이지만 스케줄링 시간이 다소 소요된다는 단점이 있다. 이 논문에서는 에지 컴퓨팅 환경에서 분산 딥러닝 학습 기반의 동적 스케줄링 기법을 제안한다. 제안하는 기법은 기존 기법보다 스케줄링 시간이 짧은 장점이 있다. 또한 멀티 에이전트를 통한 분산 딥러닝 학습의 효과성을 보이기 위해 확장적인 실험 환경에서 제안 기법과 기존 인공지능 기법의 성능일 비교 평가하였다. 성능 실험 결과 기존 인공지능 기반 클라우드 작업 스케줄링 기법보다 짧은 스케줄링 시간을 보여 IoT 실시간 응용에 적합함을 보였으며, 확장적인 실험에서도 제안 기법이 완료된 작업의 수에 대하여 우수한 성능을 보임을 증명하였다.

온톨로지와 사용자 프로파일을 적용한 지능형 서비스 에이전트 (Intelligent Service Agents using User Profile and Ontology)

  • 김제민;박영택
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권12호
    • /
    • pp.1062-1072
    • /
    • 2006
  • 최근, '유비쿼터스 컴퓨팅'이라는 지능형 서비스 프레임워크가 제안되면서 적응형 에이전트 시스템의 필요성이 점점 증가되기 시작됐다. 본 논문에서는 유비쿼터스 컴퓨팅 시스템이 사용자에게 적절한 서비스를 제공하도록 도와주는 지능형 서비스 에이전트를 제안한다. 사용자에게 적절한 유비쿼터스 서비스를 제공하기 위해서는, 각각의 유비쿼터스 서비스 시스템 내에서의 상황 정보(Context Information) 차이를 조절하고 사용자의 취향을 서비스에 반영해야 한다. 따라서 다음 3가지 부분에 중점을 두어 연구를 진행하였다. 첫째, 적절한 다중 에이전트 프레임워크-에이전트간의 커뮤니케이션 이해와 추론엔진의 적용, 둘째, 유비쿼터스 컴퓨팅 환경 내에 존재하는 다양한 상황 정보(Context information)를 효과적으로 표현하는 유비쿼터스 온톨로지-에이전트간의 상황 정보 공유와 이해, 마지막으로 유비쿼터스 시스템에 적용되는 사용자 프로파일 구축 방법에 대해 연구 하였다. 본 논문에서 제안하는 지능형 서비스 에이전트는 사용자 취향에 따라 적절한 서비스를 제공하는 적응형 유비쿼터스 서비스 시스템 구축을 가능하게 한다.

상태 행동 가치 기반 다중 에이전트 강화학습 알고리즘들의 비교 분석 실험 (Comparative Analysis of Multi-Agent Reinforcement Learning Algorithms Based on Q-Value)

  • 김주봉;최호빈;한연희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 춘계학술발표대회
    • /
    • pp.447-450
    • /
    • 2021
  • 시뮬레이션을 비롯한 많은 다중 에이전트 환경에서는 중앙 집중 훈련 및 분산 수행(centralized training with decentralized execution; CTDE) 방식이 활용되고 있다. CTDE 방식 하에서 중앙 집중 훈련 및 분산 수행 환경에서의 다중 에이전트 학습을 위한 상태 행동 가치 기반(state-action value; Q-value) 다중 에이전트 알고리즘들에 대한 많은 연구가 이루어졌다. 이러한 알고리즘들은 Independent Q-learning (IQL)이라는 강력한 벤치 마크 알고리즘에서 파생되어 다중 에이전트의 공동의 상태 행동 가치의 분해(Decomposition) 문제에 대해 집중적으로 연구되었다. 본 논문에서는 앞선 연구들에 관한 알고리즘들에 대한 분석과 실용적이고 일반적인 도메인에서의 실험 분석을 통해 검증한다.